EINLEITUNG

Ad-hoc Datentransformationen für Analytische Informationssysteme

Oldenburg

Deutschland christian.luepkes@offis.de

2011

37 41

Beim Betrieb von Data Warehouse Systemen kann es zu einem Semantic Shift kommen. Dieser bezeichnet eine Veranderung der Bedeutung von Dimensionselementen und kann bei Nichtbeachtung zu Informationsverlust und fachlich inkorrekten Analyseergebnissen fuhren. In dieser Arbeit wird ein graph-basierter Ansatz vorgeschlagen, welcher die A nderungen zwischen Dimensionen als U berleitungen verwalten und fur Analysen zur Verfugung stellen kann. Dadurch wird es moglich, Anfragen in Analytischen Informationssystemen unter Berucksichtigung eventueller Semantic Shifts zu beantworten. Dieser Ansatz verzichtet dabei auf eine kennzahlbasierte Approximation und nutzt die U berleitungen klassischer Adaptionsverfahren. Der eingefuhrte Ansatz wird kritisch hinsichtlich bestehender Ansatze diskutiert und exemplarisch in verschiedenen Domanen durchgefuhrt.

Data warehouse Schema Versioning OLAP Temporal Data Warehouse

EINLEITUNG

Die am meisten verwendete Architektur fur Analytische Informationssysteme ist die des Data Warehouses mit Metadaten, welche die gespeicherten Daten beschreiben und einer auf diesen Metadaten aufbauender Auswertungssoftware. Die Metadaten werden dabei in streng hierarchisch organisierten Taxonomien, sogenannten Dimensionen, gespeichert. Dimensionen beschreiben, wie die Daten analysiert werden konnen.

Das Data Warehouse ist dabei nach der De nition von Inmon eine themenorientierte, integrierte, stabile Sammlung zeitbezogener Daten, welche als Datenbasis zur Analyse dient [ 9 ]. Data Warehouses haben also immer einen Zeitbezug, bieten aber keine hochentwickelten Konzepte, um mit A nderungen in den Metadaten uber die Zeit umzugehen. Klassisch wird davon ausgegangen, dass die Metadaten uber die Zeit weitgehend stabil sind [ 7 ] [ 11 ]. Falls die Metadaten in Einzelfallen doch angepasst werden mussen, werden die gespeicherten Daten einfach den neuen Metadaten entsprechend umcodiert, die sogenannte Instanzadaption [ 2 ] [ 11 ]. Der Nachteil dieses Ansatzes ist, dass beim Umcodieren ublicherweise ein Informationsverlust entsteht. Zudem wird durch die A nderung der Metadaten und die Instanzadaption eine Wiederholung fruherer Anfragen unmoglich. Au erdem besteht bei klassischen Systemen keine Moglichkeit die spezi schen Informationen der Metadatenanderungen zu speichern, da die Metadaten selbst nicht zeitbezogen gespeichert werden [ 12 ]. 2.

PROBLEMBESCHREIBUNG

Um das identi zierte Problem des Semantic Shift bei Datenanalysen zu verdeutlichen, soll an dieser Stelle zunachst ein Beispiel aus der Arbeit des Autors im deutschen Gesundheitswesen gegeben werden. Dort werden alle Diagnosen nach der ICD-Klassi kation, der International Statistical Classi cation of Diseases and Related Health Problems, codiert. Die Klassi kation selbst beinhaltet sowohl beschreibende als auch ordnende Metadaten und wird als Dimension zur Datenanalyse verwendet. Die deutsche Modi kation der WHO-ICD, ICD-GM (German Modi kation), wird dabei jedes Jahr durch eine Expertengruppe des DIMDI, Deutsches Institut fur Medizinische Dokumentation und Information aktualisiert [ 3 ] [ 4 ] [ 5 ].

Die Aktualisierungen bestehen darin, dass neu identi zierte Erkrankungen einen Code zugewiesen bekommen, Erkrankungen zusammengefasst werden oder einzelne Krankheitsbereiche neu unterteilt werden. So wurde zum Beispiel im Jahr 2006 der Code J09 fur die neu identi zierte Vogelgrippe eingefuhrt.

Um die Daten zwischen den Jahren transformieren zu konnen, stellt das DIMDI zusatzlich sogenannte U berleitungen in einem Datenbankformat zur Verfugung. In den Abbildungen 1 und 2 sind diese exemplarisch in Ausschnitten fur die Jahre 2005 bis 2007 gezeigt. Der Buchstabe A zeigt dabei an, ob eine U berfuhrung automatisch in der durch die SpalAbbildung 1: Ausschnitt der o ziellen ICD U berleitungen zwischen den Jahren 2005 und 2006 tenuberschrift festgelegten Richtung moglich ist. Abbildung 2: Ausschnitt der o ziellen ICD U berleitungen zwischen den Jahren 2006 und 2007

Im Jahr 2005 auf 2006 ist es zum Beispiel moglich, den Code J10.0 zwischen den Jahren umzucodieren. Allerdings gibt es noch einen zweiten Eintrag von J10.0 auf J09 bei dem nur eine Umcodierung von 2006 auf 2005 zugelassen ist.

In Analytischen Informationssystemen werden die Daten meist nach der aktuellsten ICD-De nition gespeichert. Daten aus dem Jahr 2005 wurden also im Jahr 2006 und 2007 umcodiert. Entsprechend den U berleitungsregeln aus den Abbildungen 1 und 2 wurde der Wert J10.0 syntaktisch gleich bleiben und nicht umcodiert werden.

Eine typische Anfrage ware nun der Art "Zeig mir die jahrliche Summe aller behandelten J10.0 Patienten der Jahre 2005, 2006 und 2007\ welche das in Abbildung 3 gezeigte Ergebnis liefert. Im Jahr 2006 gab es also im Vergleich zum Vorjahr eine Abnahme von J10.0 Patienten die sich im Jahr 2007 noch deutlicher fortsetzt.

Summe der behandelten J10.0 Patienten nach Jahr

Darstellung als Graph

In Abbildung 4 ist exemplarisch ein Ausschnitt der ICDKlassi kation fur nachgewiesene sonstige In uenzaviren der Jahre 2005 bis 2007 abgebildet. Der Graph reprasentiert dabei die o zielle Taxonomie der ICD Codes und die gerichteten Kanten reprasentieren die o ziell als gultig de nierten Transformationsregeln fur Umcodierugnen der drei abgebildeten Jahre 2005, 2006 und 2007, wie sie in den Tabellen der Abbildungen 1 und 2 de niert sind.

In einem Data Warehouse werden die zu analysierenden Daten in der Regel auf der feinsten verfugbaren Klassi kationsstufe vorgehalten. Veranschaulicht handelt es sich also um die Auspragungen der Blatter. Falls eine Analyse der Erkrankungen J10.1 oder J10.8 durchgefuhrt werden soll, J09-J10 J09-J10 J10.80

J09

J10.80

J09

J10.80 J10.08

J10.1

J10.08

J10.1

J10.08

J10.1 Abbildung 4: Darstellung dreier Teilgraphen der ICD-GM Metadaten fur In uenzaviren und deren U berleitung uber die Jahre 2005 bis 2007 ist dies unproblematisch, da es keinerlei A nderungen in der Datenbeschreibung gab; zu erkennen an der Existenz der bijektiven Kanten zu den gleichen Knoten jedes Jahres. Das Problem des Semantic Shift tritt auf, wenn J10.0 fur die Jahre 2005 bis 2007 untersucht werden soll. Es ist nicht eindeutig, welche Bedeutung von J10.0 verwendet werden soll. Falls die Bedeutung des Codes J10.0 vom Jahr 2005 beabsichtigt ist, sollte fur die Folgejahre auch der Code J09 berucksichtigt werden. Falls die Semantik von 2006 oder 2007 gemeint ist, muss dem menschlichen Analysten bewusst sein, dass es eine inhaltliche A nderung vom Jahr 2005 zu 2006 fur J10.0 gab auch wenn die Daten syntaktisch identisch sind und Transitionen in beide Richtungen existieren.

Das analysespezi sche Hintergrundwissen des Fachexperten ist, dass J10.0 ein Sammelknoten fur nicht genauer bestimmte In uenzaviren ist. Wie bereits oben erwahnt, wurde in 2006 die Vogelgrippe identi ziert und als neuer Code J09 eingefugt. Dadurch wurde die Bedeutung von J10.0 als alle unbestimmten In uenzaviren zwar nicht verandert, aber verglichen mit 2005 fehlen nun die Vogelgrippefalle. Fur statistische Analysen auf solch einer feingranularen Ebene wurden daher fehlerhafte Ergebnisse geliefert. Bei einer Analyse auf den Elternknoten J10 des Jahres 2005 oder J09-J10 der Jahre 2006 und 2007 waren die Resultate korrekt, da alle Transformationskanten auf Kindknoten verweisen.

Fur die Ergebnisse in Abbildung 3 bedeutet dies, dass die Abnahme der J10.0 Erkrankungen auch darin begrundet liegt, dass Krankheitsfalle in J09 codiert wurden, die vorher in J10.0 enthalten waren. 2.2

Weitere Domänen

Der Semantic Shift kann nicht nur in der medizinischen Dokumentation beobachtet werden, sondern auch in anderen Bereichen. So kann man z.B. fur die Entwicklung der Lander Europas von 1988 bis 2000 bedingt durch den Zusammenbruch des Warschauer Pakts ahnliches feststellen. Allerdings muss dort beachtet werden, dass es sich bei den abgeleiteten und angepassten Metadaten nicht um gesetzlich vorgegebene Dimensionsstrukturen handelt, sondern um von Fachexperten erstellte Dimensionen. Dies ist der Normalfall bei Data Warehouses. Die Dimension soll alle Lander im Herzen Europas widerspiegeln. Bis zum Jahr 1991 gab es die beiden eigenstandigen deutschen Staaten BRD und DDR. In der Dimension waren diese dann als Blatter verfugbar. Mit der Wiedervereinigung wird das Blatt DDR geloscht und die dazugehorigen Daten der BRD zugeordnet. Der Begri BRD ist also syntaktisch gleich geblieben, beschreibt nun aber einen deutlich gro eren Bereich.

Wurde man die Daten der BRD betrachten, so konnte man z.B. in 1991 eine deutliche Steigerung der Einwohnerzahl feststellen. Dies ware aber nicht durch hohe Geburtsraten begrundet, sondern durch die gro ere betrachtete Flache infolge der Wiedervereinigung mit der DDR.

Die umgekehrte Richtung kann man bei der Tschechoslowakei beobachten. Bis 1990 war es die CSSR, dann wurde das gleiche Land umbenannt in CSFR und im Jahr 1992 aufgeteilt in die zwei Staaten Slowakei SR und Tschechien CR. Fur den letzt genannten Fall wurde in der Dimension ein Blatt geloscht und dafur zwei neue Blatter eingefugt. Die dazugehorige Transformationsregel ware, dass es keine Moglichkeit gibt, CSFR auf SR und CR abzubilden, wohl aber in der Gegenrichtung.

1989 Alle 1990 Alle

EXISTIERENDE LÖSUNGANSÄTZE

Der erste Losungsansatz fur das Problem der sich andernden Dimensionen wurde 1993 von Kimball postuliert [ 11 ]. Die Losung besteht in der Umcodierung der Daten nach der jeweilig neuesten Dimensionsbeschreibung. Dies kann dabei in drei verschiedenen Arten geschehen. Der Type 1 Ansatz uberschreibt die alten Werte mit den neuen, umcodierten Werten. Die Type 2 und Type 3 Ansatz behalt die alten Werte zusatzlich bei. Auf diese Weise konnen alte Werte in die neue Dimension transformiert, bzw. eingebunden werden. Der Nachteil aller dieser Ansatze ist aber, dass sie nicht in der Lage sind mit dem Semantic Shift syntaktisch gleicher Auspragungen umzugehen. Es gibt also keine Unterstutzung fur Datenanalysen, die uber verschiedene Versionen der Dimensionen hinausgehen, wenn sich die Bedeutung der Daten geandert hat.

Das Problem der Anfragen uber mehrere Dimensionsversionen wurde 2006 in [ 8 ] als graphentheoretisches Problem diskutiert. Dabei wurden die Metadaten als sogenannte Schemagraphen reprasentiert. Fur die Graphen wurden erlaubte Modi kationen de niert, welche die potentiellen A nderungen der Dimensionen wiedergeben. Wird eine Dimension durch eine Modi kation geandert, wird dies als neue Version in einem Graphen gespeichert. Basierend auf einer Graphenalgebra ist es dadurch moglich, Anfragen uber verschiedene Dimensionsversionen hinweg zu stellen. Diesem Ansatz fehlt zum einen der Umgang mit dem Semantic Shift der Daten. Zum anderen erscheint er nicht praxisgerecht, da fur historische Daten neu hinzugekommene Angaben nachtraglich eingep egt werden mussen, um Vergleiche uber verschiedene Versionen zu ermoglichen.

Die am weitest gehende Losung fur das prasentierte Problem wurde 2002 in [ 12 ] vero entlicht. Ein formales Temporal-Modell fur die Beschreibung von A nderungen in den Dimensionen wurde dazu eingefuhrt [ 7 ]. Es wurden entsprechende Transformationsfunktionen de niert, welche die erlaubten Datenanderungen beschreiben. Der Ansatz ermoglicht dabei Anfragen uber verschiedene Versionen der Dimensionen hinweg, indem die Daten zur Anfragezeit adaptiert werden. Der Nachteil des Ansatzes liegt in der Realisierung der Instanzadaption durch die Verwendung von Matrizenmultiplikation. Jeder Wert einer Dimensionsversion muss von Fachexperten mit einem Koe zienten versehen werden, der aussagt wie ahnlich der Wert dem Nachfolger in der verbundenen Dimensionsversion ist. Dies erlaubt eine Abschatzung, um den Semantic Shift zu losen. Jedoch hat dies zwei Nachteile. Zum einen muss der Koe zient fur jede Verwendung der Dimension in einer Kennzahl individuell angegeben werden, da sich die Koe zienten fur z.B. Erkrankungsund Sterberisiko unterschiedlich verhalten und deshalb die Koe zienten nicht fur alle Analysen gleich sind. Zum anderen wird das in den Transformationsdaten inharente Wissen nicht dazu genutzt, genaue anstatt approximierten Ergebnissen zu liefern. 4.

DER GRAPH-BASIERTE ANSATZ

Wie in der Problembeschreibung ausgefuhrt und in den Abbildungen 4 und 5 veranschaulicht, lassen sich Dimensionen als streng hierarchische Baume mit einem Wurzelknoten darstellen. Die Blatter reprasentieren dabei in der Regel die im Data Warehouse speicherbaren Werte. Falls Analysen auf den Elternknoten durchgefuhrt werden sollen, werden diese standardma ig aus den Kindelementen berechnet [ 2 ].

Bei den Dimensionen handelt es sich um von Fachexperten modellierte Metadaten, die nur zu bestimmten Zeitpunkten geandert werden. Deshalb ist es moglich, die A nderungen einer Dimension zusammen mit einer Versionsnummer zu speichern. Dieser Ansatz zur Beschreibung der zeitlichen Entwicklung wurde auch von [ 12 ] und [ 8 ] verfolgt. Anders aber als bei [ 11 ] soll keine Instanzadaption mit Informationsverlust vorgenommen werden, sondern die Transformationsregeln als gerichtete Kanten zwischen den Blattern zweier Dimensionsversionen gespeichert werden. Es wird verlangt, dass jede neue Version einer Dimension Transformationsregeln zu mindestens einem Vorganger de niert. Dies ist keine Einschrankung, da es beim Fehlen von Transformationsregeln nicht um einen Nachfolger der Dimension sondern um eine vollstandig neue, andere Dimension handelt.

Bei einer Anfrage an das Analytische Informationssystem soll ein Interpreter zwischen den Anwender und das Auswertungssystem geschaltet werden. Dieser Interpreter wertet die Transformationsregeln aus und stellt fest, ob in dem angefragten Zeitraum fur die auszuwertenden Daten eine A nderung stattgefunden hat. Wenn dies nicht der Fall ist, wird die Anfrage ohne Nutzerinteraktion und ohne A nderungen durchgefuhrt. Falls jedoch zwei oder mehrere Dimensionsversionen von der Anfrage betro en sind, wird der Interpreter mittels der ein- und ausgehenden Kanten der Knoten prufen, ob auf zusatzliche Knoten uber die Kanten zugegri en werden kann. Wenn die Knoten fur den gewunschten Zeitraum stabil sind, wird dem Nutzer die Veranderung der Dimension fur seinen angefragten Ausschnitt als sogenannter Evolutionspfad angezeigt.

Da es nicht beabsichtigt ist, die De nition der Transformationsregeln auf genau einen Vorganger und Nachfolger zu beschranken, kann es durchaus mehrere unterschiedliche Evolutionspfade geben, die zu unterschiedlichen Mengen von Knoten fuhren. Deswegen sollen die gefunden Evolutionspfade dem anfragenden Nutzer angezeigt werden, der dann den fur seine Anfrage geeignetsten auswahlen kann. Dabei ist festzustellen, dass die Bedeutung der Evolutionspfade immer der modellierten Realwelt einer Dimensionsversion entspricht. Dies fuhrt dazu, dass die Daten dann ad-hoc zum Anfragezeitpunkt unter die ausgewahlte Dimensionsversion transformiert werden. Die Datentransformation ist allerdings keine Instanzadaption, sondern eine Transformation eines Wertes auf eine Menge von Werten. 4.1

Beispiel der Lösungsidee

Falls der Nutzer eine Anfrage der Art "Gib mir die Summe aller behandelten J10.0 Patienten der Jahre 2005 bis 2007\ stellt, wird der Interpreter die Werte J10.0 und die ICD-GM Dimensionsversionen 2005, 2006 und 2007 identi zieren. Den Transformationsregeln in Abbildung 4 folgend, wird der Interpreter zwei verschiedene Arten von J10.0 feststellen: Die Version 2005 hat zwei eingehende Kanten aus der Version 2006, einmal vom J10.0 als auch vom J09 Knoten. Der Interpreter kann also feststellen, dass der Knoten J10.0 Version 2005 geteilt wurde. Nun pruft der Interpreter die identi zierten Knoten des Jahres 2006 und ndet zusatzlich nur bidirektionale Kanten zu den Knoten des Jahre 2007, was bedeutet, dass keine A nderung stattgefunden hat. 2005 J10.0

2006 J09

J10.0

2007 J09

J10.0 Abbildung 6: Losungsvorschlag mit Erweiterung der Anfragemenge, Konzept J10.0 Version 2005 2006 J10.0 2007 J10.0 Abbildung 7: Losungsvorschlag mit Beschrankung des Anfragebereichs, Konzept J10.0 Version 2006 und 2007

Dem Nutzer wird als Zwischenergebnis seiner Anfrage mitgeteilt, dass zwei verschiedene Interpretationen von J10.0 fur den Zeitraum 2005 bis 2007 identi ziert wurden. Es werden dann diese zwei verschiedenen Evolutionspfade zur Auswahl angeboten: In Abbildung 6 wird die Erweiterung der Anfrage fur die Jahre 2006 und 2007 um den Wert J09 vorgeschlagen, damit die Anfrage der Bedeutung von J10.0 im Jahr 2005 entspricht. Die zweite angebotene Losung ist in Abbildung 7 zu sehen. Hier wird die Bedeutung von J10.0 der Jahre 2006 und 2007 vorgeschlagen.

Werden Anfragen auf hoheren Ebenen der Dimension, wie z.B. die Gib mir die Summer aller behandelten Falle von "Grippen durch nachgewiesene In uenzaviren\ welche dem ICD Gruppencode J10 des Jahres 2005 bzw. J09-J10 der Jahre 2006 und 2007 entspricht, ist dies auch ohne weiteres moglich. Fur alle Kindelemente von J10 werden die Evolutionspfade ausgewertet. Da alle Kindelemente in den

Dimensionsversionen unter einem Elternelement sind, wird davon ausgegangen, dass die Elternelemente gleich sind. Die Anfrage wird dann direkt ausgefuhrt. Sollte es in irgendeinem gultigen Evolutionspfad eines beliebigen Kindes mehrere Elternknoten geben, wurden dem Anwender wieder die verschiedenen Optionen wie bei den Einzelelementen angezeigt. Der Anwender wird also immer uber Bedeutungsanderungen und Systembruche automatisch graphisch informiert und kann die fur seine Zwecke geeignete Anfrage auswahlen. 4.2

Vorteile des Ansatzes

Es wird erwartet und angestrebt, dass der vorgestellte Ansatz die folgenden Vorteile bietet:

Durch den graphenbasierten Ansatz, der auf eine kennzahlabhangige Approximation verzichtet, ist es moglich die U berfuhrungsregeln fur alle Analyseanfragen zu verwenden, welche die Dimension beinhaltet. Dies ist eine deutliche Erweiterung gegenuber [ 12 ].

Da die U berfuhungsregeln auch in klassischen Adaptionsverfahren wie [ 11 ] benotigt werden, ist kein zusatzlicher Arbeitsaufwand der Fachexperten notwendig, um die Kanten bereit zustellen.

Durch den graphenbasierten Ansatz ist es bei mehreren U berleitungsregeln pro Dimensionsversion moglich, grobere Versionen einer Dimension zu uberspringen. Grober meint dabei, dass Fehlen einzelner Knoten, die in spateren Versionen wieder eingefugt wurden. Bei einer Umcodierung des Datenbestandes ware dies ein irreversiebler Informationsverlust.

Der Import und die Haltung der Daten wird vereinfacht, da die Daten in ihrer originaren Version gespeichert werden konnen. Die Daten mussen nicht in eine einzige Version umcodiert werden.

Da der Nutzer zwischen verschiedenen inhaltlichen Interpretationen eines Wertes wahlen kann, ist das Anfragesystem machtiger als klassische Systeme. Zudem erlaubt dies die Wiederholung historischer Analysen, da die Datenbasis nicht umcodiert und die Dimensionsdaten genauso erhalten bleiben. 4.3

Zu untersuchende Fragestellungen

Um sicherzustellen, dass ein Data Warehouse zusammen mit einer OLAP Analyse Anwendung die vorgestellten Funktionen und insbesondere Vorteile erfullen kann, muss untersucht werden, welche Konsistenzbedingungen die U berleitungsregeln als auch die Metadaten einhalten mussen. Zudem sind die Anforderungen an die Datenreprasentation und Speicherung der Transformationsregeln und zusatzlichen Versionsinformationen in den Metadaten als auch der Datenhaltung zu untersuchen. Ein weiterer Bereich ist, wie sich die Methoden auf verschieden Datenarten (Integer, Boolean, Nominal) als auch verschiedene Analyse Operationen (Sum, Max, Min, Average) anwenden lassen. Da in Analysen auch oft mehrere verschiedene Dimensionen genutzt werden, muss als letzter wichtiger Punkt noch die Anwendbarkeit auf mehrere Dimensionen durchdacht werden. 4.4

Evaluation

Um den Ansatz mit seinen Konzepten und festgelegten Anforderungen zu evaluieren, wird ein Prototyp auf Basis von MUSTANG - Multidimensional Statistical Data Analysis Engine [ 1 ] [ 13 ] umgesetzt werden. Dies ist ein kommerzielles Daten Analyse Tool, welches insbesondere fur Analysen im Gesundheitswesen, z.B. Krebsregistern, eingesetzt wird.

Da das vorgestellte Thema durch zwei Projekte mit Klinikdaten motiviert wurde, bei denen sich der Semantic Shift als problematisch erwiesen hatte, soll das Konzept in diesen evaluiert werden. Dabei handelt es sich zum einen um Daten deutscher Kliniken der Jahre 2006 bis 2010. Hier sollen Fragen der Versorgungsforschung auf einer feingranularen Ebene ausgewertet werden, was bisher nicht moglich war. Zum anderen geht es in einem Forschungsprojekt der EU darum, fur spezielle Herzschrittmacherpatienten statistisch valide Muster zu identi zieren, die in historischen Patientendaten fruherer Falle enthalten sind. Die Patientendaten stammen dabei aus den Jahren 2006 bis 2011 eines osterreichischen Universitatsklinikums, in dem spater die Anwendung erfolgt. Hier liegt der Fokus darauf, alte Codierungen akkurat unter die aktuellste Version zu subsumieren, damit die Muster auf aktuelle Falle angewendet werden konnen.

ZUSAMMENFASSUNG

Dieses Paper stellt einen Ansatz vor, der akkurate Datenanalysen in einem Analytischen Informationssystem uber sich andernde Datengrundlagen ermoglicht. Die Datenanderungen konnen dabei sowohl syntaktischer als auch semantischer Natur sein. A nderungen der Daten werden dabei als verbindende Kanten zwischen verschiedenen Versionen einer Dimension modelliert und diese Dimensionen dabei als Graphenstruktur aufgefasst. Durch die Interpretation der Verbindungen zum Zeitpunkt einer Analyseanfrage, werden die moglichen Evolutionspfade identi ziert. Die Evolutionspfade reprasentieren dabei domanspezi sches Hintergrundwissen, wie z.B. die Bedeutungsanderung von Werten, den Semantic Shift. Der Nutzer kann dieses Hintergrundwissen visuell erfassen und sich fur einen geeigneten Evolutionspfad entscheiden. Die Analyseanfrage wird dann zur Anfragezeit so umgewandelt, dass die Daten ad-hoc unter die gewahlte Bedeutung des Evolutionspfads transformiert werden. Da die Evolutionspfade so berechnet werden, dass Sie inhaltlich identische und vergleichbare Mengen reprasentieren, sind die Anfrageergebnisse akkurat. Dies wird dadurch ermoglicht, dass die Daten in ihrem Originalformat gespeichert und die Transformationsregeln nur gespeichert aber nicht direkt auf die Daten angewendet werden. Mit dem vorgestellten Modell und den dazugehorenden Methoden sind keine verlustbehafteten Datentransformationen oder Abschatzungen notwendig.

APPENDIX A. ACKNOWLEDGMENTS

The research leading to these results has received in part funding from the European Community's Seventh Framework Programme (FP7/ 2007-2013) under grant agreement no. ICT-248240, iCARDEA project.

[1] Appelrath , H.-J., Rohde , M. , Thoben , W. , OFFIS e.V., MUSTANG - Multidimensional Statistical Data Analysis Engine : http://www.offis.de/en/offis_in_portrait/ structure/projects/detail/status/mustang.html, ( 2011 )

[2] Bauer , A. , Gunzel, H.: Data Warehouse Systeme. dpunkt.verlag, 3. uberarbeitete und aktualisierte Au age , ( 2009 )

[3] DIMDI - Deutsches Institut fur Medizinische Dokumentation und Information: ICD-10-GM 2005 Systematisches Verzeichnis . Systematisches Verzeichnis zur Internationalen statistischen Klassi kation der Krankheiten und verwandter Gesundheitsprobleme - German Modi cation . Deutsche Krankenhaus Verlags-Gesellschaft , ( 2004 )

[4] DIMDI - Deutsches Institut fur Medizinische Dokumentation und Information: ICD-10-GM Version 2006 .

Systematisches

Verzeichnis. Deutsche Krankenhaus Verlags-Gesellschaft, ( 2005 ).

[5]

DIMDI

- Deutsches Institut fur Medizinische Dokumentation und Information: ICD-10 -GM Version 2007. Band

I: Systematisches

Verzeichnis. Deutsche Krankenhaus Verlags-Gesellschaft, ( 2006 )

[6]

DIMDI

- Deutsches Institut fur Medizinische Dokumentation und Information: ICD-10 -GM Version 2011: Band

I: Systematisches

Verzeichnis. Deutsche Krankenhaus Verlags-Gesellschaft, ( 2010 )

[7] Eder , J , Koncilia , C. , Morzy , T. ,: The COMET Metamodel for Temporal Data Warehouses . In Proc. of the 14th Int. Conference on Advanced Information Systems Engineering (CAISE02) , pp. 83 { 99 .Springer Verlag (LNCS) ( 2002 )

[8] Golfarelli , M. , Lechtenborger, J., Rizzi , S. , Vossen , G.: Schema versioning in data warehouses: enabling cross-version querying via schema augmentation . In DataKnowl. Eng., 59 ( 2 ): 435 { 459 , 2006 . Elsevier Science Publishers B. V., Amsterdam, ( 2006 )

[9] Inmon , W. H. : Building the data warehouse (2nd ed .). John Wiley & Sons, Inc.,New York, NY, USA, ( 1996 )

[10] Inmon , W. H. , Strauss , D. , Neushloss , G.: DW 2.0: The Architecture for the Next Generation of Data Warehousing . Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, ( 2008 )

[11] Kimball , R. : Slowly Changing Dimensions . In DBMS online, http://www.dbmsmag.com/9604d05.html ( 1996 )

[12] Koncilia; C. A.: The COMET Temporal Data Warehouse . PhD thesis , Universitat Klagenfurt ( 2002 )

[13] Teiken , Y. , Rohde , M. , Mertens , M. : Mustang - Realisierung eines analytischen informationssystems im kontext der gesundheitsberichtserstattung . In K.-P. Fahnrich and B. Franczyk, editors, GI Jahrestagung (1) , volume 175 of LNI , pages 253 { 258 . GI, ( 2010 )