=Paper=
{{Paper
|id=None
|storemode=property
|title=Ad-hoc Datentransformationen für Analytische Informationssysteme
|pdfUrl=https://ceur-ws.org/Vol-733/paper_luepkes.pdf
|volume=Vol-733
|dblpUrl=https://dblp.org/rec/conf/gvd/Lupkes11
}}
==Ad-hoc Datentransformationen für Analytische Informationssysteme==
Ad-hoc Datentransformationen für Analytische
Informationssysteme
Christian Lüpkes
OFFIS - Institut für Informatik
Escherweg 2
26121 Oldenburg, Deutschland
christian.luepkes@offis.de
ABSTRACT ganisierten Taxonomien, sogenannten Dimensionen, gespei-
Beim Betrieb von Data Warehouse Systemen kann es zu ei- chert. Dimensionen beschreiben, wie die Daten analysiert
nem Semantic Shift kommen. Dieser bezeichnet eine Verän- werden können.
derung der Bedeutung von Dimensionselementen und kann Das Data Warehouse ist dabei nach der Definition von
bei Nichtbeachtung zu Informationsverlust und fachlich in- Inmon eine themenorientierte, integrierte, stabile Sammlung
korrekten Analyseergebnissen führen. In dieser Arbeit wird zeitbezogener Daten, welche als Datenbasis zur Analyse dient
ein graph-basierter Ansatz vorgeschlagen, welcher die Ände- [9]. Data Warehouses haben also immer einen Zeitbezug, bie-
rungen zwischen Dimensionen als Überleitungen verwalten ten aber keine hochentwickelten Konzepte, um mit Änderun-
und für Analysen zur Verfügung stellen kann. Dadurch wird gen in den Metadaten über die Zeit umzugehen. Klassisch
es möglich, Anfragen in Analytischen Informationssystemen wird davon ausgegangen, dass die Metadaten über die Zeit
unter Berücksichtigung eventueller Semantic Shifts zu be- weitgehend stabil sind [7] [11]. Falls die Metadaten in Einzel-
antworten. Dieser Ansatz verzichtet dabei auf eine kennzahl- fällen doch angepasst werden müssen, werden die gespeicher-
basierte Approximation und nutzt die Überleitungen klassi- ten Daten einfach den neuen Metadaten entsprechend umco-
scher Adaptionsverfahren. Der eingeführte Ansatz wird kri- diert, die sogenannte Instanzadaption [2] [11]. Der Nachteil
tisch hinsichtlich bestehender Ansätze diskutiert und exem- dieses Ansatzes ist, dass beim Umcodieren üblicherweise ein
plarisch in verschiedenen Domänen durchgeführt. Informationsverlust entsteht. Zudem wird durch die Ände-
rung der Metadaten und die Instanzadaption eine Wieder-
holung früherer Anfragen unmöglich. Außerdem besteht bei
Categories and Subject Descriptors klassischen Systemen keine Möglichkeit die spezifischen In-
H.2.7 [Database Management]: Administration — Da- formationen der Metadatenänderungen zu speichern, da die
ta warehouse and repository; H.2.8 [Database Manage- Metadaten selbst nicht zeitbezogen gespeichert werden [12].
ment]: Applications; H.4 [Information Systems Appli-
cations]: Miscellaneous
2. PROBLEMBESCHREIBUNG
Um das identifizierte Problem des Semantic Shift bei Da-
General Terms tenanalysen zu verdeutlichen, soll an dieser Stelle zunächst
Design, Data Analysis ein Beispiel aus der Arbeit des Autors im deutschen Ge-
sundheitswesen gegeben werden. Dort werden alle Diagno-
Keywords sen nach der ICD-Klassifikation, der International Statisti-
cal Classification of Diseases and Related Health Problems,
Data warehouse, Schema Versioning, OLAP, Temporal Data codiert. Die Klassifikation selbst beinhaltet sowohl beschrei-
Warehouse bende als auch ordnende Metadaten und wird als Dimension
zur Datenanalyse verwendet. Die deutsche Modifikation der
1. EINLEITUNG WHO-ICD, ICD-GM (German Modifikation), wird dabei je-
Die am meisten verwendete Architektur für Analytische des Jahr durch eine Expertengruppe des DIMDI, Deutsches
Informationssysteme ist die des Data Warehouses mit Me- Institut für Medizinische Dokumentation und Information
tadaten, welche die gespeicherten Daten beschreiben und ei- aktualisiert [3] [4] [5].
ner auf diesen Metadaten aufbauender Auswertungssoftwa- Die Aktualisierungen bestehen darin, dass neu identifi-
re. Die Metadaten werden dabei in streng hierarchisch or- zierte Erkrankungen einen Code zugewiesen bekommen, Er-
krankungen zusammengefasst werden oder einzelne Krank-
heitsbereiche neu unterteilt werden. So wurde zum Beispiel
im Jahr 2006 der Code J09 für die neu identifizierte Vogel-
grippe eingeführt.
Um die Daten zwischen den Jahren transformieren zu kön-
nen, stellt das DIMDI zusätzlich sogenannte Überleitungen
in einem Datenbankformat zur Verfügung. In den Abbildun-
gen 1 und 2 sind diese exemplarisch in Ausschnitten für die
23rd GI-Workshop on Foundations of Databases (Grundlagen von Daten-
banken), 31.05.2011 - 03.06.2011, Obergurgl, Austria. Jahre 2005 bis 2007 gezeigt. Der Buchstabe A zeigt dabei
Copyright is held by the author/owner(s). an, ob eine Überführung automatisch in der durch die Spal-
37
2005 2006 2007
icd_code2005 icd_code2006 auto2005_2006 auto2006_2005
J10.0 J10.0 A A J10 J09-J10 J09-J10
J10.0 J09 A
J10.1 J10.1 A A
J10.8
J10.0 J09 J10.8
J10.0 J10.8
J10.0
J10.8 J10.8 A A J09
J10.0
J10.8 J10.1 J10.0
J10.8 J10.1 J10.0
J10.8 J10.1
Abbildung 1: Ausschnitt der offiziellen ICD Über-
leitungen zwischen den Jahren 2005 und 2006
Abbildung 4: Darstellung dreier Teilgraphen der
ICD-GM Metadaten für Influenzaviren und deren
tenüberschrift festgelegten Richtung möglich ist. Überleitung über die Jahre 2005 bis 2007
icd_code2006 icd_code2007 auto2006_2007 auto2007_2006
J09 J09 A A ist dies unproblematisch, da es keinerlei Änderungen in der
J10.0 J10.0 A A Datenbeschreibung gab; zu erkennen an der Existenz der bi-
J10.1 J10.1 A A jektiven Kanten zu den gleichen Knoten jedes Jahres. Das
J10.8 J10.8 A A Problem des Semantic Shift tritt auf, wenn J10.0 für die
Jahre 2005 bis 2007 untersucht werden soll. Es ist nicht ein-
Abbildung 2: Ausschnitt der offiziellen ICD Über- deutig, welche Bedeutung von J10.0 verwendet werden soll.
leitungen zwischen den Jahren 2006 und 2007 Falls die Bedeutung des Codes J10.0 vom Jahr 2005 beab-
sichtigt ist, sollte für die Folgejahre auch der Code J09 be-
Im Jahr 2005 auf 2006 ist es zum Beispiel möglich, den rücksichtigt werden. Falls die Semantik von 2006 oder 2007
Code J10.0 zwischen den Jahren umzucodieren. Allerdings gemeint ist, muss dem menschlichen Analysten bewusst sein,
gibt es noch einen zweiten Eintrag von J10.0 auf J09 bei dass es eine inhaltliche Änderung vom Jahr 2005 zu 2006 für
dem nur eine Umcodierung von 2006 auf 2005 zugelassen J10.0 gab auch wenn die Daten syntaktisch identisch sind
ist. und Transitionen in beide Richtungen existieren.
In Analytischen Informationssystemen werden die Daten Das analysespezifische Hintergrundwissen des Fachexper-
meist nach der aktuellsten ICD-Definition gespeichert. Da- ten ist, dass J10.0 ein Sammelknoten für nicht genauer be-
ten aus dem Jahr 2005 würden also im Jahr 2006 und 2007 stimmte Influenzaviren ist. Wie bereits oben erwähnt, wurde
umcodiert. Entsprechend den Überleitungsregeln aus den in 2006 die Vogelgrippe identifiziert und als neuer Code J09
Abbildungen 1 und 2 würde der Wert J10.0 syntaktisch eingefügt. Dadurch wurde die Bedeutung von J10.0 als al-
gleich bleiben und nicht umcodiert werden. le unbestimmten Influenzaviren zwar nicht verändert, aber
Eine typische Anfrage wäre nun der Art Zeig mir die verglichen mit 2005 fehlen nun die Vogelgrippefälle. Für sta-
” tistische Analysen auf solch einer feingranularen Ebene wür-
jährliche Summe aller behandelten J10.0 Patienten der Jah-
re 2005, 2006 und 2007“ welche das in Abbildung 3 gezeigte den daher fehlerhafte Ergebnisse geliefert. Bei einer Analyse
Ergebnis liefert. Im Jahr 2006 gab es also im Vergleich zum auf den Elternknoten J10 des Jahres 2005 oder J09-J10 der
Vorjahr eine Abnahme von J10.0 Patienten die sich im Jahr Jahre 2006 und 2007 wären die Resultate korrekt, da alle
2007 noch deutlicher fortsetzt. Transformationskanten auf Kindknoten verweisen.
Für die Ergebnisse in Abbildung 3 bedeutet dies, dass die
Abnahme der J10.0 Erkrankungen auch darin begründet
Summe der behandelten J10.0 Patienten nach Jahr
liegt, dass Krankheitsfälle in J09 codiert wurden, die vorher
in J10.0 enthalten waren.
2005 2006 2007
18347 17913 17548 2.2 Weitere Domänen
Der Semantic Shift kann nicht nur in der medizinischen
Abbildung 3: Summe aller behandelten J10.0 Pati- Dokumentation beobachtet werden, sondern auch in anderen
enten der Jahre 2005, 2006 und 2007 Bereichen. So kann man z.B. für die Entwicklung der Länder
Europas von 1988 bis 2000 bedingt durch den Zusammen-
bruch des Warschauer Pakts ähnliches feststellen. Allerdings
2.1 Darstellung als Graph muss dort beachtet werden, dass es sich bei den abgeleiteten
In Abbildung 4 ist exemplarisch ein Ausschnitt der ICD- und angepassten Metadaten nicht um gesetzlich vorgegebene
Klassifikation für nachgewiesene sonstige Influenzaviren der Dimensionsstrukturen handelt, sondern um von Fachexper-
Jahre 2005 bis 2007 abgebildet. Der Graph repräsentiert da- ten erstellte Dimensionen. Dies ist der Normalfall bei Da-
bei die offizielle Taxonomie der ICD Codes und die gerichte- ta Warehouses. Die Dimension soll alle Länder im Herzen
ten Kanten repräsentieren die offiziell als gültig definierten Europas widerspiegeln. Bis zum Jahr 1991 gab es die bei-
Transformationsregeln für Umcodierugnen der drei abgebil- den eigenständigen deutschen Staaten BRD und DDR. In
deten Jahre 2005, 2006 und 2007, wie sie in den Tabellen der Dimension wären diese dann als Blätter verfügbar. Mit
der Abbildungen 1 und 2 definiert sind. der Wiedervereinigung wird das Blatt DDR gelöscht und
In einem Data Warehouse werden die zu analysierenden die dazugehörigen Daten der BRD zugeordnet. Der Begriff
Daten in der Regel auf der feinsten verfügbaren Klassifika- BRD ist also syntaktisch gleich geblieben, beschreibt nun
tionsstufe vorgehalten. Veranschaulicht handelt es sich also aber einen deutlich größeren Bereich.
um die Ausprägungen der Blätter. Falls eine Analyse der Würde man die Daten der BRD betrachten, so könnte
Erkrankungen J10.1 oder J10.8 durchgeführt werden soll, man z.B. in 1991 eine deutliche Steigerung der Einwohner-
38
zahl feststellen. Dies wäre aber nicht durch hohe Geburtsra- Die am weitest gehende Lösung für das präsentierte Pro-
ten begründet, sondern durch die größere betrachtete Fläche blem wurde 2002 in [12] veröffentlicht. Ein formales Tem-
infolge der Wiedervereinigung mit der DDR. poral-Modell für die Beschreibung von Änderungen in den
Die umgekehrte Richtung kann man bei der Tschechoslo- Dimensionen wurde dazu eingeführt [7]. Es wurden entspre-
wakei beobachten. Bis 1990 war es die ČSSR, dann wurde chende Transformationsfunktionen definiert, welche die er-
das gleiche Land umbenannt in ČSFR und im Jahr 1992 laubten Datenänderungen beschreiben. Der Ansatz ermög-
aufgeteilt in die zwei Staaten Slowakei SR und Tschechien licht dabei Anfragen über verschiedene Versionen der Di-
ČR. Für den letzt genannten Fall würde in der Dimension mensionen hinweg, indem die Daten zur Anfragezeit adap-
ein Blatt gelöscht und dafür zwei neue Blätter eingefügt. Die tiert werden. Der Nachteil des Ansatzes liegt in der Realisie-
dazugehörige Transformationsregel wäre, dass es keine Mög- rung der Instanzadaption durch die Verwendung von Matri-
lichkeit gibt, ČSFR auf SR und ČR abzubilden, wohl aber zenmultiplikation. Jeder Wert einer Dimensionsversion muss
in der Gegenrichtung. von Fachexperten mit einem Koeffizienten versehen werden,
der aussagt wie ähnlich der Wert dem Nachfolger in der ver-
1989 1990 1991 1992 bundenen Dimensionsversion ist. Dies erlaubt eine Abschät-
Alle Alle Alle Alle zung, um den Semantic Shift zu lösen. Jedoch hat dies zwei
Nachteile. Zum einen muss der Koeffizient für jede Verwen-
CSSR CSFR CSFR CR SR
dung der Dimension in einer Kennzahl individuell angege-
ben werden, da sich die Koeffizienten für z.B. Erkrankungs-
BRD DDR BRD DDR BRD BRD
und Sterberisiko unterschiedlich verhalten und deshalb die
Koeffizienten nicht für alle Analysen gleich sind. Zum ande-
ren wird das in den Transformationsdaten inhärente Wissen
Abbildung 5: Darstellung von vier Ausschnitten ei- nicht dazu genutzt, genaue anstatt approximierten Ergeb-
ner Länderdimension für die Jahre 1989 bis 1992 nissen zu liefern.
und deren Überleitungen
Die graph-basierte Visualisierung der beschriebenen Di-
4. DER GRAPH-BASIERTE ANSATZ
mensionsentwicklung ist in Abbildung 5 zusehen. Dazu muss Wie in der Problembeschreibung ausgeführt und in den
gesagt werden, dass der Aufbau und die Entwicklung der Di- Abbildungen 4 und 5 veranschaulicht, lassen sich Dimensio-
mension von Fachexperten für Analysezwecke durchgeführt nen als streng hierarchische Bäume mit einem Wurzelknoten
wurde. Die Dimensionen und Transformationen hätten auch darstellen. Die Blätter repräsentieren dabei in der Regel die
auf andere Arten modelliert werden können. im Data Warehouse speicherbaren Werte. Falls Analysen auf
den Elternknoten durchgeführt werden sollen, werden diese
standardmäßig aus den Kindelementen berechnet [2].
3. EXISTIERENDE LÖSUNGANSÄTZE Bei den Dimensionen handelt es sich um von Fachexper-
Der erste Lösungsansatz für das Problem der sich ändern- ten modellierte Metadaten, die nur zu bestimmten Zeitpunk-
den Dimensionen wurde 1993 von Kimball postuliert [11]. ten geändert werden. Deshalb ist es möglich, die Änderun-
Die Lösung besteht in der Umcodierung der Daten nach der gen einer Dimension zusammen mit einer Versionsnummer
jeweilig neuesten Dimensionsbeschreibung. Dies kann dabei zu speichern. Dieser Ansatz zur Beschreibung der zeitlichen
in drei verschiedenen Arten geschehen. Der Type 1 Ansatz Entwicklung wurde auch von [12] und [8] verfolgt. Anders
überschreibt die alten Werte mit den neuen, umcodierten aber als bei [11] soll keine Instanzadaption mit Informati-
Werten. Die Type 2 und Type 3 Ansatz behält die alten onsverlust vorgenommen werden, sondern die Transformati-
Werte zusätzlich bei. Auf diese Weise können alte Werte in onsregeln als gerichtete Kanten zwischen den Blättern zweier
die neue Dimension transformiert, bzw. eingebunden wer- Dimensionsversionen gespeichert werden. Es wird verlangt,
den. Der Nachteil aller dieser Ansätze ist aber, dass sie nicht dass jede neue Version einer Dimension Transformationsre-
in der Lage sind mit dem Semantic Shift syntaktisch gleicher geln zu mindestens einem Vorgänger definiert. Dies ist keine
Ausprägungen umzugehen. Es gibt also keine Unterstützung Einschränkung, da es beim Fehlen von Transformationsre-
für Datenanalysen, die über verschiedene Versionen der Di- geln nicht um einen Nachfolger der Dimension sondern um
mensionen hinausgehen, wenn sich die Bedeutung der Daten eine vollständig neue, andere Dimension handelt.
geändert hat. Bei einer Anfrage an das Analytische Informationssystem
Das Problem der Anfragen über mehrere Dimensionsver- soll ein Interpreter zwischen den Anwender und das Auswer-
sionen wurde 2006 in [8] als graphentheoretisches Problem tungssystem geschaltet werden. Dieser Interpreter wertet die
diskutiert. Dabei wurden die Metadaten als sogenannte Sche- Transformationsregeln aus und stellt fest, ob in dem ange-
magraphen repräsentiert. Für die Graphen wurden erlaub- fragten Zeitraum für die auszuwertenden Daten eine Ände-
te Modifikationen definiert, welche die potentiellen Ände- rung stattgefunden hat. Wenn dies nicht der Fall ist, wird
rungen der Dimensionen wiedergeben. Wird eine Dimension die Anfrage ohne Nutzerinteraktion und ohne Änderungen
durch eine Modifikation geändert, wird dies als neue Versi- durchgeführt. Falls jedoch zwei oder mehrere Dimensions-
on in einem Graphen gespeichert. Basierend auf einer Gra- versionen von der Anfrage betroffen sind, wird der Interpre-
phenalgebra ist es dadurch möglich, Anfragen über verschie- ter mittels der ein- und ausgehenden Kanten der Knoten
dene Dimensionsversionen hinweg zu stellen. Diesem Ansatz prüfen, ob auf zusätzliche Knoten über die Kanten zuge-
fehlt zum einen der Umgang mit dem Semantic Shift der Da- griffen werden kann. Wenn die Knoten für den gewünschten
ten. Zum anderen erscheint er nicht praxisgerecht, da für his- Zeitraum stabil sind, wird dem Nutzer die Veränderung der
torische Daten neu hinzugekommene Angaben nachträglich Dimension für seinen angefragten Ausschnitt als sogenann-
eingepflegt werden müssen, um Vergleiche über verschiedene ter Evolutionspfad angezeigt.
Versionen zu ermöglichen. Da es nicht beabsichtigt ist, die Definition der Transfor-
39
mationsregeln auf genau einen Vorgänger und Nachfolger Dimensionsversionen unter einem Elternelement sind, wird
zu beschränken, kann es durchaus mehrere unterschiedliche davon ausgegangen, dass die Elternelemente gleich sind. Die
Evolutionspfade geben, die zu unterschiedlichen Mengen von Anfrage wird dann direkt ausgeführt. Sollte es in irgendei-
Knoten führen. Deswegen sollen die gefunden Evolutions- nem gültigen Evolutionspfad eines beliebigen Kindes meh-
pfade dem anfragenden Nutzer angezeigt werden, der dann rere Elternknoten geben, würden dem Anwender wieder die
den für seine Anfrage geeignetsten auswählen kann. Dabei verschiedenen Optionen wie bei den Einzelelementen ange-
ist festzustellen, dass die Bedeutung der Evolutionspfade zeigt. Der Anwender wird also immer über Bedeutungsände-
immer der modellierten Realwelt einer Dimensionsversion rungen und Systembrüche automatisch graphisch informiert
entspricht. Dies führt dazu, dass die Daten dann ad-hoc und kann die für seine Zwecke geeignete Anfrage auswählen.
zum Anfragezeitpunkt unter die ausgewählte Dimensions-
version transformiert werden. Die Datentransformation ist 4.2 Vorteile des Ansatzes
allerdings keine Instanzadaption, sondern eine Transforma- Es wird erwartet und angestrebt, dass der vorgestellte An-
tion eines Wertes auf eine Menge von Werten. satz die folgenden Vorteile bietet:
4.1 Beispiel der Lösungsidee • Durch den graphenbasierten Ansatz, der auf eine kenn-
Falls der Nutzer eine Anfrage der Art Gib mir die Summe zahlabhängige Approximation verzichtet, ist es mög-
” lich die Überführungsregeln für alle Analyseanfragen
aller behandelten J10.0 Patienten der Jahre 2005 bis 2007“
stellt, wird der Interpreter die Werte J10.0 und die ICD-GM zu verwenden, welche die Dimension beinhaltet. Dies
Dimensionsversionen 2005, 2006 und 2007 identifizieren. Den ist eine deutliche Erweiterung gegenüber [12].
Transformationsregeln in Abbildung 4 folgend, wird der In-
• Da die Überfühungsregeln auch in klassischen Adap-
terpreter zwei verschiedene Arten von J10.0 feststellen: Die
tionsverfahren wie [11] benötigt werden, ist kein zu-
Version 2005 hat zwei eingehende Kanten aus der Version
sätzlicher Arbeitsaufwand der Fachexperten notwen-
2006, einmal vom J10.0 als auch vom J09 Knoten. Der In-
dig, um die Kanten bereit zustellen.
terpreter kann also feststellen, dass der Knoten J10.0 Ver-
sion 2005 geteilt wurde. Nun prüft der Interpreter die iden- • Durch den graphenbasierten Ansatz ist es bei meh-
tifizierten Knoten des Jahres 2006 und findet zusätzlich nur reren Überleitungsregeln pro Dimensionsversion mög-
bidirektionale Kanten zu den Knoten des Jahre 2007, was lich, gröbere Versionen einer Dimension zu übersprin-
bedeutet, dass keine Änderung stattgefunden hat. gen. Gröber meint dabei, dass Fehlen einzelner Kno-
ten, die in späteren Versionen wieder eingefügt wur-
2005 2006 2007 den. Bei einer Umcodierung des Datenbestandes wäre
J10.0
dies ein irreversiebler Informationsverlust.
J10.0 J09 J09 J10.0
• Der Import und die Haltung der Daten wird verein-
facht, da die Daten in ihrer originären Version gespei-
Abbildung 6: Lösungsvorschlag mit Erweiterung der chert werden können. Die Daten müssen nicht in eine
Anfragemenge, Konzept J10.0 Version 2005 einzige Version umcodiert werden.
• Da der Nutzer zwischen verschiedenen inhaltlichen In-
2006 2007
terpretationen eines Wertes wählen kann, ist das An-
fragesystem mächtiger als klassische Systeme. Zudem
J10.0 J10.0
erlaubt dies die Wiederholung historischer Analysen,
da die Datenbasis nicht umcodiert und die Dimensions-
daten genauso erhalten bleiben.
Abbildung 7: Lösungsvorschlag mit Beschränkung
des Anfragebereichs, Konzept J10.0 Version 2006 4.3 Zu untersuchende Fragestellungen
und 2007 Um sicherzustellen, dass ein Data Warehouse zusammen
mit einer OLAP Analyse Anwendung die vorgestellten Funk-
Dem Nutzer wird als Zwischenergebnis seiner Anfrage mit- tionen und insbesondere Vorteile erfüllen kann, muss unter-
geteilt, dass zwei verschiedene Interpretationen von J10.0 sucht werden, welche Konsistenzbedingungen die Überlei-
für den Zeitraum 2005 bis 2007 identifiziert wurden. Es wer- tungsregeln als auch die Metadaten einhalten müssen. Zu-
den dann diese zwei verschiedenen Evolutionspfade zur Aus- dem sind die Anforderungen an die Datenrepräsentation und
wahl angeboten: In Abbildung 6 wird die Erweiterung der Speicherung der Transformationsregeln und zusätzlichen Ver-
Anfrage für die Jahre 2006 und 2007 um den Wert J09 vor- sionsinformationen in den Metadaten als auch der Daten-
geschlagen, damit die Anfrage der Bedeutung von J10.0 im haltung zu untersuchen. Ein weiterer Bereich ist, wie sich
Jahr 2005 entspricht. Die zweite angebotene Lösung ist in die Methoden auf verschieden Datenarten (Integer, Boolean,
Abbildung 7 zu sehen. Hier wird die Bedeutung von J10.0 Nominal) als auch verschiedene Analyse Operationen (Sum,
der Jahre 2006 und 2007 vorgeschlagen. Max, Min, Average) anwenden lassen. Da in Analysen auch
Werden Anfragen auf höheren Ebenen der Dimension, wie oft mehrere verschiedene Dimensionen genutzt werden, muss
z.B. die Gib mir die Summer aller behandelten Fälle von als letzter wichtiger Punkt noch die Anwendbarkeit auf meh-
Grippen durch nachgewiesene Influenzaviren“ welche dem rere Dimensionen durchdacht werden.
”
ICD Gruppencode J10 des Jahres 2005 bzw. J09-J10 der
Jahre 2006 und 2007 entspricht, ist dies auch ohne wei- 4.4 Evaluation
teres möglich. Für alle Kindelemente von J10 werden die Um den Ansatz mit seinen Konzepten und festgelegten
Evolutionspfade ausgewertet. Da alle Kindelemente in den Anforderungen zu evaluieren, wird ein Prototyp auf Basis
40
von MUSTANG - Multidimensional Statistical Data Analy- Systematisches Verzeichnis. Systematisches Verzeichnis
sis Engine [1] [13] umgesetzt werden. Dies ist ein kommerzi- zur Internationalen statistischen Klassifikation der
elles Daten Analyse Tool, welches insbesondere für Analysen Krankheiten und verwandter Gesundheitsprobleme -
im Gesundheitswesen, z.B. Krebsregistern, eingesetzt wird. German Modification. Deutsche Krankenhaus
Verlags-Gesellschaft, (2004)
Da das vorgestellte Thema durch zwei Projekte mit Kli- [4] DIMDI - Deutsches Institut für Medizinische
nikdaten motiviert wurde, bei denen sich der Semantic Shift Dokumentation und Information: ICD-10-GM Version
als problematisch erwiesen hatte, soll das Konzept in diesen 2006. Systematisches Verzeichnis. Deutsche
evaluiert werden. Dabei handelt es sich zum einen um Da- Krankenhaus Verlags-Gesellschaft, (2005).
ten deutscher Kliniken der Jahre 2006 bis 2010. Hier sollen [5] DIMDI - Deutsches Institut für Medizinische
Fragen der Versorgungsforschung auf einer feingranularen Dokumentation und Information: ICD-10-GM Version
Ebene ausgewertet werden, was bisher nicht möglich war. 2007. Band I: Systematisches Verzeichnis. Deutsche
Zum anderen geht es in einem Forschungsprojekt der EU Krankenhaus Verlags-Gesellschaft, (2006)
darum, für spezielle Herzschrittmacherpatienten statistisch [6] DIMDI - Deutsches Institut für Medizinische
valide Muster zu identifizieren, die in historischen Patien- Dokumentation und Information: ICD-10-GM Version
tendaten früherer Fälle enthalten sind. Die Patientendaten 2011: Band I: Systematisches Verzeichnis. Deutsche
stammen dabei aus den Jahren 2006 bis 2011 eines österrei- Krankenhaus Verlags-Gesellschaft, (2010)
chischen Universitätsklinikums, in dem später die Anwen- [7] Eder, J, Koncilia, C., Morzy, T.,: The COMET
dung erfolgt. Hier liegt der Fokus darauf, alte Codierungen Metamodel for Temporal Data Warehouses. In Proc. of
akkurat unter die aktuellste Version zu subsumieren, damit the 14th Int. Conference on Advanced Information
die Muster auf aktuelle Fälle angewendet werden können. Systems Engineering (CAISE02), pp. 83–99.Springer
Verlag (LNCS) (2002)
5. ZUSAMMENFASSUNG [8] Golfarelli, M., Lechtenbörger, J., Rizzi, S., Vossen, G.:
Dieses Paper stellt einen Ansatz vor, der akkurate Da- Schema versioning in data warehouses: enabling
tenanalysen in einem Analytischen Informationssystem über cross-version querying via schema augmentation. In
sich ändernde Datengrundlagen ermöglicht. Die Datenände- DataKnowl. Eng., 59(2):435–459, 2006. Elsevier Science
rungen können dabei sowohl syntaktischer als auch seman- Publishers B. V., Amsterdam, (2006)
tischer Natur sein. Änderungen der Daten werden dabei als [9] Inmon, W. H.: Building the data warehouse (2nd ed.).
verbindende Kanten zwischen verschiedenen Versionen einer John Wiley & Sons, Inc.,New York, NY, USA, (1996)
Dimension modelliert und diese Dimensionen dabei als Gra- [10] Inmon, W. H., Strauss, D., Neushloss, G.: DW 2.0:
phenstruktur aufgefasst. Durch die Interpretation der Ver- The Architecture for the Next Generation of Data
bindungen zum Zeitpunkt einer Analyseanfrage, werden die Warehousing. Morgan Kaufmann Publishers Inc., San
möglichen Evolutionspfade identifiziert. Die Evolutionspfa- Francisco, CA, USA, (2008)
de repräsentieren dabei domänspezifisches Hintergrundwis- [11] Kimball, R.: Slowly Changing Dimensions. In DBMS
sen, wie z.B. die Bedeutungsänderung von Werten, den Se- online, http://www.dbmsmag.com/9604d05.html (1996)
mantic Shift. Der Nutzer kann dieses Hintergrundwissen vi- [12] Koncilia; C. A.: The COMET Temporal Data
suell erfassen und sich für einen geeigneten Evolutionspfad Warehouse. PhD thesis, Universität Klagenfurt (2002)
entscheiden. Die Analyseanfrage wird dann zur Anfragezeit [13] Teiken, Y., Rohde, M., Mertens, M.: Mustang -
so umgewandelt, dass die Daten ad-hoc unter die gewähl- Realisierung eines analytischen informationssystems im
te Bedeutung des Evolutionspfads transformiert werden. Da kontext der gesundheitsberichtserstattung. In K.-P.
die Evolutionspfade so berechnet werden, dass Sie inhaltlich Fähnrich and B. Franczyk, editors, GI Jahrestagung
identische und vergleichbare Mengen repräsentieren, sind die (1), volume 175 of LNI, pages 253–258. GI, (2010)
Anfrageergebnisse akkurat. Dies wird dadurch ermöglicht,
dass die Daten in ihrem Originalformat gespeichert und die
Transformationsregeln nur gespeichert aber nicht direkt auf APPENDIX
die Daten angewendet werden. Mit dem vorgestellten Modell A. ACKNOWLEDGMENTS
und den dazugehörenden Methoden sind keine verlustbehaf-
teten Datentransformationen oder Abschätzungen notwen- The research leading to these results has received in part
dig. funding from the European Community’s Seventh Frame-
work Programme (FP7/ 2007-2013) under grant agreement
no. ICT-248240, iCARDEA project.
6. REFERENCES
[1] Appelrath, H.-J., Rohde, M. , Thoben, W. , OFFIS
e.V., MUSTANG - Multidimensional Statistical Data
Analysis Engine:
http://www.offis.de/en/offis_in_portrait/
structure/projects/detail/status/mustang.html,
(2011)
[2] Bauer, A., Günzel, H.: Data Warehouse Systeme.
dpunkt.verlag, 3. überarbeitete und aktualisierte
Auflage, (2009)
[3] DIMDI - Deutsches Institut für Medizinische
Dokumentation und Information: ICD-10-GM 2005
41