=Paper= {{Paper |id=None |storemode=property |title=Ad-hoc Datentransformationen für Analytische Informationssysteme |pdfUrl=https://ceur-ws.org/Vol-733/paper_luepkes.pdf |volume=Vol-733 |dblpUrl=https://dblp.org/rec/conf/gvd/Lupkes11 }} ==Ad-hoc Datentransformationen für Analytische Informationssysteme== https://ceur-ws.org/Vol-733/paper_luepkes.pdf
              Ad-hoc Datentransformationen für Analytische
                         Informationssysteme

                                                         Christian Lüpkes
                                                    OFFIS - Institut für Informatik
                                                           Escherweg 2
                                                   26121 Oldenburg, Deutschland
                                                  christian.luepkes@offis.de

ABSTRACT                                                                   ganisierten Taxonomien, sogenannten Dimensionen, gespei-
Beim Betrieb von Data Warehouse Systemen kann es zu ei-                    chert. Dimensionen beschreiben, wie die Daten analysiert
nem Semantic Shift kommen. Dieser bezeichnet eine Verän-                  werden können.
derung der Bedeutung von Dimensionselementen und kann                          Das Data Warehouse ist dabei nach der Definition von
bei Nichtbeachtung zu Informationsverlust und fachlich in-                 Inmon eine themenorientierte, integrierte, stabile Sammlung
korrekten Analyseergebnissen führen. In dieser Arbeit wird                zeitbezogener Daten, welche als Datenbasis zur Analyse dient
ein graph-basierter Ansatz vorgeschlagen, welcher die Ände-               [9]. Data Warehouses haben also immer einen Zeitbezug, bie-
rungen zwischen Dimensionen als Überleitungen verwalten                   ten aber keine hochentwickelten Konzepte, um mit Änderun-
und für Analysen zur Verfügung stellen kann. Dadurch wird                gen in den Metadaten über die Zeit umzugehen. Klassisch
es möglich, Anfragen in Analytischen Informationssystemen                 wird davon ausgegangen, dass die Metadaten über die Zeit
unter Berücksichtigung eventueller Semantic Shifts zu be-                 weitgehend stabil sind [7] [11]. Falls die Metadaten in Einzel-
antworten. Dieser Ansatz verzichtet dabei auf eine kennzahl-               fällen doch angepasst werden müssen, werden die gespeicher-
basierte Approximation und nutzt die Überleitungen klassi-                ten Daten einfach den neuen Metadaten entsprechend umco-
scher Adaptionsverfahren. Der eingeführte Ansatz wird kri-                diert, die sogenannte Instanzadaption [2] [11]. Der Nachteil
tisch hinsichtlich bestehender Ansätze diskutiert und exem-               dieses Ansatzes ist, dass beim Umcodieren üblicherweise ein
plarisch in verschiedenen Domänen durchgeführt.                          Informationsverlust entsteht. Zudem wird durch die Ände-
                                                                           rung der Metadaten und die Instanzadaption eine Wieder-
                                                                           holung früherer Anfragen unmöglich. Außerdem besteht bei
Categories and Subject Descriptors                                         klassischen Systemen keine Möglichkeit die spezifischen In-
H.2.7 [Database Management]: Administration — Da-                          formationen der Metadatenänderungen zu speichern, da die
ta warehouse and repository; H.2.8 [Database Manage-                       Metadaten selbst nicht zeitbezogen gespeichert werden [12].
ment]: Applications; H.4 [Information Systems Appli-
cations]: Miscellaneous
                                                                           2.   PROBLEMBESCHREIBUNG
                                                                              Um das identifizierte Problem des Semantic Shift bei Da-
General Terms                                                              tenanalysen zu verdeutlichen, soll an dieser Stelle zunächst
Design, Data Analysis                                                      ein Beispiel aus der Arbeit des Autors im deutschen Ge-
                                                                           sundheitswesen gegeben werden. Dort werden alle Diagno-
Keywords                                                                   sen nach der ICD-Klassifikation, der International Statisti-
                                                                           cal Classification of Diseases and Related Health Problems,
Data warehouse, Schema Versioning, OLAP, Temporal Data                     codiert. Die Klassifikation selbst beinhaltet sowohl beschrei-
Warehouse                                                                  bende als auch ordnende Metadaten und wird als Dimension
                                                                           zur Datenanalyse verwendet. Die deutsche Modifikation der
1.   EINLEITUNG                                                            WHO-ICD, ICD-GM (German Modifikation), wird dabei je-
  Die am meisten verwendete Architektur für Analytische                   des Jahr durch eine Expertengruppe des DIMDI, Deutsches
Informationssysteme ist die des Data Warehouses mit Me-                    Institut für Medizinische Dokumentation und Information
tadaten, welche die gespeicherten Daten beschreiben und ei-                aktualisiert [3] [4] [5].
ner auf diesen Metadaten aufbauender Auswertungssoftwa-                       Die Aktualisierungen bestehen darin, dass neu identifi-
re. Die Metadaten werden dabei in streng hierarchisch or-                  zierte Erkrankungen einen Code zugewiesen bekommen, Er-
                                                                           krankungen zusammengefasst werden oder einzelne Krank-
                                                                           heitsbereiche neu unterteilt werden. So wurde zum Beispiel
                                                                           im Jahr 2006 der Code J09 für die neu identifizierte Vogel-
                                                                           grippe eingeführt.
                                                                              Um die Daten zwischen den Jahren transformieren zu kön-
                                                                           nen, stellt das DIMDI zusätzlich sogenannte Überleitungen
                                                                           in einem Datenbankformat zur Verfügung. In den Abbildun-
                                                                           gen 1 und 2 sind diese exemplarisch in Ausschnitten für die
23rd GI-Workshop on Foundations of Databases (Grundlagen von Daten-
banken), 31.05.2011 - 03.06.2011, Obergurgl, Austria.                      Jahre 2005 bis 2007 gezeigt. Der Buchstabe A zeigt dabei
Copyright is held by the author/owner(s).                                  an, ob eine Überführung automatisch in der durch die Spal-




                                                                      37
                                                                              2005                        2006                     2007
  icd_code2005   icd_code2006   auto2005_2006 auto2006_2005
  J10.0          J10.0          A             A                                   J10                    J09-J10                  J09-J10
  J10.0          J09                          A
  J10.1          J10.1          A             A
                                                                                           J10.8
                                                                                           J10.0   J09              J10.8
                                                                                                                    J10.0                     J10.8
                                                                                                                                              J10.0
  J10.8          J10.8          A             A                                                                             J09

                                                                          J10.0
                                                                          J10.8         J10.1        J10.0
                                                                                                     J10.8       J10.1        J10.0
                                                                                                                              J10.8       J10.1

Abbildung 1: Ausschnitt der offiziellen ICD Über-
leitungen zwischen den Jahren 2005 und 2006
                                                                        Abbildung 4: Darstellung dreier Teilgraphen der
                                                                        ICD-GM Metadaten für Influenzaviren und deren
tenüberschrift festgelegten Richtung möglich ist.                     Überleitung über die Jahre 2005 bis 2007

  icd_code2006   icd_code2007   auto2006_2007 auto2007_2006
  J09            J09            A             A                         ist dies unproblematisch, da es keinerlei Änderungen in der
  J10.0          J10.0          A             A                         Datenbeschreibung gab; zu erkennen an der Existenz der bi-
  J10.1          J10.1          A             A                         jektiven Kanten zu den gleichen Knoten jedes Jahres. Das
  J10.8          J10.8          A             A                         Problem des Semantic Shift tritt auf, wenn J10.0 für die
                                                                        Jahre 2005 bis 2007 untersucht werden soll. Es ist nicht ein-
Abbildung 2: Ausschnitt der offiziellen ICD Über-                      deutig, welche Bedeutung von J10.0 verwendet werden soll.
leitungen zwischen den Jahren 2006 und 2007                             Falls die Bedeutung des Codes J10.0 vom Jahr 2005 beab-
                                                                        sichtigt ist, sollte für die Folgejahre auch der Code J09 be-
   Im Jahr 2005 auf 2006 ist es zum Beispiel möglich, den              rücksichtigt werden. Falls die Semantik von 2006 oder 2007
Code J10.0 zwischen den Jahren umzucodieren. Allerdings                 gemeint ist, muss dem menschlichen Analysten bewusst sein,
gibt es noch einen zweiten Eintrag von J10.0 auf J09 bei                dass es eine inhaltliche Änderung vom Jahr 2005 zu 2006 für
dem nur eine Umcodierung von 2006 auf 2005 zugelassen                   J10.0 gab auch wenn die Daten syntaktisch identisch sind
ist.                                                                    und Transitionen in beide Richtungen existieren.
   In Analytischen Informationssystemen werden die Daten                   Das analysespezifische Hintergrundwissen des Fachexper-
meist nach der aktuellsten ICD-Definition gespeichert. Da-              ten ist, dass J10.0 ein Sammelknoten für nicht genauer be-
ten aus dem Jahr 2005 würden also im Jahr 2006 und 2007                stimmte Influenzaviren ist. Wie bereits oben erwähnt, wurde
umcodiert. Entsprechend den Überleitungsregeln aus den                 in 2006 die Vogelgrippe identifiziert und als neuer Code J09
Abbildungen 1 und 2 würde der Wert J10.0 syntaktisch                   eingefügt. Dadurch wurde die Bedeutung von J10.0 als al-
gleich bleiben und nicht umcodiert werden.                              le unbestimmten Influenzaviren zwar nicht verändert, aber
   Eine typische Anfrage wäre nun der Art Zeig mir die                 verglichen mit 2005 fehlen nun die Vogelgrippefälle. Für sta-
                                              ”                         tistische Analysen auf solch einer feingranularen Ebene wür-
jährliche Summe aller behandelten J10.0 Patienten der Jah-
re 2005, 2006 und 2007“ welche das in Abbildung 3 gezeigte              den daher fehlerhafte Ergebnisse geliefert. Bei einer Analyse
Ergebnis liefert. Im Jahr 2006 gab es also im Vergleich zum             auf den Elternknoten J10 des Jahres 2005 oder J09-J10 der
Vorjahr eine Abnahme von J10.0 Patienten die sich im Jahr               Jahre 2006 und 2007 wären die Resultate korrekt, da alle
2007 noch deutlicher fortsetzt.                                         Transformationskanten auf Kindknoten verweisen.
                                                                           Für die Ergebnisse in Abbildung 3 bedeutet dies, dass die
                                                                        Abnahme der J10.0 Erkrankungen auch darin begründet
   Summe der behandelten J10.0 Patienten nach Jahr
                                                                        liegt, dass Krankheitsfälle in J09 codiert wurden, die vorher
                                                                        in J10.0 enthalten waren.
            2005           2006           2007
           18347          17913          17548                          2.2        Weitere Domänen
                                                                          Der Semantic Shift kann nicht nur in der medizinischen
Abbildung 3: Summe aller behandelten J10.0 Pati-                        Dokumentation beobachtet werden, sondern auch in anderen
enten der Jahre 2005, 2006 und 2007                                     Bereichen. So kann man z.B. für die Entwicklung der Länder
                                                                        Europas von 1988 bis 2000 bedingt durch den Zusammen-
                                                                        bruch des Warschauer Pakts ähnliches feststellen. Allerdings
2.1    Darstellung als Graph                                            muss dort beachtet werden, dass es sich bei den abgeleiteten
   In Abbildung 4 ist exemplarisch ein Ausschnitt der ICD-              und angepassten Metadaten nicht um gesetzlich vorgegebene
Klassifikation für nachgewiesene sonstige Influenzaviren der           Dimensionsstrukturen handelt, sondern um von Fachexper-
Jahre 2005 bis 2007 abgebildet. Der Graph repräsentiert da-            ten erstellte Dimensionen. Dies ist der Normalfall bei Da-
bei die offizielle Taxonomie der ICD Codes und die gerichte-            ta Warehouses. Die Dimension soll alle Länder im Herzen
ten Kanten repräsentieren die offiziell als gültig definierten        Europas widerspiegeln. Bis zum Jahr 1991 gab es die bei-
Transformationsregeln für Umcodierugnen der drei abgebil-              den eigenständigen deutschen Staaten BRD und DDR. In
deten Jahre 2005, 2006 und 2007, wie sie in den Tabellen                der Dimension wären diese dann als Blätter verfügbar. Mit
der Abbildungen 1 und 2 definiert sind.                                 der Wiedervereinigung wird das Blatt DDR gelöscht und
   In einem Data Warehouse werden die zu analysierenden                 die dazugehörigen Daten der BRD zugeordnet. Der Begriff
Daten in der Regel auf der feinsten verfügbaren Klassifika-            BRD ist also syntaktisch gleich geblieben, beschreibt nun
tionsstufe vorgehalten. Veranschaulicht handelt es sich also            aber einen deutlich größeren Bereich.
um die Ausprägungen der Blätter. Falls eine Analyse der                 Würde man die Daten der BRD betrachten, so könnte
Erkrankungen J10.1 oder J10.8 durchgeführt werden soll,                man z.B. in 1991 eine deutliche Steigerung der Einwohner-




                                                                   38
zahl feststellen. Dies wäre aber nicht durch hohe Geburtsra-                        Die am weitest gehende Lösung für das präsentierte Pro-
ten begründet, sondern durch die größere betrachtete Fläche                    blem wurde 2002 in [12] veröffentlicht. Ein formales Tem-
infolge der Wiedervereinigung mit der DDR.                                        poral-Modell für die Beschreibung von Änderungen in den
   Die umgekehrte Richtung kann man bei der Tschechoslo-                          Dimensionen wurde dazu eingeführt [7]. Es wurden entspre-
wakei beobachten. Bis 1990 war es die ČSSR, dann wurde                           chende Transformationsfunktionen definiert, welche die er-
das gleiche Land umbenannt in ČSFR und im Jahr 1992                              laubten Datenänderungen beschreiben. Der Ansatz ermög-
aufgeteilt in die zwei Staaten Slowakei SR und Tschechien                         licht dabei Anfragen über verschiedene Versionen der Di-
ČR. Für den letzt genannten Fall würde in der Dimension                        mensionen hinweg, indem die Daten zur Anfragezeit adap-
ein Blatt gelöscht und dafür zwei neue Blätter eingefügt. Die                 tiert werden. Der Nachteil des Ansatzes liegt in der Realisie-
dazugehörige Transformationsregel wäre, dass es keine Mög-                     rung der Instanzadaption durch die Verwendung von Matri-
lichkeit gibt, ČSFR auf SR und ČR abzubilden, wohl aber                         zenmultiplikation. Jeder Wert einer Dimensionsversion muss
in der Gegenrichtung.                                                             von Fachexperten mit einem Koeffizienten versehen werden,
                                                                                  der aussagt wie ähnlich der Wert dem Nachfolger in der ver-
       1989                  1990             1991               1992             bundenen Dimensionsversion ist. Dies erlaubt eine Abschät-
       Alle                  Alle             Alle               Alle             zung, um den Semantic Shift zu lösen. Jedoch hat dies zwei
                                                                                  Nachteile. Zum einen muss der Koeffizient für jede Verwen-
                CSSR                  CSFR           CSFR   CR          SR
                                                                                  dung der Dimension in einer Kennzahl individuell angege-
                                                                                  ben werden, da sich die Koeffizienten für z.B. Erkrankungs-
 BRD          DDR      BRD          DDR      BRD                 BRD
                                                                                  und Sterberisiko unterschiedlich verhalten und deshalb die
                                                                                  Koeffizienten nicht für alle Analysen gleich sind. Zum ande-
                                                                                  ren wird das in den Transformationsdaten inhärente Wissen
Abbildung 5: Darstellung von vier Ausschnitten ei-                                nicht dazu genutzt, genaue anstatt approximierten Ergeb-
ner Länderdimension für die Jahre 1989 bis 1992                                 nissen zu liefern.
und deren Überleitungen

  Die graph-basierte Visualisierung der beschriebenen Di-
                                                                                  4.   DER GRAPH-BASIERTE ANSATZ
mensionsentwicklung ist in Abbildung 5 zusehen. Dazu muss                            Wie in der Problembeschreibung ausgeführt und in den
gesagt werden, dass der Aufbau und die Entwicklung der Di-                        Abbildungen 4 und 5 veranschaulicht, lassen sich Dimensio-
mension von Fachexperten für Analysezwecke durchgeführt                         nen als streng hierarchische Bäume mit einem Wurzelknoten
wurde. Die Dimensionen und Transformationen hätten auch                          darstellen. Die Blätter repräsentieren dabei in der Regel die
auf andere Arten modelliert werden können.                                       im Data Warehouse speicherbaren Werte. Falls Analysen auf
                                                                                  den Elternknoten durchgeführt werden sollen, werden diese
                                                                                  standardmäßig aus den Kindelementen berechnet [2].
3.     EXISTIERENDE LÖSUNGANSÄTZE                                                    Bei den Dimensionen handelt es sich um von Fachexper-
   Der erste Lösungsansatz für das Problem der sich ändern-                    ten modellierte Metadaten, die nur zu bestimmten Zeitpunk-
den Dimensionen wurde 1993 von Kimball postuliert [11].                           ten geändert werden. Deshalb ist es möglich, die Änderun-
Die Lösung besteht in der Umcodierung der Daten nach der                         gen einer Dimension zusammen mit einer Versionsnummer
jeweilig neuesten Dimensionsbeschreibung. Dies kann dabei                         zu speichern. Dieser Ansatz zur Beschreibung der zeitlichen
in drei verschiedenen Arten geschehen. Der Type 1 Ansatz                          Entwicklung wurde auch von [12] und [8] verfolgt. Anders
überschreibt die alten Werte mit den neuen, umcodierten                          aber als bei [11] soll keine Instanzadaption mit Informati-
Werten. Die Type 2 und Type 3 Ansatz behält die alten                            onsverlust vorgenommen werden, sondern die Transformati-
Werte zusätzlich bei. Auf diese Weise können alte Werte in                      onsregeln als gerichtete Kanten zwischen den Blättern zweier
die neue Dimension transformiert, bzw. eingebunden wer-                           Dimensionsversionen gespeichert werden. Es wird verlangt,
den. Der Nachteil aller dieser Ansätze ist aber, dass sie nicht                  dass jede neue Version einer Dimension Transformationsre-
in der Lage sind mit dem Semantic Shift syntaktisch gleicher                      geln zu mindestens einem Vorgänger definiert. Dies ist keine
Ausprägungen umzugehen. Es gibt also keine Unterstützung                        Einschränkung, da es beim Fehlen von Transformationsre-
für Datenanalysen, die über verschiedene Versionen der Di-                      geln nicht um einen Nachfolger der Dimension sondern um
mensionen hinausgehen, wenn sich die Bedeutung der Daten                          eine vollständig neue, andere Dimension handelt.
geändert hat.                                                                       Bei einer Anfrage an das Analytische Informationssystem
   Das Problem der Anfragen über mehrere Dimensionsver-                          soll ein Interpreter zwischen den Anwender und das Auswer-
sionen wurde 2006 in [8] als graphentheoretisches Problem                         tungssystem geschaltet werden. Dieser Interpreter wertet die
diskutiert. Dabei wurden die Metadaten als sogenannte Sche-                       Transformationsregeln aus und stellt fest, ob in dem ange-
magraphen repräsentiert. Für die Graphen wurden erlaub-                         fragten Zeitraum für die auszuwertenden Daten eine Ände-
te Modifikationen definiert, welche die potentiellen Ände-                       rung stattgefunden hat. Wenn dies nicht der Fall ist, wird
rungen der Dimensionen wiedergeben. Wird eine Dimension                           die Anfrage ohne Nutzerinteraktion und ohne Änderungen
durch eine Modifikation geändert, wird dies als neue Versi-                      durchgeführt. Falls jedoch zwei oder mehrere Dimensions-
on in einem Graphen gespeichert. Basierend auf einer Gra-                         versionen von der Anfrage betroffen sind, wird der Interpre-
phenalgebra ist es dadurch möglich, Anfragen über verschie-                     ter mittels der ein- und ausgehenden Kanten der Knoten
dene Dimensionsversionen hinweg zu stellen. Diesem Ansatz                         prüfen, ob auf zusätzliche Knoten über die Kanten zuge-
fehlt zum einen der Umgang mit dem Semantic Shift der Da-                         griffen werden kann. Wenn die Knoten für den gewünschten
ten. Zum anderen erscheint er nicht praxisgerecht, da für his-                   Zeitraum stabil sind, wird dem Nutzer die Veränderung der
torische Daten neu hinzugekommene Angaben nachträglich                           Dimension für seinen angefragten Ausschnitt als sogenann-
eingepflegt werden müssen, um Vergleiche über verschiedene                      ter Evolutionspfad angezeigt.
Versionen zu ermöglichen.                                                           Da es nicht beabsichtigt ist, die Definition der Transfor-




                                                                             39
mationsregeln auf genau einen Vorgänger und Nachfolger                Dimensionsversionen unter einem Elternelement sind, wird
zu beschränken, kann es durchaus mehrere unterschiedliche             davon ausgegangen, dass die Elternelemente gleich sind. Die
Evolutionspfade geben, die zu unterschiedlichen Mengen von             Anfrage wird dann direkt ausgeführt. Sollte es in irgendei-
Knoten führen. Deswegen sollen die gefunden Evolutions-               nem gültigen Evolutionspfad eines beliebigen Kindes meh-
pfade dem anfragenden Nutzer angezeigt werden, der dann                rere Elternknoten geben, würden dem Anwender wieder die
den für seine Anfrage geeignetsten auswählen kann. Dabei             verschiedenen Optionen wie bei den Einzelelementen ange-
ist festzustellen, dass die Bedeutung der Evolutionspfade              zeigt. Der Anwender wird also immer über Bedeutungsände-
immer der modellierten Realwelt einer Dimensionsversion                rungen und Systembrüche automatisch graphisch informiert
entspricht. Dies führt dazu, dass die Daten dann ad-hoc               und kann die für seine Zwecke geeignete Anfrage auswählen.
zum Anfragezeitpunkt unter die ausgewählte Dimensions-
version transformiert werden. Die Datentransformation ist              4.2   Vorteile des Ansatzes
allerdings keine Instanzadaption, sondern eine Transforma-               Es wird erwartet und angestrebt, dass der vorgestellte An-
tion eines Wertes auf eine Menge von Werten.                           satz die folgenden Vorteile bietet:

4.1      Beispiel der Lösungsidee                                         • Durch den graphenbasierten Ansatz, der auf eine kenn-
   Falls der Nutzer eine Anfrage der Art Gib mir die Summe                  zahlabhängige Approximation verzichtet, ist es mög-
                                         ”                                  lich die Überführungsregeln für alle Analyseanfragen
aller behandelten J10.0 Patienten der Jahre 2005 bis 2007“
stellt, wird der Interpreter die Werte J10.0 und die ICD-GM                 zu verwenden, welche die Dimension beinhaltet. Dies
Dimensionsversionen 2005, 2006 und 2007 identifizieren. Den                 ist eine deutliche Erweiterung gegenüber [12].
Transformationsregeln in Abbildung 4 folgend, wird der In-
                                                                          • Da die Überfühungsregeln auch in klassischen Adap-
terpreter zwei verschiedene Arten von J10.0 feststellen: Die
                                                                            tionsverfahren wie [11] benötigt werden, ist kein zu-
Version 2005 hat zwei eingehende Kanten aus der Version
                                                                            sätzlicher Arbeitsaufwand der Fachexperten notwen-
2006, einmal vom J10.0 als auch vom J09 Knoten. Der In-
                                                                            dig, um die Kanten bereit zustellen.
terpreter kann also feststellen, dass der Knoten J10.0 Ver-
sion 2005 geteilt wurde. Nun prüft der Interpreter die iden-             • Durch den graphenbasierten Ansatz ist es bei meh-
tifizierten Knoten des Jahres 2006 und findet zusätzlich nur               reren Überleitungsregeln pro Dimensionsversion mög-
bidirektionale Kanten zu den Knoten des Jahre 2007, was                     lich, gröbere Versionen einer Dimension zu übersprin-
bedeutet, dass keine Änderung stattgefunden hat.                           gen. Gröber meint dabei, dass Fehlen einzelner Kno-
                                                                            ten, die in späteren Versionen wieder eingefügt wur-
  2005                   2006                      2007                     den. Bei einer Umcodierung des Datenbestandes wäre
                                J10.0
                                                                            dies ein irreversiebler Informationsverlust.
 J10.0             J09                       J09          J10.0
                                                                          • Der Import und die Haltung der Daten wird verein-
                                                                            facht, da die Daten in ihrer originären Version gespei-
Abbildung 6: Lösungsvorschlag mit Erweiterung der                          chert werden können. Die Daten müssen nicht in eine
Anfragemenge, Konzept J10.0 Version 2005                                    einzige Version umcodiert werden.
                                                                          • Da der Nutzer zwischen verschiedenen inhaltlichen In-
              2006                       2007
                                                                            terpretationen eines Wertes wählen kann, ist das An-
                                                                            fragesystem mächtiger als klassische Systeme. Zudem
              J10.0                     J10.0
                                                                            erlaubt dies die Wiederholung historischer Analysen,
                                                                            da die Datenbasis nicht umcodiert und die Dimensions-
                                                                            daten genauso erhalten bleiben.
Abbildung 7: Lösungsvorschlag mit Beschränkung
des Anfragebereichs, Konzept J10.0 Version 2006                        4.3   Zu untersuchende Fragestellungen
und 2007                                                                  Um sicherzustellen, dass ein Data Warehouse zusammen
                                                                       mit einer OLAP Analyse Anwendung die vorgestellten Funk-
   Dem Nutzer wird als Zwischenergebnis seiner Anfrage mit-            tionen und insbesondere Vorteile erfüllen kann, muss unter-
geteilt, dass zwei verschiedene Interpretationen von J10.0             sucht werden, welche Konsistenzbedingungen die Überlei-
für den Zeitraum 2005 bis 2007 identifiziert wurden. Es wer-          tungsregeln als auch die Metadaten einhalten müssen. Zu-
den dann diese zwei verschiedenen Evolutionspfade zur Aus-             dem sind die Anforderungen an die Datenrepräsentation und
wahl angeboten: In Abbildung 6 wird die Erweiterung der                Speicherung der Transformationsregeln und zusätzlichen Ver-
Anfrage für die Jahre 2006 und 2007 um den Wert J09 vor-              sionsinformationen in den Metadaten als auch der Daten-
geschlagen, damit die Anfrage der Bedeutung von J10.0 im               haltung zu untersuchen. Ein weiterer Bereich ist, wie sich
Jahr 2005 entspricht. Die zweite angebotene Lösung ist in             die Methoden auf verschieden Datenarten (Integer, Boolean,
Abbildung 7 zu sehen. Hier wird die Bedeutung von J10.0                Nominal) als auch verschiedene Analyse Operationen (Sum,
der Jahre 2006 und 2007 vorgeschlagen.                                 Max, Min, Average) anwenden lassen. Da in Analysen auch
   Werden Anfragen auf höheren Ebenen der Dimension, wie              oft mehrere verschiedene Dimensionen genutzt werden, muss
z.B. die Gib mir die Summer aller behandelten Fälle von               als letzter wichtiger Punkt noch die Anwendbarkeit auf meh-
  Grippen durch nachgewiesene Influenzaviren“ welche dem               rere Dimensionen durchdacht werden.
”
ICD Gruppencode J10 des Jahres 2005 bzw. J09-J10 der
Jahre 2006 und 2007 entspricht, ist dies auch ohne wei-                4.4   Evaluation
teres möglich. Für alle Kindelemente von J10 werden die               Um den Ansatz mit seinen Konzepten und festgelegten
Evolutionspfade ausgewertet. Da alle Kindelemente in den               Anforderungen zu evaluieren, wird ein Prototyp auf Basis




                                                                  40
von MUSTANG - Multidimensional Statistical Data Analy-                   Systematisches Verzeichnis. Systematisches Verzeichnis
sis Engine [1] [13] umgesetzt werden. Dies ist ein kommerzi-             zur Internationalen statistischen Klassifikation der
elles Daten Analyse Tool, welches insbesondere für Analysen             Krankheiten und verwandter Gesundheitsprobleme -
im Gesundheitswesen, z.B. Krebsregistern, eingesetzt wird.               German Modification. Deutsche Krankenhaus
                                                                         Verlags-Gesellschaft, (2004)
  Da das vorgestellte Thema durch zwei Projekte mit Kli-             [4] DIMDI - Deutsches Institut für Medizinische
nikdaten motiviert wurde, bei denen sich der Semantic Shift              Dokumentation und Information: ICD-10-GM Version
als problematisch erwiesen hatte, soll das Konzept in diesen             2006. Systematisches Verzeichnis. Deutsche
evaluiert werden. Dabei handelt es sich zum einen um Da-                 Krankenhaus Verlags-Gesellschaft, (2005).
ten deutscher Kliniken der Jahre 2006 bis 2010. Hier sollen          [5] DIMDI - Deutsches Institut für Medizinische
Fragen der Versorgungsforschung auf einer feingranularen                 Dokumentation und Information: ICD-10-GM Version
Ebene ausgewertet werden, was bisher nicht möglich war.                 2007. Band I: Systematisches Verzeichnis. Deutsche
Zum anderen geht es in einem Forschungsprojekt der EU                    Krankenhaus Verlags-Gesellschaft, (2006)
darum, für spezielle Herzschrittmacherpatienten statistisch         [6] DIMDI - Deutsches Institut für Medizinische
valide Muster zu identifizieren, die in historischen Patien-             Dokumentation und Information: ICD-10-GM Version
tendaten früherer Fälle enthalten sind. Die Patientendaten             2011: Band I: Systematisches Verzeichnis. Deutsche
stammen dabei aus den Jahren 2006 bis 2011 eines österrei-              Krankenhaus Verlags-Gesellschaft, (2010)
chischen Universitätsklinikums, in dem später die Anwen-           [7] Eder, J, Koncilia, C., Morzy, T.,: The COMET
dung erfolgt. Hier liegt der Fokus darauf, alte Codierungen              Metamodel for Temporal Data Warehouses. In Proc. of
akkurat unter die aktuellste Version zu subsumieren, damit               the 14th Int. Conference on Advanced Information
die Muster auf aktuelle Fälle angewendet werden können.                Systems Engineering (CAISE02), pp. 83–99.Springer
                                                                         Verlag (LNCS) (2002)
5.   ZUSAMMENFASSUNG                                                 [8] Golfarelli, M., Lechtenbörger, J., Rizzi, S., Vossen, G.:
   Dieses Paper stellt einen Ansatz vor, der akkurate Da-                Schema versioning in data warehouses: enabling
tenanalysen in einem Analytischen Informationssystem über               cross-version querying via schema augmentation. In
sich ändernde Datengrundlagen ermöglicht. Die Datenände-              DataKnowl. Eng., 59(2):435–459, 2006. Elsevier Science
rungen können dabei sowohl syntaktischer als auch seman-                Publishers B. V., Amsterdam, (2006)
tischer Natur sein. Änderungen der Daten werden dabei als           [9] Inmon, W. H.: Building the data warehouse (2nd ed.).
verbindende Kanten zwischen verschiedenen Versionen einer                John Wiley & Sons, Inc.,New York, NY, USA, (1996)
Dimension modelliert und diese Dimensionen dabei als Gra-            [10] Inmon, W. H., Strauss, D., Neushloss, G.: DW 2.0:
phenstruktur aufgefasst. Durch die Interpretation der Ver-               The Architecture for the Next Generation of Data
bindungen zum Zeitpunkt einer Analyseanfrage, werden die                 Warehousing. Morgan Kaufmann Publishers Inc., San
möglichen Evolutionspfade identifiziert. Die Evolutionspfa-             Francisco, CA, USA, (2008)
de repräsentieren dabei domänspezifisches Hintergrundwis-          [11] Kimball, R.: Slowly Changing Dimensions. In DBMS
sen, wie z.B. die Bedeutungsänderung von Werten, den Se-                online, http://www.dbmsmag.com/9604d05.html (1996)
mantic Shift. Der Nutzer kann dieses Hintergrundwissen vi-           [12] Koncilia; C. A.: The COMET Temporal Data
suell erfassen und sich für einen geeigneten Evolutionspfad             Warehouse. PhD thesis, Universität Klagenfurt (2002)
entscheiden. Die Analyseanfrage wird dann zur Anfragezeit            [13] Teiken, Y., Rohde, M., Mertens, M.: Mustang -
so umgewandelt, dass die Daten ad-hoc unter die gewähl-                 Realisierung eines analytischen informationssystems im
te Bedeutung des Evolutionspfads transformiert werden. Da                kontext der gesundheitsberichtserstattung. In K.-P.
die Evolutionspfade so berechnet werden, dass Sie inhaltlich             Fähnrich and B. Franczyk, editors, GI Jahrestagung
identische und vergleichbare Mengen repräsentieren, sind die            (1), volume 175 of LNI, pages 253–258. GI, (2010)
Anfrageergebnisse akkurat. Dies wird dadurch ermöglicht,
dass die Daten in ihrem Originalformat gespeichert und die
Transformationsregeln nur gespeichert aber nicht direkt auf          APPENDIX
die Daten angewendet werden. Mit dem vorgestellten Modell            A.    ACKNOWLEDGMENTS
und den dazugehörenden Methoden sind keine verlustbehaf-
teten Datentransformationen oder Abschätzungen notwen-                The research leading to these results has received in part
dig.                                                                 funding from the European Community’s Seventh Frame-
                                                                     work Programme (FP7/ 2007-2013) under grant agreement
                                                                     no. ICT-248240, iCARDEA project.
6.   REFERENCES
[1] Appelrath, H.-J., Rohde, M. , Thoben, W. , OFFIS
    e.V., MUSTANG - Multidimensional Statistical Data
    Analysis Engine:
    http://www.offis.de/en/offis_in_portrait/
    structure/projects/detail/status/mustang.html,
    (2011)
[2] Bauer, A., Günzel, H.: Data Warehouse Systeme.
    dpunkt.verlag, 3. überarbeitete und aktualisierte
    Auflage, (2009)
[3] DIMDI - Deutsches Institut für Medizinische
    Dokumentation und Information: ICD-10-GM 2005




                                                                41