=Paper=
{{Paper
|id=None
|storemode=property
|title=Ad-hoc Datentransformationen für Analytische Informationssysteme
|pdfUrl=https://ceur-ws.org/Vol-733/paper_luepkes.pdf
|volume=Vol-733
|dblpUrl=https://dblp.org/rec/conf/gvd/Lupkes11
}}
==Ad-hoc Datentransformationen für Analytische Informationssysteme==
<pdf width="1500px">https://ceur-ws.org/Vol-733/paper_luepkes.pdf</pdf>
<pre>
              Ad-hoc Datentransformationen für Analytische
                         Informationssysteme

                                                         Christian Lüpkes
                                                    OFFIS - Institut für Informatik
                                                           Escherweg 2
                                                   26121 Oldenburg, Deutschland
                                                  christian.luepkes@offis.de

ABSTRACT                                                                   ganisierten Taxonomien, sogenannten Dimensionen, gespei-
Beim Betrieb von Data Warehouse Systemen kann es zu ei-                    chert. Dimensionen beschreiben, wie die Daten analysiert
nem Semantic Shift kommen. Dieser bezeichnet eine Verän-                  werden können.
derung der Bedeutung von Dimensionselementen und kann                          Das Data Warehouse ist dabei nach der Definition von
bei Nichtbeachtung zu Informationsverlust und fachlich in-                 Inmon eine themenorientierte, integrierte, stabile Sammlung
korrekten Analyseergebnissen führen. In dieser Arbeit wird                zeitbezogener Daten, welche als Datenbasis zur Analyse dient
ein graph-basierter Ansatz vorgeschlagen, welcher die Ände-               [9]. Data Warehouses haben also immer einen Zeitbezug, bie-
rungen zwischen Dimensionen als Überleitungen verwalten                   ten aber keine hochentwickelten Konzepte, um mit Änderun-
und für Analysen zur Verfügung stellen kann. Dadurch wird                gen in den Metadaten über die Zeit umzugehen. Klassisch
es möglich, Anfragen in Analytischen Informationssystemen                 wird davon ausgegangen, dass die Metadaten über die Zeit
unter Berücksichtigung eventueller Semantic Shifts zu be-                 weitgehend stabil sind [7] [11]. Falls die Metadaten in Einzel-
antworten. Dieser Ansatz verzichtet dabei auf eine kennzahl-               fällen doch angepasst werden müssen, werden die gespeicher-
basierte Approximation und nutzt die Überleitungen klassi-                ten Daten einfach den neuen Metadaten entsprechend umco-
scher Adaptionsverfahren. Der eingeführte Ansatz wird kri-                diert, die sogenannte Instanzadaption [2] [11]. Der Nachteil
tisch hinsichtlich bestehender Ansätze diskutiert und exem-               dieses Ansatzes ist, dass beim Umcodieren üblicherweise ein
plarisch in verschiedenen Domänen durchgeführt.                          Informationsverlust entsteht. Zudem wird durch die Ände-
                                                                           rung der Metadaten und die Instanzadaption eine Wieder-
                                                                           holung früherer Anfragen unmöglich. Außerdem besteht bei
Categories and Subject Descriptors                                         klassischen Systemen keine Möglichkeit die spezifischen In-
H.2.7 [Database Management]: Administration — Da-                          formationen der Metadatenänderungen zu speichern, da die
ta warehouse and repository; H.2.8 [Database Manage-                       Metadaten selbst nicht zeitbezogen gespeichert werden [12].
ment]: Applications; H.4 [Information Systems Appli-
cations]: Miscellaneous
                                                                           2.   PROBLEMBESCHREIBUNG
                                                                              Um das identifizierte Problem des Semantic Shift bei Da-
General Terms                                                              tenanalysen zu verdeutlichen, soll an dieser Stelle zunächst
Design, Data Analysis                                                      ein Beispiel aus der Arbeit des Autors im deutschen Ge-
                                                                           sundheitswesen gegeben werden. Dort werden alle Diagno-
Keywords                                                                   sen nach der ICD-Klassifikation, der International Statisti-
                                                                           cal Classification of Diseases and Related Health Problems,
Data warehouse, Schema Versioning, OLAP, Temporal Data                     codiert. Die Klassifikation selbst beinhaltet sowohl beschrei-
Warehouse                                                                  bende als auch ordnende Metadaten und wird als Dimension
                                                                           zur Datenanalyse verwendet. Die deutsche Modifikation der
1.   EINLEITUNG                                                            WHO-ICD, ICD-GM (German Modifikation), wird dabei je-
  Die am meisten verwendete Architektur für Analytische                   des Jahr durch eine Expertengruppe des DIMDI, Deutsches
Informationssysteme ist die des Data Warehouses mit Me-                    Institut für Medizinische Dokumentation und Information
tadaten, welche die gespeicherten Daten beschreiben und ei-                aktualisiert [3] [4] [5].
ner auf diesen Metadaten aufbauender Auswertungssoftwa-                       Die Aktualisierungen bestehen darin, dass neu identifi-
re. Die Metadaten werden dabei in streng hierarchisch or-                  zierte Erkrankungen einen Code zugewiesen bekommen, Er-
                                                                           krankungen zusammengefasst werden oder einzelne Krank-
                                                                           heitsbereiche neu unterteilt werden. So wurde zum Beispiel
                                                                           im Jahr 2006 der Code J09 für die neu identifizierte Vogel-
                                                                           grippe eingeführt.
                                                                              Um die Daten zwischen den Jahren transformieren zu kön-
                                                                           nen, stellt das DIMDI zusätzlich sogenannte Überleitungen
                                                                           in einem Datenbankformat zur Verfügung. In den Abbildun-
                                                                           gen 1 und 2 sind diese exemplarisch in Ausschnitten für die
23rd GI-Workshop on Foundations of Databases (Grundlagen von Daten-
banken), 31.05.2011 - 03.06.2011, Obergurgl, Austria.                      Jahre 2005 bis 2007 gezeigt. Der Buchstabe A zeigt dabei
Copyright is held by the author/owner(s).                                  an, ob eine Überführung automatisch in der durch die Spal-


                                                                      37
                                                                              2005                        2006                     2007
  icd_code2005   icd_code2006   auto2005_2006 auto2006_2005
  J10.0          J10.0          A             A                                   J10                    J09-J10                  J09-J10
  J10.0          J09                          A
  J10.1          J10.1          A             A
                                                                                           J10.8
                                                                                           J10.0   J09              J10.8
                                                                                                                    J10.0                     J10.8
                                                                                                                                              J10.0
  J10.8          J10.8          A             A                                                                             J09

                                                                          J10.0
                                                                          J10.8         J10.1        J10.0
                                                                                                     J10.8       J10.1        J10.0
                                                                                                                              J10.8       J10.1

Abbildung 1: Ausschnitt der offiziellen ICD Über-
leitungen zwischen den Jahren 2005 und 2006
                                                                        Abbildung 4: Darstellung dreier Teilgraphen der
                                                                        ICD-GM Metadaten für Influenzaviren und deren
tenüberschrift festgelegten Richtung möglich ist.                     Überleitung über die Jahre 2005 bis 2007

  icd_code2006   icd_code2007   auto2006_2007 auto2007_2006
  J09            J09            A             A                         ist dies unproblematisch, da es keinerlei Änderungen in der
  J10.0          J10.0          A             A                         Datenbeschreibung gab; zu erkennen an der Existenz der bi-
  J10.1          J10.1          A             A                         jektiven Kanten zu den gleichen Knoten jedes Jahres. Das
  J10.8          J10.8          A             A                         Problem des Semantic Shift tritt auf, wenn J10.0 für die
                                                                        Jahre 2005 bis 2007 untersucht werden soll. Es ist nicht ein-
Abbildung 2: Ausschnitt der offiziellen ICD Über-                      deutig, welche Bedeutung von J10.0 verwendet werden soll.
leitungen zwischen den Jahren 2006 und 2007                             Falls die Bedeutung des Codes J10.0 vom Jahr 2005 beab-
                                                                        sichtigt ist, sollte für die Folgejahre auch der Code J09 be-
   Im Jahr 2005 auf 2006 ist es zum Beispiel möglich, den              rücksichtigt werden. Falls die Semantik von 2006 oder 2007
Code J10.0 zwischen den Jahren umzucodieren. Allerdings                 gemeint ist, muss dem menschlichen Analysten bewusst sein,
gibt es noch einen zweiten Eintrag von J10.0 auf J09 bei                dass es eine inhaltliche Änderung vom Jahr 2005 zu 2006 für
dem nur eine Umcodierung von 2006 auf 2005 zugelassen                   J10.0 gab auch wenn die Daten syntaktisch identisch sind
ist.                                                                    und Transitionen in beide Richtungen existieren.
   In Analytischen Informationssystemen werden die Daten                   Das analysespezifische Hintergrundwissen des Fachexper-
meist nach der aktuellsten ICD-Definition gespeichert. Da-              ten ist, dass J10.0 ein Sammelknoten für nicht genauer be-
ten aus dem Jahr 2005 würden also im Jahr 2006 und 2007                stimmte Influenzaviren ist. Wie bereits oben erwähnt, wurde
umcodiert. Entsprechend den Überleitungsregeln aus den                 in 2006 die Vogelgrippe identifiziert und als neuer Code J09
Abbildungen 1 und 2 würde der Wert J10.0 syntaktisch                   eingefügt. Dadurch wurde die Bedeutung von J10.0 als al-
gleich bleiben und nicht umcodiert werden.                              le unbestimmten Influenzaviren zwar nicht verändert, aber
   Eine typische Anfrage wäre nun der Art Zeig mir die                 verglichen mit 2005 fehlen nun die Vogelgrippefälle. Für sta-
                                              ”                         tistische Analysen auf solch einer feingranularen Ebene wür-
jährliche Summe aller behandelten J10.0 Patienten der Jah-
re 2005, 2006 und 2007“ welche das in Abbildung 3 gezeigte              den daher fehlerhafte Ergebnisse geliefert. Bei einer Analyse
Ergebnis liefert. Im Jahr 2006 gab es also im Vergleich zum             auf den Elternknoten J10 des Jahres 2005 oder J09-J10 der
Vorjahr eine Abnahme von J10.0 Patienten die sich im Jahr               Jahre 2006 und 2007 wären die Resultate korrekt, da alle
2007 noch deutlicher fortsetzt.                                         Transformationskanten auf Kindknoten verweisen.
                                                                           Für die Ergebnisse in Abbildung 3 bedeutet dies, dass die
                                                                        Abnahme der J10.0 Erkrankungen auch darin begründet
   Summe der behandelten J10.0 Patienten nach Jahr
                                                                        liegt, dass Krankheitsfälle in J09 codiert wurden, die vorher
                                                                        in J10.0 enthalten waren.
            2005           2006           2007
           18347          17913          17548                          2.2        Weitere Domänen
                                                                          Der Semantic Shift kann nicht nur in der medizinischen
Abbildung 3: Summe aller behandelten J10.0 Pati-                        Dokumentation beobachtet werden, sondern auch in anderen
enten der Jahre 2005, 2006 und 2007                                     Bereichen. So kann man z.B. für die Entwicklung der Länder
                                                                        Europas von 1988 bis 2000 bedingt durch den Zusammen-
                                                                        bruch des Warschauer Pakts ähnliches feststellen. Allerdings
2.1    Darstellung als Graph                                            muss dort beachtet werden, dass es sich bei den abgeleiteten
   In Abbildung 4 ist exemplarisch ein Ausschnitt der ICD-              und angepassten Metadaten nicht um gesetzlich vorgegebene
Klassifikation für nachgewiesene sonstige Influenzaviren der           Dimensionsstrukturen handelt, sondern um von Fachexper-
Jahre 2005 bis 2007 abgebildet. Der Graph repräsentiert da-            ten erstellte Dimensionen. Dies ist der Normalfall bei Da-
bei die offizielle Taxonomie der ICD Codes und die gerichte-            ta Warehouses. Die Dimension soll alle Länder im Herzen
ten Kanten repräsentieren die offiziell als gültig definierten        Europas widerspiegeln. Bis zum Jahr 1991 gab es die bei-
Transformationsregeln für Umcodierugnen der drei abgebil-              den eigenständigen deutschen Staaten BRD und DDR. In
deten Jahre 2005, 2006 und 2007, wie sie in den Tabellen                der Dimension wären diese dann als Blätter verfügbar. Mit
der Abbildungen 1 und 2 definiert sind.                                 der Wiedervereinigung wird das Blatt DDR gelöscht und
   In einem Data Warehouse werden die zu analysierenden                 die dazugehörigen Daten der BRD zugeordnet. Der Begriff
Daten in der Regel auf der feinsten verfügbaren Klassifika-            BRD ist also syntaktisch gleich geblieben, beschreibt nun
tionsstufe vorgehalten. Veranschaulicht handelt es sich also            aber einen deutlich größeren Bereich.
um die Ausprägungen der Blätter. Falls eine Analyse der                 Würde man die Daten der BRD betrachten, so könnte
Erkrankungen J10.1 oder J10.8 durchgeführt werden soll,                man z.B. in 1991 eine deutliche Steigerung der Einwohner-


                                                                   38
zahl feststellen. Dies wäre aber nicht durch hohe Geburtsra-                        Die am weitest gehende Lösung für das präsentierte Pro-
ten begründet, sondern durch die größere betrachtete Fläche                    blem wurde 2002 in [12] veröffentlicht. Ein formales Tem-
infolge der Wiedervereinigung mit der DDR.                                        poral-Modell für die Beschreibung von Änderungen in den
   Die umgekehrte Richtung kann man bei der Tschechoslo-                          Dimensionen wurde dazu eingeführt [7]. Es wurden entspre-
wakei beobachten. Bis 1990 war es die ČSSR, dann wurde                           chende Transformationsfunktionen definiert, welche die er-
das gleiche Land umbenannt in ČSFR und im Jahr 1992                              laubten Datenänderungen beschreiben. Der Ansatz ermög-
aufgeteilt in die zwei Staaten Slowakei SR und Tschechien                         licht dabei Anfragen über verschiedene Versionen der Di-
ČR. Für den letzt genannten Fall würde in der Dimension                        mensionen hinweg, indem die Daten zur Anfragezeit adap-
ein Blatt gelöscht und dafür zwei neue Blätter eingefügt. Die                 tiert werden. Der Nachteil des Ansatzes liegt in der Realisie-
dazugehörige Transformationsregel wäre, dass es keine Mög-                     rung der Instanzadaption durch die Verwendung von Matri-
lichkeit gibt, ČSFR auf SR und ČR abzubilden, wohl aber                         zenmultiplikation. Jeder Wert einer Dimensionsversion muss
in der Gegenrichtung.                                                             von Fachexperten mit einem Koeffizienten versehen werden,
                                                                                  der aussagt wie ähnlich der Wert dem Nachfolger in der ver-
       1989                  1990             1991               1992             bundenen Dimensionsversion ist. Dies erlaubt eine Abschät-
       Alle                  Alle             Alle               Alle             zung, um den Semantic Shift zu lösen. Jedoch hat dies zwei
                                                                                  Nachteile. Zum einen muss der Koeffizient für jede Verwen-
                CSSR                  CSFR           CSFR   CR          SR
                                                                                  dung der Dimension in einer Kennzahl individuell angege-
                                                                                  ben werden, da sich die Koeffizienten für z.B. Erkrankungs-
 BRD          DDR      BRD          DDR      BRD                 BRD
                                                                                  und Sterberisiko unterschiedlich verhalten und deshalb die
                                                                                  Koeffizienten nicht für alle Analysen gleich sind. Zum ande-
                                                                                  ren wird das in den Transformationsdaten inhärente Wissen
Abbildung 5: Darstellung von vier Ausschnitten ei-                                nicht dazu genutzt, genaue anstatt approximierten Ergeb-
ner Länderdimension für die Jahre 1989 bis 1992                                 nissen zu liefern.
und deren Überleitungen

  Die graph-basierte Visualisierung der beschriebenen Di-
                                                                                  4.   DER GRAPH-BASIERTE ANSATZ
mensionsentwicklung ist in Abbildung 5 zusehen. Dazu muss                            Wie in der Problembeschreibung ausgeführt und in den
gesagt werden, dass der Aufbau und die Entwicklung der Di-                        Abbildungen 4 und 5 veranschaulicht, lassen sich Dimensio-
mension von Fachexperten für Analysezwecke durchgeführt                         nen als streng hierarchische Bäume mit einem Wurzelknoten
wurde. Die Dimensionen und Transformationen hätten auch                          darstellen. Die Blätter repräsentieren dabei in der Regel die
auf andere Arten modelliert werden können.                                       im Data Warehouse speicherbaren Werte. Falls Analysen auf
                                                                                  den Elternknoten durchgeführt werden sollen, werden diese
                                                                                  standardmäßig aus den Kindelementen berechnet [2].
3.     EXISTIERENDE LÖSUNGANSÄTZE                                                    Bei den Dimensionen handelt es sich um von Fachexper-
   Der erste Lösungsansatz für das Problem der sich ändern-                    ten modellierte Metadaten, die nur zu bestimmten Zeitpunk-
den Dimensionen wurde 1993 von Kimball postuliert [11].                           ten geändert werden. Deshalb ist es möglich, die Änderun-
Die Lösung besteht in der Umcodierung der Daten nach der                         gen einer Dimension zusammen mit einer Versionsnummer
jeweilig neuesten Dimensionsbeschreibung. Dies kann dabei                         zu speichern. Dieser Ansatz zur Beschreibung der zeitlichen
in drei verschiedenen Arten geschehen. Der Type 1 Ansatz                          Entwicklung wurde auch von [12] und [8] verfolgt. Anders
überschreibt die alten Werte mit den neuen, umcodierten                          aber als bei [11] soll keine Instanzadaption mit Informati-
Werten. Die Type 2 und Type 3 Ansatz behält die alten                            onsverlust vorgenommen werden, sondern die Transformati-
Werte zusätzlich bei. Auf diese Weise können alte Werte in                      onsregeln als gerichtete Kanten zwischen den Blättern zweier
die neue Dimension transformiert, bzw. eingebunden wer-                           Dimensionsversionen gespeichert werden. Es wird verlangt,
den. Der Nachteil aller dieser Ansätze ist aber, dass sie nicht                  dass jede neue Version einer Dimension Transformationsre-
in der Lage sind mit dem Semantic Shift syntaktisch gleicher                      geln zu mindestens einem Vorgänger definiert. Dies ist keine
Ausprägungen umzugehen. Es gibt also keine Unterstützung                        Einschränkung, da es beim Fehlen von Transformationsre-
für Datenanalysen, die über verschiedene Versionen der Di-                      geln nicht um einen Nachfolger der Dimension sondern um
mensionen hinausgehen, wenn sich die Bedeutung der Daten                          eine vollständig neue, andere Dimension handelt.
geändert hat.                                                                       Bei einer Anfrage an das Analytische Informationssystem
   Das Problem der Anfragen über mehrere Dimensionsver-                          soll ein Interpreter zwischen den Anwender und das Auswer-
sionen wurde 2006 in [8] als graphentheoretisches Problem                         tungssystem geschaltet werden. Dieser Interpreter wertet die
diskutiert. Dabei wurden die Metadaten als sogenannte Sche-                       Transformationsregeln aus und stellt fest, ob in dem ange-
magraphen repräsentiert. Für die Graphen wurden erlaub-                         fragten Zeitraum für die auszuwertenden Daten eine Ände-
te Modifikationen definiert, welche die potentiellen Ände-                       rung stattgefunden hat. Wenn dies nicht der Fall ist, wird
rungen der Dimensionen wiedergeben. Wird eine Dimension                           die Anfrage ohne Nutzerinteraktion und ohne Änderungen
durch eine Modifikation geändert, wird dies als neue Versi-                      durchgeführt. Falls jedoch zwei oder mehrere Dimensions-
on in einem Graphen gespeichert. Basierend auf einer Gra-                         versionen von der Anfrage betroffen sind, wird der Interpre-
phenalgebra ist es dadurch möglich, Anfragen über verschie-                     ter mittels der ein- und ausgehenden Kanten der Knoten
dene Dimensionsversionen hinweg zu stellen. Diesem Ansatz                         prüfen, ob auf zusätzliche Knoten über die Kanten zuge-
fehlt zum einen der Umgang mit dem Semantic Shift der Da-                         griffen werden kann. Wenn die Knoten für den gewünschten
ten. Zum anderen erscheint er nicht praxisgerecht, da für his-                   Zeitraum stabil sind, wird dem Nutzer die Veränderung der
torische Daten neu hinzugekommene Angaben nachträglich                           Dimension für seinen angefragten Ausschnitt als sogenann-
eingepflegt werden müssen, um Vergleiche über verschiedene                      ter Evolutionspfad angezeigt.
Versionen zu ermöglichen.                                                           Da es nicht beabsichtigt ist, die Definition der Transfor-


                                                                             39
mationsregeln auf genau einen Vorgänger und Nachfolger                Dimensionsversionen unter einem Elternelement sind, wird
zu beschränken, kann es durchaus mehrere unterschiedliche             davon ausgegangen, dass die Elternelemente gleich sind. Die
Evolutionspfade geben, die zu unterschiedlichen Mengen von             Anfrage wird dann direkt ausgeführt. Sollte es in irgendei-
Knoten führen. Deswegen sollen die gefunden Evolutions-               nem gültigen Evolutionspfad eines beliebigen Kindes meh-
pfade dem anfragenden Nutzer angezeigt werden, der dann                rere Elternknoten geben, würden dem Anwender wieder die
den für seine Anfrage geeignetsten auswählen kann. Dabei             verschiedenen Optionen wie bei den Einzelelementen ange-
ist festzustellen, dass die Bedeutung der Evolutionspfade              zeigt. Der Anwender wird also immer über Bedeutungsände-
immer der modellierten Realwelt einer Dimensionsversion                rungen und Systembrüche automatisch graphisch informiert
entspricht. Dies führt dazu, dass die Daten dann ad-hoc               und kann die für seine Zwecke geeignete Anfrage auswählen.
zum Anfragezeitpunkt unter die ausgewählte Dimensions-
version transformiert werden. Die Datentransformation ist              4.2   Vorteile des Ansatzes
allerdings keine Instanzadaption, sondern eine Transforma-               Es wird erwartet und angestrebt, dass der vorgestellte An-
tion eines Wertes auf eine Menge von Werten.                           satz die folgenden Vorteile bietet:

4.1      Beispiel der Lösungsidee                                         • Durch den graphenbasierten Ansatz, der auf eine kenn-
   Falls der Nutzer eine Anfrage der Art Gib mir die Summe                  zahlabhängige Approximation verzichtet, ist es mög-
                                         ”                                  lich die Überführungsregeln für alle Analyseanfragen
aller behandelten J10.0 Patienten der Jahre 2005 bis 2007“
stellt, wird der Interpreter die Werte J10.0 und die ICD-GM                 zu verwenden, welche die Dimension beinhaltet. Dies
Dimensionsversionen 2005, 2006 und 2007 identifizieren. Den                 ist eine deutliche Erweiterung gegenüber [12].
Transformationsregeln in Abbildung 4 folgend, wird der In-
                                                                          • Da die Überfühungsregeln auch in klassischen Adap-
terpreter zwei verschiedene Arten von J10.0 feststellen: Die
                                                                            tionsverfahren wie [11] benötigt werden, ist kein zu-
Version 2005 hat zwei eingehende Kanten aus der Version
                                                                            sätzlicher Arbeitsaufwand der Fachexperten notwen-
2006, einmal vom J10.0 als auch vom J09 Knoten. Der In-
                                                                            dig, um die Kanten bereit zustellen.
terpreter kann also feststellen, dass der Knoten J10.0 Ver-
sion 2005 geteilt wurde. Nun prüft der Interpreter die iden-             • Durch den graphenbasierten Ansatz ist es bei meh-
tifizierten Knoten des Jahres 2006 und findet zusätzlich nur               reren Überleitungsregeln pro Dimensionsversion mög-
bidirektionale Kanten zu den Knoten des Jahre 2007, was                     lich, gröbere Versionen einer Dimension zu übersprin-
bedeutet, dass keine Änderung stattgefunden hat.                           gen. Gröber meint dabei, dass Fehlen einzelner Kno-
                                                                            ten, die in späteren Versionen wieder eingefügt wur-
  2005                   2006                      2007                     den. Bei einer Umcodierung des Datenbestandes wäre
                                J10.0
                                                                            dies ein irreversiebler Informationsverlust.
 J10.0             J09                       J09          J10.0
                                                                          • Der Import und die Haltung der Daten wird verein-
                                                                            facht, da die Daten in ihrer originären Version gespei-
Abbildung 6: Lösungsvorschlag mit Erweiterung der                          chert werden können. Die Daten müssen nicht in eine
Anfragemenge, Konzept J10.0 Version 2005                                    einzige Version umcodiert werden.
                                                                          • Da der Nutzer zwischen verschiedenen inhaltlichen In-
              2006                       2007
                                                                            terpretationen eines Wertes wählen kann, ist das An-
                                                                            fragesystem mächtiger als klassische Systeme. Zudem
              J10.0                     J10.0
                                                                            erlaubt dies die Wiederholung historischer Analysen,
                                                                            da die Datenbasis nicht umcodiert und die Dimensions-
                                                                            daten genauso erhalten bleiben.
Abbildung 7: Lösungsvorschlag mit Beschränkung
des Anfragebereichs, Konzept J10.0 Version 2006                        4.3   Zu untersuchende Fragestellungen
und 2007                                                                  Um sicherzustellen, dass ein Data Warehouse zusammen
                                                                       mit einer OLAP Analyse Anwendung die vorgestellten Funk-
   Dem Nutzer wird als Zwischenergebnis seiner Anfrage mit-            tionen und insbesondere Vorteile erfüllen kann, muss unter-
geteilt, dass zwei verschiedene Interpretationen von J10.0             sucht werden, welche Konsistenzbedingungen die Überlei-
für den Zeitraum 2005 bis 2007 identifiziert wurden. Es wer-          tungsregeln als auch die Metadaten einhalten müssen. Zu-
den dann diese zwei verschiedenen Evolutionspfade zur Aus-             dem sind die Anforderungen an die Datenrepräsentation und
wahl angeboten: In Abbildung 6 wird die Erweiterung der                Speicherung der Transformationsregeln und zusätzlichen Ver-
Anfrage für die Jahre 2006 und 2007 um den Wert J09 vor-              sionsinformationen in den Metadaten als auch der Daten-
geschlagen, damit die Anfrage der Bedeutung von J10.0 im               haltung zu untersuchen. Ein weiterer Bereich ist, wie sich
Jahr 2005 entspricht. Die zweite angebotene Lösung ist in             die Methoden auf verschieden Datenarten (Integer, Boolean,
Abbildung 7 zu sehen. Hier wird die Bedeutung von J10.0                Nominal) als auch verschiedene Analyse Operationen (Sum,
der Jahre 2006 und 2007 vorgeschlagen.                                 Max, Min, Average) anwenden lassen. Da in Analysen auch
   Werden Anfragen auf höheren Ebenen der Dimension, wie              oft mehrere verschiedene Dimensionen genutzt werden, muss
z.B. die Gib mir die Summer aller behandelten Fälle von               als letzter wichtiger Punkt noch die Anwendbarkeit auf meh-
  Grippen durch nachgewiesene Influenzaviren“ welche dem               rere Dimensionen durchdacht werden.
”
ICD Gruppencode J10 des Jahres 2005 bzw. J09-J10 der
Jahre 2006 und 2007 entspricht, ist dies auch ohne wei-                4.4   Evaluation
teres möglich. Für alle Kindelemente von J10 werden die               Um den Ansatz mit seinen Konzepten und festgelegten
Evolutionspfade ausgewertet. Da alle Kindelemente in den               Anforderungen zu evaluieren, wird ein Prototyp auf Basis


                                                                  40
von MUSTANG - Multidimensional Statistical Data Analy-                   Systematisches Verzeichnis. Systematisches Verzeichnis
sis Engine [1] [13] umgesetzt werden. Dies ist ein kommerzi-             zur Internationalen statistischen Klassifikation der
elles Daten Analyse Tool, welches insbesondere für Analysen             Krankheiten und verwandter Gesundheitsprobleme -
im Gesundheitswesen, z.B. Krebsregistern, eingesetzt wird.               German Modification. Deutsche Krankenhaus
                                                                         Verlags-Gesellschaft, (2004)
  Da das vorgestellte Thema durch zwei Projekte mit Kli-             [4] DIMDI - Deutsches Institut für Medizinische
nikdaten motiviert wurde, bei denen sich der Semantic Shift              Dokumentation und Information: ICD-10-GM Version
als problematisch erwiesen hatte, soll das Konzept in diesen             2006. Systematisches Verzeichnis. Deutsche
evaluiert werden. Dabei handelt es sich zum einen um Da-                 Krankenhaus Verlags-Gesellschaft, (2005).
ten deutscher Kliniken der Jahre 2006 bis 2010. Hier sollen          [5] DIMDI - Deutsches Institut für Medizinische
Fragen der Versorgungsforschung auf einer feingranularen                 Dokumentation und Information: ICD-10-GM Version
Ebene ausgewertet werden, was bisher nicht möglich war.                 2007. Band I: Systematisches Verzeichnis. Deutsche
Zum anderen geht es in einem Forschungsprojekt der EU                    Krankenhaus Verlags-Gesellschaft, (2006)
darum, für spezielle Herzschrittmacherpatienten statistisch         [6] DIMDI - Deutsches Institut für Medizinische
valide Muster zu identifizieren, die in historischen Patien-             Dokumentation und Information: ICD-10-GM Version
tendaten früherer Fälle enthalten sind. Die Patientendaten             2011: Band I: Systematisches Verzeichnis. Deutsche
stammen dabei aus den Jahren 2006 bis 2011 eines österrei-              Krankenhaus Verlags-Gesellschaft, (2010)
chischen Universitätsklinikums, in dem später die Anwen-           [7] Eder, J, Koncilia, C., Morzy, T.,: The COMET
dung erfolgt. Hier liegt der Fokus darauf, alte Codierungen              Metamodel for Temporal Data Warehouses. In Proc. of
akkurat unter die aktuellste Version zu subsumieren, damit               the 14th Int. Conference on Advanced Information
die Muster auf aktuelle Fälle angewendet werden können.                Systems Engineering (CAISE02), pp. 83–99.Springer
                                                                         Verlag (LNCS) (2002)
5.   ZUSAMMENFASSUNG                                                 [8] Golfarelli, M., Lechtenbörger, J., Rizzi, S., Vossen, G.:
   Dieses Paper stellt einen Ansatz vor, der akkurate Da-                Schema versioning in data warehouses: enabling
tenanalysen in einem Analytischen Informationssystem über               cross-version querying via schema augmentation. In
sich ändernde Datengrundlagen ermöglicht. Die Datenände-              DataKnowl. Eng., 59(2):435–459, 2006. Elsevier Science
rungen können dabei sowohl syntaktischer als auch seman-                Publishers B. V., Amsterdam, (2006)
tischer Natur sein. Änderungen der Daten werden dabei als           [9] Inmon, W. H.: Building the data warehouse (2nd ed.).
verbindende Kanten zwischen verschiedenen Versionen einer                John Wiley & Sons, Inc.,New York, NY, USA, (1996)
Dimension modelliert und diese Dimensionen dabei als Gra-            [10] Inmon, W. H., Strauss, D., Neushloss, G.: DW 2.0:
phenstruktur aufgefasst. Durch die Interpretation der Ver-               The Architecture for the Next Generation of Data
bindungen zum Zeitpunkt einer Analyseanfrage, werden die                 Warehousing. Morgan Kaufmann Publishers Inc., San
möglichen Evolutionspfade identifiziert. Die Evolutionspfa-             Francisco, CA, USA, (2008)
de repräsentieren dabei domänspezifisches Hintergrundwis-          [11] Kimball, R.: Slowly Changing Dimensions. In DBMS
sen, wie z.B. die Bedeutungsänderung von Werten, den Se-                online, http://www.dbmsmag.com/9604d05.html (1996)
mantic Shift. Der Nutzer kann dieses Hintergrundwissen vi-           [12] Koncilia; C. A.: The COMET Temporal Data
suell erfassen und sich für einen geeigneten Evolutionspfad             Warehouse. PhD thesis, Universität Klagenfurt (2002)
entscheiden. Die Analyseanfrage wird dann zur Anfragezeit            [13] Teiken, Y., Rohde, M., Mertens, M.: Mustang -
so umgewandelt, dass die Daten ad-hoc unter die gewähl-                 Realisierung eines analytischen informationssystems im
te Bedeutung des Evolutionspfads transformiert werden. Da                kontext der gesundheitsberichtserstattung. In K.-P.
die Evolutionspfade so berechnet werden, dass Sie inhaltlich             Fähnrich and B. Franczyk, editors, GI Jahrestagung
identische und vergleichbare Mengen repräsentieren, sind die            (1), volume 175 of LNI, pages 253–258. GI, (2010)
Anfrageergebnisse akkurat. Dies wird dadurch ermöglicht,
dass die Daten in ihrem Originalformat gespeichert und die
Transformationsregeln nur gespeichert aber nicht direkt auf          APPENDIX
die Daten angewendet werden. Mit dem vorgestellten Modell            A.    ACKNOWLEDGMENTS
und den dazugehörenden Methoden sind keine verlustbehaf-
teten Datentransformationen oder Abschätzungen notwen-                The research leading to these results has received in part
dig.                                                                 funding from the European Community’s Seventh Frame-
                                                                     work Programme (FP7/ 2007-2013) under grant agreement
                                                                     no. ICT-248240, iCARDEA project.
6.   REFERENCES
[1] Appelrath, H.-J., Rohde, M. , Thoben, W. , OFFIS
    e.V., MUSTANG - Multidimensional Statistical Data
    Analysis Engine:
    http://www.offis.de/en/offis_in_portrait/
    structure/projects/detail/status/mustang.html,
    (2011)
[2] Bauer, A., Günzel, H.: Data Warehouse Systeme.
    dpunkt.verlag, 3. überarbeitete und aktualisierte
    Auflage, (2009)
[3] DIMDI - Deutsches Institut für Medizinische
    Dokumentation und Information: ICD-10-GM 2005


                                                                41

</pre>