<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Ad-hoc Datentransformationen für Analytische Informationssysteme</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Oldenburg</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Deutschland christian.luepkes@offis.de</string-name>
        </contrib>
      </contrib-group>
      <pub-date>
        <year>2011</year>
      </pub-date>
      <fpage>37</fpage>
      <lpage>41</lpage>
      <abstract>
        <p>Beim Betrieb von Data Warehouse Systemen kann es zu einem Semantic Shift kommen. Dieser bezeichnet eine Veranderung der Bedeutung von Dimensionselementen und kann bei Nichtbeachtung zu Informationsverlust und fachlich inkorrekten Analyseergebnissen fuhren. In dieser Arbeit wird ein graph-basierter Ansatz vorgeschlagen, welcher die A nderungen zwischen Dimensionen als U berleitungen verwalten und fur Analysen zur Verfugung stellen kann. Dadurch wird es moglich, Anfragen in Analytischen Informationssystemen unter Berucksichtigung eventueller Semantic Shifts zu beantworten. Dieser Ansatz verzichtet dabei auf eine kennzahlbasierte Approximation und nutzt die U berleitungen klassischer Adaptionsverfahren. Der eingefuhrte Ansatz wird kritisch hinsichtlich bestehender Ansatze diskutiert und exemplarisch in verschiedenen Domanen durchgefuhrt.</p>
      </abstract>
      <kwd-group>
        <kwd>Data warehouse</kwd>
        <kwd>Schema Versioning</kwd>
        <kwd>OLAP</kwd>
        <kwd>Temporal Data Warehouse</kwd>
      </kwd-group>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>EINLEITUNG</title>
      <p>Die am meisten verwendete Architektur fur Analytische
Informationssysteme ist die des Data Warehouses mit
Metadaten, welche die gespeicherten Daten beschreiben und
einer auf diesen Metadaten aufbauender
Auswertungssoftware. Die Metadaten werden dabei in streng hierarchisch
organisierten Taxonomien, sogenannten Dimensionen,
gespeichert. Dimensionen beschreiben, wie die Daten analysiert
werden konnen.</p>
      <p>
        Das Data Warehouse ist dabei nach der De nition von
Inmon eine themenorientierte, integrierte, stabile Sammlung
zeitbezogener Daten, welche als Datenbasis zur Analyse dient
[
        <xref ref-type="bibr" rid="ref9">9</xref>
        ]. Data Warehouses haben also immer einen Zeitbezug,
bieten aber keine hochentwickelten Konzepte, um mit A
nderungen in den Metadaten uber die Zeit umzugehen. Klassisch
wird davon ausgegangen, dass die Metadaten uber die Zeit
weitgehend stabil sind [
        <xref ref-type="bibr" rid="ref7">7</xref>
        ] [
        <xref ref-type="bibr" rid="ref11">11</xref>
        ]. Falls die Metadaten in
Einzelfallen doch angepasst werden mussen, werden die
gespeicherten Daten einfach den neuen Metadaten entsprechend
umcodiert, die sogenannte Instanzadaption [
        <xref ref-type="bibr" rid="ref2">2</xref>
        ] [
        <xref ref-type="bibr" rid="ref11">11</xref>
        ]. Der Nachteil
dieses Ansatzes ist, dass beim Umcodieren ublicherweise ein
Informationsverlust entsteht. Zudem wird durch die A
nderung der Metadaten und die Instanzadaption eine
Wiederholung fruherer Anfragen unmoglich. Au erdem besteht bei
klassischen Systemen keine Moglichkeit die spezi schen
Informationen der Metadatenanderungen zu speichern, da die
Metadaten selbst nicht zeitbezogen gespeichert werden [
        <xref ref-type="bibr" rid="ref12">12</xref>
        ].
2.
      </p>
    </sec>
    <sec id="sec-2">
      <title>PROBLEMBESCHREIBUNG</title>
      <p>
        Um das identi zierte Problem des Semantic Shift bei
Datenanalysen zu verdeutlichen, soll an dieser Stelle zunachst
ein Beispiel aus der Arbeit des Autors im deutschen
Gesundheitswesen gegeben werden. Dort werden alle
Diagnosen nach der ICD-Klassi kation, der International
Statistical Classi cation of Diseases and Related Health Problems,
codiert. Die Klassi kation selbst beinhaltet sowohl
beschreibende als auch ordnende Metadaten und wird als Dimension
zur Datenanalyse verwendet. Die deutsche Modi kation der
WHO-ICD, ICD-GM (German Modi kation), wird dabei
jedes Jahr durch eine Expertengruppe des DIMDI, Deutsches
Institut fur Medizinische Dokumentation und Information
aktualisiert [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ] [
        <xref ref-type="bibr" rid="ref4">4</xref>
        ] [
        <xref ref-type="bibr" rid="ref5">5</xref>
        ].
      </p>
      <p>Die Aktualisierungen bestehen darin, dass neu identi
zierte Erkrankungen einen Code zugewiesen bekommen,
Erkrankungen zusammengefasst werden oder einzelne
Krankheitsbereiche neu unterteilt werden. So wurde zum Beispiel
im Jahr 2006 der Code J09 fur die neu identi zierte
Vogelgrippe eingefuhrt.</p>
      <p>Um die Daten zwischen den Jahren transformieren zu
konnen, stellt das DIMDI zusatzlich sogenannte U berleitungen
in einem Datenbankformat zur Verfugung. In den
Abbildungen 1 und 2 sind diese exemplarisch in Ausschnitten fur die
Jahre 2005 bis 2007 gezeigt. Der Buchstabe A zeigt dabei
an, ob eine U berfuhrung automatisch in der durch die
SpalAbbildung 1: Ausschnitt der o ziellen ICD U
berleitungen zwischen den Jahren 2005 und 2006
tenuberschrift festgelegten Richtung moglich ist.
Abbildung 2: Ausschnitt der o ziellen ICD U
berleitungen zwischen den Jahren 2006 und 2007</p>
      <p>Im Jahr 2005 auf 2006 ist es zum Beispiel moglich, den
Code J10.0 zwischen den Jahren umzucodieren. Allerdings
gibt es noch einen zweiten Eintrag von J10.0 auf J09 bei
dem nur eine Umcodierung von 2006 auf 2005 zugelassen
ist.</p>
      <p>In Analytischen Informationssystemen werden die Daten
meist nach der aktuellsten ICD-De nition gespeichert.
Daten aus dem Jahr 2005 wurden also im Jahr 2006 und 2007
umcodiert. Entsprechend den U berleitungsregeln aus den
Abbildungen 1 und 2 wurde der Wert J10.0 syntaktisch
gleich bleiben und nicht umcodiert werden.</p>
      <p>Eine typische Anfrage ware nun der Art "Zeig mir die
jahrliche Summe aller behandelten J10.0 Patienten der
Jahre 2005, 2006 und 2007\ welche das in Abbildung 3 gezeigte
Ergebnis liefert. Im Jahr 2006 gab es also im Vergleich zum
Vorjahr eine Abnahme von J10.0 Patienten die sich im Jahr
2007 noch deutlicher fortsetzt.</p>
      <p>Summe der behandelten J10.0 Patienten nach Jahr</p>
    </sec>
    <sec id="sec-3">
      <title>Darstellung als Graph</title>
      <p>In Abbildung 4 ist exemplarisch ein Ausschnitt der
ICDKlassi kation fur nachgewiesene sonstige In uenzaviren der
Jahre 2005 bis 2007 abgebildet. Der Graph reprasentiert
dabei die o zielle Taxonomie der ICD Codes und die
gerichteten Kanten reprasentieren die o ziell als gultig de nierten
Transformationsregeln fur Umcodierugnen der drei
abgebildeten Jahre 2005, 2006 und 2007, wie sie in den Tabellen
der Abbildungen 1 und 2 de niert sind.</p>
      <p>In einem Data Warehouse werden die zu analysierenden
Daten in der Regel auf der feinsten verfugbaren Klassi
kationsstufe vorgehalten. Veranschaulicht handelt es sich also
um die Auspragungen der Blatter. Falls eine Analyse der
Erkrankungen J10.1 oder J10.8 durchgefuhrt werden soll,
J09-J10
J09-J10
J10.80</p>
      <p>J09</p>
      <p>J10.80</p>
      <p>J09</p>
      <p>J10.80
J10.08</p>
      <p>J10.1</p>
      <p>J10.08</p>
      <p>J10.1</p>
      <p>J10.08</p>
      <p>J10.1
Abbildung 4: Darstellung dreier Teilgraphen der
ICD-GM Metadaten fur In uenzaviren und deren
U berleitung uber die Jahre 2005 bis 2007
ist dies unproblematisch, da es keinerlei A nderungen in der
Datenbeschreibung gab; zu erkennen an der Existenz der
bijektiven Kanten zu den gleichen Knoten jedes Jahres. Das
Problem des Semantic Shift tritt auf, wenn J10.0 fur die
Jahre 2005 bis 2007 untersucht werden soll. Es ist nicht
eindeutig, welche Bedeutung von J10.0 verwendet werden soll.
Falls die Bedeutung des Codes J10.0 vom Jahr 2005
beabsichtigt ist, sollte fur die Folgejahre auch der Code J09
berucksichtigt werden. Falls die Semantik von 2006 oder 2007
gemeint ist, muss dem menschlichen Analysten bewusst sein,
dass es eine inhaltliche A nderung vom Jahr 2005 zu 2006 fur
J10.0 gab auch wenn die Daten syntaktisch identisch sind
und Transitionen in beide Richtungen existieren.</p>
      <p>Das analysespezi sche Hintergrundwissen des
Fachexperten ist, dass J10.0 ein Sammelknoten fur nicht genauer
bestimmte In uenzaviren ist. Wie bereits oben erwahnt, wurde
in 2006 die Vogelgrippe identi ziert und als neuer Code J09
eingefugt. Dadurch wurde die Bedeutung von J10.0 als
alle unbestimmten In uenzaviren zwar nicht verandert, aber
verglichen mit 2005 fehlen nun die Vogelgrippefalle. Fur
statistische Analysen auf solch einer feingranularen Ebene
wurden daher fehlerhafte Ergebnisse geliefert. Bei einer Analyse
auf den Elternknoten J10 des Jahres 2005 oder J09-J10 der
Jahre 2006 und 2007 waren die Resultate korrekt, da alle
Transformationskanten auf Kindknoten verweisen.</p>
      <p>Fur die Ergebnisse in Abbildung 3 bedeutet dies, dass die
Abnahme der J10.0 Erkrankungen auch darin begrundet
liegt, dass Krankheitsfalle in J09 codiert wurden, die vorher
in J10.0 enthalten waren.
2.2</p>
    </sec>
    <sec id="sec-4">
      <title>Weitere Domänen</title>
      <p>Der Semantic Shift kann nicht nur in der medizinischen
Dokumentation beobachtet werden, sondern auch in anderen
Bereichen. So kann man z.B. fur die Entwicklung der Lander
Europas von 1988 bis 2000 bedingt durch den
Zusammenbruch des Warschauer Pakts ahnliches feststellen. Allerdings
muss dort beachtet werden, dass es sich bei den abgeleiteten
und angepassten Metadaten nicht um gesetzlich vorgegebene
Dimensionsstrukturen handelt, sondern um von
Fachexperten erstellte Dimensionen. Dies ist der Normalfall bei
Data Warehouses. Die Dimension soll alle Lander im Herzen
Europas widerspiegeln. Bis zum Jahr 1991 gab es die
beiden eigenstandigen deutschen Staaten BRD und DDR. In
der Dimension waren diese dann als Blatter verfugbar. Mit
der Wiedervereinigung wird das Blatt DDR geloscht und
die dazugehorigen Daten der BRD zugeordnet. Der Begri
BRD ist also syntaktisch gleich geblieben, beschreibt nun
aber einen deutlich gro eren Bereich.</p>
      <p>Wurde man die Daten der BRD betrachten, so konnte
man z.B. in 1991 eine deutliche Steigerung der
Einwohnerzahl feststellen. Dies ware aber nicht durch hohe
Geburtsraten begrundet, sondern durch die gro ere betrachtete Flache
infolge der Wiedervereinigung mit der DDR.</p>
      <p>Die umgekehrte Richtung kann man bei der
Tschechoslowakei beobachten. Bis 1990 war es die CSSR, dann wurde
das gleiche Land umbenannt in CSFR und im Jahr 1992
aufgeteilt in die zwei Staaten Slowakei SR und Tschechien
CR. Fur den letzt genannten Fall wurde in der Dimension
ein Blatt geloscht und dafur zwei neue Blatter eingefugt. Die
dazugehorige Transformationsregel ware, dass es keine
Moglichkeit gibt, CSFR auf SR und CR abzubilden, wohl aber
in der Gegenrichtung.</p>
      <p>1989
Alle
1990
Alle</p>
    </sec>
    <sec id="sec-5">
      <title>EXISTIERENDE LÖSUNGANSÄTZE</title>
      <p>
        Der erste Losungsansatz fur das Problem der sich
andernden Dimensionen wurde 1993 von Kimball postuliert [
        <xref ref-type="bibr" rid="ref11">11</xref>
        ].
Die Losung besteht in der Umcodierung der Daten nach der
jeweilig neuesten Dimensionsbeschreibung. Dies kann dabei
in drei verschiedenen Arten geschehen. Der Type 1 Ansatz
uberschreibt die alten Werte mit den neuen, umcodierten
Werten. Die Type 2 und Type 3 Ansatz behalt die alten
Werte zusatzlich bei. Auf diese Weise konnen alte Werte in
die neue Dimension transformiert, bzw. eingebunden
werden. Der Nachteil aller dieser Ansatze ist aber, dass sie nicht
in der Lage sind mit dem Semantic Shift syntaktisch gleicher
Auspragungen umzugehen. Es gibt also keine Unterstutzung
fur Datenanalysen, die uber verschiedene Versionen der
Dimensionen hinausgehen, wenn sich die Bedeutung der Daten
geandert hat.
      </p>
      <p>
        Das Problem der Anfragen uber mehrere
Dimensionsversionen wurde 2006 in [
        <xref ref-type="bibr" rid="ref8">8</xref>
        ] als graphentheoretisches Problem
diskutiert. Dabei wurden die Metadaten als sogenannte
Schemagraphen reprasentiert. Fur die Graphen wurden
erlaubte Modi kationen de niert, welche die potentiellen A
nderungen der Dimensionen wiedergeben. Wird eine Dimension
durch eine Modi kation geandert, wird dies als neue
Version in einem Graphen gespeichert. Basierend auf einer
Graphenalgebra ist es dadurch moglich, Anfragen uber
verschiedene Dimensionsversionen hinweg zu stellen. Diesem Ansatz
fehlt zum einen der Umgang mit dem Semantic Shift der
Daten. Zum anderen erscheint er nicht praxisgerecht, da fur
historische Daten neu hinzugekommene Angaben nachtraglich
eingep egt werden mussen, um Vergleiche uber verschiedene
Versionen zu ermoglichen.
      </p>
      <p>
        Die am weitest gehende Losung fur das prasentierte
Problem wurde 2002 in [
        <xref ref-type="bibr" rid="ref12">12</xref>
        ] vero entlicht. Ein formales
Temporal-Modell fur die Beschreibung von A nderungen in den
Dimensionen wurde dazu eingefuhrt [
        <xref ref-type="bibr" rid="ref7">7</xref>
        ]. Es wurden
entsprechende Transformationsfunktionen de niert, welche die
erlaubten Datenanderungen beschreiben. Der Ansatz
ermoglicht dabei Anfragen uber verschiedene Versionen der
Dimensionen hinweg, indem die Daten zur Anfragezeit
adaptiert werden. Der Nachteil des Ansatzes liegt in der
Realisierung der Instanzadaption durch die Verwendung von
Matrizenmultiplikation. Jeder Wert einer Dimensionsversion muss
von Fachexperten mit einem Koe zienten versehen werden,
der aussagt wie ahnlich der Wert dem Nachfolger in der
verbundenen Dimensionsversion ist. Dies erlaubt eine
Abschatzung, um den Semantic Shift zu losen. Jedoch hat dies zwei
Nachteile. Zum einen muss der Koe zient fur jede
Verwendung der Dimension in einer Kennzahl individuell
angegeben werden, da sich die Koe zienten fur z.B.
Erkrankungsund Sterberisiko unterschiedlich verhalten und deshalb die
Koe zienten nicht fur alle Analysen gleich sind. Zum
anderen wird das in den Transformationsdaten inharente Wissen
nicht dazu genutzt, genaue anstatt approximierten
Ergebnissen zu liefern.
4.
      </p>
    </sec>
    <sec id="sec-6">
      <title>DER GRAPH-BASIERTE ANSATZ</title>
      <p>
        Wie in der Problembeschreibung ausgefuhrt und in den
Abbildungen 4 und 5 veranschaulicht, lassen sich
Dimensionen als streng hierarchische Baume mit einem Wurzelknoten
darstellen. Die Blatter reprasentieren dabei in der Regel die
im Data Warehouse speicherbaren Werte. Falls Analysen auf
den Elternknoten durchgefuhrt werden sollen, werden diese
standardma ig aus den Kindelementen berechnet [
        <xref ref-type="bibr" rid="ref2">2</xref>
        ].
      </p>
      <p>
        Bei den Dimensionen handelt es sich um von
Fachexperten modellierte Metadaten, die nur zu bestimmten
Zeitpunkten geandert werden. Deshalb ist es moglich, die A
nderungen einer Dimension zusammen mit einer Versionsnummer
zu speichern. Dieser Ansatz zur Beschreibung der zeitlichen
Entwicklung wurde auch von [
        <xref ref-type="bibr" rid="ref12">12</xref>
        ] und [
        <xref ref-type="bibr" rid="ref8">8</xref>
        ] verfolgt. Anders
aber als bei [
        <xref ref-type="bibr" rid="ref11">11</xref>
        ] soll keine Instanzadaption mit
Informationsverlust vorgenommen werden, sondern die
Transformationsregeln als gerichtete Kanten zwischen den Blattern zweier
Dimensionsversionen gespeichert werden. Es wird verlangt,
dass jede neue Version einer Dimension
Transformationsregeln zu mindestens einem Vorganger de niert. Dies ist keine
Einschrankung, da es beim Fehlen von
Transformationsregeln nicht um einen Nachfolger der Dimension sondern um
eine vollstandig neue, andere Dimension handelt.
      </p>
      <p>Bei einer Anfrage an das Analytische Informationssystem
soll ein Interpreter zwischen den Anwender und das
Auswertungssystem geschaltet werden. Dieser Interpreter wertet die
Transformationsregeln aus und stellt fest, ob in dem
angefragten Zeitraum fur die auszuwertenden Daten eine A
nderung stattgefunden hat. Wenn dies nicht der Fall ist, wird
die Anfrage ohne Nutzerinteraktion und ohne A nderungen
durchgefuhrt. Falls jedoch zwei oder mehrere
Dimensionsversionen von der Anfrage betro en sind, wird der
Interpreter mittels der ein- und ausgehenden Kanten der Knoten
prufen, ob auf zusatzliche Knoten uber die Kanten
zugegri en werden kann. Wenn die Knoten fur den gewunschten
Zeitraum stabil sind, wird dem Nutzer die Veranderung der
Dimension fur seinen angefragten Ausschnitt als
sogenannter Evolutionspfad angezeigt.</p>
      <p>Da es nicht beabsichtigt ist, die De nition der
Transformationsregeln auf genau einen Vorganger und Nachfolger
zu beschranken, kann es durchaus mehrere unterschiedliche
Evolutionspfade geben, die zu unterschiedlichen Mengen von
Knoten fuhren. Deswegen sollen die gefunden
Evolutionspfade dem anfragenden Nutzer angezeigt werden, der dann
den fur seine Anfrage geeignetsten auswahlen kann. Dabei
ist festzustellen, dass die Bedeutung der Evolutionspfade
immer der modellierten Realwelt einer Dimensionsversion
entspricht. Dies fuhrt dazu, dass die Daten dann ad-hoc
zum Anfragezeitpunkt unter die ausgewahlte
Dimensionsversion transformiert werden. Die Datentransformation ist
allerdings keine Instanzadaption, sondern eine
Transformation eines Wertes auf eine Menge von Werten.
4.1</p>
    </sec>
    <sec id="sec-7">
      <title>Beispiel der Lösungsidee</title>
      <p>Falls der Nutzer eine Anfrage der Art "Gib mir die Summe
aller behandelten J10.0 Patienten der Jahre 2005 bis 2007\
stellt, wird der Interpreter die Werte J10.0 und die ICD-GM
Dimensionsversionen 2005, 2006 und 2007 identi zieren. Den
Transformationsregeln in Abbildung 4 folgend, wird der
Interpreter zwei verschiedene Arten von J10.0 feststellen: Die
Version 2005 hat zwei eingehende Kanten aus der Version
2006, einmal vom J10.0 als auch vom J09 Knoten. Der
Interpreter kann also feststellen, dass der Knoten J10.0
Version 2005 geteilt wurde. Nun pruft der Interpreter die
identi zierten Knoten des Jahres 2006 und ndet zusatzlich nur
bidirektionale Kanten zu den Knoten des Jahre 2007, was
bedeutet, dass keine A nderung stattgefunden hat.
2005
J10.0</p>
      <p>2006
J09</p>
      <p>J10.0</p>
      <p>2007
J09</p>
      <p>J10.0
Abbildung 6: Losungsvorschlag mit Erweiterung der
Anfragemenge, Konzept J10.0 Version 2005
2006
J10.0
2007
J10.0
Abbildung 7: Losungsvorschlag mit Beschrankung
des Anfragebereichs, Konzept J10.0 Version 2006
und 2007</p>
      <p>Dem Nutzer wird als Zwischenergebnis seiner Anfrage
mitgeteilt, dass zwei verschiedene Interpretationen von J10.0
fur den Zeitraum 2005 bis 2007 identi ziert wurden. Es
werden dann diese zwei verschiedenen Evolutionspfade zur
Auswahl angeboten: In Abbildung 6 wird die Erweiterung der
Anfrage fur die Jahre 2006 und 2007 um den Wert J09
vorgeschlagen, damit die Anfrage der Bedeutung von J10.0 im
Jahr 2005 entspricht. Die zweite angebotene Losung ist in
Abbildung 7 zu sehen. Hier wird die Bedeutung von J10.0
der Jahre 2006 und 2007 vorgeschlagen.</p>
      <p>Werden Anfragen auf hoheren Ebenen der Dimension, wie
z.B. die Gib mir die Summer aller behandelten Falle von
"Grippen durch nachgewiesene In uenzaviren\ welche dem
ICD Gruppencode J10 des Jahres 2005 bzw. J09-J10 der
Jahre 2006 und 2007 entspricht, ist dies auch ohne
weiteres moglich. Fur alle Kindelemente von J10 werden die
Evolutionspfade ausgewertet. Da alle Kindelemente in den</p>
      <p>Dimensionsversionen unter einem Elternelement sind, wird
davon ausgegangen, dass die Elternelemente gleich sind. Die
Anfrage wird dann direkt ausgefuhrt. Sollte es in
irgendeinem gultigen Evolutionspfad eines beliebigen Kindes
mehrere Elternknoten geben, wurden dem Anwender wieder die
verschiedenen Optionen wie bei den Einzelelementen
angezeigt. Der Anwender wird also immer uber
Bedeutungsanderungen und Systembruche automatisch graphisch informiert
und kann die fur seine Zwecke geeignete Anfrage auswahlen.
4.2</p>
    </sec>
    <sec id="sec-8">
      <title>Vorteile des Ansatzes</title>
      <p>Es wird erwartet und angestrebt, dass der vorgestellte
Ansatz die folgenden Vorteile bietet:</p>
      <p>
        Durch den graphenbasierten Ansatz, der auf eine
kennzahlabhangige Approximation verzichtet, ist es
moglich die U berfuhrungsregeln fur alle Analyseanfragen
zu verwenden, welche die Dimension beinhaltet. Dies
ist eine deutliche Erweiterung gegenuber [
        <xref ref-type="bibr" rid="ref12">12</xref>
        ].
      </p>
      <p>
        Da die U berfuhungsregeln auch in klassischen
Adaptionsverfahren wie [
        <xref ref-type="bibr" rid="ref11">11</xref>
        ] benotigt werden, ist kein
zusatzlicher Arbeitsaufwand der Fachexperten
notwendig, um die Kanten bereit zustellen.
      </p>
      <p>Durch den graphenbasierten Ansatz ist es bei
mehreren U berleitungsregeln pro Dimensionsversion
moglich, grobere Versionen einer Dimension zu
uberspringen. Grober meint dabei, dass Fehlen einzelner
Knoten, die in spateren Versionen wieder eingefugt
wurden. Bei einer Umcodierung des Datenbestandes ware
dies ein irreversiebler Informationsverlust.</p>
      <p>Der Import und die Haltung der Daten wird
vereinfacht, da die Daten in ihrer originaren Version
gespeichert werden konnen. Die Daten mussen nicht in eine
einzige Version umcodiert werden.</p>
      <p>Da der Nutzer zwischen verschiedenen inhaltlichen
Interpretationen eines Wertes wahlen kann, ist das
Anfragesystem machtiger als klassische Systeme. Zudem
erlaubt dies die Wiederholung historischer Analysen,
da die Datenbasis nicht umcodiert und die
Dimensionsdaten genauso erhalten bleiben.
4.3</p>
    </sec>
    <sec id="sec-9">
      <title>Zu untersuchende Fragestellungen</title>
      <p>Um sicherzustellen, dass ein Data Warehouse zusammen
mit einer OLAP Analyse Anwendung die vorgestellten
Funktionen und insbesondere Vorteile erfullen kann, muss
untersucht werden, welche Konsistenzbedingungen die U
berleitungsregeln als auch die Metadaten einhalten mussen.
Zudem sind die Anforderungen an die Datenreprasentation und
Speicherung der Transformationsregeln und zusatzlichen
Versionsinformationen in den Metadaten als auch der
Datenhaltung zu untersuchen. Ein weiterer Bereich ist, wie sich
die Methoden auf verschieden Datenarten (Integer, Boolean,
Nominal) als auch verschiedene Analyse Operationen (Sum,
Max, Min, Average) anwenden lassen. Da in Analysen auch
oft mehrere verschiedene Dimensionen genutzt werden, muss
als letzter wichtiger Punkt noch die Anwendbarkeit auf
mehrere Dimensionen durchdacht werden.
4.4</p>
    </sec>
    <sec id="sec-10">
      <title>Evaluation</title>
      <p>
        Um den Ansatz mit seinen Konzepten und festgelegten
Anforderungen zu evaluieren, wird ein Prototyp auf Basis
von MUSTANG - Multidimensional Statistical Data
Analysis Engine [
        <xref ref-type="bibr" rid="ref1">1</xref>
        ] [
        <xref ref-type="bibr" rid="ref13">13</xref>
        ] umgesetzt werden. Dies ist ein
kommerzielles Daten Analyse Tool, welches insbesondere fur Analysen
im Gesundheitswesen, z.B. Krebsregistern, eingesetzt wird.
      </p>
      <p>Da das vorgestellte Thema durch zwei Projekte mit
Klinikdaten motiviert wurde, bei denen sich der Semantic Shift
als problematisch erwiesen hatte, soll das Konzept in diesen
evaluiert werden. Dabei handelt es sich zum einen um
Daten deutscher Kliniken der Jahre 2006 bis 2010. Hier sollen
Fragen der Versorgungsforschung auf einer feingranularen
Ebene ausgewertet werden, was bisher nicht moglich war.
Zum anderen geht es in einem Forschungsprojekt der EU
darum, fur spezielle Herzschrittmacherpatienten statistisch
valide Muster zu identi zieren, die in historischen
Patientendaten fruherer Falle enthalten sind. Die Patientendaten
stammen dabei aus den Jahren 2006 bis 2011 eines
osterreichischen Universitatsklinikums, in dem spater die
Anwendung erfolgt. Hier liegt der Fokus darauf, alte Codierungen
akkurat unter die aktuellste Version zu subsumieren, damit
die Muster auf aktuelle Falle angewendet werden konnen.</p>
    </sec>
    <sec id="sec-11">
      <title>ZUSAMMENFASSUNG</title>
      <p>Dieses Paper stellt einen Ansatz vor, der akkurate
Datenanalysen in einem Analytischen Informationssystem uber
sich andernde Datengrundlagen ermoglicht. Die
Datenanderungen konnen dabei sowohl syntaktischer als auch
semantischer Natur sein. A nderungen der Daten werden dabei als
verbindende Kanten zwischen verschiedenen Versionen einer
Dimension modelliert und diese Dimensionen dabei als
Graphenstruktur aufgefasst. Durch die Interpretation der
Verbindungen zum Zeitpunkt einer Analyseanfrage, werden die
moglichen Evolutionspfade identi ziert. Die
Evolutionspfade reprasentieren dabei domanspezi sches
Hintergrundwissen, wie z.B. die Bedeutungsanderung von Werten, den
Semantic Shift. Der Nutzer kann dieses Hintergrundwissen
visuell erfassen und sich fur einen geeigneten Evolutionspfad
entscheiden. Die Analyseanfrage wird dann zur Anfragezeit
so umgewandelt, dass die Daten ad-hoc unter die
gewahlte Bedeutung des Evolutionspfads transformiert werden. Da
die Evolutionspfade so berechnet werden, dass Sie inhaltlich
identische und vergleichbare Mengen reprasentieren, sind die
Anfrageergebnisse akkurat. Dies wird dadurch ermoglicht,
dass die Daten in ihrem Originalformat gespeichert und die
Transformationsregeln nur gespeichert aber nicht direkt auf
die Daten angewendet werden. Mit dem vorgestellten Modell
und den dazugehorenden Methoden sind keine
verlustbehafteten Datentransformationen oder Abschatzungen
notwendig.</p>
    </sec>
    <sec id="sec-12">
      <title>APPENDIX A.</title>
    </sec>
    <sec id="sec-13">
      <title>ACKNOWLEDGMENTS</title>
      <p>The research leading to these results has received in part
funding from the European Community's Seventh
Framework Programme (FP7/ 2007-2013) under grant agreement
no. ICT-248240, iCARDEA project.</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          [1]
          <string-name>
            <surname>Appelrath</surname>
          </string-name>
          , H.-J.,
          <string-name>
            <surname>Rohde</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Thoben</surname>
            ,
            <given-names>W.</given-names>
          </string-name>
          , OFFIS e.V.,
          <string-name>
            <surname>MUSTANG - Multidimensional Statistical Data Analysis Engine</surname>
          </string-name>
          : http://www.offis.de/en/offis_in_portrait/ structure/projects/detail/status/mustang.html, (
          <year>2011</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          [2]
          <string-name>
            <surname>Bauer</surname>
            ,
            <given-names>A.</given-names>
          </string-name>
          , Gunzel, H.:
          <article-title>Data Warehouse Systeme. dpunkt.verlag, 3. uberarbeitete und aktualisierte Au age</article-title>
          , (
          <year>2009</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          <article-title>[3] DIMDI - Deutsches Institut fur Medizinische Dokumentation und Information: ICD-10-GM 2005 Systematisches Verzeichnis</article-title>
          .
          <article-title>Systematisches Verzeichnis zur Internationalen statistischen Klassi kation der Krankheiten und verwandter Gesundheitsprobleme - German Modi cation</article-title>
          .
          <source>Deutsche Krankenhaus Verlags-Gesellschaft</source>
          ,
          <article-title>(</article-title>
          <year>2004</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          <article-title>[4] DIMDI - Deutsches Institut fur Medizinische Dokumentation und Information: ICD-10-GM Version 2006</article-title>
          .
          <string-name>
            <given-names>Systematisches</given-names>
            <surname>Verzeichnis. Deutsche Krankenhaus</surname>
          </string-name>
          Verlags-Gesellschaft,
          <article-title>(</article-title>
          <year>2005</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          [5]
          <string-name>
            <given-names>DIMDI</given-names>
            <surname>- Deutsches Institut</surname>
          </string-name>
          fur Medizinische Dokumentation und Information: ICD-10
          <string-name>
            <surname>-GM Version 2007. Band</surname>
            <given-names>I: Systematisches</given-names>
          </string-name>
          <string-name>
            <surname>Verzeichnis. Deutsche Krankenhaus</surname>
          </string-name>
          Verlags-Gesellschaft,
          <article-title>(</article-title>
          <year>2006</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          [6]
          <string-name>
            <given-names>DIMDI</given-names>
            <surname>- Deutsches Institut</surname>
          </string-name>
          fur Medizinische Dokumentation und Information: ICD-10
          <string-name>
            <surname>-GM Version 2011: Band</surname>
            <given-names>I: Systematisches</given-names>
          </string-name>
          <string-name>
            <surname>Verzeichnis. Deutsche Krankenhaus</surname>
          </string-name>
          Verlags-Gesellschaft,
          <article-title>(</article-title>
          <year>2010</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          [7]
          <string-name>
            <surname>Eder</surname>
            ,
            <given-names>J</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Koncilia</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Morzy</surname>
            ,
            <given-names>T.</given-names>
          </string-name>
          ,:
          <article-title>The COMET Metamodel for Temporal Data Warehouses</article-title>
          .
          <source>In Proc. of the 14th Int. Conference on Advanced Information Systems Engineering (CAISE02)</source>
          , pp.
          <volume>83</volume>
          {
          <fpage>99</fpage>
          .Springer Verlag (LNCS) (
          <year>2002</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          [8]
          <string-name>
            <surname>Golfarelli</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          , Lechtenborger, J.,
          <string-name>
            <surname>Rizzi</surname>
            ,
            <given-names>S.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Vossen</surname>
          </string-name>
          , G.:
          <article-title>Schema versioning in data warehouses: enabling cross-version querying via schema augmentation</article-title>
          . In DataKnowl. Eng.,
          <volume>59</volume>
          (
          <issue>2</issue>
          ):
          <volume>435</volume>
          {
          <fpage>459</fpage>
          ,
          <year>2006</year>
          . Elsevier Science Publishers B. V., Amsterdam, (
          <year>2006</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          [9]
          <string-name>
            <surname>Inmon</surname>
            ,
            <given-names>W. H.</given-names>
          </string-name>
          :
          <article-title>Building the data warehouse (2nd ed</article-title>
          .). John Wiley &amp; Sons, Inc.,New York, NY, USA, (
          <year>1996</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          [10]
          <string-name>
            <surname>Inmon</surname>
            ,
            <given-names>W. H.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Strauss</surname>
            ,
            <given-names>D.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Neushloss</surname>
          </string-name>
          , G.:
          <article-title>DW 2.0: The Architecture for the Next Generation of Data Warehousing</article-title>
          . Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, (
          <year>2008</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          [11]
          <string-name>
            <surname>Kimball</surname>
            ,
            <given-names>R.</given-names>
          </string-name>
          :
          <article-title>Slowly Changing Dimensions</article-title>
          . In DBMS online, http://www.dbmsmag.com/9604d05.html (
          <year>1996</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          [12]
          <string-name>
            <surname>Koncilia; C.</surname>
          </string-name>
          <article-title>A.: The COMET Temporal Data Warehouse</article-title>
          .
          <source>PhD thesis</source>
          , Universitat
          <string-name>
            <surname>Klagenfurt</surname>
          </string-name>
          (
          <year>2002</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          [13]
          <string-name>
            <surname>Teiken</surname>
            ,
            <given-names>Y.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Rohde</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Mertens</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          :
          <article-title>Mustang - Realisierung eines analytischen informationssystems im kontext der gesundheitsberichtserstattung</article-title>
          . In K.-P. Fahnrich and B. Franczyk, editors,
          <source>GI Jahrestagung (1)</source>
          , volume
          <volume>175</volume>
          <source>of LNI</source>
          , pages
          <volume>253</volume>
          {
          <fpage>258</fpage>
          . GI, (
          <year>2010</year>
          )
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>