<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Kriterien für Datenpersistenz bei Enterprise Data Warehouse Systemen auf In-Memory Datenbanken</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Thorsten Winsemann</string-name>
          <email>thorsten.winsemann@t-online.de</email>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Otto-von-Guericke-Universität Magdeburg</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Hamburg</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Veit Köppen</string-name>
          <email>veit.koeppen@ovgu.de</email>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Magdeburg</string-name>
        </contrib>
      </contrib-group>
      <pub-date>
        <year>2011</year>
      </pub-date>
      <fpage>97</fpage>
      <lpage>102</lpage>
      <abstract>
        <p>Persistente Datenhaltung über mehrere Schichten innerhalb eines Enterprise Data Warehouse Systems ist notwendig, um den dort vorhandenen, sehr großen Datenbestand nutzen zu können, z.B. für Reporting und Analyse. Die Pflege und Wartung solcher meist redundanten Daten ist jedoch sehr komplex und erfordert einen hohen Aufwand an Zeit und Ressourcen. Neueste In-MemoryTechnologien ermöglichen gute Performanz beim Datenzugriff, so dass sich die Frage stellt, welche Daten aus welchem Grund bzw. für welchen Zweck überhaupt noch persistent abgelegt werden müssen - und wie sich dies effizient entscheiden lässt. In diesem Papier präsentieren wir eine Übersicht von Gründen für Datenpersistenz, welche als Entscheidungsgrundlage bei der Problematik dient, Daten in Enterprise Data Warehouses auf InMemory Datenbanken zu speichern.</p>
      </abstract>
      <kwd-group>
        <kwd>Enterprise Data Warehouse</kwd>
        <kwd>Persistenz</kwd>
        <kwd>In-Memory Datenbank</kwd>
      </kwd-group>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>Kategorien und Themenbeschreibung</title>
    </sec>
    <sec id="sec-2">
      <title>1. EINLEITUNG</title>
      <p>
        Heutige Data Warehouse Systeme (DWS) sind gekennzeichnet
durch sehr große Datenvolumina [
        <xref ref-type="bibr" rid="ref2">1</xref>
        ]. Der Aufbau und Betrieb
solcher Systeme erfordert hohe Anforderungen an die
Datenbereitstellung, insbesondere hinsichtlich Performanz,
Datengranularität, -flexibilität und -aktualität. Außerdem
erfordern solche Einschränkungen die Speicherung zusätzlicher
Daten. Verdichtungsebenen werden verwendet, um die
Geschwindigkeit des Datenzugriffs zu verbessern, z.B. bei
Reporting und Analyse. Diese Datenredundanz wiederum
erfordert einen hohen Aufwand an Zeit und Ressourcen, um
Datenkonsistenz zu gewährleisten Gleichzeitig wird eine zeitnahe
Datenverfügbarkeit eingeschränkt. Neueste Ankündigungen
versprechen auf In-Memory Datenbanken (IMDB) basierende
Anwendungen, die auf größte Datenbestände – ohne zusätzliche
Verdichtungsebenen – performant zugreifen können [
        <xref ref-type="bibr" rid="ref3 ref4">2,3</xref>
        ].
      </p>
    </sec>
    <sec id="sec-3">
      <title>2. EINE SCHICHTENARCHITEKTUR FÜR</title>
    </sec>
    <sec id="sec-4">
      <title>ENTERPRISE DATA WAREHOUSES</title>
      <p>
        Ein Enterprise Data Warehouse ist ein Business Data Warehouse
[
        <xref ref-type="bibr" rid="ref5">4</xref>
        ], stellt also entscheidungsunterstützende Informationen für das
Management in allen Geschäftsbereichen zur Verfügung. Darüber
hinaus stellen EDW eine wichtige Datenbasis für eine Vielzahl
von Anwendungen dar, wie zum Beispiel Business Intelligence
(BI), Customer Relationship Management (CRM) und die
Planung. Innerhalb einer umfassenden Systemlandschaft stellen
EDW-Systeme die „Single Source of Truth“ (vgl. [
        <xref ref-type="bibr" rid="ref4">3</xref>
        ]) für alle
analyse-relevanten Daten des Unternehmens dar. Das heißt, sie
ermöglichen eine allgemein gültige Sicht auf einen zentralen,
harmonisierten, validen und konsistenten Datenbestand. Ein EDW
integriert sehr große Datenbestände aus einer Vielzahl
unterschiedlicher Quellsysteme des Konzerns – oftmals weltweit,
so dass Daten verschiedener Zeitzonen zusammengeführt werden
müssen. Dies erfordert eine fortlaufende Datenverfügbarkeit mit
gleichzeitigem Datenladen und -zugriff. Zudem gibt es weitere
Anforderungen an den Datenbestand: Ad-hoc-Berichte,
„nearreal-time“ Verfügbarkeit und Anwendungen, wie beispielsweise
CRM, mit einem Bedarf an detaillierten historischen Daten. Ein
sich ändernder Informationsbedarf muss schnell und flexibel
gedeckt werden können. Zudem wird
Berechtigungskonzept zur Sicherung
vorausgesetzt. Somit sind verschiedene
Datenpersistenz spezifisch in einem EDW.
ein umfassendes
sensibler Daten
      </p>
      <p>
        Gründe von
Persistenz in einem Data Warehouse ist eng verbunden mit dessen
Architektur. Eine allgemeine Referenzarchitektur (vgl. z.B.
[
        <xref ref-type="bibr" rid="ref1 ref6 ref7 ref8 ref9">5,6,7,8</xref>
        ]) definiert drei Bereiche, welche die drei Arten der
Datenverarbeitung darstellen: Datenbeschaffung in der „Staging
Area“, Datenbearbeitung in der Basisdatenbank,
Datenbereitstellung im Data-Mart-Bereich. In diesem eher groben
Modell ist Datenspeicherung in jedem Bereich implizit [
        <xref ref-type="bibr" rid="ref10">9</xref>
        ]. Die in
[
        <xref ref-type="bibr" rid="ref11">10</xref>
        ] vorgestellte Schichtenarchitektur (Abb. 1) entwickelt diesen
Ansatz hinsichtlich der bereits erwähnten Anforderungen an ein
EDW weiter. Die Schichten werden zweckbestimmter; jede der
fünf Schichten repräsentiert einen Bereich, in dem der Wert der
Daten hinsichtlich ihrer Verwendung gesteigert wird, wenn dies
notwendig ist. Eine Schicht bedeutet aber nicht zwangsläufig
Datenspeicherung. Wird beispielsweise ein Datenbestand nach der
Harmonisierung gespeichert und ist bereits für Analysezwecke
verwendbar, so muss er nicht auf die oberste Schicht
„durchgereicht“ und dort nochmals gespeichert werden. In einem
ersten Schritt muss entschieden werden, in welchem Format die
Daten wo zu speichern sind. Deshalb ist zunächst der Zweck der
Datenverwendung als Grund der Datenspeicherung zu ermitteln.
      </p>
      <sec id="sec-4-1">
        <title>Abb. 1. Schichtenarchitektur für EDW (nach [10])</title>
        <p>Die in Abb. 1 dargestellte Schichtenarchitektur für EDW unterteilt
sich in die folgenden Bereiche:
Die Datenempfangsschicht stellt den „Posteingang“ des EDW dar;
extrahierte Daten werden ohne oder mit geringen Modifikationen
entgegengenommen und abgelegt.</p>
        <p>
          Innerhalb der Qualitäts- &amp; Harmonisierungschicht werden die
Daten technisch und semantisch integriert. Das beinhaltet
Dublettenerkennung, Aspekte der Informationsintegration (vgl.
[
          <xref ref-type="bibr" rid="ref12">11</xref>
          ]) etc., und entspricht der Transformation des ETL-Prozesses.
Die Datenverteilungsschicht enthält harmonisierte und integrierte
Unternehmensdaten ohne betriebswirtschaftliche Logik und bildet
somit die einheitliche Datenbasis für alle Anwendungen.
In der Betriebswirtschaftlichen Modellierungsschicht werden
Daten hinsichtlich der Geschäftsanforderungen transformiert; zum
Beispiel werden Finanz- mit Logistikdaten verknüpft.
        </p>
        <p>In der Berichts- &amp; Analyseschicht werden Daten hauptsächlich
verwendungsbezogen transformiert, um performante Zugriffe zum
Beispiel beim Reporting oder der Analyse zu gewährleisten.
Innerhalb der Operationalen Datenversorgung werden Daten für
sehr spezielle Anwendungsfälle und Anforderungen zur
Verfügung gestellt, zum Beispiel bei „near real-time Reporting“.
Obwohl die Grenzen fliessend sind, können die fünf Schichten
den drei Bereichen der Datenverarbeitung wie folgt zugeordnet
werden: Datenbeschaffung in der Datenempfangs- und der
Qualitäts- &amp; Harmonisierungsschicht, Datenbearbeitung in der
Datenverteilungs- und der Betriebswirtschaflichen
Modellierungsschicht, sowie Datenbereitstellung in den Data
Marts der Berichts- &amp; Analyseschicht.</p>
      </sec>
    </sec>
    <sec id="sec-5">
      <title>3. GRÜNDE FÜR DATENPERSISTENZ</title>
      <p>Zwei Gründe von Datenpersistenz im Data Warehouse werden
hauptsächlich genannt: Speicherung der bereits transformierten
Daten in der Basisdatenbank und Speicherung redundanter,
aggregierter Daten im Data-Mart-Bereich. Darüber hinaus gibt es
allerdings noch eine Vielzahl von Persistenzgründen im EDW.
Hierzu zählen technische Einschränkungen,
GovernanceBestimmungen des Unternehmens und Gesetze, Vereinfachung
der Datenhandhabung oder ein subjektives Sicherheitsbedürfnis.
Sofern uns bekannt, werden Gründe für Datenpersistenz in der
Literatur nur selten erwähnt; zudem vermissen wir eine
vollständige Auflistung, wie im Folgenden beschrieben.
Entkopplung des Quellsystems: Zur Entlastung des Quellsystems
werden Daten direkt nach ihrer erfolgreichen Extraktion im
Eingangsbereich des DW gespeichert; hierbei werden die Daten
nicht oder nur in geringem Maße verändert (z.B. werden
Herkunftsmerkmal oder Zeitstempel angefügt).</p>
      <p>Datenverfügbarkeit: Oftmals sind Daten nicht mehr oder nur in
einem veränderten Zustand verfügbar; hierzu zählen z.B. Daten
aus dem Internet, aus Dateien, welche regelmäßig überschrieben
werden, oder aus Altsystemen. Zudem können Netzwerkprobleme
dazu führen, dass auf Daten nicht zugegriffen werden kann. Die
Speicherung im Warehouse garantiert die Datenverfügbarkeit.
Komplexe Transformationen: Aufgrund ihrer Komplexität sind
einige Transformationen sehr zeit- und ressourcenaufwendig, so
dass die Daten gespeichert werden, um ein wiederholtes
Transformieren zu vermeiden.</p>
      <p>Abhängige Transformationen: Unter „abhängige Transformation“
verstehen wir solche, deren Durchführung den Zugriff auf weitere
Daten erfordert; z.B. erfordert die Verteilung eines Bonus‘ auf die
einzelnen Mitarbeiter die Gesamtanzahl der Mitarbeiter. Diese
notwendigen Daten werden im DW gespeichert, um das korrekte
Durchlaufen der Transformation zu gewährleisten.</p>
      <p>Veränderte Transformationsregeln: Regeln können geändert
werden. Besitzen die Daten kein Zeitmerkmal und werden die
Transformationen nicht „historisiert“, so ist eine identische
Transformation nicht mehr möglich.</p>
      <p>Aufwendige Datenwiederherstellung: Sind Daten nicht mehr im
DWS verfügbar (z.B. weil sie archiviert sind), ist eine
Wiederherstellung aufwendig, so dass sie gespeichert werden.
Datenzugriffsgeschwindigkeit: Die redundante Speicherung von
Daten in Verdichtungsebenen oder materialisierten Sichten zum
Zwecke der Performanzverbesserung beim Datenzugriff stellt
einen der häufigsten Gründe für die Einführung einer weiteren
Persistenzebene dar.
„En-bloc Datenversorgung“: Üblicherweise fliessen neue Daten,
aus verschiedenen, gegebenenfalls weltweiten Quellen, zeitlich
verteilt in ein EDW. Nachdem diese syntaktisch und semantisch
integiert wurden, werden sie zwischengespeichert und erst zu
einem bestimmten Zeitpunkt in die Datenbasis des Warehouse
gespielt. Hierdurch wird ein zeitlich definierter, konstanter und in
sich plausibler Datenbestand für die darauf aufsetzenden
Anwendungen gewährleistet.</p>
      <p>
        Konstante Datenbasis: Einige, auf Daten des DWS aufbauende
Applikationen, wie beispielsweise Planung, erfordern eine
konstante Datenbasis, welche sich während der Benutzung nicht
ändern darf und deswegen separiert gespeichert wird.
„Single Version of Truth“: Transformierte Daten werden nach
unternehmensweit gültigen Definitionen, aber ohne spezielle
Geschäftslogik gespeichert. Hierdurch wird ein einheitlicher,
vergleichbarer Datenbestand geschaffen, auf den die jeweiligen
Geschäftsbereiche und Anwendungen zugreifen können [
        <xref ref-type="bibr" rid="ref11">10</xref>
        ].
„Corporate Data Memory“: Alle ins EDW extrahierten Daten
werden ohne oder nur mit minimaler Veränderung (z.B. durch
Anfügen eines Herkunftsmerkmals) gespeichert, um eine
größtmögliche Autarkie und Flexibilität von Datenquellen zu
ermöglichen. So können Datenbestände (wieder-)hergestellt
werden, ohne auf die Quellsysteme zuzugreifen, in denen die
Daten möglicherweise schon gelöscht wurden oder nicht mehr
zum Zugriff bereitstehen (vgl. [
        <xref ref-type="bibr" rid="ref11">10</xref>
        ]).
      </p>
      <p>Komplex-abweichende Daten: Zu integrierende Daten können in
Syntax und Semantik sehr von der im EDW üblichen abweichen;
eine (zumeist schrittweise) Eingliederung erfolgt erst nach
vorheriger Speicherung.</p>
      <p>
        Data-Lineage: Daten in Berichten oder Analysen sind häufig
Ergebnis mehrstufiger Transformationsprozesse. Um eine
Rückverfolgung zu den Urprungsdaten zu erleichtern oder zu
ermöglichen, etwa zur Validierung, können gespeicherte
Zwischenergebnisse erforderlich sein (vgl. [
        <xref ref-type="bibr" rid="ref13">12</xref>
        ]).
      </p>
      <p>Komplexe Berechtigungen: Anstatt der Definition und Erstellung
komplexer Benutzerberechtigungen (z.B. auf Merkmale oder auf
Feldinhalte), werden bestimmte Data-Marts mit den Daten erstellt
und die Berechtigungen auf dem Data-Mart vergeben.
„Informationsgewährleistung”: Viele EDW haben zu
gewährleisten, dass die Daten den Benutzern in einem bestimmten
Zeitraum (oftmals sogar 24 Stunden pro Tag) zur Verfügung
stehen und für die Anwendungen genutzt werden können. Hierfür
werden in der Regel besonders kritische Datenbestände zusätzlich
gespeichert.</p>
      <p>Corporate Governance: Daten werden gemäß den
ComplianceVorgaben des jeweiligen Unternehmens (Corporate Governance)
gespeichert; z.B., um eine aufgrund bestimmter Daten getroffene
Managemententscheidung auch im Nachhinein beurteilen zu
können.</p>
      <p>
        Gesetze und Bestimmungen: Zudem gibt es auch Gesetze und
Bestimmungen, die eine Datenspeicherung begründen; für
Deutschland existieren solche beispielsweise im Finanzbereich
(Handelsgesetzbuch u.a., [
        <xref ref-type="bibr" rid="ref14">13</xref>
        ]) und bei der Produkthaftung [
        <xref ref-type="bibr" rid="ref15">14</xref>
        ].
Subjektive Sicherheit: Letzlich kann das sujektive Bedürfnis an
Sicherheit ein Grund für Datenspeicherung sein.
      </p>
      <p>Persistenz beinhaltet häufig redundante Datenhaltung, da sowohl
Quell- als auch transformierte Zieldaten gespeichert werden;
ausschließliches Speichern der Zieldaten bedeutet in aller Regel
Datenverlust. Hieraus entstehen hohe Anforderungen, nicht nur an
die Hardware (Speicherplatz etc.), sondern auch an die
Datenpflege, um etwa die Datenbestände konsistent zu halten.
Der Betrieb produktiver DWS führt zwangsläufig zu Konflikten
zwischen den Anforderungen der Datennutzung, wie z.B.
Performanz bei Reporting und Analyse, und dem Aufwand an Zeit
und Ressourcen, die notwendigen Voraussetzungen hierfür zu
schaffen. Im Folgenden beschreiben wir diese Anforderungen und
ihre Konsequenzen kurz.</p>
      <p>
        Wie bereits erwähnt, stellt ein EDW häufig die Datenbasis für
verschiedene Anwendungen dar; das hohe Datenvolumen
resultiert aus den unterschiedlichen Anforderungen dieser
Applikationen an die Daten. Der Bedarf an Detailinformationen
erfordert viele Daten feinster Granularität. Der Bedarf an
historischen Informationen erfordert eine lange Historisierung der
Daten. Schließlich wird eine große Bandbreite an Daten
gesammelt, beispielsweise für Data-Mining-Szenarios. Dieser
große Datenbestand muss für seine Verwendung aufbereitet
werden; z.B. ist eine gute Berichtsperformanz sicherzustellen.
Eine hohe Geschwindigkeit beim Datenzugriff wird zumeist durch
ein reduziertes Datenvolumen erreicht – durch den Aufbau
materialisierter Sichten oder Verdichtungsebenen. Ein einfaches
Beispiel hierfür ist die Verdichtung tagesgenauer Daten auf
Monat, mit einem Faktor von etwa 30. Pflege und Verwaltung
solcher Redundanzen erfordert nicht nur Speicherplatz, sondern
auch zusätzlichen Aufwand, die Daten aktuell und konsistent zu
halten (vgl. [
        <xref ref-type="bibr" rid="ref16">15</xref>
        ]). Da diese Aufwände Zeit kosten, ist die
Verfügbarkeit der Daten eingeschränkt. Außerdem beschränken
die vordefinierten Datenbestände die Flexibilität der Daten
hinsichtlich geänderter und neuer Nutzungsanforderungen.
Ein komplexer Staging-Prozess mit mehreren Schichten
persistenter Daten ist einer schnellen Datenverfügbarkeit
gegensätzlich. Dies ist insbesondere auch bei Konzepten für
„Near-Realtime Reporting“ zu beachten [
        <xref ref-type="bibr" rid="ref17">16</xref>
        ].
      </p>
    </sec>
    <sec id="sec-6">
      <title>4. PERSISTENZ BEI IN-MEMORY</title>
      <p>
        EDW-Architekturen basieren gewöhnlich auf relationalen
Datenbanken (RDBMS) mit Stern-, Snowflake- oder
GalaxySchema als Grundlage der Datenmodellierung; siehe z.B. [
        <xref ref-type="bibr" rid="ref16 ref18">15,17</xref>
        ].
Solche Modelle ermöglichen gute Performanz bei On-line
Analytical Processing. Große Datenbestände müssen aber auch
hier mittels materialisierter Sichten und Verdichtungsebenen
reduziert werden – mit den bereits beschriebenen Konsequenzen.
Spaltenbasierte Datenbanken (vgl. [
        <xref ref-type="bibr" rid="ref19 ref20">18,19</xref>
        ]) werden aufgrund ihrer
Vorteile bei der Datenkomprimierung und dem Lesezugriff
[
        <xref ref-type="bibr" rid="ref21 ref22">20,21</xref>
        ] im Data Warehousing genutzt (z.B. [
        <xref ref-type="bibr" rid="ref23 ref24">22,23</xref>
        ]). Seit einigen
Jahren wird spaltenbasierte In-Memory-Technologie in
kommerziellen Data Warehouse Produkten verwendet (z.B. „SAP
NetWeaver® Business Warehouse Accelerator“ [
        <xref ref-type="bibr" rid="ref25 ref26">24,25</xref>
        ],
„ParAccel Analytic DatabaseTM“ [
        <xref ref-type="bibr" rid="ref27">26</xref>
        ]), um verbesserte
Antwortzeiten beim Zugriff auf sehr große Datenbeständen zu
erzielen. Solche Technologien erlauben das Laden und Abfragen
von Datenvolumina im Teradatenbereich mit guter Performanz.
Es wurden bereits Installationen angekündigt, die On-Line
Transactional und Analytical Processing in einem System mit bis
zu 50 TB Daten im Hauptspeicher ermöglichen [
        <xref ref-type="bibr" rid="ref28">27</xref>
        ]. In diesem
Bereich ist SanssouciDB als ein erstes Produkt zu nennen [
        <xref ref-type="bibr" rid="ref4">3</xref>
        ].
Diese technologischen Veränderungen führen zu der Frage, in
welchem Maße Datenpersistenz in IMDB-basierten
EDWSystemen noch notwendig ist. Es wird suggeriert, dass bei
InMemory-Technologie keine Daten zusätzlich zu den
gespeicherten Urspungsdaten persistent gehalten werden müssen.
Alle abgeleiteten Daten, insbesondere die für Analysezwecke
aggregierten oder verdichteten, werden „on-the-fly“ ermittelt und
zur Verfügung gestellt [
        <xref ref-type="bibr" rid="ref28 ref4">3,27</xref>
        ]. Dies gilt jedoch nur für einige der
o.g. Gründe, wie im folgenden deutlich wird. In diesem
Zusammenhang fokussieren wir uns auf Datenbanken, die
ACIDfähig sind, inklusive Dauerhaftigkeit (z.B. SanssouciDB, solidDB
von IBM und TimesTen von Oracle [
        <xref ref-type="bibr" rid="ref29 ref30 ref4">3,28,29</xref>
        ]). Persistenz ist hier
zu unterscheiden von volatiler Speicherung, bei der die Daten in
flüchtigem Speicher gehalten werden und verloren gehen, wenn
das System heruntergefahren wird oder abstürzt.
      </p>
    </sec>
    <sec id="sec-7">
      <title>4.1 Notwendigkeit der Datenpersistenz</title>
      <p>Eine Entscheidung für Datenpersistenz kann nicht ausschließlich
nach einem kostenbasierten Vergleich von „Plattenplatz und
Kosten des Updates versus Geschwindigkeitsgewinn der Analyse”
getroffen werden. Zunächst ist der Grund der Datenspeicherung
(s. Abschnitt 3) zu berücksichtigen. Im RDBMS-basierten DWS
ist diese Überlegung weniger ausgeprägt, da die geringere
Leistungsfähigkeit der Datenbank und der daraus resultierende
Bedarf an aggregierten Daten das Speichern begründet. Um die
Notwendigkeit von Datenpersistenz zu ermitteln, führen wir eine
Einteilung dieser Gründe ein: die Speicherung der Daten ist nur
unterstützend, essentiell oder sogar verpflichtend.
Verpflichtend zu speichern sind Daten aufgrund von Gesetzen und
Bestimmungen sowie Regeln der Corporate Governance. Zudem
gilt dies für Daten, welche nicht wieder hergestellt werden
können, weil sie nicht mehr oder nur verändert zur Verfügung
stehen oder aufgrund geänderter Transformation nicht mehr
erstellt werden können. Auch Daten, die bei der Transformation
anderer Daten benötigt werden, sind zu speichern, wenn eine
gleichzeitige Verfügbarkeit nicht gewährleistet werden kann.
Essentielle Datenpersistenz kann in bestimmte Gruppen unterteilt
werden: Zum einen Daten, deren Wiederherstellung nur mit sehr
hohem Aufwand (an Zeit und Ressourcen) möglich ist, wie z.B.
archivierte oder komplex transformierte Daten. Hierbei ist „sehr
hoch“ allerdings subjektiv und näher zu untersuchen. Eine zweite</p>
      <sec id="sec-7-1">
        <title>Abhängige Transformationen Verpflichtend</title>
        <sec id="sec-7-1-1">
          <title>Grund/Zweck</title>
        </sec>
      </sec>
      <sec id="sec-7-2">
        <title>Gesetze und Bestimmungen</title>
      </sec>
      <sec id="sec-7-3">
        <title>Corporate Governance</title>
      </sec>
      <sec id="sec-7-4">
        <title>Datenverfügbarkeit</title>
      </sec>
      <sec id="sec-7-5">
        <title>Veränderte Transformationsregeln</title>
      </sec>
      <sec id="sec-7-6">
        <title>Quellsystem-Entkopplung</title>
      </sec>
      <sec id="sec-7-7">
        <title>Aufwendige</title>
        <p>Datenwiederherstellung</p>
      </sec>
      <sec id="sec-7-8">
        <title>Komplexe Transformationen</title>
      </sec>
      <sec id="sec-7-9">
        <title>Konstante Datenbasis</title>
        <p>“En-bloc Datenversorgung”</p>
      </sec>
      <sec id="sec-7-10">
        <title>Komplex-abweichende Daten</title>
      </sec>
      <sec id="sec-7-11">
        <title>Data-Lineage</title>
      </sec>
      <sec id="sec-7-12">
        <title>Komplexe Berechtigungen</title>
        <p>„Single Version of Truth“
„Corporate Data Memory“
„Informationsgewähr”</p>
      </sec>
      <sec id="sec-7-13">
        <title>Zugriffsgeschwindigkeit</title>
        <sec id="sec-7-13-1">
          <title>Notwendigk.</title>
        </sec>
      </sec>
      <sec id="sec-7-14">
        <title>Verpflichtend</title>
      </sec>
      <sec id="sec-7-15">
        <title>Verpflichtend</title>
      </sec>
      <sec id="sec-7-16">
        <title>Verpflichtend</title>
      </sec>
      <sec id="sec-7-17">
        <title>Verpflichtend</title>
      </sec>
      <sec id="sec-7-18">
        <title>Essentiell</title>
      </sec>
      <sec id="sec-7-19">
        <title>Essentiell</title>
      </sec>
      <sec id="sec-7-20">
        <title>Essentiell</title>
      </sec>
      <sec id="sec-7-21">
        <title>Essentiell</title>
      </sec>
      <sec id="sec-7-22">
        <title>Essentiell</title>
      </sec>
      <sec id="sec-7-23">
        <title>Essentiell</title>
      </sec>
      <sec id="sec-7-24">
        <title>Essentiell</title>
      </sec>
      <sec id="sec-7-25">
        <title>Essentiell</title>
      </sec>
      <sec id="sec-7-26">
        <title>Essentiell</title>
      </sec>
      <sec id="sec-7-27">
        <title>Essentiell</title>
      </sec>
      <sec id="sec-7-28">
        <title>Essentiell</title>
      </sec>
      <sec id="sec-7-29">
        <title>Essentiell</title>
        <sec id="sec-7-29-1">
          <title>Gruppierung</title>
        </sec>
      </sec>
      <sec id="sec-7-30">
        <title>Aufwand</title>
      </sec>
      <sec id="sec-7-31">
        <title>Aufwand</title>
      </sec>
      <sec id="sec-7-32">
        <title>Aufwand</title>
      </sec>
      <sec id="sec-7-33">
        <title>Aufwand</title>
      </sec>
      <sec id="sec-7-34">
        <title>Vereinfachung</title>
      </sec>
      <sec id="sec-7-35">
        <title>Vereinfachung</title>
      </sec>
      <sec id="sec-7-36">
        <title>Vereinfachung</title>
      </sec>
      <sec id="sec-7-37">
        <title>Vereinfachung</title>
      </sec>
      <sec id="sec-7-38">
        <title>Design</title>
      </sec>
      <sec id="sec-7-39">
        <title>Design</title>
      </sec>
      <sec id="sec-7-40">
        <title>Sicherheit</title>
      </sec>
      <sec id="sec-7-41">
        <title>Performanz</title>
        <p>Gruppe sind Daten, die gespeichert werden, um den Betrieb des
Warehouse oder einzelner Anwendungen zu vereinfachen; hierzu
zählen speziell abgelegte Plandaten oder Data-Marts mit
Berechtigungen für besondere Benutzer. Drittens begründet sich
Persistenz mit spezieller Konzeption (Design) des EDW: „Single
Version of Truth“, „Corporate Data Memory“ zählen u.a. hierzu.
Sicherheit, etwa zur Gewährleistung der Datenverfügbarkeit, stellt
eine weitere Gruppe dar. Letztlich ist Datenspeicherung für eine
hohe Performanz ein Grund; oftmals der, dem das größte
redundante Datenvolumen zugrunde liegt.</p>
        <p>Daten, deren Speicherung unterstützend ist, beinhalten solche, die
wegen subjektiver Sicherheitsüberlegungen abgelegt werden.
Eine komplette Auflistung der Persistenzgründe, gruppiert nach
Notwendigkeiten, zeigt Tab. 1.</p>
        <p>Abb. 2 zeigt ein vereinfachtes Entscheidungsdiagramm für
Datenpersistenz, in dem z.B. unscharfe Begriffe wie „aufwendig“,
„komplex“ und „häufig“ abhängig von der Domäne spezifiziert
werden müssen. Die ersten drei Abfragen betreffen verpflichtende
Gründe, d.h. die Daten sind – auch in IMDB-basierten EDW – zu
speichern. Bei den aus anderen Gründen gespeicherten Daten sind
die Entscheidungsgrundlagen sehr vielfältig. Stellen die Daten
eine „Single Version of Truth“ dar oder umfasst das EDW-Design
ein „Corporate Data Memory”, so sind diese Daten zu speichern.
Ist hingegen eine komplexe Reproduktion oder Transformation
Grund des Speicherns, so müssen z.B. Zugriffshäufigkeit und
Sicherstellung der Verfügbarkeit in Betracht gezogen werden, um
entscheiden zu können.</p>
        <sec id="sec-7-41-1">
          <title>Abb. 2. Entscheidungsdiagramm „Datenpersistenz“</title>
        </sec>
      </sec>
    </sec>
    <sec id="sec-8">
      <title>4.2 Bewertung der Persistenz in IMDBs</title>
      <p>
        Alle nicht-verpflichtend gespeicherten Daten sind Gegenstand der
Betrachtung bei der Frage nach Persistenz in IMDB-basierten
EDW. Insbesondere betrifft dies Daten, die zur Verbesserung der
Zugriffsperformanz oder aufgrund komplexer Transformation
redundant abgelegt werden. Das bedeutet aber nicht, dass allein
die Geschwindigkeit der Datenverarbeitung in einem solchen
System jede Art zusätzlicher Speicherung überflüssig machen
wird. Dies gilt beispielsweise für die „En-bloc Datenversorgung“
oder beim Aufbau einer konstanten Datenbasis für Planungsläufe.
IMDB-Snapshot-Mechanismen, wie in [
        <xref ref-type="bibr" rid="ref31">30</xref>
        ] erläutert, halten den
Datenbestand zumeist nicht über die benötigte Zeit von Stunden
oder Tagen konstant. Hier kommt es nicht auf eine schnelle
Versorgung mit neuen Daten an, sondern auf die Herstellung eines
über einen definierten Zeitraum unveränderten Datenbestands.
Zeitstempelverfahren in In-Memory-Konzepten [
        <xref ref-type="bibr" rid="ref31 ref4">3,30</xref>
        ] können ein
Lösungsszenario sein. Für die Ersetzung eines „Corporate Data
Memory“ jedoch sind diese Verfahren nicht geeignet, wenn Daten
verschiedener Quellsysteme integriert werden, was insbesondere
für ein EDW gilt. Auch werden Persistenzgründe wie komplexe
Berechtigungen oder Data-Lineage weiterhin gültig bleiben.
Die Erfahrung zeigt, dass technische Beschränkungen meist früher
als erwartet eintreten, so dass die Systemressourcen für die an sie
gestellten Aufgaben nicht mehr ausreichen werden. Die
Möglichkeit, auf sehr viele Daten mit sehr hoher Performanz
zuzugreifen, wird neue Bedürfnisse wecken. Es werden neue
Anforderungen aufkommen und die Datenmengen zunehmen.
Aufgrund dessen ist auch bei IMDB-basierten Systemen zu
betrachten, ob wiederholte, gleichartige Zugriffe und Bearbeitung
von Daten „on-the-fly“ nicht durch Vorhalten der Daten im
benötigten Format günstiger ist. Dies gilt insbesondere für
Datenbestände, auf die häufig zugegriffen wird und die sich nicht
oder nur wenig ändern, wie beispielsweise die geschlossenen
Jahres-, Quartals- oder Monatsabschlüsse der Finanzbuchhaltung.
Eine weitere Frage in diesem Zusammenhang ist das Datenformat,
in dem gespeichert wird, d.h. auf welcher Transformationsstufe
die Speicherung optimal ist. Hierbei ist das Format zu ermitteln,
welches eine möglichst flexible Verwendung der Daten bei einer
größtmöglichen Vermeidung wiederholter, gleichartiger
Transformationen darstellt. Dies kann durch kostenbasierte
Laufzeitmessungen geschehen, wie folgendes Beispiel erläutert:
Gegeben sei ein Rohdatenbestand (R), der über eine mehrstufige
Transformation (Tn; n={1,2,3}) für Analysen (A) abgefragt wird.
Zu vergleichen ist, ob es effizienter ist, die Daten nach den
einzelnen Transformationen persistent zu speichern (P), sie volatil
zu halten (V), oder sie jeweils „on-the-fly” neu zu ermitteln:
(1) R
(2) R
(3) R
(4) R
(5) R
      </p>
      <p>T1 + P
T1 + P
T1 + P
T1 + V
T1</p>
      <p>T2</p>
      <p>T2 + P
T2 + V
T2
T2</p>
      <p>T3 + A</p>
      <p>T3 + A
T3 + A</p>
      <p>T3 + A</p>
      <p>T3 + A
Weitere Indikatoren, die hier betrachtet werden müssen, sind:
Datenvolumen: Ist die Datenmenge so groß, dass die zur Nutzung
notwendige, oftmals sehr komplexe Aufbereitung überhaupt bzw.
in einer akzeptablen Zeit „on-the-fly“ durchgeführt werden kann?
Häufigkeit der Datennutzung: Wird auf die Daten so häufig
zugegriffen, dass der Nutzen einer zusätzlichen Materialisierung
deren Kosten aufwiegt?
Häufigkeit von Datenänderungen: Wird ein Datenbestand so oft
geändert (durch Update, Insert, Delete), dass der Aufwand, z.B.
für die Konsistenzsicherung der abgeleiteten Verdichtungsebenen,
geringer ist als der Geschwindigkeitsgewinn der Anwendung?
Und: Wie aufwendig sind diese Änderungen?
Untersuchungen dieser Art sind auch bei RDBMS-basierten DWS
valide. Hierbei lässt die Leistungsfähigkeit einer IMDB jedoch als
Ergebnis erwarten, dass Transformationen eher „on-the-fly“ als
mit redundanter Persistenz durchgeführt werden.</p>
      <p>
        Einige IMDB ermöglichen die Festlegung unterschiedlicher
Kriterien zur Dauerhaftigkeit, z.B. durch Definition temporärer
Tabellen [
        <xref ref-type="bibr" rid="ref30 ref31">29,30</xref>
        ]. Hierdurch können Daten, die nicht verpflichtend
zu speichern sind, nur in flüchtigem Speicher gehalten werden. Da
ein Herunterfahren oder Absturz der Datenbank relativ selten
geschieht, sind die Wartungskosten für solche Daten gering. Ein
beispielhafter Anwendungsfall hierfür ist die Ermittlung von
RFM-Attributen (Recency, Frequency, Monetary) zur
Kundenkategorisierung im CRM-Umfeld [
        <xref ref-type="bibr" rid="ref32">31</xref>
        ]. Die Emittlung (s.
Abb. 3) basiert auf Kundenstamm- und Transaktionsdaten
(Kassenbons, Aufträge, Fakturen) und umfasst Selektionen,
Kalkulationen, Währungsumrechnungen, Look-Ups zu komplexen
Steuerungsdaten etc. Die berechneten Attribute werden zeitnah
aktualisiert benötigt, sowohl im DWS, als auch im CRM-System.
Zu berücksichtigen ist, dass es sich hierbei um oft sehr große
Mengen an Daten handelt, mehrere Millionen Kunden mit jeweils
einer zweistelligen Anzahl Transaktionen. Diese Datenbestände
ändern sich häufig, so dass auch die RFM-Attribute laufend
aktualisiert werden müssen. Da die Ermittlung der Attribute
reproduzierbar ist, kann das Vorhalten dieser Daten ausschließlich
im flüchtigen Speicher einer Persistierung vorzuziehen sein.
      </p>
      <sec id="sec-8-1">
        <title>Abb. 3. Ermittlung von RFM-Attributen</title>
        <p>Festzuhalten bleibt, dass in einem IMDB-basierten EDW viele
Daten nicht mehr gespeichert werden müssen, die in einem
RDBMS-basierten aufgrund von Performanzgewinn redundant zu
halten sind. Höhere Zugriffsgeschwindigkeiten werden es
ermöglichen, Daten „on-the-fly“ für die Nutzung aufzubereiten,
insbesondere solche mit relativ einfacher Transformationslogik,
wie z.B. Aggregation, Joins etc. Eine Vielzahl materialisierter
Sichten wird zu virtuellen Sichten.</p>
      </sec>
    </sec>
    <sec id="sec-9">
      <title>5. FAZIT UND AUSBLICK</title>
      <p>Enterprise Data Warehouses sind komplexe Systeme mit
speziellen Anforderungen an Datenbestand und Datenhaltung, für
die eine Architektur dedizierter, zweckbestimmter Schichten
geeignet ist. Die Notwendigkeit von Datenpersistenz in solchen
Systemen kann nur durch den Zweck der Daten begründet
werden. Diese Sichtweise wird bei IMDB-basierten EDW noch
entscheidender. Wir beschreiben Gründe der Datenpersistenz und
unterteilen sie in verpflichtende, essentielle und unterstützende.
Darauf aufbauend nähern wir uns der Entscheidungsfindung, ob
Daten in solchen Systemen gespeichert werden.</p>
      <p>Persistente Datenhaltung wird es auch in EDW-Systemen auf
IMDB geben. Ein großer Anteil heutiger persistierter Daten wird
allerdings nur flüchtig gespeichert oder „on-the-fly“ berechnet.
Zudem wird die Frage aufkommen nach dem Format, in dem die
Daten abgelegt werden. Die Antwort hierauf wird nicht einfach zu
ermitteln sein; es handelt sich hierbei vielmehr um eine
multidimensionale Gewichtung verschiedener Faktoren, wie:
Aufwand für Transformation, Speicherung und Updating, Anzahl
und Zeit von Datenabfrage und -aktualisierung.</p>
      <p>Zukünftige Arbeiten werden eine detaillierte Aufstellung von
Persistenzgründen mit ausführlichen Beispielen umfassen.
Darüber hinaus werden Indikatoren definiert und beschrieben
werden, die die Entscheidungsfindung für/gegen Datenpersistenz
unterstützen. Dies umfasst sowohl messbare, wie beispielsweise
Vergleiche von Laufzeiten und Wartungsaufwänden zwischen
Datenbeständen in verschiedenen Speicherzuständen, als auch
nicht-messbare Indikatoren. So wird ermittelt, ob Entscheidungen
durch Berechnungen getroffen oder hierdurch zumindest
unterstützt werden können.</p>
    </sec>
    <sec id="sec-10">
      <title>6. DANKSAGUNG</title>
      <p>Diese Arbeit wird teilweise unterstützt vom Bundesministerium
für Bildung und Forschung (BMBF) innerhalb des
ViERforES-IIProjekts (Nr. 01IM10002B).</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>7. LITERATUR</mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          [1]
          <string-name>
            <given-names>R.</given-names>
            <surname>Winter</surname>
          </string-name>
          <article-title>: „Why Are Data Warehouses Growing So Fast?”; www.b-eye-network</article-title>
          .com/print/7188 {
          <fpage>03</fpage>
          .
          <fpage>05</fpage>
          .
          <year>2011</year>
          };
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          [2]
          <string-name>
            <given-names>H.</given-names>
            <surname>Plattner</surname>
          </string-name>
          et al.:
          <article-title>„ETL-less Zero Redundancy System and Method for Reporting OLTP Data” (</article-title>
          <year>US 2009</year>
          /0240663 A1); US Patent Application Publication;
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          [3]
          <string-name>
            <given-names>H.</given-names>
            <surname>Plattner</surname>
          </string-name>
          ,
          <string-name>
            <surname>A</surname>
          </string-name>
          . Zeier: „In-Memory Data Management“; Springer-Verlag, Berlin;
          <year>2011</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          [4]
          <string-name>
            <given-names>B.A.</given-names>
            <surname>Devlin</surname>
          </string-name>
          ,
          <string-name>
            <given-names>P.T.</given-names>
            <surname>Murphy</surname>
          </string-name>
          <article-title>: „An architecture for a business and information system”</article-title>
          ;
          <source>in: IBM Systems Journal</source>
          <volume>27</volume>
          (
          <issue>1</issue>
          ), S.
          <fpage>60</fpage>
          -
          <lpage>80</lpage>
          ;
          <year>1988</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          [5]
          <string-name>
            <given-names>V.</given-names>
            <surname>Poe</surname>
          </string-name>
          <article-title>: „Building a data warehouse for decision support”; Prentice Hall PTR</article-title>
          , Upper Saddle River;
          <year>1996</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          [6]
          <string-name>
            <given-names>H.</given-names>
            <surname>Muksch</surname>
          </string-name>
          ,
          <string-name>
            <surname>W.</surname>
          </string-name>
          <article-title>Behme (Hrsg</article-title>
          .)
          <string-name>
            <surname>: „Das Data WarehouseKonzept“;</surname>
          </string-name>
          Gabler-Verlag,
          <year>Wiesbaden</year>
          , 4.Auflage;
          <year>2000</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          [7]
          <string-name>
            <given-names>P.</given-names>
            <surname>Gluchowski; P. Chamoni</surname>
          </string-name>
          <article-title>: „Entwicklungslinien und Architekturkonzepte des On-Line Analytical Processing“</article-title>
          ; in: Analytische Informationssysteme, Springer-Verlag,
          <fpage>3</fpage>
          .
          <string-name>
            <surname>Auflage</surname>
          </string-name>
          , S.
          <fpage>143</fpage>
          -
          <lpage>176</lpage>
          ;
          <year>2006</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          [8]
          <string-name>
            <given-names>T.</given-names>
            <surname>Zeh</surname>
          </string-name>
          <article-title>: „Referenzmodell für die Architektur von DataWarehouse-Systemen (Referenzarchitektur)“; www</article-title>
          .tzeh.de/doc/gse-ra.
          <source>ppt {03.05</source>
          .
          <year>2011</year>
          };
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          [9]
          <string-name>
            <given-names>B.A.</given-names>
            <surname>Devlin</surname>
          </string-name>
          <article-title>: „Business Integrated Insight (BI²)”; www.9sight.com/bi2_white_paper</article-title>
          .pdf {
          <volume>03</volume>
          .
          <fpage>05</fpage>
          .
          <year>2011</year>
          };
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          [10]
          <string-name>
            <surname>SAP: „PDEBW1 - Layered Scalable Architecture (LSA) for</surname>
            <given-names>BW</given-names>
          </string-name>
          “; Schulungsunterlagen, SAP AG;
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          [11]
          <string-name>
            <given-names>U.</given-names>
            <surname>Leser</surname>
          </string-name>
          , F. Naumann: „Informationsintegration“; dpunktVerlag, Heidelberg;
          <year>2007</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          [12]
          <string-name>
            <given-names>Y.</given-names>
            <surname>Cui</surname>
          </string-name>
          ,
          <string-name>
            <given-names>J.</given-names>
            <surname>Widom</surname>
          </string-name>
          <article-title>: „Lineage Tracing for General Data Warehouse Transformations”; in:</article-title>
          <source>The VLDB Journal</source>
          <volume>12</volume>
          (
          <issue>1</issue>
          ), S.
          <fpage>41</fpage>
          -
          <lpage>58</lpage>
          ;
          <year>2003</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          [13] §§
          <volume>239</volume>
          ,
          <string-name>
            <surname>257</surname>
            <given-names>HGB</given-names>
          </string-name>
          (Stand:
          <fpage>01</fpage>
          .
          <fpage>03</fpage>
          .
          <year>2011</year>
          )
          <article-title>; §25a KWG (Stand: 01</article-title>
          .
          <fpage>03</fpage>
          .
          <year>2011</year>
          ); §147
          <string-name>
            <surname>AO</surname>
          </string-name>
          (Stand:
          <fpage>08</fpage>
          .
          <fpage>12</fpage>
          .
          <year>2010</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          <source>[14] §13 ProdHaftG (Stand: 19.07</source>
          .
          <year>2002</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          [15]
          <string-name>
            <given-names>W.</given-names>
            <surname>Lehner</surname>
          </string-name>
          <article-title>: „Datenbanktechnologie für Data-WarehouseSysteme“; dpunkt-</article-title>
          <string-name>
            <surname>Verlag</surname>
          </string-name>
          , Heidelberg;
          <year>2003</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref17">
        <mixed-citation>
          [16]
          <string-name>
            <given-names>J.</given-names>
            <surname>Langseth</surname>
          </string-name>
          <article-title>: „Real-Time Data Warehouses: Challenges and Solutions“; on: www.dssresources</article-title>
          .
          <source>com {03.05</source>
          .
          <year>2011</year>
          };
          <year>2004</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref18">
        <mixed-citation>
          [17]
          <string-name>
            <given-names>R.</given-names>
            <surname>Kimball</surname>
          </string-name>
          ,
          <string-name>
            <surname>M.</surname>
          </string-name>
          <article-title>Ross: „The Data Warehouse Toolkit”; Wiley Publishing Inc</article-title>
          ., Indianapolis, 2.Auflage;
          <year>2002</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref19">
        <mixed-citation>
          [18]
          <string-name>
            <given-names>G.P.</given-names>
            <surname>Copeland</surname>
          </string-name>
          ,
          <string-name>
            <given-names>S.N.</given-names>
            <surname>Khoshafian</surname>
          </string-name>
          <article-title>: „A Decomposition Storage Model”</article-title>
          ; in: SIGMOD`85, S.
          <fpage>268</fpage>
          -
          <lpage>279</lpage>
          ;
          <year>1985</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref20">
        <mixed-citation>
          [19]
          <string-name>
            <surname>M.J. Turner</surname>
          </string-name>
          et al.:
          <article-title>„A DBMS for large statistical databases”; in: 5th VLDB`79</article-title>
          , S.
          <fpage>319</fpage>
          -
          <lpage>327</lpage>
          ;
          <year>1979</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref21">
        <mixed-citation>
          [20]
          <string-name>
            <given-names>D.J.</given-names>
            <surname>Abadi</surname>
          </string-name>
          et al.:
          <article-title>„Integrating Compression and Execution in Column-Oriented Database Systems“</article-title>
          ; in: SIGMOD`06, S.
          <fpage>671</fpage>
          -
          <lpage>682</lpage>
          ;
          <year>2006</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref22">
        <mixed-citation>
          [21]
          <string-name>
            <surname>D.J</surname>
          </string-name>
          . Abadi: „
          <source>Query Execution in Column-Oriented Database Systems”; Dissertation</source>
          , MIT;
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref23">
        <mixed-citation>
          [22]
          <string-name>
            <given-names>M.</given-names>
            <surname>Stonebraker</surname>
          </string-name>
          et al.: „
          <string-name>
            <surname>C-Store: A Column-oriented</surname>
            <given-names>DBMS</given-names>
          </string-name>
          ”; in: 31st VLDB`05, S.
          <fpage>553</fpage>
          -
          <lpage>564</lpage>
          ;
          <year>2005</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref24">
        <mixed-citation>
          [23]
          <string-name>
            <given-names>D.</given-names>
            <surname>Slezak</surname>
          </string-name>
          et al.:
          <article-title>„Brighthouse: An Analytic Data Warehouse for Ad-hoc Queries“; in: PVLDB 1(2</article-title>
          ), S.
          <fpage>1337</fpage>
          -
          <lpage>1345</lpage>
          ;
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref25">
        <mixed-citation>
          [24]
          <string-name>
            <given-names>T.</given-names>
            <surname>Legler</surname>
          </string-name>
          et al.:
          <article-title>„Data Mining with the SAP NetWeaver BI Accelerator“; in: 32nd VLDB`06</article-title>
          , S.
          <fpage>1059</fpage>
          -
          <lpage>1068</lpage>
          ;
          <year>2006</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref26">
        <mixed-citation>
          [25]
          <string-name>
            <given-names>J.A.</given-names>
            <surname>Ross</surname>
          </string-name>
          <article-title>: „SAP NetWeaver® BI Accelerator”; Galileo Press Inc</article-title>
          ., Boston;
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref27">
        <mixed-citation>
          [26]
          <string-name>
            <surname>ParAccel: „PARACCEL ANALYTIC DATABASETM</surname>
          </string-name>
          <article-title>“; www</article-title>
          .paraccel.com/wp-content/uploads/2010/07/PA_DS.pdf {
          <volume>03</volume>
          .
          <fpage>05</fpage>
          .
          <year>2011</year>
          };
          <year>2011</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref28">
        <mixed-citation>
          [27]
          <string-name>
            <given-names>H.</given-names>
            <surname>Plattner</surname>
          </string-name>
          <article-title>: „A Common Database Approach for OLTP and OLAP Using an In-Memory Column Database”</article-title>
          ; in: SIGMOD`09, S. 1-
          <fpage>2</fpage>
          ;
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref29">
        <mixed-citation>
          [28]
          <article-title>IBM: IBM solidDBTM; www</article-title>
          .ibm.com/software/data/soliddb {03.
          <fpage>05</fpage>
          .
          <year>2011</year>
          };
          <year>2010</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref30">
        <mixed-citation>
          [29]
          <string-name>
            <surname>Oracle</surname>
            <given-names>: „Extreme</given-names>
          </string-name>
          <string-name>
            <surname>Performance Using Oracle TimesTen InMemory Database</surname>
          </string-name>
          <article-title>”; www</article-title>
          .oracle.com/technetwork/database/ timesten/overview/wp-timesten
          <source>-tech-132016.pdf {03.05</source>
          .
          <year>2011</year>
          };
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref31">
        <mixed-citation>
          [30]
          <string-name>
            <given-names>A.</given-names>
            <surname>Kemper</surname>
          </string-name>
          , T. Neumann: „
          <article-title>HyPer: Hybrid OLTP&amp;OLAP High PERformance Database System“; www3</article-title>
          .in.tum.de/research/projects/HyPer/HyperTechReport. pdf {
          <volume>03</volume>
          .
          <fpage>05</fpage>
          .
          <year>2011</year>
          };
          <year>2010</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref32">
        <mixed-citation>
          [31]
          <string-name>
            <given-names>J.</given-names>
            <surname>Stafford</surname>
          </string-name>
          <article-title>: „RFM: A Precursor of Data Mining”; www.b-eye-network</article-title>
          .com/view/10256 {
          <fpage>03</fpage>
          .
          <fpage>05</fpage>
          .
          <year>2011</year>
          }
          <article-title>; 2009</article-title>
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>