=Paper= {{Paper |id=None |storemode=property |title=iETL: Flexibilisierung der Datenintegration in Data Warehouses |pdfUrl=https://ceur-ws.org/Vol-850/paper_schick.pdf |volume=Vol-850 |dblpUrl=https://dblp.org/rec/conf/gvd/SchickBKHF12 }} ==iETL: Flexibilisierung der Datenintegration in Data Warehouses== https://ceur-ws.org/Vol-850/paper_schick.pdf
                   i ETL: Flexibilisierung der Datenintegration
                               in Data Warehouses

          Sebastian Schick1 , Gregor Buchholz2 , Meike Klettke3 , Andreas Heuer1 , Peter Forbrig2
                   1
                       Lehrstuhl für Datenbank- und Informationssysteme; 2 Lehrstuhl für Softwaretechnik
                                                    3
                                                      Institut für Informatik
                                             Universität Rostock, 18051 Rostock
                                           vorname.nachname@uni-rostock.de

ABSTRACT
Data Warehouses bestehen aus zwei Hauptkomponenten: ei-                   neu  identifiziert                                         OLAP-­‐Anfragen	
  f
                                                                                                        Quellen-­‐                  e	
  Anfrageergebnisse
ner flexiblen Anfrageschnittstelle zur Datenanalyse (OLAP)                                           identifikation
und einer relativ starren ETL-Komponente zum Laden der                                                                                              Data  Mart
Daten ins Data Warehouse. In diesem Artikel soll vorgestellt                                                          Anpassung
werden, wie die Datenintegration bedarfsabhängig zu flexi-
bilisieren ist, welche Vorteile sich daraus ergeben und welche          bereits  erschlossen

Herausforderungen bei der Entwicklung eines solchen inter-                                              Datenintegration
aktiven ETL (iETL)-Prozesses bestehen.                                                                  Datenbereinigung

                                                                                                                                                                 Selection

Categories and Subject Descriptors
                                                                            Datenbanken,  
D.2.2 [Software Engineering]: Design Tools and Tech-                  CSV-­‐  und  Excel-­‐Dateien                                Data  Warehouse

niques—User interfaces; H.2.7 [Database Management]:
Database Administration—data warehouse and repository;                 Abbildung 1: Interaktiver ETL-Prozess eines DW
H.3.3 [Information Storage and Retrieval]: Informati-
on Search and Retrieval—query formulation, search process
                                                                      formationsfülle spiegelt sich in der Heterogenität der vor-
General Terms                                                         zuhaltenden Lösungen, der Vielfalt der Schnittstellen zum
                                                                      Informationsaustausch sowie der Menge vorzufindender Da-
Data Warehouse
                                                                      tenbanklösungen und Datenablagen in Excel und ähnlichen
                                                                      Formaten wider. Dem gegenüber steht der zunehmende Be-
Keywords                                                              darf an zentralen Beobachtungs- und Steuerungsinstrumen-
Data Warehouse, ETL-Prozess, Szenario, Datenintegration               ten der Bereiche Business- und Geo-Intelligence. Der Ver-
                                                                      breitung fachübergreifender Systeme steht oft der sehr ho-
                                                                      he Datenbeschaffungsaufwand (sowohl initial als auch pro-
1.   MOTIVATION                                                       zessbegleitend) im Weg. Insbesondere die Erschließung neu-
  Institutionen des öffentlichen Sektors sehen sich mehr noch         er Datenquellen bei der Ausweitung von Kennzahlensyste-
als industrielle Verwaltungen einer Vielzahl von Softwarelö-         men auf neue Fachgebiete oder bei Auftreten tagesaktuel-
sungen zur Unterstützung ihrer Prozesse gegenüber. Wäh-            ler ad-hoc-Abfragen mit teils exotischen“ Fragestellungen
rend in Industrien wie dem Automobilbau oder dem Ban-                                                  ”
                                                                      geht stets mit großem manuellen Aufwand bei der Informa-
kenbereich fünf bis zehn Kernkompetenzen in der IT darge-            tionssuche und -transformation einher. Es geht also um eine
stellt werden, finden sich im Kerngeschäft öffentlicher Ver-         Lösung zur Identifizierung und Integration heterogener Da-
waltungen leicht zwischen 100 und 150 Prozesse verschiede-            tenquellen im Data Warehouse (DW)-Umfeld, die den An-
ner Dienstleistungskomplexe [11]. Diese Aufgaben- und In-             wender in verschiedensten Datenquellen enthaltene Informa-
∗Die Arbeit dieser Autoren wird durch das BMWi im ZIM-                tionen finden und in seinen Bestand übernehmen lässt. Nicht
Projekt KF2604606LF1 der GeoWare GmbH und der Uni-                    im Fokus stehen von technischem Personal eingerichtete tur-
versität Rostock gefördert.                                         nusmäßige Beladungen oder Real-Time-Data-Warehousing
                                                                      sondern die zunächst einmalige Integration aus Quellen mit
                                                                      überwiegend statischem Inhalt und geringer Komplexität
                                                                      durch den Anwender. Kapitel 2 illustriert dies anhand zwei-
                                                                      er Szenarien aus der Anforderungsanalyse. Abb. 1 zeigt in
                                                                      durchgezogenen Pfeilen bestehende Daten- und Kontrollflüs-
                                                                      se und in unterbrochenen Linien die zu entwickelnden Ver-
                                                                      bindungen. Interessant dabei ist, wie der Prozess aus Nut-
                                                                      zersicht verlaufen kann und mehr noch, mittels welcher Ar-
24th GI-Workshop on Foundations of Databases (Grundlagen von Daten-
banken), 29.05.2012 - 01.06.2012, Lübbenau, Germany.                  chitekturen und Datenstrukturen die daraus ermittelten An-
Copyright is held by the author/owner(s).                             forderungen am besten umzusetzen sind.
       Abbildung 2: Eingabemaske Szenario 1                               Abbildung 3: Ergebnisliste Szenario 1


2.   ANWENDUNGSSZENARIEN                                          damit nicht relevant. Herr B. wählt also den zweiten Tref-
                                                                  fer und betrachtet ihn in der Voransicht. Er erkennt, dass
   In der Anforderungsanalyse dieses Projektes sind Szenari-
                                                                  die gesuchten Daten (eine Auflistung der Auszubildenen mit
en ([3], S. 52) zur Veranschaulichung der gewünschten Funk-
                                                                  Wohn- und Ausbildungsadresse) in dem Suchergebnis ent-
tionalität entstanden, die beim Entwickeln einer Lösung hel-
                                                                  halten sind und wechselt via Importieren“ zum Import-Mo-
fen sollen. Die folgende Wiedergabe dieser Beispielanwen-                                     ”
                                                                  dul für Excel-Dateien. Dort kann er einzelne Spalten und
dungen beginnt nach dem Skizzieren des technischen Kon-
                                                                  Bereiche der Excel-Tabelle als Werte der drei Dimensionen
textes jeweils mit der Beschreibung einer Bedarfssituation,
                                                                  markieren und den Import in sein DW-Systems anstoßen.
an die sich eine mögliche Lösung aus Anwendersicht an-
                                                                  Anschließend widmet er sich der Aufbereitung der Statisti-
schließt. Das folgende Kapitel 3 schlägt dann ein Konzept
                                                                  ken.
zur Umsetzung dieser Anforderung vor.
                                                                    Szenario 2 – Kontext: Die Konfiguration entspricht der
  Szenario 1 – Kontext: Die Klassifikationshierarchie des
                                                                  von Szenario 1. Hier wird jedoch die Anfrage nicht vom DW-
DW mit ihren Attributen ist dem System bekannt. Ebenso
                                                                  System vorbelegt.
wurden die möglichen Datenquellen (Web-Services, Suchpfa-
de im Dateisystem) bereits konfiguriert. Die drei Dimensio-          Situation: Vor dem Beitritt zu einem Verband zur Förde-
nen der Daten im DW sind: Zeitraum, Geo-Objekte (Hier-            rung von Solarenergieanlagen an privaten Immobilien sollen
archie geographischer Bezugselemente) und Kenngrößen.            für 2010 Anzahl, Verteilung und Höhe der Landesförderung
                                                                  von Anlagen ermittelt werden. Frau B. ist damit beauftragt
   Situation: Wenige Tage vor der Jahresversammlung des
                                                                  und stellt fest, dass zu den Förderungen bislang keine Daten
Gaststätten- und Hotelverbandes wird Herr B. im Amt für
                                                                  im DW existieren, jedoch hat sie kürzlich davon gehört, dass
Ausbildungsförderung mit dem Zusammenstellen einer Sta-
                                                                  ein Mitarbeiter einem anderen per Mail eine solche Übersicht
tistik beauftragt. Sie soll die Entwicklung der Auszubilden-
                                                                  schicken wollte.
denzahlen der vergangenen Jahre in diesem Bereich aufzei-
gen. Dazu fragt er die dafür relevanten Informationen in ei-         Lösungsausblick: Sie startet das Suchsystem und spezi-
nem DW-System an und erkennt an der grauen Einfärbung            fiziert ihre Anfrage: solaranlagen 2010 +förderung +privat
                                                                                        ”
des entsprechenden Knotens in seiner DW-Anwendung, dass           -gewerblich“ (siehe Abb. 4). Der Begriff solaranlagen“ und
                                                                                                             ”
die Daten zur Kenngröße Auszubildende in der Hauswirt-           das Jahr 2010“ sollen im Ergebnis enthalten sein. Ebenso
                             ”                                               ”
schaft“ für den Stadtteil Nordstadt“ im Jahr 2008 fehlen.          förderung“ und privat“, die ihr besonders wichtig sind und
                            ”                                     ”                 ”
Dass sie nicht wie sonst automatisch übermittelt wurden,         für die das +“ eine erhöhte Priorität der Fundstellen be-
                                                                                ”
liegt seiner Meinung nach an der Umbenennung des Stadt-           wirken soll. Kommt hingegen gewerblich“ in der Fundstelle
                                                                                                  ”
teils (früher: Neustadt“) im Vorjahr.                            vor, soll die Priorität des Ergebnisses sinken. Als Suchort
               ”
                                                                  schließt Frau B. die Datenquelle StarDepot“ aus, dann star-
   Lösungsausblick: Über einen Rechtsklick auf den ausge-                                         ”
                                                                  tet sie die Suche. In einer Ansicht ähnlich zu Abb. 3 nutzt
grauten Knoten lässt Herr B. eine Anfrage an das Suchsys-
                                                                  sie die Vorschau, um die Datei mit den gesuchten Informa-
tem generieren, was ihn zur Eingabemaske (Abb. 2) führt.
                                                                  tionen zu identifizieren. Anschließend bereitet sie die Daten
Die Suchfelder für die drei Dimensionen sind schon vorbe-
                                                                  für den Import vor und übernimmt sie in den eigenen Da-
legt; per direkter Texteingabe oder über die Schaltflächen
                                                                  tenbestand.
 Variablen auswählen“ und Objekte auswählen“ könnte Herr
”                            ”
B. die Suchkriterien verändern; die jeweiligen Dialoge stellen
die möglichen Werte der jeweiligen Dimension zur Auswahl.        3.   LÖSUNGSKONZEPT
Er tippt in das Suchfeld der Ortsbezeichnungen Neustadt“             In Abschnitt 2 wurden Anwendungsszenarien und mög-
                                                   ”
ein und bekommt nach Abschluss der Suche als Ergebnis             liche Lösungsausblicke vorgestellt, die eine Anpassung des
eine Liste von Datenquellen zu sehen (Abb. 3). Das erste          ETL-Prozesses notwendig machen. In diesem Abschnitt stel-
Ergebnis ist offenbar ein Bericht eines konkreten Hotels und       len wir dafür eine erweiterte DW-Architektur vor.
                                                                    • Wissensbasis: Sämtliche Komponenten sollen zur Fle-
                                                                      xibilisierung um semantische und ontologische Kon-
                                                                      zepte erweitert werden.
                                                                   Wir schlagen deshalb vor, das Referenzmodell für die Ar-
                                                                 chitektur von DW aus [2] derart zu erweitern, dass der An-
                                                                 wender bei der Identifikation passender Datenquellen un-
                                                                 terstützt, der Integrationsprozess heterogener Datenquellen
                                                                 erleichtert und die Flexibilisierung der Datenextraktion mit
                                                                 geeigneten Konzepten ermöglicht wird. Die Architektur ist
                                                                 in Abbildung 5 dargestellt. Datenflüsse zwischen den Kom-
                                                                 ponenten sind als durchgezogene Pfeile umgesetzt, der Kon-
                                                                 trollfluss wird mit unterbrochenen Linien markiert.
                                                                 3.2   Die Wissenskomponente
                                                                    Die zentrale Komponente in der vorgestellten Architektur
       Abbildung 4: Eingabemaske Szenario 2                      bildet der Data Warehouse Manager (DWM) (siehe Abb. 5).
                                                                 Der DWM steuert in einem klassischen DW nach [2] alle
                                                                 Komponenten, die zur Anfrage und Darstellung der Daten
3.1   Ausgangspunkt                                              notwendig sind: Monitore, Extraktoren, Ladekomponenten
   Der Anwender soll bei der Quellenidentifikation und Da-       und Analysekomponenten. Zusätzlich erhält der DWM in
tenintegration im ETL-Prozess in einem DW unterstützt           der hier vorgestellten Architektur Schnittstellen
werden. Dafür müssen die verfügbaren Datenquellen so auf-
                                                                    • zur zentralen Wissenskomponente, die für die Planung
bereitet werden, dass eine Recherche und eine anschließen-
                                                                      und Ausführung der Quellenidentifikation und Daten-
de Auswahl von geeigneten Datenquellen möglich ist. Die
                                                                      transformation im ETL-Prozess benötigt wird und
Heterogenität der Datenquellen erschwert die automatische
Integration in das DW. In föderierten Datenbanken gab es           • zur Search Engine zwecks Quellenidentifikation.
umfangreiche Untersuchungen zu Heterogenitäten der ein-
zelnen Datenquellen bzgl. Syntax und Semantik von Werten,
Attributen, Relationen und Modellen [6]. Die Transformati-       Konzept.
on von Daten aus heterogenen Formaten in eine einheitli-           Die Wissenskomponente (knowledge component) stellt
che Repräsentationsform stellt das Hauptproblem bei der         Informationen über Klassifikations- und Dimensionshiera-
Integration dar. Der Anwender muss deshalb bei der Daten-        chien, semantische Verknüpfungen und die Typisierung so-
integration und insbesondere bei der Datentransformation         wie Metadaten einzelner Attribute bereit (siehe Abb. 5).
unterstützt werden. Angepasste Nutzerinterfaces sollen den      Das domänenspezifische Wissen wird durch Quellenanga-
technikunerfahrenen Anwender unterstützen.                      ben, Synonyme und Muster (Format- bzw. Modell-Pattern)
   Der Prozess des Füllens eines DW mit Daten wird als          ergänzt. Die Wissenskomponente ist für die Prozesse der
ETL-Prozess bezeichnet, ETL steht hierbei für Extract, Trans-   Quellenidentifikation und Datenintegration neuer Datenquel-
form und Load. Die Basisdaten in den meisten Anwendun-           len unabdingbar.
gen sind heterogene Daten, die in ein einheitliches Format,         • Der Metadata Manager stellt eine Schnittstelle be-
das multidimensionale Modell des DW integriert werden sol-            reit, über die andere Komponenten Anfragen an die
len. Bei diesem Prozess werden die neuen oder veränderten            Wissensbasis und das Metadaten-Repository stellen und
Daten aus den Basisdatenquellen ausgewählt (Extraction),             Antworten anfordern können.
in eine einheitliche Darstellung umgewandelt (Transformati-
on), dabei vervollständigt, Duplikate bereinigt und eventuell      • Die Knowledge Base beinhaltet ein Wissensmodell
voraggregiert. Anschließend erfolgt das Laden in die Daten-           für die Speicherung und Verwaltung der semantischen
bank (Load) [5]. Im vorgestellten Ansatz soll eine Wissens-           und ontologischen Informationen.
komponente den ETL-Prozess unterstützen, indem einzelne            • Das Metadata Repository beinhaltet alle weiteren
Komponenten um semantische und ontologische Konzepte                  Metadaten, die vom DWM benötigt werden.
erweitert werden. Wir schlagen deshalb eine Erweiterung des
klassischen ETL-Prozesses in folgenden Bereichen vor:
                                                                 Herausforderungen.
   • Quellenidentifikation: Methoden des Information-              Die Umsetzung einer Wissenskomponente erfordert den
     Retrieval sollen den Anwender bei der Identifikation        Aufbau einer Wissensbasis zum Anwendungsgebiet des DW,
     und Vorauswahl von Datenquellen unterstützen.              womit je nach Anwendungsszenario ein hoher manueller Auf-
                                                                 wand verbunden ist. Ein Teil der Wissensbasis kann aus
   • Datenintegration: Die flexible Integration heteroge-        den hierarchischen Klassifikationsattributen der Dimensio-
     ner Datenquellen soll durch semiautomatische Techni-        nen des DW übernommen werden.
     ken gefördert werden.                                        Zusätzlich zu diesen hierarchischen Informationen werden
                                                                 Wörterbücher benötigt, die die Verbindung zwischen Kon-
   • Datenextraktion (als Teil der Datenintegration): Der        zepten der Wissensbasis und Suchbegriffen herstellen. Die-
     Anwender soll durch geeignete Nutzerinterfaces die Ab-      se Wörterbücher sind initial zur erstellen und sollen beim
     bildungs- und Transformationsvorschriften effizient be-       Einsatz des iETL-Tools von einer lernenden Komponente
     stimmen können.                                            erweitert und anpasst werden.
                  analysis

                                                                                    knowledge component

                  BI-Tool                        Metadata
                 Repository                                             Metadata               Knowledge
                                                 Manager
                                                                        Repository               Base

                    load



                   Base                                                                  Response                    Query
                                               Data Warehouse Manager
                 Repository                                                              Manager                    Manager



                    load                                                                                             “—‡”›
                                                                                                                   ’”‘ ‡••‹‰



                  Staging                –”ƒ•Ǧ                                                                   Search Engine
                                       ˆ‘”ƒ–‹‘
                   Area
                                                                                       Index
                                                            ’ƒ––‡”
                 extraction                                 ƒ– Š‹‰                                                 ”ƒ™Ž‹‰

                                        data integration                          source identification



                                                             Integration Layer
                     applications          documents                                 databases            portable disks
                                                                             control flow                            data flow


                                    Abbildung 5: Architektur für den flexiblen ETL-Prozess


3.3    Quellenidentifikation                                                         – Wann: Datumsangaben und Zeitbereiche.
  Liegt in einem klassischen DW die Auswahl der Daten-
quellen bzw. der Quelldaten vorrangig bei den zuständigen                       • Das Query Processing beschreibt eine Vorverarbei-
Administratoren, so soll in diesem Ansatz der Anwender des                         tung der Anfrage unter Verwendung der Wissensbasis.
DW in die Quellenidentifikation einbezogen und dabei un-                           Dabei soll eine Anpassung der Anfrage hinsichtlich der
terstützt werden.                                                                 Struktur (Ort, Zeit, Schlüsselwörter), die Expansion
                                                                                   der Anfrage mit Hilfe der Wissensbasis sowie ein Vo-
                                                                                   kabularmapping und weitere Vorverarbeitungsschritte
Konzept.                                                                           wie eine lexikografische Analyse oder Stoppwortelemi-
   Eine Suchkomponente soll bei der Quellenidentifikation im
                                                                                   nierung stattfinden.
ETL-Prozess dem Anwender die Auswahl weiterer Daten-
quellen erleichtern. Dafür soll ein Index über alle verfügba-                 • Die Search Engine soll die Indizierung von Daten-
ren Datenquelle aufgebaut werden, die über den Integra-                           quellen, eine Anfrageverarbeitung und die Bereitstel-
tion Layer verfügbar sind. Der Prozess der Quelleniden-                           lung von Ergebnislisten übernehmen. Die Indizierung
tifikation (source identification) ist in Abbildung 5 rechts                       (mit gleichen Methoden wie bei der Anfrageverarbei-
dargestellt. Die Komponenten sind an die Architektur ei-                           tung) soll durch eine Strukturanalyse auf Basis von
ner Web-Suchmaschine angelehnt, wie sie beispielsweise in                          Mapping-Mustern (die während der Datenintegration
[1] (Seite 460) vorgeschlagen wird. Sie werden im Folgenden                        erzeugt werden) umgesetzt werden. Neben dem Bereit-
vorgestellt.                                                                       stellen von Anfrageergebnissen aus heterogenen Daten-
   • Der Query Manager stellt über eine Schnittstelle                             quellen sollen Suchergebnisse mit Informationen über
     einfache oder erweiterte Suchmasken bereit. Für die                          den Fundort innerhalb der Datenquellen angereichert
     Suche werden vorerst die existierenden Dimensionen                            werden, wofür domänenspezifische Informationen und
     aus dem DW als Suchparameter verwendet:                                       Musteranalysen aus der Wissensbasis zum Einsatz kom-
                                                                                   men sollen.
        – Was: Kenngrößen, die in einer Datenquelle ent-
          halten sein müssen.                                                   • Das Crawling beschreibt den Schritt, in dem verfüg-
        – Wo: Geo-Objekte, die durch die Werte beschrie-                           bare Datenquellen durchsucht und für die Indizierung
          ben werden.                                                              bereitgestellt werden. In diesem Schritt ist die Nut-
      zung vorhandener Mapping-Muster zu Strukturanaly-        Konzept.
      sen und semantischen Auswertungen geplant.
                                                                  • Mit extraction wird die Übertragung von Daten aus
   • Der Response Manager wird für die Präsentation               externen Quellen in den Arbeitsbereich (staging area)
     der Anfrageergebnisse genutzt. Dem Nutzer soll eine            beschrieben. Die Auswahl der Datenquellen wurde im
     Vorauswahl von Datenquellen durch eine vereinfachte            Vorfeld durch den Anwender (Quellenidentifikation)
     Datenvorschau ermöglicht werden, eine semiautomati-           durchgeführt. Der Prozess muss um semiautomatische
     sche Identifizierung möglicher Indikatoren, Variablen         Methoden des Schema Matchings und Mappings erwei-
     und Zeiträume in den Anfrageergebnissen soll dabei            tert werden (pattern matching).
     erfolgen (siehe Abb. 3). Die ausgewählten Quellen wer-        Die bei der Datenextraktion und -transformation er-
     den hier an den DWM übergeben, der in einem nächs-           zeugten Mapping-Mustern sollen für eine spätere Wie-
     ten Schritt die Datenintegration anstoßen kann.                derverwendung in der Wissensbasis vorgehalten wer-
                                                                    den und bei jeder Datenintegration auf ihre Anwend-
Herausforderung.                                                    barkeit hin überprüft werden. Passende Muster für die
  Eine Herausforderung ist das Design des Anfrageinterfa-           Extraktion einer Datenquellen werden dem Anwender
ces und der Ergebnisdarstellung. Hierfür müssen die Anfor-        angeboten. Die Schritte der Extraktion und Transfor-
derungen der Anwender bestimmt werden.                              mation müssen durch angepasste, graphische Tools un-
                                                                    terstützt werden.
   • Anfrageinterfaces: Wie können Suchanfragen auf Ord-
                                                                  • Mit transformation wird die Abbildung der Daten
     ner, Datenquellen oder Dateitypen eingegrenzt werden
                                                                    hinsichtlich struktureller und inhaltlicher Aspekte be-
     und welche der Anfragetypen Context (Phrase, Boo-
                                                                    schrieben. Neben der Datentransformation (z. B. Kon-
     lean, etc.), Pattern Matching oder strukturierte An-
                                                                    vertierung von Kodierungen, Vereinheitlichung von Da-
     fragen (formularbasiert) können genutzt werden. Au-
                                                                    tumsangaben, etc.) sollen hier auch eine Datenbereini-
     ßerdem ist zu klären, ob die Klassifizierung der An-
                                                                    gung, Duplikaterkennung und eine Datenfusion statt-
     frage durch vorhandene Kategorien der Wissensbasis
                                                                    finden (siehe auch [2]). Für diesen Schritt sind ebenfalls
     möglich und sinnvoll ist.
                                                                    Informationen aus der Wissensbasis notwendig. Vor-
   • Ergebnisdarstellung: Wie muss eine zielgerichtete              schläge für Transformationsvorschriften können aus der
     Präsentation der Anfrageergebnisse unter Verwendung           Wissensbasis abgeleitet werden.
     der Wissensbasis umgesetzt werden und wie ist dabei
                                                                  • Mit load wird die Übertragung der Daten aus dem
     eine semiautomatische Identifizierung potentieller In-
                                                                    Arbeitsbereich in das Base Repository beschrieben.
     dikatoren, Variablen und Zeiträume möglich. Daneben
                                                                    Die Daten stehen dann für die weitere Verarbeitung
     sollen relevante Elemente der Ergebnismenge hervor-
                                                                    durch unterschiedliche BI-Tools (Business Intelligence
     gehoben und die Identifizierung von Strukturen inner-
                                                                    Tools) zur Verfügung. Durch ein erneutes Laden wer-
     halb eines Treffers durch Anwendung von Mapping-
                                                                    den die Daten in ein externes BI-Tool Repository
     Mustern möglich sein.
                                                                    geladen (grau hinterlegt) und stehen so in DW-Anwen-
   • Query Processing (basierend auf der Wissensbasis):             dungen für weitere OLAP-Analysen zur Verfügung.
     Wie kann die Wissensbasis für die Anfrageerweiterung
     in Form einer facettierten Suche genutzt und wie kön-
     nen Methoden des Relevance Feedback zur Verbesse-         Herausforderungen.
     rung der Qualität der Ergebnisse genutzt werden.           Die Herausforderungen bei der Datenintegration liegen
                                                               bei der Tool-Unterstützung des Anwenders, sowie bei der
   • Search Engine: Wie kann die Integration externer          semantischen Unterstützung des Transformationsprozesses.
     Anwendungen (Enterprise Search, ERP, CRM, etc.)           Das Schema einer Datenquelle ist in der Regel unbekannt,
     umgesetzt werden, wenn die bereitgestellte Anfrage-       weshalb es mit Hilfe geeigneter Werkzeuge extrahiert werden
     schnittstellen nur Teilergebnisse liefern oder der Um-    muss.
     fang der Datenbasen zu groß ist. Die Integration un-
     terschiedlicher Datenformate soll ebenso unterstützt        • Transformation: Die Datentransformation aus dem
     werden, wie die Duplikaterkennung, wenn Inhalte und            Format der Basisdatenquelle ins Zielformat kann nicht
     Daten aus unterschiedlichen Quellen genutzt werden.            vollständig automatisiert werden. Herausforderung ist
     Weiterhin sollen Mapping-Muster für den Prozess der           hier die Entwicklung von Nutzerinterfaces zur Einga-
     Indizierung und Extraktion genutzt werden und Klas-            be der benötigten Informationen durch den Fachan-
     sifikation durch die Mapping-Muster unterstützt wer-          wender. Die dabei entstehenden Transformationsmus-
     den.                                                           ter sollen gespeichert werden, damit sie für andere Da-
                                                                    tenquellen verwendet werden können.
3.4    Datenintegration                                             Welche vorhandenen Ansätze der Datenintegration kön-
  Die Datenintegration muss bedarfsabhängig und flexibel           nen für die Datenbereinigung, Duplikaterkennung und
angepasst werden, wenn durch die Quellenidentifikation neue         Datenfusion angewendet werden und wie kann eine
Datenquellen zu integrieren sind. Die Flexibilisierung soll         Plausibilitätsprüfung der Daten unterstützt werden.
durch Anwendung von semantischen und ontologischen Kon-             Für eine Plausibilitätsprüfung können z. B. Regeln de-
zepten erreicht werden, wodurch domänenspezifisches Wis-           finiert werden, die die Wissensbasis einbeziehen. Ein
sen ausgenutzt wird. Die Architektur in Abbildung 5 ist da-         möglicher Ansatzpunkt ist hier die Angabe von check-
bei an die Referenzarchitektur angelehnt.                           constraints.
3.5    Einsatz des Verfahrens                                      Wissensbasis gebildet werden, die um Wörterbücher ergänzt
  Das im Projekt zu entwickelnde Verfahren wird sich nicht         wird.
auf alle DW anwenden lassen. Voraussetzung ist, dass es ei-
ne Wissensbasis zu dem Anwendungsgebiet des DW gibt. Da
diese Wissensbasis eine zentrale Rolle beim Finden der rele-       5.   ZUSAMMENFASSUNG, AUSBLICK
vanten Datenquellen und bei der Transformation der Daten              Die flexible, durch situativ entstandenen Datenbedarf in-
ins DW spielt, muss eine solche Wissensbasis für einen fle-       itiierte Integration bislang unerschlossener Datenquellen in
xiblen ETL-Prozess vorhanden sein. Teile der Wissensbasis          ein Data Warehouse erfordert eine Anreicherung des ETL-
lassen sich aus den Klassifikationsattributen der Dimensio-        Prozesses um interaktive Schritte. Um diesen Prozess für
nen des DW generieren; die Zuordnung dieser Klassifikati-          den Fachanwender handhabbar zu halten, bedarf es zusätz-
onshierarchie zu den korrespondierenden Suchbegriffen für          licher Komponenten zur Speicherung und Nutzung von do-
die Datenquellen muss für das jeweilige Anwendungsgebiet          mänenspezifischem Wissen (knowledge component), die das
ergänzt werden.                                                   Finden (source identification) und Integrieren (data integra-
                                                                   tion) neuer Daten erleichtern bzw. erst ermöglichen.
4.    RELATED WORK /                                                  Geleitet von Anwendungsszenarien wurde ein Konzept zur
                                                                   Architektur eines solchen Systems vorgestellt. Die Heraus-
      STAND DER TECHNIK                                            arbeitung technischer Herausforderungen zeigt den zu ge-
                                                                   henden Weg: Die Details der einzelnen Komponenten sind
4.1    Datenintegration                                            zu konkretisieren, bislang nicht kombinierte Techniken zu
   Jede Datenintegration bewirkt das Zusammenführen von           verbinden und eine angemessene Nutzerschnittstelle zu ent-
Daten aus heterogenen Datenbanken und Informationssys-             wickeln.
temen. Es gibt Klassifikationen, die die Heterogenitäten der
einzelnen Datenquellen systematisieren. Heterogenitäten kön-     6.   REFERENCES
nen bzgl. Syntax und Semantik von Werten, Attributen, Re-
lationen, Modellen existieren ([6]). Eine Standardarchitek-         [1] Baeza-Yates, R. und B. Ribeiro-Neto: Modern
tur, die das Zusammenführen von heterogenen Formaten in                information retrieval: the concepts and technology
heterogenen Datenbanken vornimmt, wurde bereits im Jahr                 behind search. Addison-Wesley, Pearson, Harlow [u.a.],
1990 in [10] vorgeschlagen.                                             2. Aufl., 2011.
   Eine dabei bestehende Aufgabe ist Matching und Map-              [2] Bauer, A. und H. Günzel:
ping heterogener Datenbanken. Es gibt mehrere Mapping-                  Data-Warehouse-Systeme: Architektur, Entwicklung,
Tools, die eine intuitiv bedienbare Oberfläche anbieten, um            Anwendung. dpunkt-Verl., Heidelberg, 2. überarb. und
dem Benutzer das Entwickeln von Datentransformations-                   aktualisierte Aufl., 2004. Literatur- und URL-Verz. S.
komponenten zu erleichtern (wie Altova MapForce1 , oder                 545–576.
IBM Data Integrator), dieser Prozess ist jedoch nicht au-           [3] Courage, C. und K. Baxter: Understanding Your
tomatisierbar. Einen Überblick über Forschungsansätze in             Users: A Practical Guide to User Requirements
dieser Richtung findet man in [9]. Dabei spielen vor allem              Methods, Tools, and Techniques. Morgan Kaufmann,
Ontologie-basierte Ansätze eine große Rolle (vgl. [7] und [4]).        1. Aufl., 2005.
                                                                    [4] Doan, A. und A. Y. Halevy: Semantic Integration
4.2    ETL                                                              Research in the Database Community: A Brief Survey.
  Beim ETL-Prozess in einem DW werden die Basisdaten                    AI Magazine, 26(1):83–94, 2005.
(meist heterogene Daten) in ein einheitliches Format, das           [5] Inmon, W.: Building the data warehouse. Wiley, 2005.
multidimensionale Modell des DW integriert [5]. Man kann            [6] Kim, W. und J. Seo: Classifying Schematic and Data
den ETL-Prozess eines DW als Spezialfall föderierter Daten-            Heterogeneity in Multidatabase Systems. Computer,
banken sehen. Für neue Datenquellen bedeutet der ETL-                  24(12):12–18, Dez. 1991.
Prozess also manuellen Aufwand, der eine Interaktion mit            [7] Noy, N. F.: Semantic integration: a survey of
einem Benutzer erfordert; im laufenden Prozess kann das                 ontology-based approaches. SIGMOD Rec.,
Laden neuer Daten dann automatisch ausgeführt werden.                  33(4):65–70, Dez. 2004.
Es stehen Tools zur Vereinfachung dieses Prozesses für die         [8] Pardillo, J. und J.-N. Mazón: Using Ontologies for
Anwender zur Verfügung, Beispiele dafür sind Talend2 und              the Design of Data Warehouses. CoRR,
IBM Data Stage3 .                                                       abs/1106.0304, 2011.
                                                                    [9] Rahm, E. und P. A. Bernstein: A survey of
4.3    Verwendung von Ontologien                                        approaches to automatic schema matching. VLDB
       im ETL-Prozess                                                   Journal, 10(4):334–350, 2001.
  Die Idee, Ontologien zur Beschreibung von Objekten ein-          [10] Sheth, A. P. und J. A. Larson: Federated database
zusetzen, ist weit verbreitet. Im DW-Bereich gibt es einen              systems for managing distributed, heterogeneous, and
Vorschlag, Ontologien zu verwenden, um die Metadaten des                autonomous databases. ACM Comput. Surv.,
Data Warehouses daraus abzuleiten [8]. In unserem Ansatz                22(3):183–236, Sep. 1990.
soll die Kopplung dieser beiden Gebiete auf andere Weise           [11] Vitako: IT-Monitor kommunal . Vitako aktuell.
erfolgen: Aus den Klassifikationsattributen des DW soll eine            Bundesarbeitsgemeinschaft der Kommunalen
1                                                                       IT-Dienstleister e.V, 2007.
  www.altova.com/mapforce.html
2
  www.talend.com
3
  www.ibm.com/software/data/infosphere/datastage