i ETL: Flexibilisierung der Datenintegration in Data Warehouses Sebastian Schick1 , Gregor Buchholz2 , Meike Klettke3 , Andreas Heuer1 , Peter Forbrig2 1 Lehrstuhl für Datenbank- und Informationssysteme; 2 Lehrstuhl für Softwaretechnik 3 Institut für Informatik Universität Rostock, 18051 Rostock vorname.nachname@uni-rostock.de ABSTRACT Data Warehouses bestehen aus zwei Hauptkomponenten: ei- neu  identifiziert OLAP-­‐Anfragen  f Quellen-­‐ e  Anfrageergebnisse ner flexiblen Anfrageschnittstelle zur Datenanalyse (OLAP) identifikation und einer relativ starren ETL-Komponente zum Laden der Data  Mart Daten ins Data Warehouse. In diesem Artikel soll vorgestellt Anpassung werden, wie die Datenintegration bedarfsabhängig zu flexi- bilisieren ist, welche Vorteile sich daraus ergeben und welche bereits  erschlossen Herausforderungen bei der Entwicklung eines solchen inter- Datenintegration aktiven ETL (iETL)-Prozesses bestehen. Datenbereinigung Selection Categories and Subject Descriptors Datenbanken,   D.2.2 [Software Engineering]: Design Tools and Tech- CSV-­‐  und  Excel-­‐Dateien Data  Warehouse niques—User interfaces; H.2.7 [Database Management]: Database Administration—data warehouse and repository; Abbildung 1: Interaktiver ETL-Prozess eines DW H.3.3 [Information Storage and Retrieval]: Informati- on Search and Retrieval—query formulation, search process formationsfülle spiegelt sich in der Heterogenität der vor- General Terms zuhaltenden Lösungen, der Vielfalt der Schnittstellen zum Informationsaustausch sowie der Menge vorzufindender Da- Data Warehouse tenbanklösungen und Datenablagen in Excel und ähnlichen Formaten wider. Dem gegenüber steht der zunehmende Be- Keywords darf an zentralen Beobachtungs- und Steuerungsinstrumen- Data Warehouse, ETL-Prozess, Szenario, Datenintegration ten der Bereiche Business- und Geo-Intelligence. Der Ver- breitung fachübergreifender Systeme steht oft der sehr ho- he Datenbeschaffungsaufwand (sowohl initial als auch pro- 1. MOTIVATION zessbegleitend) im Weg. Insbesondere die Erschließung neu- Institutionen des öffentlichen Sektors sehen sich mehr noch er Datenquellen bei der Ausweitung von Kennzahlensyste- als industrielle Verwaltungen einer Vielzahl von Softwarelö- men auf neue Fachgebiete oder bei Auftreten tagesaktuel- sungen zur Unterstützung ihrer Prozesse gegenüber. Wäh- ler ad-hoc-Abfragen mit teils exotischen“ Fragestellungen rend in Industrien wie dem Automobilbau oder dem Ban- ” geht stets mit großem manuellen Aufwand bei der Informa- kenbereich fünf bis zehn Kernkompetenzen in der IT darge- tionssuche und -transformation einher. Es geht also um eine stellt werden, finden sich im Kerngeschäft öffentlicher Ver- Lösung zur Identifizierung und Integration heterogener Da- waltungen leicht zwischen 100 und 150 Prozesse verschiede- tenquellen im Data Warehouse (DW)-Umfeld, die den An- ner Dienstleistungskomplexe [11]. Diese Aufgaben- und In- wender in verschiedensten Datenquellen enthaltene Informa- ∗Die Arbeit dieser Autoren wird durch das BMWi im ZIM- tionen finden und in seinen Bestand übernehmen lässt. Nicht Projekt KF2604606LF1 der GeoWare GmbH und der Uni- im Fokus stehen von technischem Personal eingerichtete tur- versität Rostock gefördert. nusmäßige Beladungen oder Real-Time-Data-Warehousing sondern die zunächst einmalige Integration aus Quellen mit überwiegend statischem Inhalt und geringer Komplexität durch den Anwender. Kapitel 2 illustriert dies anhand zwei- er Szenarien aus der Anforderungsanalyse. Abb. 1 zeigt in durchgezogenen Pfeilen bestehende Daten- und Kontrollflüs- se und in unterbrochenen Linien die zu entwickelnden Ver- bindungen. Interessant dabei ist, wie der Prozess aus Nut- zersicht verlaufen kann und mehr noch, mittels welcher Ar- 24th GI-Workshop on Foundations of Databases (Grundlagen von Daten- banken), 29.05.2012 - 01.06.2012, Lübbenau, Germany. chitekturen und Datenstrukturen die daraus ermittelten An- Copyright is held by the author/owner(s). forderungen am besten umzusetzen sind. Abbildung 2: Eingabemaske Szenario 1 Abbildung 3: Ergebnisliste Szenario 1 2. ANWENDUNGSSZENARIEN damit nicht relevant. Herr B. wählt also den zweiten Tref- fer und betrachtet ihn in der Voransicht. Er erkennt, dass In der Anforderungsanalyse dieses Projektes sind Szenari- die gesuchten Daten (eine Auflistung der Auszubildenen mit en ([3], S. 52) zur Veranschaulichung der gewünschten Funk- Wohn- und Ausbildungsadresse) in dem Suchergebnis ent- tionalität entstanden, die beim Entwickeln einer Lösung hel- halten sind und wechselt via Importieren“ zum Import-Mo- fen sollen. Die folgende Wiedergabe dieser Beispielanwen- ” dul für Excel-Dateien. Dort kann er einzelne Spalten und dungen beginnt nach dem Skizzieren des technischen Kon- Bereiche der Excel-Tabelle als Werte der drei Dimensionen textes jeweils mit der Beschreibung einer Bedarfssituation, markieren und den Import in sein DW-Systems anstoßen. an die sich eine mögliche Lösung aus Anwendersicht an- Anschließend widmet er sich der Aufbereitung der Statisti- schließt. Das folgende Kapitel 3 schlägt dann ein Konzept ken. zur Umsetzung dieser Anforderung vor. Szenario 2 – Kontext: Die Konfiguration entspricht der Szenario 1 – Kontext: Die Klassifikationshierarchie des von Szenario 1. Hier wird jedoch die Anfrage nicht vom DW- DW mit ihren Attributen ist dem System bekannt. Ebenso System vorbelegt. wurden die möglichen Datenquellen (Web-Services, Suchpfa- de im Dateisystem) bereits konfiguriert. Die drei Dimensio- Situation: Vor dem Beitritt zu einem Verband zur Förde- nen der Daten im DW sind: Zeitraum, Geo-Objekte (Hier- rung von Solarenergieanlagen an privaten Immobilien sollen archie geographischer Bezugselemente) und Kenngrößen. für 2010 Anzahl, Verteilung und Höhe der Landesförderung von Anlagen ermittelt werden. Frau B. ist damit beauftragt Situation: Wenige Tage vor der Jahresversammlung des und stellt fest, dass zu den Förderungen bislang keine Daten Gaststätten- und Hotelverbandes wird Herr B. im Amt für im DW existieren, jedoch hat sie kürzlich davon gehört, dass Ausbildungsförderung mit dem Zusammenstellen einer Sta- ein Mitarbeiter einem anderen per Mail eine solche Übersicht tistik beauftragt. Sie soll die Entwicklung der Auszubilden- schicken wollte. denzahlen der vergangenen Jahre in diesem Bereich aufzei- gen. Dazu fragt er die dafür relevanten Informationen in ei- Lösungsausblick: Sie startet das Suchsystem und spezi- nem DW-System an und erkennt an der grauen Einfärbung fiziert ihre Anfrage: solaranlagen 2010 +förderung +privat ” des entsprechenden Knotens in seiner DW-Anwendung, dass -gewerblich“ (siehe Abb. 4). Der Begriff solaranlagen“ und ” die Daten zur Kenngröße Auszubildende in der Hauswirt- das Jahr 2010“ sollen im Ergebnis enthalten sein. Ebenso ” ” schaft“ für den Stadtteil Nordstadt“ im Jahr 2008 fehlen. förderung“ und privat“, die ihr besonders wichtig sind und ” ” ” Dass sie nicht wie sonst automatisch übermittelt wurden, für die das +“ eine erhöhte Priorität der Fundstellen be- ” liegt seiner Meinung nach an der Umbenennung des Stadt- wirken soll. Kommt hingegen gewerblich“ in der Fundstelle ” teils (früher: Neustadt“) im Vorjahr. vor, soll die Priorität des Ergebnisses sinken. Als Suchort ” schließt Frau B. die Datenquelle StarDepot“ aus, dann star- Lösungsausblick: Über einen Rechtsklick auf den ausge- ” tet sie die Suche. In einer Ansicht ähnlich zu Abb. 3 nutzt grauten Knoten lässt Herr B. eine Anfrage an das Suchsys- sie die Vorschau, um die Datei mit den gesuchten Informa- tem generieren, was ihn zur Eingabemaske (Abb. 2) führt. tionen zu identifizieren. Anschließend bereitet sie die Daten Die Suchfelder für die drei Dimensionen sind schon vorbe- für den Import vor und übernimmt sie in den eigenen Da- legt; per direkter Texteingabe oder über die Schaltflächen tenbestand. Variablen auswählen“ und Objekte auswählen“ könnte Herr ” ” B. die Suchkriterien verändern; die jeweiligen Dialoge stellen die möglichen Werte der jeweiligen Dimension zur Auswahl. 3. LÖSUNGSKONZEPT Er tippt in das Suchfeld der Ortsbezeichnungen Neustadt“ In Abschnitt 2 wurden Anwendungsszenarien und mög- ” ein und bekommt nach Abschluss der Suche als Ergebnis liche Lösungsausblicke vorgestellt, die eine Anpassung des eine Liste von Datenquellen zu sehen (Abb. 3). Das erste ETL-Prozesses notwendig machen. In diesem Abschnitt stel- Ergebnis ist offenbar ein Bericht eines konkreten Hotels und len wir dafür eine erweiterte DW-Architektur vor. • Wissensbasis: Sämtliche Komponenten sollen zur Fle- xibilisierung um semantische und ontologische Kon- zepte erweitert werden. Wir schlagen deshalb vor, das Referenzmodell für die Ar- chitektur von DW aus [2] derart zu erweitern, dass der An- wender bei der Identifikation passender Datenquellen un- terstützt, der Integrationsprozess heterogener Datenquellen erleichtert und die Flexibilisierung der Datenextraktion mit geeigneten Konzepten ermöglicht wird. Die Architektur ist in Abbildung 5 dargestellt. Datenflüsse zwischen den Kom- ponenten sind als durchgezogene Pfeile umgesetzt, der Kon- trollfluss wird mit unterbrochenen Linien markiert. 3.2 Die Wissenskomponente Die zentrale Komponente in der vorgestellten Architektur Abbildung 4: Eingabemaske Szenario 2 bildet der Data Warehouse Manager (DWM) (siehe Abb. 5). Der DWM steuert in einem klassischen DW nach [2] alle Komponenten, die zur Anfrage und Darstellung der Daten 3.1 Ausgangspunkt notwendig sind: Monitore, Extraktoren, Ladekomponenten Der Anwender soll bei der Quellenidentifikation und Da- und Analysekomponenten. Zusätzlich erhält der DWM in tenintegration im ETL-Prozess in einem DW unterstützt der hier vorgestellten Architektur Schnittstellen werden. Dafür müssen die verfügbaren Datenquellen so auf- • zur zentralen Wissenskomponente, die für die Planung bereitet werden, dass eine Recherche und eine anschließen- und Ausführung der Quellenidentifikation und Daten- de Auswahl von geeigneten Datenquellen möglich ist. Die transformation im ETL-Prozess benötigt wird und Heterogenität der Datenquellen erschwert die automatische Integration in das DW. In föderierten Datenbanken gab es • zur Search Engine zwecks Quellenidentifikation. umfangreiche Untersuchungen zu Heterogenitäten der ein- zelnen Datenquellen bzgl. Syntax und Semantik von Werten, Attributen, Relationen und Modellen [6]. Die Transformati- Konzept. on von Daten aus heterogenen Formaten in eine einheitli- Die Wissenskomponente (knowledge component) stellt che Repräsentationsform stellt das Hauptproblem bei der Informationen über Klassifikations- und Dimensionshiera- Integration dar. Der Anwender muss deshalb bei der Daten- chien, semantische Verknüpfungen und die Typisierung so- integration und insbesondere bei der Datentransformation wie Metadaten einzelner Attribute bereit (siehe Abb. 5). unterstützt werden. Angepasste Nutzerinterfaces sollen den Das domänenspezifische Wissen wird durch Quellenanga- technikunerfahrenen Anwender unterstützen. ben, Synonyme und Muster (Format- bzw. Modell-Pattern) Der Prozess des Füllens eines DW mit Daten wird als ergänzt. Die Wissenskomponente ist für die Prozesse der ETL-Prozess bezeichnet, ETL steht hierbei für Extract, Trans- Quellenidentifikation und Datenintegration neuer Datenquel- form und Load. Die Basisdaten in den meisten Anwendun- len unabdingbar. gen sind heterogene Daten, die in ein einheitliches Format, • Der Metadata Manager stellt eine Schnittstelle be- das multidimensionale Modell des DW integriert werden sol- reit, über die andere Komponenten Anfragen an die len. Bei diesem Prozess werden die neuen oder veränderten Wissensbasis und das Metadaten-Repository stellen und Daten aus den Basisdatenquellen ausgewählt (Extraction), Antworten anfordern können. in eine einheitliche Darstellung umgewandelt (Transformati- on), dabei vervollständigt, Duplikate bereinigt und eventuell • Die Knowledge Base beinhaltet ein Wissensmodell voraggregiert. Anschließend erfolgt das Laden in die Daten- für die Speicherung und Verwaltung der semantischen bank (Load) [5]. Im vorgestellten Ansatz soll eine Wissens- und ontologischen Informationen. komponente den ETL-Prozess unterstützen, indem einzelne • Das Metadata Repository beinhaltet alle weiteren Komponenten um semantische und ontologische Konzepte Metadaten, die vom DWM benötigt werden. erweitert werden. Wir schlagen deshalb eine Erweiterung des klassischen ETL-Prozesses in folgenden Bereichen vor: Herausforderungen. • Quellenidentifikation: Methoden des Information- Die Umsetzung einer Wissenskomponente erfordert den Retrieval sollen den Anwender bei der Identifikation Aufbau einer Wissensbasis zum Anwendungsgebiet des DW, und Vorauswahl von Datenquellen unterstützen. womit je nach Anwendungsszenario ein hoher manueller Auf- wand verbunden ist. Ein Teil der Wissensbasis kann aus • Datenintegration: Die flexible Integration heteroge- den hierarchischen Klassifikationsattributen der Dimensio- ner Datenquellen soll durch semiautomatische Techni- nen des DW übernommen werden. ken gefördert werden. Zusätzlich zu diesen hierarchischen Informationen werden Wörterbücher benötigt, die die Verbindung zwischen Kon- • Datenextraktion (als Teil der Datenintegration): Der zepten der Wissensbasis und Suchbegriffen herstellen. Die- Anwender soll durch geeignete Nutzerinterfaces die Ab- se Wörterbücher sind initial zur erstellen und sollen beim bildungs- und Transformationsvorschriften effizient be- Einsatz des iETL-Tools von einer lernenden Komponente stimmen können. erweitert und anpasst werden. analysis knowledge component BI-Tool Metadata Repository Metadata Knowledge Manager Repository Base load Base Response Query Data Warehouse Manager Repository Manager Manager load “—‡”› ’”‘ ‡••‹‰ Staging –”ƒ•Ǧ Search Engine ˆ‘”ƒ–‹‘ Area Index ’ƒ––‡” extraction ƒ– Š‹‰ ”ƒ™Ž‹‰ data integration source identification Integration Layer applications documents databases portable disks control flow data flow Abbildung 5: Architektur für den flexiblen ETL-Prozess 3.3 Quellenidentifikation – Wann: Datumsangaben und Zeitbereiche. Liegt in einem klassischen DW die Auswahl der Daten- quellen bzw. der Quelldaten vorrangig bei den zuständigen • Das Query Processing beschreibt eine Vorverarbei- Administratoren, so soll in diesem Ansatz der Anwender des tung der Anfrage unter Verwendung der Wissensbasis. DW in die Quellenidentifikation einbezogen und dabei un- Dabei soll eine Anpassung der Anfrage hinsichtlich der terstützt werden. Struktur (Ort, Zeit, Schlüsselwörter), die Expansion der Anfrage mit Hilfe der Wissensbasis sowie ein Vo- kabularmapping und weitere Vorverarbeitungsschritte Konzept. wie eine lexikografische Analyse oder Stoppwortelemi- Eine Suchkomponente soll bei der Quellenidentifikation im nierung stattfinden. ETL-Prozess dem Anwender die Auswahl weiterer Daten- quellen erleichtern. Dafür soll ein Index über alle verfügba- • Die Search Engine soll die Indizierung von Daten- ren Datenquelle aufgebaut werden, die über den Integra- quellen, eine Anfrageverarbeitung und die Bereitstel- tion Layer verfügbar sind. Der Prozess der Quelleniden- lung von Ergebnislisten übernehmen. Die Indizierung tifikation (source identification) ist in Abbildung 5 rechts (mit gleichen Methoden wie bei der Anfrageverarbei- dargestellt. Die Komponenten sind an die Architektur ei- tung) soll durch eine Strukturanalyse auf Basis von ner Web-Suchmaschine angelehnt, wie sie beispielsweise in Mapping-Mustern (die während der Datenintegration [1] (Seite 460) vorgeschlagen wird. Sie werden im Folgenden erzeugt werden) umgesetzt werden. Neben dem Bereit- vorgestellt. stellen von Anfrageergebnissen aus heterogenen Daten- • Der Query Manager stellt über eine Schnittstelle quellen sollen Suchergebnisse mit Informationen über einfache oder erweiterte Suchmasken bereit. Für die den Fundort innerhalb der Datenquellen angereichert Suche werden vorerst die existierenden Dimensionen werden, wofür domänenspezifische Informationen und aus dem DW als Suchparameter verwendet: Musteranalysen aus der Wissensbasis zum Einsatz kom- men sollen. – Was: Kenngrößen, die in einer Datenquelle ent- halten sein müssen. • Das Crawling beschreibt den Schritt, in dem verfüg- – Wo: Geo-Objekte, die durch die Werte beschrie- bare Datenquellen durchsucht und für die Indizierung ben werden. bereitgestellt werden. In diesem Schritt ist die Nut- zung vorhandener Mapping-Muster zu Strukturanaly- Konzept. sen und semantischen Auswertungen geplant. • Mit extraction wird die Übertragung von Daten aus • Der Response Manager wird für die Präsentation externen Quellen in den Arbeitsbereich (staging area) der Anfrageergebnisse genutzt. Dem Nutzer soll eine beschrieben. Die Auswahl der Datenquellen wurde im Vorauswahl von Datenquellen durch eine vereinfachte Vorfeld durch den Anwender (Quellenidentifikation) Datenvorschau ermöglicht werden, eine semiautomati- durchgeführt. Der Prozess muss um semiautomatische sche Identifizierung möglicher Indikatoren, Variablen Methoden des Schema Matchings und Mappings erwei- und Zeiträume in den Anfrageergebnissen soll dabei tert werden (pattern matching). erfolgen (siehe Abb. 3). Die ausgewählten Quellen wer- Die bei der Datenextraktion und -transformation er- den hier an den DWM übergeben, der in einem nächs- zeugten Mapping-Mustern sollen für eine spätere Wie- ten Schritt die Datenintegration anstoßen kann. derverwendung in der Wissensbasis vorgehalten wer- den und bei jeder Datenintegration auf ihre Anwend- Herausforderung. barkeit hin überprüft werden. Passende Muster für die Eine Herausforderung ist das Design des Anfrageinterfa- Extraktion einer Datenquellen werden dem Anwender ces und der Ergebnisdarstellung. Hierfür müssen die Anfor- angeboten. Die Schritte der Extraktion und Transfor- derungen der Anwender bestimmt werden. mation müssen durch angepasste, graphische Tools un- terstützt werden. • Anfrageinterfaces: Wie können Suchanfragen auf Ord- • Mit transformation wird die Abbildung der Daten ner, Datenquellen oder Dateitypen eingegrenzt werden hinsichtlich struktureller und inhaltlicher Aspekte be- und welche der Anfragetypen Context (Phrase, Boo- schrieben. Neben der Datentransformation (z. B. Kon- lean, etc.), Pattern Matching oder strukturierte An- vertierung von Kodierungen, Vereinheitlichung von Da- fragen (formularbasiert) können genutzt werden. Au- tumsangaben, etc.) sollen hier auch eine Datenbereini- ßerdem ist zu klären, ob die Klassifizierung der An- gung, Duplikaterkennung und eine Datenfusion statt- frage durch vorhandene Kategorien der Wissensbasis finden (siehe auch [2]). Für diesen Schritt sind ebenfalls möglich und sinnvoll ist. Informationen aus der Wissensbasis notwendig. Vor- • Ergebnisdarstellung: Wie muss eine zielgerichtete schläge für Transformationsvorschriften können aus der Präsentation der Anfrageergebnisse unter Verwendung Wissensbasis abgeleitet werden. der Wissensbasis umgesetzt werden und wie ist dabei • Mit load wird die Übertragung der Daten aus dem eine semiautomatische Identifizierung potentieller In- Arbeitsbereich in das Base Repository beschrieben. dikatoren, Variablen und Zeiträume möglich. Daneben Die Daten stehen dann für die weitere Verarbeitung sollen relevante Elemente der Ergebnismenge hervor- durch unterschiedliche BI-Tools (Business Intelligence gehoben und die Identifizierung von Strukturen inner- Tools) zur Verfügung. Durch ein erneutes Laden wer- halb eines Treffers durch Anwendung von Mapping- den die Daten in ein externes BI-Tool Repository Mustern möglich sein. geladen (grau hinterlegt) und stehen so in DW-Anwen- • Query Processing (basierend auf der Wissensbasis): dungen für weitere OLAP-Analysen zur Verfügung. Wie kann die Wissensbasis für die Anfrageerweiterung in Form einer facettierten Suche genutzt und wie kön- nen Methoden des Relevance Feedback zur Verbesse- Herausforderungen. rung der Qualität der Ergebnisse genutzt werden. Die Herausforderungen bei der Datenintegration liegen bei der Tool-Unterstützung des Anwenders, sowie bei der • Search Engine: Wie kann die Integration externer semantischen Unterstützung des Transformationsprozesses. Anwendungen (Enterprise Search, ERP, CRM, etc.) Das Schema einer Datenquelle ist in der Regel unbekannt, umgesetzt werden, wenn die bereitgestellte Anfrage- weshalb es mit Hilfe geeigneter Werkzeuge extrahiert werden schnittstellen nur Teilergebnisse liefern oder der Um- muss. fang der Datenbasen zu groß ist. Die Integration un- terschiedlicher Datenformate soll ebenso unterstützt • Transformation: Die Datentransformation aus dem werden, wie die Duplikaterkennung, wenn Inhalte und Format der Basisdatenquelle ins Zielformat kann nicht Daten aus unterschiedlichen Quellen genutzt werden. vollständig automatisiert werden. Herausforderung ist Weiterhin sollen Mapping-Muster für den Prozess der hier die Entwicklung von Nutzerinterfaces zur Einga- Indizierung und Extraktion genutzt werden und Klas- be der benötigten Informationen durch den Fachan- sifikation durch die Mapping-Muster unterstützt wer- wender. Die dabei entstehenden Transformationsmus- den. ter sollen gespeichert werden, damit sie für andere Da- tenquellen verwendet werden können. 3.4 Datenintegration Welche vorhandenen Ansätze der Datenintegration kön- Die Datenintegration muss bedarfsabhängig und flexibel nen für die Datenbereinigung, Duplikaterkennung und angepasst werden, wenn durch die Quellenidentifikation neue Datenfusion angewendet werden und wie kann eine Datenquellen zu integrieren sind. Die Flexibilisierung soll Plausibilitätsprüfung der Daten unterstützt werden. durch Anwendung von semantischen und ontologischen Kon- Für eine Plausibilitätsprüfung können z. B. Regeln de- zepten erreicht werden, wodurch domänenspezifisches Wis- finiert werden, die die Wissensbasis einbeziehen. Ein sen ausgenutzt wird. Die Architektur in Abbildung 5 ist da- möglicher Ansatzpunkt ist hier die Angabe von check- bei an die Referenzarchitektur angelehnt. constraints. 3.5 Einsatz des Verfahrens Wissensbasis gebildet werden, die um Wörterbücher ergänzt Das im Projekt zu entwickelnde Verfahren wird sich nicht wird. auf alle DW anwenden lassen. Voraussetzung ist, dass es ei- ne Wissensbasis zu dem Anwendungsgebiet des DW gibt. Da diese Wissensbasis eine zentrale Rolle beim Finden der rele- 5. ZUSAMMENFASSUNG, AUSBLICK vanten Datenquellen und bei der Transformation der Daten Die flexible, durch situativ entstandenen Datenbedarf in- ins DW spielt, muss eine solche Wissensbasis für einen fle- itiierte Integration bislang unerschlossener Datenquellen in xiblen ETL-Prozess vorhanden sein. Teile der Wissensbasis ein Data Warehouse erfordert eine Anreicherung des ETL- lassen sich aus den Klassifikationsattributen der Dimensio- Prozesses um interaktive Schritte. Um diesen Prozess für nen des DW generieren; die Zuordnung dieser Klassifikati- den Fachanwender handhabbar zu halten, bedarf es zusätz- onshierarchie zu den korrespondierenden Suchbegriffen für licher Komponenten zur Speicherung und Nutzung von do- die Datenquellen muss für das jeweilige Anwendungsgebiet mänenspezifischem Wissen (knowledge component), die das ergänzt werden. Finden (source identification) und Integrieren (data integra- tion) neuer Daten erleichtern bzw. erst ermöglichen. 4. RELATED WORK / Geleitet von Anwendungsszenarien wurde ein Konzept zur Architektur eines solchen Systems vorgestellt. Die Heraus- STAND DER TECHNIK arbeitung technischer Herausforderungen zeigt den zu ge- henden Weg: Die Details der einzelnen Komponenten sind 4.1 Datenintegration zu konkretisieren, bislang nicht kombinierte Techniken zu Jede Datenintegration bewirkt das Zusammenführen von verbinden und eine angemessene Nutzerschnittstelle zu ent- Daten aus heterogenen Datenbanken und Informationssys- wickeln. temen. Es gibt Klassifikationen, die die Heterogenitäten der einzelnen Datenquellen systematisieren. Heterogenitäten kön- 6. REFERENCES nen bzgl. Syntax und Semantik von Werten, Attributen, Re- lationen, Modellen existieren ([6]). Eine Standardarchitek- [1] Baeza-Yates, R. und B. Ribeiro-Neto: Modern tur, die das Zusammenführen von heterogenen Formaten in information retrieval: the concepts and technology heterogenen Datenbanken vornimmt, wurde bereits im Jahr behind search. Addison-Wesley, Pearson, Harlow [u.a.], 1990 in [10] vorgeschlagen. 2. Aufl., 2011. Eine dabei bestehende Aufgabe ist Matching und Map- [2] Bauer, A. und H. Günzel: ping heterogener Datenbanken. Es gibt mehrere Mapping- Data-Warehouse-Systeme: Architektur, Entwicklung, Tools, die eine intuitiv bedienbare Oberfläche anbieten, um Anwendung. dpunkt-Verl., Heidelberg, 2. überarb. und dem Benutzer das Entwickeln von Datentransformations- aktualisierte Aufl., 2004. Literatur- und URL-Verz. S. komponenten zu erleichtern (wie Altova MapForce1 , oder 545–576. IBM Data Integrator), dieser Prozess ist jedoch nicht au- [3] Courage, C. und K. Baxter: Understanding Your tomatisierbar. Einen Überblick über Forschungsansätze in Users: A Practical Guide to User Requirements dieser Richtung findet man in [9]. Dabei spielen vor allem Methods, Tools, and Techniques. Morgan Kaufmann, Ontologie-basierte Ansätze eine große Rolle (vgl. [7] und [4]). 1. Aufl., 2005. [4] Doan, A. und A. Y. Halevy: Semantic Integration 4.2 ETL Research in the Database Community: A Brief Survey. Beim ETL-Prozess in einem DW werden die Basisdaten AI Magazine, 26(1):83–94, 2005. (meist heterogene Daten) in ein einheitliches Format, das [5] Inmon, W.: Building the data warehouse. Wiley, 2005. multidimensionale Modell des DW integriert [5]. Man kann [6] Kim, W. und J. Seo: Classifying Schematic and Data den ETL-Prozess eines DW als Spezialfall föderierter Daten- Heterogeneity in Multidatabase Systems. Computer, banken sehen. Für neue Datenquellen bedeutet der ETL- 24(12):12–18, Dez. 1991. Prozess also manuellen Aufwand, der eine Interaktion mit [7] Noy, N. F.: Semantic integration: a survey of einem Benutzer erfordert; im laufenden Prozess kann das ontology-based approaches. SIGMOD Rec., Laden neuer Daten dann automatisch ausgeführt werden. 33(4):65–70, Dez. 2004. Es stehen Tools zur Vereinfachung dieses Prozesses für die [8] Pardillo, J. und J.-N. Mazón: Using Ontologies for Anwender zur Verfügung, Beispiele dafür sind Talend2 und the Design of Data Warehouses. CoRR, IBM Data Stage3 . abs/1106.0304, 2011. [9] Rahm, E. und P. A. Bernstein: A survey of 4.3 Verwendung von Ontologien approaches to automatic schema matching. VLDB im ETL-Prozess Journal, 10(4):334–350, 2001. Die Idee, Ontologien zur Beschreibung von Objekten ein- [10] Sheth, A. P. und J. A. Larson: Federated database zusetzen, ist weit verbreitet. Im DW-Bereich gibt es einen systems for managing distributed, heterogeneous, and Vorschlag, Ontologien zu verwenden, um die Metadaten des autonomous databases. ACM Comput. Surv., Data Warehouses daraus abzuleiten [8]. In unserem Ansatz 22(3):183–236, Sep. 1990. soll die Kopplung dieser beiden Gebiete auf andere Weise [11] Vitako: IT-Monitor kommunal . Vitako aktuell. erfolgen: Aus den Klassifikationsattributen des DW soll eine Bundesarbeitsgemeinschaft der Kommunalen 1 IT-Dienstleister e.V, 2007. www.altova.com/mapforce.html 2 www.talend.com 3 www.ibm.com/software/data/infosphere/datastage