=Paper= {{Paper |id=Vol-1919/paper16 |storemode=property |title=Werkzeugunterstützung für ETL-Prozesse mit Geodaten (Tool support for ETL processes with spatial data) |pdfUrl=https://ceur-ws.org/Vol-1919/paper16.pdf |volume=Vol-1919 |authors=Sandra Schrauth,Radoslav Nedkov,Carsten Heidmann,Wassilios Kazakos,Andreas Abecker |dblpUrl=https://dblp.org/rec/conf/uis/SchrauthNHKA17 }} ==Werkzeugunterstützung für ETL-Prozesse mit Geodaten (Tool support for ETL processes with spatial data)== https://ceur-ws.org/Vol-1919/paper16.pdf
                                       Tagungsband UIS 2017




Beitrag P: Sandra Schrauth, Radoslav Nedkov, Carsten Heidmann,
Wassilios Kazakos, Andreas Abecker

   Werkzeugunterstützung für ETL-Prozesse mit Geodaten


                Sandra Schrauth, Radoslav Nedkov, Carsten Heidmann,
                          Wassilios Kazakos, Andreas Abecker

         Disy Informationssysteme GmbH, Karlsruhe, vorname.nachname@disy.net


Abstract
Data Warehousing and Spatial Data Infrastructures (SDI) are becoming more and more
accepted in public administrations, also in environment administrations and geo data
authorities. Hence, the importance of professional ETL (extract - transform - load) processes
for data acquisition, integration, cleansing, and storage is also growing. Though there are
numerous ETL tools on the market since many years, not many of them provide comfortable
functionalities for dealing with geo data. Hence Disy evaluated a couple of widespread Geo-
ETL tools (Talend Open Studio, FME, GeoKettle, Oracle Data Integrator) with respect to their
suitability for professional and sustainable ETL projects in eGovernment SDI contexts. It turned
out that Talend Open Studio is in general very favorable, but still has weaknesses regarding
geo data integration (Spatial ETL). So, Disy has developed a new Talend plug-in for Spatial
ETL – which is presented in this paper.

Zusammenfassung
Data Warehousing und Geodateninfrastrukturen (GDI) verbreiten sich auch in öffentlichen
Verwaltungen zunehmend. Dadurch steigt in diesem Bereich auch die Bedeutung sog. ETL-
Prozesse für Datenimport, Datenintegration, Datenbereinigung und Datenspeicherung. Es
sind bereits viele ETL-Werkzeuge seit vielen Jahren auf dem Markt, aber nur wenige haben
auch komfortable Funktionen zum Umgang mit Geodaten. Da Geodaten in Umwelt-
anwendungen aber häufig eine wichtige Rolle spielen, hat Disy einige weitverbreitete Geo-
ETL Werkzeuge mit Blick auf ihre Eignung für professionelle und nachhaltige ETL-Projekte in
öffentlichen GDI-Kontexten untersucht und verglichen – nämlich Oracle Data Integrator,
GeoKettle, FME und Talend Open Studio. Dabei wird Talend Open Studio als insgesamt sehr
empfehlenswertes Tool für unsere Anforderungen identifiziert, das aber noch deutliche
Schwächen im Bereich Geodaten aufweist. Daher hat Disy ein neues Plug-In entwickelt, die
Geospatial Integration für Talend.

                                              208
                                     Tagungsband UIS 2017




1 Motivation und Überblick
Für Behörden und Unternehmen wird es immer wichtiger, die wachsende Menge an
alphanumerischen Daten und Geodaten aus Fachanwendungen oder Sensoren für
übergreifende Auswertungen, Datenportale und Berichtspflichten systematisch und
möglichst automatisiert zu strukturieren und bereitzustellen.

Für die Realisierung von Datenintegrationslösungen in der öffentlichen Verwaltung in
Deutschland setzt Disy seit einigen Jahren bei der Verarbeitung alphanumerischer
Daten auf die Software Talend. Talend ist einer der Weltmarktführer im Bereich der
ETL-Werkzeuge und hat sich auf die Integration großer Datenmengen spezialisiert.

In zahlreichen Projekten, gerade der Umweltverwaltung, spielen neben Sachdaten
aber vor allem auch Geodaten eine entscheidende Rolle. Diese haben besondere
Anforderungen, die bis dato in den meisten „klassischen“ ETL-Werkzeugen nur
ansatzweise berücksichtigt sind. Dafür hat Disy gerade für die Geodatenverarbeitung
in mehreren Projekten auch verschiedene andere Werkzeuge genutzt, wie z.B.
insbesondere FME.

Um herauszufinden, ob es für Datenintegrationsaufgaben, die einen gleichermaßen
guten Umgang mit alphanumerischen und mit Geodaten erfordern, ein klar zu
präferierendes Werkzeug gibt, hat Disy zunächst die weiter verbreiteten Lösungen
gesichtet und dann anhand eines praxisgetriebenen Kriterienkatalogs die Werkzeuge
verschiedene bewertet. Nach einer ersten Auswahlrunde konnte man sich aufgrund
der Randbedingungen für die effektive und professionelle Nutzung in unseren
Kundenprojekten auf die Werkzeuge Talend Open Studio und FME fokussieren. In
einer weiteren, tiefergehenden Untersuchung wurden diese beiden Werkzeuge
genauer „unter die Lupe“ genommen. Es zeigte sich, dass (1) zwar FME die
mächtigere, umfangreichere und komfortablere Geodatenverarbeitung besitzt, dafür
aber (2) Talend als Gesamtlösung aus unserer Sicht für viele unserer großen und lang
laufenden Kundenprojekte vermutlich die nachhaltigere Lösung darstellt. Da hier aber
klare Nachteile gegenüber FME vorliegen, hat Disy eine Erweiterung von Talend
realisiert, die Geospatial Integration for Talend.

Dieser Beitrag ist aufgebaut, wie folgt: In Kapitel 2 werden einige grundlegende
Definitionen und Begriffe eingeführt. In Kapitel 3 wird die Vorgehensweise zur
Identifikation eines geeigneten Werkzeugs vorgestellt. In Kapitel 4 werden die
                                            209
                                    Tagungsband UIS 2017



Werkzeuge FME und Talend Open Studio eingehender untersucht und ein
Zwischenfazit des Auswahlprozesses gezogen. Als Ergebnis wird die Realisierung der
Geospatial Integration for Talend motiviert, welche in Kapitel 5 näher beschrieben wird.
Kapitel 6 beendet den Beitrag mit Zusammenfassung und kleinem Ausblick.


2 Grundlagen
Eine sehr kurze, aber im Kern für das Verständnis völlig ausreichende Definition eines
Data Warehouse formuliert [Rahm 2015] wie folgt:

Definition: Ein Data Warehouse (DW) ist eine für Analysezwecke optimierte zentrale
Datenbank, die Daten aus mehreren, i.a. heterogenen Quellen zusammenführt und
verdichtet (Integration und Transformation).

Verschiedene Autoren ergänzen noch diverse technische und zweckorientierte
Merkmale (siehe z.B. [Inmon 1996; Bauer & Günzel 2013; Kimball & Ross 2013; Zeh
2003] und die gute Zusammenfassung bei [Wikipedia-1 2017]).

Wie sich schon aus der Bemerkung „Integration und Transformation“ als zentrale
Aufgabe des DW ergibt, spielen die sog. ETL-Prozesse eine zentrale Rolle bei den
Algorithmen für Aufbau und Betrieb eines DW. Wir folgen bei der Begriffsbildung hier
[Hummeltenberg 2012]:

Definition: ETL-Prozesse umfassen das Extrahieren, Transformieren und Laden von
Daten aus einem oder mehreren Quellsystemen in einen Zieldatenbestand inkl. Data
Cleansing. ETL-Systeme bilden beim Data Warehousing die Datenschnittstelle
zwischen operativen / externen Datenbeständen und Data Warehouse / Data Marts.

…

Bei einer materialisierten Datenextraktion, -integration und -aggregation wird zwischen
den Phasen Extraktion, Transformation und Laden unterschieden und der Data Access
und Integration Layer durch ETL-Systeme realisiert.

Während die Datenextraktion und das Laden zwar technisch anspruchsvoll sein
können (insbesondere bei sehr großen Datenbeständen und Datenbeständen mit
hoher Änderungsrate bzw. Datenströmen), finden sich jedoch die konzeptionell
schwierigeren Aufgaben im Allgemeinen bei der Transformation. Hier führt
[Hummeltenberg 2012] z.B. folgende Teilschritte an:
                                           210
                                            Tagungsband UIS 2017



„…

     1.Auswahl der relevanten Daten, Elimination von Duplikaten

     2.Schlüsselvergabe/-bereinigung

     3.Überführung von CSV (Comma Separated Value)-Dateien in strukturierte
        Formate, XML/SQL-Konversion (XML, Structured Query Language)

     4.Datenbereinigung, Integritätstests aufgrund Domänen oder vorgegebenen
        Mustern, Datenabgleich (Data Cleansing)

     5.Überführung ereignisorientierter in periodenorientierte Größen, Währungs-
        umrechnung, Aggregation, Kennzahlenermittlung u.a.

     6.Datenintegration unterschiedlicher Quellen, Standardisierung, Datenergänzung
        (Datenfusion).

…“                                       (vgl. z.B. auch [Wikipedia-2; Bauer & Günzel, 2013]).

Der Begriff des Geo Data Warehouse wird eher selten verwendet und kaum in der
Fachliteratur einheitlich definiert. Wir erweitern daher den Begriff des Data Warehouse
pragmatisch für unsere Zwecke, wie folgt:

Definition: Ein Geo Data Warehouse (GDW) oder Spatial Data Warehouse ist ein Data
Warehouse, dessen Inhalte auch aus Daten mit Raumbezug bzw. Geodaten bestehen
und das daher i.d.R. auch Operatoren und Optimierungen für räumliche Anfragen,
Auswertungen und Analysen enthält.

Entsprechend beinhaltet die Menge der Quellsysteme eines GDW auch mindestens
eine Quelle von Geodaten (GIS, Geodatenbank, Geodatendienst, Geodatendateien)
und der Zieldatenbestand wird i.A. in einer Geodatenbank abgelegt.

Dabei verstehen wir unter einer Geodatenbank32 eine Datenbank, die durch die
Einbindung spezieller Datentypen, Datenstrukturen und Operatoren in der Lage ist,
Geodaten effizient zu verwalten. Geodatenbanken verfügen vor allem über geeignete
Sortier- und Suchverfahren, die eine effektive und schnelle Abfrage des




32 Hier folgen wir [Martin et a. 2000]

                                                   211
                                   Tagungsband UIS 2017



Datenbestandes ermöglichen. Hierzu stellt sie für den Zugriff eine raumbezogene
Abfragesprache bereit, die über räumliche Operatoren verfügt.

Beispiele für weitverbreitete Geodatenbanken zur Realisierung von GDW sind Oracle
Spatial, PostGIS und SpatiaLite.

Da ein GDW in der Praxis häufig in eine komplexere Geodateninfrastruktur (GDI)
eingebunden ist, sind oft auch noch weitere GIS- bzw. GDI-typische Software-
Komponenten vorhanden, die in nicht geodaten-orientierten DW nicht vorkommen, wie
insbesondere komplexere Metadatenbestände zu vorliegenden Daten oder dienste-
basierte Schnittstellen für den Datenzugriff, die den Standards des OGC für den
Geodatenaustausch entsprechen (WMS, WFS, …).

Beim Übergang vom Data Warehouse zum Data Warehouse mit räumlichen Daten ist
notwendigerweise auch der Begriff der ETL-Prozesse zu erweitern:

Definition: Spatial ETL-Prozesse oder Geo-ETL Prozesse sind ETL-Prozesse, die
auch Geodaten bzw. Daten mit Raumbezug verarbeiten können und typischerweise
zum Realisieren eines Geo Data Warehouse genutzt werden.

Offensichtlich sind Spatial ETL-Prozesse also ETL-Prozesse mit folgenden
Spezialisierungen bzw. Erweiterungen:

   •   Extraktion: kann Geodaten aus mindestens einem der Quellsysteme Geodaten-
       bank (wie PostGIS, Oracle Spatial / Locator, Esri personal geodb, MySQL
       spatial), GIS (wie ArcGIS Server, GE Smallworld), Geodatendienst (wie OGC
       WFS, SOS) oder Geodatendateien (wie Esri Shapefiles, GML, KML) einlesen.
   •   Load: kann Geodaten in mindestens eines der Zielsysteme Geodatenbank oder
       GIS schreiben.
   •   Transformation: kann mit gängigen Geodatenformaten bzw. Geodatentypen
       (wie Vektorgeometrien als WKT o.ä.) umgehen und umfasst Operatoren zur
       Verarbeitung von Geodaten bzw. zur räumlichen Datenverarbeitung. Dies
       umfasst beispielsweise:

          o Beachtung des verwendeten Koordinatenreferenzsystems (SRS) in
             Datenbeständen und Transformation zwischen verschiedenen SRS.

          o Operatoren für Geometrieobjekte, wie z.B. topologische Prädikate (liegt-
             in, beruehrt, ueberlappt, …), räumliche Verarbeitungen (Vereinigung,
                                        212
                                     Tagungsband UIS 2017



                Durchschnitt, Pufferung, …) oder auch fortgeschrittene Funktionen zur
                Weiterverarbeitung   oder    Datenqualitätssicherung      (Geometriefehler
                finden und korrigieren, wie z.B. nicht geschlossene Formen).

Die weiter oben aufgeführten Teilschritte der Transformation in ETL-Prozessen
tauchen genauso in Spatial ETL Szenarien auch auf, können aber in manchen
Schritten anders, schwieriger oder aufwändiger zu berechnen sein, z.B.:

   •   Duplikatelimination oder Widerspruchserkennung kann mit Geodaten einfacher
       sein, wenn sich gewisse Sachdaten klar demselben Geometrieobjekt zuordnen
       lassen. Es kann aber auch wesentlich schwieriger sein, wenn in zwei
       Datensätzen leicht abweichende Geometrien auftauchen und zu entscheiden
       ist, ob damit in der Realwelt das gleiche Objekt gemeint ist.
   •   Aggregationen,      Disaggregationen        und      Kennzahlenermittlung   können
       aufwändiger sein, wenn verschiedene Datenreihen unterschiedliche räumliche
       Auflösungen verwenden oder sogar unterschiedliche räumliche Aggregations-
       hierarchien besitzen (z.B. politische Gliederungen wie Stadt-Kreis-Land vs.
       natrräumliche Gliederungen).
   •   Viele geometrische Verarbeitungsoperatoren besitzen hohe algorithmische
       Komplexität – verglichen mit Operatoren auf alphanumerischen Datentypen.
   •   u.v.m.

Data Warehouse und Geo Data Warehouse spielen in der öffentlichen Verwaltung und
insbesondere in der Umweltverwaltung eine wachsende Rolle, vgl. z.B. [Albrecht &
Bornhöft 2014; Hosenfeld & Albrecht 2015], mithin auch ETL und Spatial ETL
Prozesse. Selbst ohne Aufbau eines persistenten DW/GDW sind die ETL-
Funktionalitäten immer dan gefragt, wenn man (Geo-)Daten aus verschiedenen
Quellen zusammenführt oder ineinander überführt. Deshalb war für Disy die Frage von
strategischer Bedeutung, welches ETL-Werkzeug für unsere Kundenprojekte wohl am
zukunftsfähigsten ist.


3 Auswahlprozess bei Disy für ein Geo ETL Werkzeug
Disy begegnet in seinen Kundenprojekten in den vergangenen Jahren zunehmend der
Anforderung, für die strategische Werkzeugauswahl ein ETL Werkzeug zu nutzen bzw.
zu empfehlen, das voraussichtlich auch langfristig in komplexeren Geo- und

                                            213
                                             Tagungsband UIS 2017



Umweltdaten-Infrastrukturen z.B. großer Landes- oder Bundesbehörden nachhaltig
und effizient verwendet werden kann.

Grundsätzlich fallen ja Import-, Integrations- und Transformationsaufgaben für größere
Datenbestände oder Datenströme in verschiedenen Anwendungsfällen an, wie der
Altdatenübernahme in neue Systeme, dem Zusammenführen von Datenbeständen,
dem Aufbau von Auswertedatenbanken zur Effizienzsteigerung etc. Diese Aufgaben
können einmalig, wiederholt oder regelmäßig auftreten. Je nachdem, wie komplex die
auszuführenden ETL-Prozesse sind und wie häufig sie unter welchen Bedingungen
vorkommen (z.B. Dynamik der Datenquellen und der Anwendungsfälle), sind spezielle
ETL-Werkzeuge – im Gegensatz zu händisch ausprogrammierten Algorithmen – mehr
oder weniger nützlich oder gar notwendig. Gerade wenn man sich in komplexen
Software-/Daten-Umgebungen bewegt und auch längerfristig wiederholte ETL-
Aufgaben zu erwarten sind, fällt die Auswahl eines optimalen ETL-Werkzeugs
zunehmend ins Gewicht.

Daher hat Disy zunächst vier Werkzeuge als Kandidaten für die strategische Nutzung
in Kundenprojekten identifiziert, die alle hervorragende Funktionalitäten vorweisen
können, bei Disy-Kunden weithin zum Einsatz kommen und insgesamt eine große
Bekanntheit und Nutzung aufweisen. Dies waren:

    1) Oracle Data Integrator (ODI)33

    2) GeoKettle34

    3) Talend Open Studio35

    4) FME36

ODI ist ein performantes und plattformunabhängiges, kommerzielles Werkzeug
innerhalb des umfassenden Ökosystems von Oracle-basierten Produkten und Werk-
zeugen für Datenmanagement und -analyse, welches ausführliche Möglichkeiten zum
Datenbankimport und für die Datenbankverwaltung anbietet. Geodatentypen werden
erst ab Version 11g unterstützt. Die Transformationsmöglichkeiten für Geodaten sind



33 Vgl. http://www.oracle.com/technetwork/middleware/data-integrator/overview/index.html
34 Vgl. http://www.spatialytics.org/projects/geokettle/
35 Vgl. https://de.talend.com/
36 Vgl. https://www.safe.com/fme/key-capabilities/spatial-etl/

                                                    214
                                         Tagungsband UIS 2017



überschaubar bzw. nur über DB-Funktionalitäten lösbar. Das System erfordert eine
gewisse Einarbeitung. Der Funktionsumfang ist für Geodaten nicht sehr hoch, kann
aber durch eigene Knowledge Modules erweitert werden.

GeoKettle [Badard 2010; Badard et al. 2009] ist ein metadaten-gesteuertes ETL-Tool
zur Verarbeitung von Geodatenbeständen37, das auf dem weitverbreiteten Open
Source BI-Stack Pentaho aufsetzt. GeoKettle besitzt einen guten und erweiterbaren
Funktionsumfang, ist plattformunabhängig (Java-basiert) und nach unseren Erfahrun-
gen intuitiv erlernbar und benutzerfreundlich. Pentaho und GeoKettle können aller-
dings nicht unabhängig voneinander aktualisiert werden und die Open Source
Entwicklung führt zu unregelmäßigen, schwer vorhersehbaren Releases.

In einer ersten Bewertungsrunde wurden für beide Werkzeuge deutliche Stärken
identifiziert. ODI ist natürlich naheliegend, wenn man sich innerhalb einer Oracle-
dominierten Software-Landschaft bewegt und insbesondere, wenn man auch unab-
hängig von Geodatenverarbeitungen die entsprechenden Werkzeuge bereits intensiv
nutzt und gut kennt. GeoKettle besticht durch seinen Funktionsumfang und seine
Benutzerfreundlichkeit. Dennoch wurden beide Werkzeuge nicht zur intensiven
weiteren Untersuchung ausgewählt. Während ODI sich in einer Umgebung, die kaum
oder gar nicht Oracle-basiert ist, als proprietäres und komplexes Werkzeug kaum
anbietet, hat GeoKettle zwar viele Vorteile, kann zurzeit aber nicht die vorhersagbaren
regelmäßigen Release-Zyklen anbieten, die wir für unsere größeren Kunden mit
regelmäßigen komplexen ETL-Aufgaben für notwendig halten.

Deshalb wurden nur FME und Talend Open Studio für die weitere Untersuchung
herangezogen

   - FME wegen der enorm hohen Verbreitung in der Geodatenwelt und wegen
       seines extrem großen Funktionsumfangs

   - Talend wegen seines sehr starken Erfolgs in der Welt der Geschäftsdaten und
       der damit verbundenen enormen Dynamik seiner Entwicklung




37 Siehe auch http://www.wheregroup.com/de/infobrief/01.2014/geokettle

                                                215
                                     Tagungsband UIS 2017



Diese beiden Werkzeuge wurden anhand der in Abbildung 1 aufgeführten
Bewertungskriterien näher untersucht. Die wesentlichen Ergebnisse werden im
folgenden Kapitel dargestellt.




                     Abbildung 1: Bewertungskriterien für ETL-Werkzeuge

Die beiden ETL-Werkzeuge FME und Talend wurden anhand der oben aufgelisteten
Kriterien eingehender untersucht, um ihr jeweiliges strategisches Potenzial als ETL-
Werkzeug in komplexen, professionellen Datenintegrationsaufgaben für Szenarien mit
umfangreichen Sach- und Geodaten abzuschätzen. Dabei kann Disy als Mittelständler
nicht leisten, mit sehr hohem Zeitaufwand einen Toolvergleich zu erstellen, der jedem
akademischen Qualitätsanspruch gehorcht. Gleichwohl können Mitarbeiter, die seit
Jahren mit GDW und Spatial ETL in praktischen Kundenprojekten arbeiten, versuchen,
eine möglichst faire, objektive und praxisorientierte Einschätzung zu liefern, die den
aktuellen Sachstand im Licht der spezifischen Anforderungen des Einsatzes bei Disy
reflektiert. Insbesondere hatten Disy-Mitarbeiter mit beiden Werkzeugen bereits im
Zuge von Kundenprojekten Praxiserfahrungen gesammelt:

•   FME wurde beispielsweise genutzt, um ETL-Prozesse zum Aufbau der Landes-
    datenbank Wasser des Niedersächsischen Landesbetrieb für Wasserwirtschaft,
                                            216
                                            Tagungsband UIS 2017



     Küsten- und Naturschutz (NLWKN) zu realisieren.38 FME kam auch beim Aufbau
     der kommunalen GDI für die Stadt Baden-Baden zum Einsatz.39

•    Talend Open Studio wurde für die Realisierung eines Data Warehouse zur
     Unterstützung des Portals „Artdaten Online“ des Sächsischen Landesamts für
     Umwelt, Landwirtschaft und Geologie (LfULG)40 genutzt, beim Datenbank-
     Redesign für den „Energieatlas Bayern“41 und für die Datenintegration von
     Unternehmensdaten für den Deutschen Industrie- und Handelskammertag (DIHK
     e.V.).42


4 Tiefergegende Analyse von FME und Talend

4.1 Das ETL-Werkzeug FME
FME Desktop [con terra 2015] ist ein Produkt der kanadischen Firma Safe Software
Inc. und wahrscheinlich zurzeit das weltweit meistgenutzte Spatial ETL-Werkzeug zur
Integration, Bearbeitung und Qualitätssicherung räumlicher Daten. Unterschiedlichste
räumliche Datenquellen lassen sich schnell und effizient in einen FME Prozess
importieren, umstrukturieren und in ein benutzerspezifisches Zieldatenmodell
überführen. ETL-Prozesse werden mit FME Desktop erstellt und können dann über
FME Server oder FME Cloud anderen Anwendern als Dienste zur Verfügung gestellt
werden.




                           Abbildung 2: FME im Überblick (Quelle: safe.com)




38 Vgl. https://www.disy.net/aktuelles/newsletter/newsletterartikel/artikel/2894.html
39 Vgl. https://gispoint.de/news-einzelansicht/1887-disy-buerger-gis-fuer-baden-baden.html
40 Vgl. https://www.disy.net/nc/aktuelles/newsartikel/artikel/3044.html
41 Vgl. https://www.disy.net/nc/aktuelles/newsartikel/artikel/3023.html
42 Vgl. https://www.disy.net/nc/aktuelles/newsartikel/artikel/2972.html

                                                   217
                                    Tagungsband UIS 2017



FME Desktop wird in verschiedenen Lizenzstufen angeboten, je nachdem, welche
Datentypen verarbeitet werden sollen (z.B. Daten aus Esri GIS-Produkten, aus GE
Smallworld oder aus Geodatenbanken).




                    Abbildung 3: Die FME Workbench (Quelle: safe.com)

FME besteht aus verschiedenen Komponenten:

•   Quick Translator erlaubt die einfache Umsetzung von Standardkonvertierungen

•   Data Inspector ist ein Datenviewer für Geodaten

•   FME Workbench ist ein graphisches Modellierungswerkzeug für ETL-Prozesse

•   Objects API und Plug-in Developer Kit ermöglichen die Integration von FME-
    Funktionalitäten in eigene Anwendungen oder das Hinzufügen eigener
    Datenformate

Wir werden verschiedene Eigenschaften von FME weiter unten beim Vergleich mit
Talend noch vorstellen. Vorneweg aber einige der augenfälligsten Merkmale:

•   Datenformate: FME unterstützt eine enorme Anzahl von Datenformaten, mit
    einem deutlichen Fokus auf räumlichen und Geodaten; insgesamt über 300 Daten-
    formate, darunter CAD-Formate, GIS-Formate, Geodatenbanken, Rasterdaten,

                                           218
                                   Tagungsband UIS 2017



    OGC-Webdienste, 3D-Daten oder BIM-Daten. Dagegen liegen Sachdaten nicht im
    Fokus der Betrachtung.

•   Verarbeitungsfunktionen:      ebenso      werden      mehr   als   400   vordefinierte
    Transformer zur Bearbeitung raumbezogener Informationen angeboten.

•   Deployment: FME erlaubt die Erstellung von Batchfiles; zur Abarbeitung ist aber
    eine FME-Lizenz (FME Server, FME Cloud) notwendig.

•   Logging: es wird ein Logfile erzeugt.

4.2 Das ETL-Werkzeug Talend Open Studio
Die in den USA angesiedelte Firma Talend bietet ein komplexes Ökosystem von
teilweise kostenlosen und teilweise kommerziellen Datenintegrationsprodukten an, mit
Schwerpunkten wie z.B. Datenqualität, Big Data oder Master Data Management.
Zentral und grundlegend ist die kostenlose Open Source Lösung Talend Open Studio
for Data Integration.

Talend Open Studio ist ein Werkzeug für grafisches Design und Verwaltung von
Datenintegrationsabläufen (Jobs) und Geschäftsmodellen. Talend Open Studio basiert
auf Eclipse IDE und arbeitet als Codegenerator mit der Codeausgabe in Java. Dadurch
ist es einfach möglich, in Talend modellierte Datenintegrations-Jobs auf jedem System
mit Java-Laufzeitumgebung (JRE) auszuführen.

Datenintegrationsabläufe werden grafisch repräsentiert und modelliert und setzen sich
aus Komponenten zusammen. Talend Jobs können in anderen Jobs als Subjobs
ausgeführt werden.

Ein zentrales Konzept in Talend ist die zentrale Verwaltung von Informationen zu
Datenverbindungen und Parametern wie Pfaden, DB-Verbindungsoptionen u.ä..
Solche Metadaten sind bequem projektübergreifend synchronisierbar.

Alle Parameter einer Datenbankverbindung können per Knopfdruck in sog. „Kontexte“
umgewandelt werden. Dadurch wird es sehr einfach, bei der Jobausführung zwischen
Entwicklungs-, Test- und Produktivumgebung umzuschalten.

Datenschemata (Attribute und Datentypen) werden zentral definiert. Änderungen
können automatisch in alle Jobs übernommen werden, in denen die Daten verwendet
werden (einfaches Refactoring).
                                          219
                                  Tagungsband UIS 2017



Diese Funktionen zeigen schon, dass Talend sehr komfortabel für den Umgang in
großen professionellen IT-Umgebungen und mit komplexen ETL-Projekten geeignet
ist. Diese Vorteile z.B. beim Metadaten-Management, Release Management,
Deployment und Refactoring kommen beim Übergang zur kommerziellen Version
Talend Enterprise Data Integration noch besser zum Tragen: Unterstützung der
Versionsverwaltung (SVN, GIT), Datenvorschau, Distance Run, Jobvergleich und die
Erstellung von Vergleichsdateien zum Testen werden dann bspw. zusätzlich
angeboten.




                           Abbildung 4: Talend Open Studio

Mit Bezug auf die oben bereits für FME angeführten Merkmale lässt sich sagen:

•   Datenformate: Wie FME unterstützt Talend die gängigsten DB- und Datei-
    Formate, wobei Talend den Schwerpunkt auf die Sachdaten legt. Geodaten
    werden von Haus aus nicht unterstützt; Talend kann jedoch durch GeoSQL und
    durch die Open Source Spatial Extension von CamptoCamp erweitert werden.


                                         220
                                     Tagungsband UIS 2017



•   Verarbeitungsfunktionen: es werden über 450 Komponenten vorgefertigt
    mitgeliefert,   jedoch   praktisch    ausschließlich       für   Sachdaten;   beliebige
    Erweiterungen durch Java-Code sind möglich.

•   Deployment: Jobs werden als Java Build erzeugt und können als Standalone oder
    Webservice (Axis) mit einer JRE ausgeführt werden.

•   Logging: Talend hat zahlreiche Möglichkeiten für Logging und Fehlerausgabe.

4.3 Zwischenfazit
Auf der Basis umfangreicher Untersuchungen und Bewertungen der beiden näher
betrachteten Werkzeuge kam das in Abbildung 5 zusammengefasste Ergebnis
zustande – die rot hervorgehobenen Zeilen sind für Disy von besonderer Bedeutung.

FME und Talend sind beides hervorragende ETL-Werkzeuge mit sehr großem
Funktionsumfang, sehr guter Erlernbarkeit und Benutzer-Unterstützung sowie hohem
professionellem Qualitätsstandard.

FME bleibt weiterhin das Werkzeug der Wahl, wenn man sich fast ausschließlich im
Bereich der räumlichen Geodaten bewegt und dort umfangreiche oder komplexe ETL-
Prozesse durchführen muss, insbesondere im Zusammenhang mit GIS-spezifischen
Phänomenen und Tools wie z.B. BIM, 3D-Modellen, Rasterdaten o.ä.

In vielen Kundenprojekten von Disy spielen umfangreiche Sachdaten aber eine
gleichberechtigte Rolle neben Geodaten. In diesem Bereich ist Talend hingegen fast
„unschlagbar“. Hinzu kommen signifikante Vorteile von Talend im unteren Bereich der
Übersichtstabelle in den Dimensionen Versionsverwaltung, Wiederverwendbarkeit,
Refactoring und Logging. Hier spielt Talend seine großen Stärken aus. Als Werkzeug
für die schnelle und einfache Definition – auch großer – ETL-Projekte und deren
Nutzung    in   komplexen    Software-Umgebungen            bietet   Talend   hervorragende
Möglichkeiten zur Produktivitätssteigerung und Qualitätssicherung. Aus Sicht der
professionellen Software-Entwicklung wird hier ein sehr hohes Niveau erreicht. Da sich
Talend in seinen kommerziellen Produkten auch gerade mit modernsten Ansätzen aus
Cloud-Computingund Big Data befasst, können auch im Bereich „Zukunftssicherheit“
Punkte gesammelt werden.

Allerdings ist die Dimension Geodaten bei Talend – auch erweitert mit der
CamptoCamp Lösung – noch deutlich ausbaufähig. Das Werkzeug ist hier aus Sicht
                                   221
                                       Tagungsband UIS 2017



von   Disy    für   Anwender     mit    professionellen       GIS-Ansprüchen   noch   nicht
konkurrenzfähig, weder im Umfang noch in der Umsetzungsqualität. Deshalb hat Disy
die im folgenden Kapitel skizzierte Lösung Geospatial Integration for Talend entwickelt.




             Abbildung 5: Zusammenfassende Bewertung aus unseren Untersuchungen


5 Disy’s Geospatial Integration für Talend
Da die Talend Erweiterung für Geodaten aus unserer Sicht viele Wünsche offen ließ,
wurde in Kundenprojekten zunächst für die Verarbeitung von Geodaten auf zusätzliche
Werkzeuge zurückgegriffen. Daraus entstand der Wunsch nach einem Tool mit
mächtigen Spatial ETL Funktionalitäten, das sich so nahtlos wie möglich in den
bewährten Talend-Prozess einbinden lässt, so dass eine einheitliche Arbeitsweise für
alle Daten angewendet werden kann.
                                              222
                                     Tagungsband UIS 2017




                                      Deshalb hat Disy das Plug-in GeoSpatial
                                      Integration für Talend entwickelt, das im Zusam-
                                      menspiel mit der bereits existierenden Talend-
                                      Software Daten vom Typ „Geometrie“ erkennt
                                      und für diese zusätzliche Kalkulatoren und
                                      räumliche         Operatoren     bereitstellt.   Dadurch
                                      können alphanumerische Daten geometrisch
                                      angereichert und Geodaten einfach in Daten-
                                      integrationsprozesse eingebunden werden.

                                      Das neue Plug-in wird in die Talend-Umgebung
                                      direkt eingebunden und erweitert somit die
                                      vorhandene             Werkzeugleiste     nahtlos.   Der
                                      Benutzer sieht die zusätzlichen Datenquellen
                                      sowie die neuen Operatoren, die er per Drag-
                                      and-drop in das Arbeitsfenster übernehmen
                                      kann. Abhängig von der aktuell genutzten Kom-
                                      ponente         kann       er   weitere    Einstellungen
                                      vornehmen             oder zusätzliche    Berechnungen
    Abbildung 6: Disy's Geospatial
    Erweiterung von Talend in der     durchführen.
           Werkzeugleiste
                                      Weit verbreitete relationale Datenbanken wie
Oracle oder PostgreSQL unterstützen bereits seit einigen Jahren mit Oracle
Locator/Spatial oder PostGIS räumliche Datentypen und Operatoren für die
Verarbeitung von Geodaten. Mit dem von Disy entwickelten Plug-in GeoSpatial
Integration für Talend können nun diese Geodaten direkt in Talend Datenintegrations-
prozessen mit eingebunden werden. Konkret unterstützt das Plug-in aktuell folgende
Datenbanken und Formate: Oracle Locator und Spatial, PostgreSQL mit PostGIS,
SQLite mit SpatiaLite sowie Shapefiles und WKT (Well-Known-Text). Weitere
Konnektoren für SAP HANA oder ArcGIS Server sind geplant.




                                            223
                                      Tagungsband UIS 2017




            Abbildung 7: Beispiel Screenshot eines Spatial ETL Prozesses in Talend
                                unter Nutzung des Disy Plug-ins

Hinzu kommt eine Vielzahl an Komponenten und räumlichen Operatoren, mit deren
Hilfe Geooperationen durchgeführt werden. Hierzu zählen zurzeit:

   - Längen- und Flächenberechnungen,

   - Umwandlung von X-, Y- und Z-Koordinaten in 2D/3D-Punktgeometrien,

   - Berechnung von Centroiden,

   - Pufferung von Punkten, Linien und Flächen,

   - Verschneidung von Geometrien,

   - Berechnung einer Bounding Box (envelope) oder einer konvexen Hülle einer oder
      mehrerer Geometrien,

   - Verbindung von Punkten zu Linien bzw. von Linien zu Flächen,

   - Transformation der Koordinaten zwischen unterschiedlichen Koordinaten-
      systemen,

   - algorithmische Vereinfachung von komplexen Geometrien

   - Validierung von Eingangsdaten (z. B. Shapefiles).

Die Geooperationen stehen direkt als Talend-Routinen und/oder -Komponenten zur
Verfügung. Der Funktionsumfang ist jederzeit erweiterbar.
                                       224
                                             Tagungsband UIS 2017



Für Talend Open Studio wird die Nutzung von GeoSpatial Integration kostenlos zur
Verfügung gestellt. Unternehmen und Behörden, die die Lösung in Produktivsystemen
oder zusammen mit Talend Data Integration oder der Talend Data Management
Platform einsetzen möchten, wird ein jährliches Abonnement (Subscription) für
professionellen Support und Zusatzfunktionen zur Datenqualität, Visualisierung und
mehr angeboten.


6 Zusammenfassung und Ausblick
In unserer Arbeit für Kunden der öffentlichen Verwaltung werden in den vergangenen
Jahren Prozesse zum Spatial ETL zunehmend bedeutsamer, auch und gerade im
Bereich der Umweltinformatik bzw. UIS.Um herauszufinden, ob es für Daten-
integrationsaufgaben, die einen gleichermaßen guten Umgang mit alphanumerischen
und mit Geodaten erfordern, ein klar zu präferierendes Werkzeug gibt, hat Disy
zunächst die weiter verbreiteten Lösungen gesichtet und dann anhand eines
praxisgetriebenen Kriterienkatalogs die Werkzeuge Talend, FME, GeoKettle 43 und
Oracle Data Integrator44 bewertet. In einer ersten Auswahlrunde konnte man sich
aufgrund der Randbedingungen für die effektive und professionelle Nutzung in
unseren Kundenprojekten auf die Werkzeuge Talend und FME fokussieren. In einer
weiteren, tiefergehenden Untersuchung wurden diese beiden Werkzeuge genauer
„unter die Lupe“ genommen. Es zeigte sich, dass

    - zwar FME die mächtigere, umfangreichere und komfortablere Geodaten-
        verarbeitung besitzt,

    - dafür aber Talend als Gesamtlösung (mit der Stärke allerdings bei alpha-
        numerischen Daten) aufgrund von Software-Engineering Stärken für viele
        unserer      großen      und     lang     laufenden         Kundenprojekte   vermutlich   die
        nachhaltigere Lösung darstellt.

Allerdings bewerteten wir die existierende Spatial Lösung für Talend als ausbaufähig.
Disy hat deshalb mit dem „Disy GeoSpatial Integration for Talend“ eine mächtige neue
Lösung geschaffen.




43 http://www.spatialytics.org/projects/geokettle/
44 http://www.oracle.com/technetwork/middleware/data-integrator/overview/index.html

                                                     225
                                   Tagungsband UIS 2017



Für den Aufbau von Data Warehouses oder Auswertedatenbanken mit Geodaten
ergeben sich durch diese Lösung zwei zentrale Vorteile: (1) Alle benötigten Datenarten
können ohne Technologiebruch mit einem statt wie bisher mit mehreren Werkzeugen
verarbeitet werden. Dies spart organisatorischen Aufwand zur Zusammenführung der
Werkzeuge, reduziert den Einarbeitungsaufwand und stellt ein konsistentes Vorgehen
bei alphanumerischen Daten und Geodaten sicher. (2) Bewährte und praxiserprobte
ETL-Technologien, wie sie von Talend bereits für Sachdaten angeboten werden,
können nun auch für die Geodatenverarbeitung genutzt werden. Neben der sehr
umfassenden Menge an Datenquellen, Komponenten und Routinen, die mit
GeoSpatial Integration mitgeliefert werden, gehören hierzu vor allem auch Funktionen,
die Talend bereits mitbringt. Besonders hervorzuheben sind z.B. Funktionen zur
Versionsverwaltung, zum Metadatenmanagement, zum Arbeiten in verteilten Teams
und Releasemanagement, zum Refactoring sowie zur zentralen Administration, dem
Load-Balancing oder sogar der Big-Data-Verarbeitung.

Die dargestellten Arbeiten wurden mit Unterstützung des FuE-Projekts WIRE
durchgeführt. In diesem Rahmen sollen noch weitere Möglichkeiten untersucht
werden, um mit Methoden des Semantic Web und des Maschinellen Lernens
intelligente Werkzeuge zur (teil-)automatisierten, lernenden Geodatenintegration und
Qualitätsverbesserung von Geodaten zu schaffen. Weitere Aufgabenfelder, die im
Rahmen des Projekts betrachtet werden sollen, sind zum Beispiel:

   - Lernende Verfahren zur Unterstützung des Datenschema-Matchings

   - Automatische Identifikation des in einem Geodatenbestand verwendeten
      Koordinatenreferenzsystems (SRID)

   - Lernende Verfahren zum Auffüllen von Datenlücken

   - Bessere Methoden zum Geocoding

Insgesamt ergeben sich also spannende Perspektiven, um einerseits die
Praxistauglichkeit und den operativen Nutzen „einfacher“ Spatial ETL-Ansätze weiter
zu untersuchen und andererseits noch innovativere Lösungsansätze auf ihre
Machbarkeit hin abzuklopfen.




                                          226
                                       Tagungsband UIS 2017



Danksagung: Die Arbeiten an innovativen Methoden und Werkzeugen für Geo-ETL-
Prozesse werden vom Bundesministerium für Bildung und Forschung (BMBF) im
Rahmen des KMU-innovativ Projekts WIRE (Intelligentes Werkzeug für Qualitäts-
verbesserungen im multi-dimensionalen Datenwürfel, FKZ 01IS16039) unterstützt.
WIRE wird von Disy koordiniert und zusammen mit dem FZI Forschungszentrum
Informatik am Karlsruher Institut für Technologie bearbeitet.


7 Literaturverzeichnis
Albrecht, M.; Bornhöft, D. (2014): Mit Strategie zu neuen Architekturen – Cadenza als
   strategische Kernkomponente in der IT des Ministeriums für Energiewende, Landwirtschaft,
   Umwelt und ländliche Räume des Landes Schleswig-Holstein. In: K. Weissenbach, W.
   Schillinger,  R. Weidemann (Hrsg.):          F+E-Vorhaben MAF-UIS /           Moderne
   anwendungsorientierte Forschung und Entwicklung für Umweltinformationssysteme, Phase
   II 2012/2014. Karlsruhe: KIT. KIT SCIENTIFIC REPORTS No. 7665, S. 115 – 125.
Badard, T. (2010): GeoKettle: A powerful open source spatial ETL tool. In: FOSS4G 2010,
  Barcelona / Spain. URL: https://de.slideshare.net/tbadard/geokettle-a-powerful-open-
  source-spatial-etl-tool-5193932 . Letzter Zugriff: 06.08.2017.
Badard, T.; Dubé, E.; Diallo, B.; Mathieu, J.; Ouattara, M. (2009): GeoKettle: A powerful open
  source spatial ETL tool. In: FOSS4G 2009, Sydney / Australia. URL:
  https://de.slideshare.net/tbadard/geokettle-a-powerful-open-source-spatial-etl-tool . Letzter
  Zugriff: 06.08.2017.
Bauer, A.; Günzel, H. (2013): Data-Warehouse-Systeme: Architektur, Entwicklung,
  Anwendung, 4. Auflage. dpunkt, 2013, ISBN 3-89864-785-4.
Con terra GmbH (Hrsg.) (2015): FME Desktop - Das deutschsprachige Handbuch für
  Einsteiger und Anwender. Berlin, Offenbach: Wichmann Verlag. ISBN 978-3-87907-591-1.
Hosenfeld, F.; Albrecht, M. (2015): Energy Atlas Schleswig-Holstein. In: Adjunct Proceedings
  of the 29th EnviroInfo and 3rd ICT4S Conference, Copenhagen / Denmark. URL:
  http://enviroinfo.eu/sites/default/files/pdfs/vol9073/0122.pdf . Letzter Zugriff: 06.08.2017.
Hummeltenberg, W. (2012): ETL. In N. Gronau et al. (Hrsg.): GITO Online Lexikon
  Enzyklopädie     der      Wirtschaftsinformatik.  URL:      http://www.enzyklopaedie-der-
  wirtschaftsinformatik.de/lexikon/daten-wissen/Business-Intelligence/ETL . Letzter Zugriff:
  02.08.2017.
Inmon, W.H. (1996): Building the Data Warehouse. John Wiley & Sons, 1996, ISBN 978-0-
   471-14161-7.
Kimball, R.; Ross, M. (2013): The Data Warehouse Toolkit: The Definitive Guide to
  Dimensional Modeling, 3rd Edition. Wiley.
Martin, C.; Bischof, N.; Eiblmaier, M. (Hrsg.) (2000): Geodatenbank. In: Online Lexikon der
  Geowissenschaften.         Heidelberg:    Spektrum     Akademischer      Verlag.    URL:
  http://www.spektrum.de/lexikon/geowissenschaften/geodatenbank/5586 . Letzter Zugriff:
  06.08.2017.
Rahm, E. (2015): Data Warehouses. Einführung. Vorlesungsskript, Universität Leipzig. URL:
  dbs.uni-leipzig.de/file/dw-kap1.pdf . Letzter Zugriff: 24.07.2017.
Wikipedia-1: Data Warehouse. URL: https://de.wikipedia.org/wiki/Data-Warehouse . Letzter
  Zugriff: 24.07.2017.
                                              227
                                     Tagungsband UIS 2017



Wikipedia-2: ETL-Prozess. URL: https://de.wikipedia.org/wiki/ETL-Prozess . Letzter Zugriff:
  02.08.2017.
Zeh, T. (2003): Data Warehousing als Organisationskonzept des Datenmanagements. Eine
  kritische Betrachtung der Data-Warehouse-Definition von Inmon. In: Informatik – Forschung
  und Entwicklung. 18, Nr. 1, 2003. URL: http://tzeh.de/abstract_dw.htm Letzter Zugriff:
  06.08.2017




                                            228