=Paper= {{Paper |id=None |storemode=property |title=None |pdfUrl=https://ceur-ws.org/Vol-733/proceedings.pdf |volume=Vol-733 }} ==None== https://ceur-ws.org/Vol-733/proceedings.pdf

Proceedings

23. GI-Workshop Grundlagen von Datenbanken
31.05.2011 - 03.06.2011

Obergurgl, Tirol, Österreich

Wolfgang Gassler, Eva Zangerle, Günther Specht (Hrsg.)
Vorwort

Liebe Teilnehmerinnen und Teilnehmer,
der 23. Workshop Grundlagen von Datenbanken (GvD) 2011 findet in Obergurgl,
Tirol, Österreich statt. Dieser viertägige Workshop wird vom GI-Arbeitskreis
Grundlagen von Informationssystemen im Fachbereich Datenbanken und
Informationssysteme (DBIS) veranstaltet und hat die theoretischen, konzeptionellen
und methodischen Grundlagen von Datenbanken und Informationssystemen zum
Thema. Organisiert wird der Workshop 2011 von der Forschungsgruppe
Datenbanken und Informationssysteme am Institut für Informatik an der Leopold-
Franzens-Universität in Innsbruck.
Der Workshop soll die Kommunikation zwischen Wissenschaftlern/-innen im
deutschsprachigen Raum fördern, die sich grundlagenorientiert mit Datenbanken und
Informationssystemen beschäftigen. Er ist insbesondere als Forum für
Nachwuchswissenschaftler/-innen gedacht, die ihre aktuellen Arbeiten in einem
größeren Forum vorstellen wollen. Mit der Kulisse der beeindruckenden Tiroler
Bergwelt bietet der Workshop auf 2000 Metern Meereshöhe einen idealen Rahmen
für die offenen und inspirierenden Diskussionen zu Datenbanken und
Informationssystemen. 18 Papiere wurde aus den Einsendungen ausgewählt und
werden in Obergurgl vorgestellt. Sie spannen ein weites Feld auf und zeigen, wie
aktiv und inspirierend die Datenbankforschung heute sein kann. Gerade das neue
Feld der Hauptspeicher- und NoSQL-Datenbanken hat die Auseinandersetzung mit
dem, was die eigentlichen Grundlagen der Datenbanken sind, neu beflügelt. Dabei
ist der Workshop über die Jahre, inzwischen 23 (!), längst von einem ursprünglich
eher theorie- und grundlagenlastigen Workshop auch zu einer Plattform für
anwendungsgetriebene und praktische Datenbankforschung geworden und hat sich
dabei auch dem damit verbundenen Gebiet der Informationssysteme geöffnet.
Wichtig ist die offene Atmosphäre in der man, diesmal zurückgezogen in der
Bergwelt, ohne Zeitzwang, intensiv diskutieren kann. Dies bedeutet insbesondere
nicht nur die üblichen drei Fragen nach dem Vortrag bevor der nächste kommt,
sondern sich die Zeit nehmen, vorgestellte neue Gedanken und Ansätze wirklich
gemeinsam zu diskutieren. Davon profitieren alle.
Hinzu kommen drei interessante Keynote-Vorträge von Harald Frick, Thomas
Neumann und Wolf-Tilo Balke. Ihnen sei an dieser Stelle für Ihre Bereitschaft und
Ihr Kommen gedankt.
Weiters danken wir dem Programmkomitee, das diesmal erstmals auf 18 Mitglieder
gewachsen ist und allen Gutachtern für ihre Arbeit. Das Organisations-Komitee und
dabei insbesondere Fr. Eva Zangerle und Hr. Wolfgang Gassler haben den Großteil
der Arbeit gestemmt. Ohne ihren unermüdlichen Einsatz und ihr Engagement wäre
der 23. Workshop nicht zustande gekommen. Herzlichen Dank! Besonderer Dank
gilt auch Eike Schallehn und dem GI-Arbeitskreis "Grundlagen von
Informationssystemen", der sich mit viel Einsatz um die erfolgreiche jährliche
Austragung des Workshops bemüht. Schließlich gilt mein Dank allen denen, die im
Hintergrund mitwirkten, dem ganzen DBIS-Team in Innsbruck, dem Haus in
Obergurgl und nicht zuletzt allen Autoren und Vortragenden. Sie machen den
Workshop erst zu dem, was er ist: Eine inspirierendes und motivierendes Forum für
offene Diskussionen über alle neuen Ideen rund um Datenbanken und
Informationssysteme. Sicher wird auch die gepflegte Hütten- und Bergatmosphäre
und der offene Kamin am Abend das seine dazu beitragen. Ich freue mich darauf.
Mit den besten Grüßen,
Günther Specht

Innsbruck am 26.05.2011
Komitee

Programm-Komitee
 Wolf-Tilo Balke, Universität Braunschweig
 Stefan Brass, Universität Halle
 Erik Buchmann, Universität Karlsruhe
 Stefan Conrad, Universität Düsseldorf
 Johann-Christoph Freytag, Humboldt-Universität Berlin
 Torsten Grust, Universität Tübingen
 Andreas Henrich, Universität Bamberg
 Hagen Höpfner, Universität Weimar
 Harald Kosch, Universität Passau
 Holger Meyer, Universität Rostock
 Klaus Meyer-Wegener, Universität Erlangen
 Bernhard Mitschang, Uni Stuttgart
 Daniela Nicklas, Universität Oldenburg
 Gunter Saake, Universität Magdeburg
 Eike Schallehn, Universität Magdeburg
 Ingo Schmitt, TU Cottbus
 Holger Schwarz, Universität Stuttgart
 Günther Specht, Universität Innsbruck

Organisations-Komitee
 Eva Zangerle, Universität Innsbruck
 Wolfgang Gassler, Universität Innsbruck
 Günther Specht, Universität Innsbruck
 Eike Schallehn, Universität Magdeburg, Speaker of the Working Group
Foundations of Information Systems

Weitere Reviewer
 Eva Zangerle, Universität Innsbruck
 Wolfgang Gassler, Universität Innsbruck
 Wolfgang Pausch, Universität Innsbruck
 Sebastian Schönherr, Universität Innsbruck
 Robert Binna, Universität Innsbruck
 Dominic Pacher, Universität Innsbruck
Inhaltsverzeichnis

Keynotes

Massive parallel In-Memory Database with GPU-based Query Co-Processor....................................................................... 1

(Harald Frick)

Efficient Query Processing on Modern Hardware .................................................................................................................. 3

(Thomas Neumann)

Conceptual Views for Entity-Centric Search.......................................................................................................................... 5

(Wolf-Tilo Balke)

Workshop-Beiträge

Ein Ansatz zu Opinion Mining und Themenverfolgung für eine Medienresonanzanalyse .................................................... 7

(Thomas Scholz)

Representing Perceptual Product Features in Databases ........................................................................................................ 13

(Joachim Selke)

Echtzeitüberwachung und Langzeitanalyse mittels eingebetteter Systeme ............................................................................ 19

(Tino Noack)

Analyse und Vergleich von Zugriffstechniken für funktionale Aspekte in RDBMS ............................................................. 25

(Matthias Liebisch)

Verbindung relationaler Datenbanksysteme und NoSQL-Produkte - Ein Überblick.............................................................. 31

(Andreas Göbel)

Ad-hoc Datentransformationen für Analytische Informationssysteme ................................................................................... 37

(Christian Lüpkes)

Wissensbasiertes Business Intelligence für die Informations-Selbstversorgung von Entscheidungsträgern .......................... 43

(Matthias Mertens)

Towards Efficiently Running Workflow Variants by Automated Extraction of Business Rule Conditions ........................... 49

(Markus Döhring, Christo Klopper und Birgit Zimmermann)

Vorschlag Hypermodelling: Data Warehousing für Quelltext................................................................................................ 55

(Tim Frey)

Die probabilistische Ähnlichkeitsanfragesprache QSQL2 ..................................................................................................... 61

(Sascha Saretz und Sebastian Lehrack)

Informationsanbieterzentrierte Spezifikation und Generierung von Informationssystem-Apps ............................................. 67

(Jonas Pencke, David Wiesner, Hagen Höpfner und Maximilian Schirmer)
XQuery Framework for Interoperable Multimedia Retrieval ................................................................................................. 73

(Mario Döller, Florian Stegmaier, Alexander Stockinger and Harald Kosch)

Workload Representation across Different Storage Architectures for Relational DBMS ...................................................... 79

(Andreas Lübcke, Veit Köppen und Gunter Saake)

Data Locality in Graph Databases through N-Body Simulation ............................................................................................. 85

(Dominic Pacher, Robert Binna und Günther Specht)

SpiderStore: A Native Main Memory Approach for Graph Storage ...................................................................................... 91

(Robert Binna, Wolfgang Gassler, Eva Zangerle, Dominic Pacher und Günther Specht)

Kriterien für Datenpersistenz bei Enterprise Data Warehouse Systemen auf In-Memory Datenbanken ............................... 97

(Thorsten Winsemann and Veit Koeppen)

Ein Verfahren zur automatischen Erstellung eines visuellen Wörterbuchs für die Bildsuche ................................................ 103

(Magdalena Rischka)

A feedback guided interface for elastic computing ................................................................................................................ 109

(Sebastian Schönherr, Lukas Forer, Hansi Weißensteiner, Florian Kronenberg, Günther Specht und Anita Kloss-Brandstätter)
Massive parallel in-memory
database with GPU based query co-
processor
Harald Frick
QuiLogic In-Memory DB Technology

ABSTRACT

This talk presents work on transforming SQL-IMDB, a commercial available in-
memory database system, into a massive parallel, array structured data processor
extending the “classic” query engine architecture with GPU based co-processing
facilities. The chosen approach is not just a simple re-implementation of common
database functionality like sorting, stream processing and joins on GPUs, instead we
take a holistic view and extend the entire query engine to work as a genuine, in-
memory, GPU supported database engine. We have partitioned the query engine so
that both CPU and GPU are doing what they are best at. The new SQL-IMDBg
query execution engine is a “Split-Work” engine which takes care to optimize,
schedule and execute the query plan simultaneous and in the most efficient way on
two (or more) different memory devices. The principal architecture of the engine,
based on simultaneous managing multiple memory devices (local/shared/flash-
memory ), was a natural fit to include the new GPU/video memory as just another
(high speed) memory device. All internal core engine data structures are now based
on simple array structures, for maximum parallel access support on multi- and many
core hardware. Data tables located on GPU video memory can always queried
together with CPU local- and shared-memory tables in “mixed” query statements.
Columns on GPU tables are also accessible through GPU based indexes. A special
index structure was developed based on sorted containers supporting both CPU and
GPU based index lookups. Table data can be manually and automatically split
between CPU and GPU and is held in vertically partitioned columns, which ease the
stream like processing for basic scan primitives and coalesced memory access
mechanism on GPU devices. Based on our experience gained, we see the GPU/video
memory as another important high speed memory device for in-memory database
systems, but which do not yet fit well into the architecture of current database
engines and therefore require a major effort in re-engineering the entire core
database architecture.

1
2
Efficient Query Processing on
Modern Hardware
Thomas Neumann
Lehrstuhl für Informatik III: Datenbanksysteme
Fakultät für Informatik
Technische Universität München

ABSTRACT

Most database systems translate a given query into an expression in a (physical)
algebra, and then start evaluating this algebraic expression to produce the query
result. The traditional way to execute these algebraic plans is the iterator model:
Every physical algebraic operator conceptually produces a tuple stream from its
input, and allows for iterating over this tuple stream. This is a very nice and simple
interface, and allows for easy combination of arbitrary operators,but it clearly comes
from a time when query processing was dominated by I/O and CPU consumption
was less important: The iterator interface causes thousands of expensive function
calls, degrades the branch prediction of modern CPUs, and ofter results in poor
code locality and complex book-keeping.
On modern hardware query processing can be improved considerably by processing
tuples in a data centric, and not an operator centric, way. Data is processed such that
it can be kept in CPU registers as long as possible. Operator boundaries are blurred
to achieve this goal. In combination with an code compilation framework this
results in query code that rivals the speed of hand-written code. When using these
techniques in the HyPer DBMS, TPC-H Query 1 for example can single-threaded
aggregated the scale factor 1GB data set in about 68ms on commodity hardware.

3
4
Conceptual Views for Entity-Centric
Search
Wolf-Tilo Balke
Databases and Informationsystems
University of Braunschweig

ABSTRACT

The retrieval of entity data has always been a core application of database systems
and querying an entity's attributes can be efficiently done using declarative
languages like SQL. But today's retrieval tasks more and more focus also on
conceptual aspects of entities, which often are not directly expressed by attributes.
For instance, users might want to find a 'thrilling' novel, unfortunately there is no
'suspense factor' attribute in today's online book stores. Consequently, entity-centric
search suffers from a growing semantic gap between the users’ intended queries and
the database’s schema. In the talk, we will propose the notion of conceptual views,
an innovative extension of traditional database views, which aim to uncover those
query-relevant concepts that are often only reflected by unstructured data related to
some entities. We will also take a look at promising techniques for mining
conceptual information and discuss open issues.

5
6
Ein Ansatz zu Opinion Mining und Themenverfolgung für
eine Medienresonanzanalyse

Thomas Scholz

Heinrich-Heine-Universität Düsseldorf pressrelations GmbH
Institut für Informatik Entwicklung
Universitätsstr. 1 Klosterstr. 112
D-40225 Düsseldorf, Deutschland D-40211 Düsseldorf, Deutschland
scholz@cs.uni-duesseldorf.de thomas.scholz@pressrelations.de

Zusammenfassung und Hörfunksender an. Im Bereich Soziale Netzwerke ha-
Heutzutage gibt es eine unüberschaubare Anzahl von Me- ben sich Dienstleister darauf spezialisiert, die Diskussionen
dien mit enorm vielen Artikeln und Beiträgen. Da in ih- und Kommentare aus Netzen wie Twitter, Facebook oder
nen neben vielen anderen potenziell nützlichen Informatio- bestimmte Foren automatisch zu erfassen und als Daten an-
nen wertvolle Meinungen zu Themen enthalten sind, ist eine zubieten.
automatische Beobachtung dieser Medien sehr interessant, Die Auswertung von einer großen Menge dieser Artikel
birgt aber zwei große Herausforderungen: eine automatisier- und Beiträge ist hingegen schwierig. Eine manuelle Auswer-
te Tonalitätsbestimmung (Opinion Mining) kombiniert mit tung ist nur mit erheblichen Aufwand möglich und für eine
einer Themenverfolgung. Diese zwei Aufgaben sind Teilge- automatische Auswertung gibt es erste Ansätze, aber längst
biete des Text Minings, auch Text Data Mining oder Know- noch keine allumfassende Lösung. Mit der Aufgabe diese Da-
ledge Discovery in Texten genannt. Diese Arbeit beschreibt ten zu erfassen und auszuwerten beschäftigt man sich beim
einen Ansatz für Opinion Mining und Themenverfolgung ba- Medienmonitoring bzw. bei der Medienresonanzanalyse. In
sierend auf einer Information Extraction Architektur. In der diesem Bereich arbeiten Ausschnittdienste.
Evaluation wird gezeigt, wie dieser Ansatz für Opinion Mi-
ning oder eine Themenverfolgung eingesetzt werden kann.
1.1 Medienmonitoring
Die riesigen Ströme aus Artikeln und Beiträgen enthalten
viele potenziell wertvolle Informationen zu Themen, Perso-
Kategorie nen, Firmen, Produkten, usw. Besonders die PR- und Marketing-
Data Mining and Knowledge Discovery Abteilungen von Unternehmen, Parteien und Verbänden in-
teressieren für diese Daten und deren Auswertung. Dabei in-
teressiert man sich besonders dafür, inwiefern sich das Image
Schlüsselwörter des Unternehmens oder das Image von bestimmten Pro-
Opinion Mining, Topic Tracking, Text Mining dukten, Marken und Dienstleistungen entwickelt. Aber auch
wie bestimmte Personen (Werbeträger, Vorstandsmitglieder,
1. EINLEITENDE MOTIVATION etc.) in diesen Medien wahrgenommen werden. Außerdem
von Bedeutung ist die Frage, auf welche Weise bestimmte
Das Internet, Printmedien, TV, Hörfunk und Soziale Netz-
Themen mit dem Unternehmen verknüpft sind. Beim Me-
werke sind eine Fundgrube von Meinungen zu bestimm-ten
dienmoitoring geht es darum Artikel zu erfassen und sam-
Themen in Form von Artikeln oder Beiträgen. Heutzutage
meln, die für PR- und Marketing Abteilungen interessant
ist es möglich diese in digitaler Form zu erfassen. Im Online
sind. Dazu werden von ihnen Themen oder Schlagwörter
Bereich können beispielsweise Crawler eingesetzt werden um
definiert. Dies ist auch interessant für Verbände, Vereine,
die Artikelseiten von Internetnachrichten zu erfassen. Durch
Parteien, Stiftungen, die teilweise zu klein sind um über ei-
Analyse des Seitenquelltextes und den Einsatz von Heuris-
ne eigene PR-Abteilung zu verfügen.
tiken kann der eigentliche Artikeltext gefunden werden. Ar-
tikel aus Printmedien können eingescannt und mit optischer
Zeichenerkennung (OCR) digitalisiert werden. Artikel und
1.2 Medienresonanzanalyse
Beiträge in digitaler Textform bieten auch teilweise die TV- Bei der Medienresonanz geht es darum zu bestimmten
Themen das mediale Echo zu analysieren.
Dies kann z. B. auf folgende Art und Weise geschehen:
Zunächst werden Themen definiert, die es zu untersuchen
gilt. Dies können beispielsweise Marken von Firmen sein
oder andere Begriffe wie Produktnamen, Personen oder ähn-
liches. Bei einem Medienbeobachter und einem Ausschnitt-
dienst würden die Kunden (meist PR-Abteilungen von Fir-
men oder Organisationen wie Parteien) Themen durch be-
23rd GI-Workshop on Foundations of Databases (Grundlagen von Daten-
banken), 31.05.2011 - 03.06.2011, Obergurgl, Austria. stimmte Schlagwörter festlegen. Die Schlagwörter werden
Copyright is held by the author/owner(s). dann von Crawlern in den Medien gesucht, um die entspre-

7
chenden Artikel zu erfassen. • negativ: {bad, nasty, poor, negative, unfortunate, wrong,
Dann können diese Artikel bewertet werden, z.B. ob sie inferior}
wirklich relevant zu diesem Thema sind, wie exklusiv dieser
Diesen Aufbau durch einen Bootstrapping Algorithmus
Beitrag ist und am wichtigsten welche Tonalität er besitzt.
benutzt auch das bekannteste Wörterbuch: SentiWordNET
Die Tonalität beschreibt, ob ein bestimmter Artikel positi-
[5]. Als Quelle für neue Wörter benutzt es dazu Glossetexte
ve oder negative Meinungen zu einem Thema enthält. Es
und Wortbeziehungen in WordNET, dem bekanntesten eng-
ist auch beides möglich. Oft wird dies mit einem negativen
lischen, digitalen Wörterbuch. Mit diesen Wortbeziehungen
Zahlenwert für eine negative Tonalität und einem positiven
wie Synonym, Oberbegriff oder Unterbegriff werden neue
Zahlenwert für eine positive Tonalität festgehalten. Diese
Wörter gefunden, die dann die gleiche oder eine ähnliche
Bestimmung der Tonalität wird heutzutage bei den Medien-
Tonalität bekommen.
beobachtern noch rein manuell durch Medienanalysten aus-
Andere Ansätze benutzen nur WordNET oder ähnliche,
geführt, die die Texte lesen und meinungsbeinhaltende Pas-
allgemeine Wörterbücher [6, 7] oder Textsammlungen [2, 4]
sagen identifizieren und bewerten.
oder Suchanfragen [6]. Die Vorgehensweise ähnelt dabei oft
Allerdings stoßen solche Beobachtungsdienste aufgrund
der Vergrößerung der Wortmenge durch Bootstrapping.
der Menge der Artikel und Beiträge heute an ihre Grenzen,
Viele Ansätze [2, 3, 4, 13] beschränken sich auf das Gebiet
was manuell noch zu bearbeiten ist. Die Nachrichtenanzahl,
der Sentiment Analysis, also der Tonalitätsbestimmung in
die diese Dienste bearbeiten, nimmt stetig zu, aufgrund der
Kundenrezensionen. Einige Ansätze beschränken sich dabei
stärkeren Digitalisierung der Medien wie auch durch Entste-
nur auf Adjektive [3].
hen neuer Medien im Internet wie der Bereich Social Media.
Bei Kundenrezensionen ist eine Identifikation von Mei-
nungsblöcken nicht nötig. Eine Rezension besteht nur aus
1.3 Opinion Mining und Themenverfolgung als Meinungsblöcken. Um generell Meinungen zu finden, auch
Lösung wenn dies in einem langen Zeitungsartikel nur ein kleiner
Als Lösung für eine automatische Medienresonanzanalyse Absatz über ein bestimmtes Unternehmen ist, sind zunächst
bieten sich Opinion Mining und Themenverfolgung an, um noch anderere Schritte zuvor nötig. Ein satzbasierter Ansatz
die doch bisher meist manuell geleistete Arbeit zu unter- [7] bestimmt für jeden Satz einen Tonalitätswert basierend
stützen und perspektivisch zu ersetzen.. Mit Hilfe des Opi- auf den in ihm enthalten Wörtern. Dafür werden in zwei
nion Minings soll es gelingen meinungstragende Passagen Modellen einmal alle Wörter oder nur das stärkste Tonali-
innerhalb eines Textes zu finden und dann automatisch mit tätswort herangezogen. Überschreitet der Wert eine gewisse
einem Tonalitätswert zu versehen. Durch die Realisierung Grenze, dann enthält der Satz eine Meinung. Für einen an-
einer automatischen Themenverfolgung könnte die manuell deren Ansatz [1] enthält ein Satz eine Meinung, wenn er ein
vorgenommene Schlagwortverwaltung für die Themenzuord- Adjektiv enthält.
nung abgelöst werden. In der Kombination hätte man dann Auch kann man davon ausgehen, dass bei Sentiment Ana-
eine automatische Medienresonanzanalyse. lysis Ansätzen man schon mit einem kleineren Wörterbuch
Der Rest dieser Arbeit kann wie folgt zusammengefasst mit Tonalitätswerten zurecht kommt, da man es bei den Zie-
werden: Zunächst werden die Ansätze aufgezeigt, die schon len der Rezension nur mit Produkten und ähnlichem wie
zum Bereich des Opinion Minings und der Themenverfol- Filmen, Hotels usw. zu tun hat. Bei einer Medienresonan-
gung entwickelt wurden. Dann wird die Architektur ent- zanalyse werden aber gleichzeitig Entitäten wie Personen,
worfen, wodurch eine automatische Medienresonanzanalyse Organisationen, Produkte, Events oder Aktionen im Fokus
auf Basis von Natural Language Processing und Informati- stehen. Somit ändern sich auch die tonalitätsbildenen Wör-
on Extraction realisierbar wird. Anschließend wird in ersten ter, da nicht allein durch eine Beschreibung eines Produktes
Versuchen demonstriert, wie die Vorverarbeitung für Opi- etc. eine Tonalität ausgedrückt wird.
nion Mining und Themenverfolgung eingesetzt werden kön- In einer Rezension will der Autor seine Meinung dem Leser
nen. Abschließend werden dann aufgrund dieser Ergebnisse direkt vermitteln. In Zeitungsartikeln beschreibt der Autor
Schlussfolgerungen für das weitere Vorgehen gezogen. nicht nur direkte Meinungen, oft wird eher über Fakten und
Handlungen gesprochen, die sich auf bestimmte Personen
oder Organisationen beziehen, die dann eine Tonalität ent-
2. VERWANDTE ARBEITEN stehen lassen. Darum sollte ein solcher Ansatz auch nicht
nur Adjektive, sondern mehr Wortarten miteinbeziehen (z.
2.1 Opinion Mining B. Verben). Die meisten Ansätze [1, 2, 3] sind auf die eng-
Um die Tonalität eines Textes zu bestimmen, benutzen lische Sprache ausgerichtet. Darüber hinaus gibt es einige
viele Ansätze wie [2, 3, 9, 13] Wörterbücher, in denen Wörter Ansätze für die Chinesische Sprache, die allerdings nicht die
mit einem Tonalitätswert hinterlegt sind. Diese Wörterbü- Güte der Ergebnisse der auf Englisch arbeitenden Ansätze
cher werden meist so aufgebaut: Man beginnt mit einer klei- erreichen [4, 9].
neren Menge von positiven und negativen Wörtern. Dann
wird analysiert, ob neue Wörter oft mit positiven oder nega- 2.2 Themenverfolgung
tiven Wörtern auftauchen und entsprechend bekommt dann Wissenschaftliche Methoden [10, 14, 17, 18], die eine The-
das neue Wort einen positiven oder negativen Tonalitäts- menverfolgung realisieren, stellen ein Thema oft durch Schlag-
wert. wörter dar. Diese Schlüsselwörter werden dadurch extra-
Eine typische Menge von Saattonalitätswörtern sieht bei- hiert, dass die häufigsten Wörter eines Themas genommen
spielsweise so aus [16]: werden [14], die TF-IDF Methode zur Gewichtung benutzt
wird [10] oder die Wörter ausgewählt werden, die am wahr-
• positiv: {good, nice, excellent, positive, fortunate, cor- scheinlichsten in einem Thema vorkommen und am unwahr-
rect, superior} scheinlichsten in allen anderen Themen [17, 18].

8
Weiterhin gibt es einen Ansatz [8] einzelne Personen zu
verfolgen. In diesem Ansatz geht es dann später um eine Web Crawler Einheitliche
Dokumenten-
Visualisierung der Daten: Wie oft wurde die Person in den darstellung
beobachteten Medienquellen in einem bestimmten Zeitinter-
vall (beispielsweise an einem Tag) erwähnt.
Eine andere, sehr erfolgreiche Methode ist die Verfolgung Part-Of-Speech
von wörtlicher Rede [11] für ein bestimmtes Thema. Die Ar- Tagging
Satz Segmentierung Tokenisierung
beit beabsichtigt zu erforschen, wie sich Themen zwischen
Stemming
den verschieden Medien (in diesem Fall Onlinenachrichten
und Soziale Netzwerke) bewegen. Die Autoren untersuchen Natural Language Processing
nach welcher Zeit Themen in die sozialen Netzwerke gelan-
gen und ob es Themen gibt, die zuerst in den Sozialen Netzen
entstehen und dann erst in die herkömmlichen Nachrichten
gelangen. Hier werden Zitate aus wörtlicher Rede benutzt, Entity Recognition Ortho-Matching Pronomenauflösung

da diese laut den Autoren einfach zu verfolgen sind [11].
Ein Zitat steht dann für ein Thema. Durch einen graphba- Information Extraction
sierten Ansatz werden Zitate auch wieder erkannt, wenn sie
verkürzt oder leicht abgeändert werden.
Selten werden verschiedene Merkmale kombiniert [12], um Merkmale extrahieren
Lernverfahren Vorhersage-
Themen darzustellen oder zu verfolgen. Allerdings verlangt modell
dies auch größeren Aufwand, da man zunächst mittels Infor-
mation Extraktion Methoden viele Informationen im Vorlauf
erfassen muss, damit man daraus entsprechende Merkmale
generieren kann. Hier sind auch begrenzte Rechnerkapazitä- Abbildung 1: Ablauf der Verarbeitungsschritte
ten ein nicht zu vernachlässigender Aspekt.
auch nicht exakt die selbe Zeichenkette verwendet wird. Im
3. ANFORDERUNGEN FÜR DEN ANSATZ Falle einer Person könnte z.B. erst der komplette Name und
Die verschiedenen Arbeiten [1, 2, 3, 7, 12] zu diesen Berei- später im Text nur noch der Nachname benutzt werden.
chen zeigen oft, dass es sinnvoll ist, die Texte einer Vorver- Kommt eine Pronomenauflösung hinzu, dann wird eine En-
arbeitung zu unterziehen (s. Abbildung 1). Sehr vorteilhaft tität auch dann weiterverfolgt, wenn im Text für die Entität
erscheint der Einsatz von Natural Language Processing und nur noch Pronomen stehen wie “sie” oder “ihn”, die sich aber
Information Extraction. Wenn ein Ansatz diese Vorgaben auf die entsprechende Person beziehen.
für eine Vorverarbeitung erfüllt, dann entstehen neue Mög- Darüber hinaus kann es noch sehr nützlich sein, weitere
lichkeiten, die später aufgeführt werden. Informationen wie den grammatikalischen Fall oder das Ge-
schlecht von Wörtern zu bestimmen. Auch Textpassagen mit
3.1 Natural Language Processing wörtlicher Rede oder die Extraktion von Nomenphrasen sind
Gerade Natural Language Processing (NLP) wird in vie- weitere nützliche Informationsbausteine, die in einer weite-
len anderen Ansätzen benutzt, um unter anderem Adjektive ren Verarbeitung aufgegriffen werden können.
zu identifizieren [1, 2, 3]. Beim Natural Language Processing
ist nach dem simplen Aufteilen des Textes in Sätze und Wör- 3.3 Neue Möglichkeiten
ter das sogenannte Part-Of-Speech Tagging der wichtigs- Diese Vorverarbeitung lässt sich für das Opinion Mining
te Analyseschritt. Dabei werden die Wörter aufgrund von und die Themenverfolgung folgendermaßen einsetzen:
Wahrscheinlichkeitsmodellen wie Hidden Markov Modellen Durch die Bestimmung der verschiedenen Wortarten las-
grammatikalischen Wortarten wie Nomen, Verben, Adjekti- sen sich für das Opinion Mining Wörterbücher aus Adjekti-
ven usw. zugeordnet. Außerdem sollte ein Stemming durch- ven, Verben und Adverben extrahieren. Hier stellt sich noch
geführt werden, damit alle Wörter auch in Ihrer Grundform die Frage, wie man diesen Tonalitätswert bestimmt. Viele
verfügbar sind. Mit dieser Zurückführung werden viele Me- Ansätze bilden dazu Maße, die auf das Zusammenauftre-
thoden vereinfacht, die auf der Identifikation von bestimm- ten mit positiven bzw. negativen Tonalitätswörtern beruhen.
ten Wörtern beruhen oder einen Text als Wortlisten mit Wenn man viele annotierte Meinungsblöcke besitzt, kann
Häufigkeiten darstellen. man auch Standardansätze aus dem Information Retrieval
wie TF-IDF darauf anwenden. Ebenso kann man Bootstrap-
3.2 Information Extraction ping einsetzen.
Durch Information Extraction (IE) [15] ist es darüber hin- Auch Nominalphrasen können in dem Wörterbuch auf-
aus möglich, Entitäten im Text wie Personen, Organisatio- genommen werden. Diese können auch für die Darstellung
nen und Orte zu erkennen. Diese Named Entity Recognition eines Themas von großem Nutzen sein.
(NER) ist ein gutes Beispiel, wie IE auf NLP aufbaut: Zuerst Durch die Erkennung von Personen, Organisationen usw.
werden Nomen identifiziert und z.B. durch Listen genauer kann man bei der Tonalitätsbestimmung unterscheiden, ob
bestimmt, ob es eine Person ist und eventuell zusätzlich, ob nun eine Person oder ein Produkt besprochen wird. Dadurch
es nur ein Vorname, Vor- und Nachname ist usw. Diese En- kann man die Bewertung des Vokabulars darauf anpassen.
titäten werden dann über den Text verfolgbar, wenn weitere Bei der Themenverfolgung kann man Themen durch die
Techniken wie Ortho-Matching und eine Pronomenauflösung Anwesenheit von Entitäten beschreiben. Das Vorhandensein
durchgeführt wird. Ortho-Matching beschreibt das Erken- bzw. die Abwesenheit einer Entität kann ebenso wie Schlag-
nen der Entität im selben Text an mehreren Stellen, wenn wörter dazu benutzt werden ein Thema zu beschreiben und

9
damit auch zu verfolgen. Auch könnte man genauso wie bei Wortart Klassifikationsverfahren Genauigkeit
Schlagwörtern das Auftreten mit TF-IDF gewichten, was Adjektive
nun konkret bedeuten würde: Die Häufigkeit einer Entität Support Vector Machine 80,81 %
multipliziert mit der inversen Dokumentenfrequenz in der Naive-Bayes 68,34 %
sie vorkommt. Bei dieser Gewichtung ist noch zu klären, was k-Nearst-Neighbour 53,60 %
den gesamten Dokumentenkorpus darstellt. Dies könnte ein Verben
zeitlicher Ausschnitt sein (z. B. ein Monat). Support Vector Machine 82,07 %
Zusätzlich könnte diese Gewichtung interessante Informa- Naive-Bayes 72,29 %
tionen über die Entwicklung eines Themas liefern, weil es an- k-Nearst-Neighbour 56,05 %
zeigt welche Entitäten in welchen Themen eine starke Rolle Adverbien
spielen. Support Vector Machine 75,61 %
Dies kann man zusätzlich mit bisherigen Ansätzen für Naive-Bayes 66,08 %
Themendarstellung durch Schlagwörter sowie die Verfolgung k-Nearst-Neighbour 53,79 %
von wörtlicher Rede kombinieren.
Diese Vorverarbeitungsschritte benötigen natürlich auch Abbildung 2: Tonalitätsbestimmung
Rechenzeit. Da allerdings dazu auf einem riesigen Datenfeld
(den Texten) nur gelesen werden muss, ist eine Parallelisie-
rung der Vorverarbeitung durchführbar. 100
90
4. EVALUATION
80
Um zu überprüfen, wie dieser Ansatz mit NLP und IE
für Opinion Mining und eine Themenverfolgung eingesetzt 70
werden kann, wird evaluiert, wie mit bestimmten Wortar-
60
ten automatisch eine Tonalität bestimmt werden kann und

F-Score in %
ob mit Entitäten eine thematische Zuordnung möglich ist. 50
Dafür werden zuvor klassifizierte Daten benutzt.
40
Diese Evaluation soll erste Hinweise geben, ob es grund-
sätzlich mit diesen Merkmalen möglich ist, die fundamenta- 30
len Bausteine einer Medienresonanzanalyse maschinell
20
durchzuführen: Tonalitätsbestimmung und Themenzuordnung.
Dabei geht es auch weniger um die Bestimmmung des op- 10
timalen Lernverfahrens. Der Einfachheit halber wurden dazu
0
im ersten Schritt drei typische Klassifikationsverfahren ver-
wendet. Diese bieten sich an, weil die Daten schon vor der Personen Organisationen Orte Alle
Evaluation mit entsprechenden Klassen versehen sind.

4.1 Tonalitätsbestimmung Abbildung 3: Themenzuordnung
Für diesen Test wurden 1600 Nachrichtenmeldungen mit
800 positiven und 800 negativen Meldungen analysiert. Um
eine Tonalität zu erhalten, wurden mittels NLP Adjektive, schützer warnen vor der ’Umfrucht’-Falle” oder “Rekordjahr:
Adverbien und Verben aus dem Text extrahiert und mittels Audi belohnt Mitarbeiter mit Millionen”)2 .
Stemming auf ihre Stammform zurückgeführt. Danach wur- Das beste Klassifikationsverfahren der drei hier getesteten
den invertierte Listen von diesen Dokumenten erzeugt und Verfahren ist eindeutig die Support Vector Machine. Darum
die einzelnen Terme mittels TF-IDF gewichtet. wird sie nun auch im zweiten Teil der Evaluation angewen-
Nach der Erzeugung dieser Attribute wurden die Daten det.
in einer 10-fach-über-Kreuz-Validierung durch drei Klassifi-
kationsverfahren getestet: Support Vector Machine (SVM), 4.2 Themenzuordnung
Naive-Bayes und k-Nearest-Neigbours mit k=7. Im zweiten Test wurden 204 Texte zu zwei sehr allgemei-
Bei den Resultaten zeigte sich, das diese doch recht naive nen Themen gesammelt. Die Themen waren “Finanzmarkt”
Methode (es wird beispielsweise nicht betrachtet, ob irgend- und “Parteien”.
welche Negationen anwesend sind) tatsächlich erste brauch- Dann wurden aus diesen Texten die Entitäten Personen,
bare Hinweise geben kann. Organisationen und Orte extrahiert. Diese Entitäten wur-
Es zeigte sich, dass die Vermutung, nur Adjektive allein den dann wiederum als Terme genommen, die mittels TF-
würden die Tonalität bestimmen, nicht zutrifft. Die Grup- IDF gewichtet wurden. Abschließend wurde eine SVM be-
pe der Verben schneidet schon besser ab. Hier scheint der nutzt um die Daten in einer 10-fach-über-Kreuz-Validierung
Unterschied zwischen Sentiment Analysis bezogen auf Kun- zu evaluieren.
denrezensionen und Opinion Mining bezogen auf Nachrich- Die Ergebnisse veranschaulicht Abbildung 3. Interessant
ten deutlich zu werden. Kundenrezensionen beziehen ihre ist hier, dass bei den einzelnen Merkmalen die Organisatio-
Tonalität wohl eher durch Adjektive (“die Bildqualität ist nen das beste Resultat liefern (ca. 85,29 %). Dies kann aber
super” oder “der Autofokus ist zuverlässig”)1 , während in mit der Themenauswahl (“Finanzmarkt” und “Parteien”) zu
Nachrichten dies nicht unbedingt der Fall ist (“Verbraucher- tun haben, in der wahrscheinlich generell mehr Organisatio-
1 2
Beispiele aus einer Amazon.de Kundenrezension Beispiele von Spiegel.de am 4.3.2011

10
nen eine Rolle spielen bzw. die Organisationen das trennende darstellung mit Merkmalen dadurch? In der Evaluation kam
Kriterium sind. schon die Frage auf, ob Personen bei kleineren Themen nicht
Auch Orte scheinen charakteristisch für Themen zu sein eine wichtigere Rolle zur Themenbeschreibung spielen.
(ca. 81,37 %). Kaum überraschend spielt der Ort “Frankfurt” Insgesamt zeigt sich aber, dass die Vorverarbeitung durch
im ersten Thema eine wichtigere Rolle als im zweiten Thema Natural Language Processing und Information Extraction
und für “Berlin” ist es umgekehrt. von großem Vorteil ist, da sie für beide Aufgabenstellungen,
Das Merkmal Person ist nicht so erfolgreich (nur ca. 68,14 Opinion Mining und Themenverfolgung, viele neue Möglich-
%). Bei den hier vorliegenden Themen gab es hinsichtlich keiten eröffnet und diese im Ansatz für eine Medienresonan-
der Personen auch durchaus Überschneidungen, weil mehre- zanalyse funktionieren.
re Personen in beiden Themen auftauchten. Eine interessan-
te Frage stellt sich nun dahingehend, ob dies bei kleineren 6. LITERATUR
Themen vielleicht seltener der Fall ist.
[1] L. Dey and S. K. M. Haque. Opinion mining from
Insgesamt zeigt sich das wünschenswerte Resultat: Mit
noisy text data. In Proc. of the 2nd workshop on
allen Entitäten gemeinsam wird das beste Ergebnis erzielt
Analytics for noisy unstructured text data, AND ’08,
(ca. 85,78 %).
pages 83–90, 2008.
[2] X. Ding, B. Liu, and P. S. Yu. A holistic lexicon-based
5. SCHLUSSFOLGERUNG UND WEITER- approach to opinion mining. In Proc. of the
international conference on Web search and web data
FÜHRENDE FRAGESTELLUNGEN mining, WSDM ’08, pages 231–240, 2008.
Die Ergebnisse der Evaluation lassen darauf schließen, [3] X. Ding, B. Liu, and L. Zhang. Entity discovery and
dass sich aufbauend auf dem beschriebenen Anforderungs- assignment for opinion mining applications. In Proc.
profil eine automatische Tonalitätsbestimmung und Themen- of the 15th ACM SIGKDD international conference on
verfolgung realisieren lässt. Knowledge discovery and data mining, KDD ’09, pages
Zu dem Aspekt des Opinion Minings fehlen noch viele Be- 1125–1134, 2009.
standteile, die in einem Text die Tonalität verändern kön- [4] W. Du and S. Tan. An iterative reinforcement
nen. Es hat sich gezeigt, dass die Worte allein schon im An- approach for fine-grained opinion mining. In Proc. of
satz funktionieren, aber noch großes Verbesserungspotenzial Human Language Technologies: The 2009 Annual
vorhanden ist. Conference of the North American Chapter of the
Dazu ist zu erarbeiten, ob es noch bessere Methoden der Association for Computational Linguistics, NAACL
Gewichtung gibt als der Standardansatz über TF-IDF. Au- ’09, pages 486–493, 2009.
ßerdem muss überlegt werden, wie man die Tonalitätswör-
[5] A. Esuli and F. Sebastiani. Determining the semantic
ter beispielsweise in einem Wörterbuch verwalten kann. Als
orientation of terms through gloss classification. In
nächste Fragestellung schließt sich dann an, wie man mit
Proc. of the 14th ACM international conference on
semantischen Merkmalen wie Negation oder dem Bezug zu
Information and knowledge management, CIKM ’05,
Entitäten umgeht.
pages 617–624, 2005.
Darüber hinaus ist ein weiteres spannendes Problem die
[6] X. Huang and W. B. Croft. A unified relevance model
Identifizierung der Meinungsblöcke, also der Textpassagen,
for opinion retrieval. In Proc. of the 18th ACM
die eine Meinung beinhalten. Ein Tonalitätsgrenzwert für
conference on Information and knowledge
Abschnitte und Sätze ist denkbar, aber auch die Lokalisie-
management, CIKM ’09, pages 947–956, 2009.
rung durch die Entitäten im Text, für die man sich erstens
verstärkt interessiert und die sich zweitens mit ausreichend [7] S.-M. Kim and E. Hovy. Automatic detection of
vielen tonalitätsbildenen Wörtern umgeben. opinion bearing words and sentences. In Companion
Bei der Themenverfolgung haben die Experimente zunächst Volume to the Proceedings of the International Joint
nur den Wert von Entitätenerkennung in einem einfachen Conference on Natural Language Processing
Beispiel gezeigt. Hier müsste die Kombination mit klassi- (IJCNLP), 2005.
schen Schlagwortansätzen und neueren Ansätzen, wie die [8] M. Krstajic, F. Mansmann, A. Stoffel, M. Atkinson,
Einbeziehung von wörtlicher Rede, genutzt werden, um eine and D. A. Keim. Processing online news streams for
bessere Themendarstellung zu erhalten und zusätzlich inter- large-scale semantic analysis. In ICDE Workshops,
essante Fakten über ein Thema zu sammeln. Diese Fakten pages 215–220, 2010.
können Folgendes beinhalten: Wie stark sind welche Perso- [9] L.-W. Ku, Y.-T. Liang, and H.-H. Chen. Opinion
nen mit welchen Themen verbunden? Oder gibt es zentrale extraction, summarization and tracking in news and
Zitate/Aussagen, die immer wieder aufgegriffen werden. blog corpora. In AAAI Symposium on Computational
Allerdings muss zunächst die Frage beantwortet werden, Approaches to Analysing Weblogs (AAAI-CAAW),
wie man die Entitäten sinnvoll mit Ansätzen wie Schlagwör- pages 100–107, 2006.
tern und die Verfolgung von Zitaten verbinden kann. Dies [10] S. Lee and H.-J. Kim. News keyword extraction for
wird Gegenstand der zukünftigen Arbeit sein, wobei auch zu topic tracking. In Proc. of the 4th International
klären ist, wie man diese Kombination für die Verwaltung Conference on Networked Computing and Advanced
einer Themenverfolgung sinnvoll einsetzen kann. Information Management - Volume 02, pages 554–559,
Weiterhin ist dabei die Größe eines Themas zu beachten 2008.
(für die Defintion der Größe eines Themas gibt es viele Mög- [11] J. Leskovec, L. Backstrom, and J. Kleinberg.
lichkeiten, die Anzahl der Artikel zu einem Thema ist eine Meme-tracking and the dynamics of the news cycle. In
nahe liegende Lösung). Wie wirkt sich die Größe der Themen Proc. of the 15th ACM SIGKDD international
auf die Verwaltung aus? Und wie verhält sich die Themen- conference on Knowledge discovery and data mining,

11
KDD ’09, pages 497–506, 2009.
[12] B. Li, W. Li, Q. Lu, and M. Wu. Profile-based event
tracking. In Proc. of the 28th annual international
ACM SIGIR conference on Research and development
in information retrieval, SIGIR ’05, pages 631–632,
2005.
[13] M. M. S. Missen, M. Boughanem, and G. Cabanac.
Comparing semantic associations in sentences and
paragraphs for opinion detection in blogs. In Proc. of
the International Conference on Management of
Emergent Digital EcoSystems, MEDES ’09, pages
80:483–80:488, 2009.
[14] X. Tang, C. Yang, and J. Zhou. Stock price
forecasting by combining news mining and time series
analysis. In Proc. of the 2009 IEEE/WIC/ACM
International Joint Conference on Web Intelligence
and Intelligent Agent Technology - Volume 01,
WI-IAT ’09, pages 279–282, 2009.
[15] J. Turmo, A. Ageno, and N. Català. Adaptive
information extraction. ACM Comput. Surv., 38, July
2006.
[16] P. D. Turney and M. L. Littman. Measuring praise
and criticism: Inference of semantic orientation from
association. ACM Trans. Inf. Syst., 21:315–346,
October 2003.
[17] X. Wang, C. Zhai, X. Hu, and R. Sproat. Mining
correlated bursty topic patterns from coordinated text
streams. In Proc. of the 13th ACM SIGKDD
international conference on Knowledge discovery and
data mining, KDD ’07, pages 784–793, 2007.
[18] J. Zeng, C. Wu, and W. Wang. Multi-grain
hierarchical topic extraction algorithm for text
mining. Expert Syst. Appl., 37:3202–3208, April 2010.

12
Representing Perceptual Product Features in Databases

Joachim Selke
Institut für Informationssysteme
Technische Universität Braunschweig
Braunschweig, Germany

ABSTRACT summarize our own recent work towards solving this problem. In
Many modern goods have both factual and perceptual features. particular, we present a series of use cases illustrating the benefits
While factual features such as technical specifications can easily be of our approach.
handled by existing database technology, perceptual features such In this following, we use movies as a running example. Movies
as design or usage experience are very hard to deal with. However, are particularly suited for this task as they appeal to a wide range
with the huge success and growing market share of online shopping, of people and provide a large variety of both factual and perceptual
retailers face the need to provided detailed and structured informa- features. In addition, movies perfectly illustrate the problem of
tion about perceptual product features to their customers. In this lacking support for perceptual features in databases: It has been
paper, we analyze why dealing with perceptual product features in shown that, when selecting movies, consumers rely far more on
databases is difficult and summarize our current efforts on tackling perceptual movie features (funny, romantic, scary, . . . ) than factual
this problem. ones (actors, directors, release year, . . . ) [3]. However, the ideas
and results presented in this paper can easily be transferred to other
types of products.
1. INTRODUCTION
Marketing theory distinguishes between two types of product fea-
tures: Factual and perceptual ones [4, 8]. Factual features are those
2. EXISTING APPROACHES
that can easily be named and specified. Typical factual features In this section, we take a close look at existing approaches to
are technical specifications (e.g., length, height, and weight) and handling perceptual product features in information systems. We
traditional publication metadata (e.g., authors, number of pages and identified three different groups of approaches: those based on ex-
year of publication). Perceptual features are those that usually are plicit data provided by experts, those based on textual data provided
hard to describe and tend to involve an emotional reaction or phys- by users, and special-purpose approaches that implicitly deal with
ical contact to the respective product. Typical perceptual features perceptual product features. In addition, in domains where prod-
are artistic or stylistic properties such as the mood of songs, the ucts can be represented in digital form (e.g., music or movies),
sophistication of novels, and the character depth in movies. (low-level) features can be extracted automatically.
While factual product features can easily be represented and
managed by existing database technology (e.g., by introducing a 2.1 Explicit Modeling by Experts
database attribute per feature), working with perceptual product Besides the traditional classification of movies into a small num-
features is much more complicated. This is mainly because percep- ber of major genres [2, 9], many movie databases recently adopted
tual features tend to be vague and defy precise definitions (e.g. the more refined classification schemes. While some just introduced a
borders of literary genres). However, paradoxically, there are estab- larger number of possible genres (e.g., the rental service Netflix1
lished ways to express perceptual features using natural language expanded its simple genre list into a taxonomy covering 485 gen-
(e.g., sporty car or clunky cell phone), which surprisingly mostly are res), others decided to describe movies using generally applicable
not a matter of taste but are based on general agreement. Therefore, description attributes. Popular examples are the metadata provider
we strongly believe that established database technology is indeed AllMovie2 , which classifies its 440,000 movies with respect to more
able and suited to store, process, analyze, and answer queries based than 5,000 different moods, themes, tones, and types (e.g., Ensemble
on perceptual product features. We just have to find out how this Film, Haunted By the Past, and Intimate), and the recommendation
can be done in practice. service Clerkdogs3 , which rates each movie with respect to 37 dif-
In this paper, we survey existing approaches to handling percep- ferent attributes (e.g., Character Depth, Geek Factor, and Violence)
tual product features in databases, point out their limitations, and on a 12-point scale. Essentially, all these approaches try to cap-
ture a movie’s perceptual features by means of a set of predefined
databases attributes, which can either contain binary values (as in
AllMovie) or numbers (as in Clerkdogs).
Although this approach looks rather straightforward and seems
to be easy to implement in practice, it comes with many problems.
First of all, clearly identifying and narrowing down the most relevant
23rd GI Workshop on Foundations of Databases 1 http://www.netflix.com
(Grundlagen von Datenbanken), 2 http://www.allmovie.com
31.5.2011–3.6.2011, Obergurgl, Austria. 3 http://www.clerkdogs.com
Copyright is held by the author/owner(s).

13
individual perceptual features tends to be difficult. However, even if liked by most of these other users. In a way, movie features and user
a comprehensive and generally understandable classification system tastes are modeled implicitly when using collaborative filtering.
has been developed and experts have been trained how to use it Recently, a series of recommendation algorithms has been de-
correctly and consistently, manually classifying all movies is a huge veloped that try to decompose the rating matrix (movies are rows,
amount of work. users are columns, and ratings are entries) into the product of two
An even worse problem is the actual consistency of these movie smaller matrices [6]. These so-called factor models have an im-
classifications. We recently compared the genre judgments made by portant by-product, which usually is neglected by recommendation
three major movie databases and found that the agreement among algorithms: the representation of each movie as points in some
them is moderate at best, being just slightly less directed towards abstract coordinate space. Here, movies with similar coordinates
to completely random genre assignments than to perfect agreement tend to be rated similarly by different users, whereas users with very
[11, 12]. As we restricted our analysis only to the most popular different coordinates tend to be perceived very differently. From
movie genres, even worse results can be expected for less established this perspective, one can think of these coordinates as a embedding
and/or more complex classification schemes. of movies into some abstract semantic space.
Our own analysis of the semantic spaces produced by recent
2.2 Textual Descriptions by Users recommender algorithms showed that these spaces indeed capture
An alternative approach to making perceptual movie features major perceptual features of movies [10, 11, 12]. However, the main
available to movie databases has been adopted by movie portals problem of semantic spaces hindering their use for general purpose
such as the Internet Movie Database4 (IMDb) or Rotten Tomatoes5 database applications is the total lack of intuitive understandability.
(RT). Instead of trying to represent movies in a structured fashion To illustrate this problem, Table 1 show the first three dimensions of
by means of explicit database attributes, they focus on textual de- a 100-dimensional semantic space extracted from the Netflix Prize
scriptions, usually in the form of reviews provided by arbitrary users ratings data set7 (about 20k movies, 500k users, and 100M ratings).
(IMDb) or (semi-)professional critics (RT). For each dimension, we listed the those popular movies that received
Although textual descriptions give users a comprehensive and the five highest and five lowest scores with respect to this dimension.
helpful characterization of each individual movie, it is difficult Clearly, these axes do not offer any intuitive interpretation. However,
to search for movies or provide targeted movie recommendations the relative positions in semantic spaces are indeed meaningful. To
given only textual data. One the the rare services offering movie give an example, Table 2 shows the five nearest neighbors of three
search based on movie reviews is Nanocrowd6 , which applies in- popular movies.
formation retrieval methods to extract so-called nanogenres from
textual data. Each movie is characterized by a set of nanogenres, 2.4 Content-Based Feature Extraction
where each nanogenre is represented by a three-word group (e.g., In some domains, one can provide a (near-)complete description
sports/ballpark/loves or chemistry/adorable/formulaic). However, of each product in digital form. Prime examples are images, music,
these nanogenres tend to be much less informative and understand- and movies. In these cases, it is possible to automatically derive
able than explicit database attributes that have been manually created so-called low-level features from the products itself, thus avoiding
by experts. any dependence on external product descriptions. For example,
Another drawback of text-based movie descriptions is the lack common low-level features of images are color histograms, sym-
of data. While blockbusters are commented by a large number metry properties, and measures for contrast. Low-level features are
people, less popular movies often receive just a very small number contrasted by high-level features (concepts), which describe those
of reviews, which tend to provide only a partial movie description aspects of content objects a user is interested in.8 For example,
and are too short to effectively apply methods of text analysis. high-level features of images are the types of objects (sun, beach,
mother, child, . . . ), events (playing, talking, . . . ), or abstract con-
2.3 Implicit Modeling for Special Purposes cepts (family, fun, . . . ) associated with a photo. The multimedia
The third major approach is collaborative filtering as used in the content description standard MPEG-7 defines a large number of low-
area of recommender systems [1]. Here, the only data available level features and also provides a language to annotate multimedia
about movies are numerical ratings provided by users (e.g., on a content with custom-defined high-level features.
scale ranging from one to five stars), where each user assigns just a In state-of-the-art content-based multimedia retrieval systems,
single number to each movie he rated. As rating movies is an almost low-level features are usually extracted automatically from the avail-
effortless task, usually there is a large number of ratings from many able content, whereas the use of high-level features tends to require
different users available. For example, in IMDb, there are about a significant amount of human interaction. Although there are initial
a hundred times more ratings than reviews, while even relatively approaches to automatically derive selected high-level features from
unknown movies still receive a substantial number of ratings. low-level features, there is still a large discrepancy between the lim-
So far, this kind of data has only been used for special problems ited information that one can extract from the available multimedia
such as similarity search (finding those movies that are most similar data and the interpretation that the same data has for users [7]. This
to a given one) or recommendations (providing a list of movies problem is usually referred to as semantic gap.
that are likely to appeal to a given user). Here, the basic idea is to When comparing content-based feature extraction to the three ap-
analyze the ratings for systematic patterns indicating similar taste proaches discussed previously, we see that low-level features loosely
across a group of users or similar properties in a group of movies. correspond to semantic spaces and high-level features to explicitly
For example, to provide recommendations to some user u, one might modeled attributes. However, there are important differences:
first look for other users who rated most of the movies rated by u in
• As low-level features must be extracted by means of spe-
a similar way, and then recommend those movies to u that have been
7 http://www.netflixprize.com
4 http://www.imdb.com 8 Sometimes, the distinction into low-level and high-level features
5 http://www.rottentomatoes.com
is refined to a 10-layer pyramid structure for classifying different
6 http://www.nanocrowd.com feature types of multimedia content [5].

14
Axis Popular high-scoring movies Popular low-scoring movies
1 Indiana Jones and the Temple of Doom (1984), The Eternal Sunshine of the Spotless Mind (2004), Garden
Godfather (1972), American Pie (1999), Top Gun State (2004), Two Weeks Notice (2002), Bend It Like
(1986), The Silence of the Lambs (1991) Beckham (2002), Miss Congeniality (2000)
2 Twister (1996), Titanic (1997), Lost in Translation Ocean’s Twelve (2004), Mission: Impossible
(2003), Napoleon Dynamite (2004), Ghost (1990) (1996), Paycheck (2003), Anger Management (2003),
Ocean’s Eleven (2001)
3 The League of Extraordinary Gentlemen (2003), American Pie (1999), Big Daddy (1999), Mr. Deeds
Chicago (2002), Van Helsing (2004), Steel Magnolias (2002), The General’s Daughter (1999), Lethal
(1989), Ocean’s Twelve (2004) Weapon 4 (1998)

Table 1: Popular movies receiving high and low scores on the first three coordinate axes.

Rocky (1976) Dirty Dancing (1987) The Birds (1963)
Rocky II (1979) Pretty Woman (1990) Psycho (1960)
Rocky III (1982) Footloose (1984) Vertigo (1958)
Hoosiers (1986) Grease (1978) Rear Window (1954)
The Natural (1984) Ghost (1990) North By Northwest (1959)
The Karate Kid (1984) Flashdance (1983) Dial M for Murder (1954)

Table 2: Three popular movies and their respective five nearest neighbors in semantic space.

cialized extraction algorithms, they are tied to a particular • Semantic spaces created from a large number of user-provided
representation of the original content. Consequently, low- ratings capture major perceptual features of movies. However,
level features extracted from images cannot be compared to semantic spaces as such do not offer any intuitive interpreta-
low-level features extracted from songs. In contrast, semantic tion and thus cannot be used to communicate with users.
spaces are derived from user feedback which can be provided
for any product type in the same way, thus enabling the direct 3. PROPOSED SOLUTION
comparison of images and music. In addition, the design of
At first view, the result of our above analysis is rather disillu-
effective low-level extraction algorithms is a complex task,
sioning. Intuitively understandable models of perceptual movie
which must be hand-crafted for each product domain under
properties are expensive to create and lack data quality, semantically
consideration.
meaningful models cannot be understood, and the third option seems
• Semantic spaces are derived directly from human feedback to combine both disadvantages.
(e.g., star ratings), which is turn is based on the most rele- However, there is still hope. In [11] we introduced a data model
vant perceptual product properties. Low-level features only that tries to combine the strengths of the approaches mentioned
capture statistical properties of the data representation such above. To be more precise, we propose to represent each movie by
as color histograms. Therefore, the semantic gap between three different types of database attributes:
semantic spaces and user perception can be expected to be
A. attributes describing factual movie properties,
lower than the semantic gap present in current content-based
multimedia retrieval systems. B. attributes making a selected number of perceptual properties
For these reasons, we decided to put aside content-based fea- explicit (manual classification), and
ture extraction for the moment and focus on the three remaining C. attributes containing the movie’s coordinates in some seman-
approaches discussed above. However, in future work we plan to tic space.
compare the ideas presented in this paper to existing methods from
content-based multimedia retrieval where this is possible. This approach brings several advantages. Probably most impor-
tant is that the three different types of attributes can work together to
2.5 Conclusion reduce the weaknesses of each of them. In the following, we show a
We can draw the following conclusions from the findings pre- series of examples illustrating this idea (for technical details, please
sented in this section: see [11]).
• Modeling perceptual movie features by explicit attributes
requires a huge amount of manual work but still leads to data Enhancing the data quality in type-B attributes.
of questionable quality. However, users can easily understand By aligning the manual classification of movies as expressed in
the meaning of these attributes. type-B attributes to the semantic space, we are able to detect are
large number of possibly misclassified movies. The basic idea is
• Capturing perceptual movie features by means of textual de- that movies that are classified into the same category should also
scriptions is helpful for users when looking for information be located close together in the semantic space. If we find a movie
about each individual movie. However, this kind of data is m that has the same value with respect to some type-B attribute but
difficult to process automatically, cannot be understood as is very different from other movies having this value with respect
easily as explicit attributes, and the amount of available data to the semantic space, then m is likely to be misclassified by the
is scarce for less popular movies. experts. By identifying such movies and giving human experts

15
Sport
Drama Romance space (by identifying a small continuous region in space), and then
looking for other movies that are located close to the center to this
region. By applying a simple weighting scheme, we are able to
Action Adventure Sci-Fi Mystery produce a, say, top-10 list of the most Tarantino-ish movies. To
give an example, Table 3 shows our results for Tarantino and two
Figure 1: Genre clouds for Rocky (1976) and Star Trek (1979). popular actors. Here, we used a support vector machine to learn
where movies directed by Tarantino tend to be located in semantic
space and used this information to find very similar movies that have
a chance carefully re-check problematic movies, the data quality not been directed by Tarantino [11]. Apart from minor exceptions
can be increased. In our experiments on genre classifications [11], (in particular, The Professional and Dragon: The Bruce Lee Story),
we have been able to detect possibly misclassified movies with these results look very promising. In summary, we have been able to
a mean precision of about 55% and a mean recall of about 25%, understand users’ implicit concepts by of mapping type-A attributes
which is significantly better than drawing random samples (the only to the semantic space.
alternative approach available). In summary, with the help of type-C
attributes we are able to reduce a significant weakness of type-B 4. CONCLUSION AND OUTLOOK
attributes (data quality). In this paper, we have discussed the problem of representing
perceptual product features in databases. We concluded that each
Saving manual work in creating type-B attributes. existing approach alone does not provide an acceptable solution to
To significantly reduce the amount of work required to manually this problem as it comes with severe disadvantages. However, by
classify all movies with respect to the type-B attributes, automatic combining several methods into a joint data model, we have been
classification can be applied. Here, given a binary type-B attribute able to reduce the weaknesses of each individual approach and boost
(e.g., the genre Action), a human experts provides a small number its strengths. Our examples show promising results, which we are
(e.g., 10) of clearly positive examples (i.e., typical Action movies) going to analyze in detail in future work. In addition, as already
and the same number of clearly negative examples (i.e., obvious indicated in Section 2.4, we plan to compare our work to approaches
non-Action movies). Using a support vector machine classifier that from content-based multimedia retrieval. For example, for genre
categorizes all remaining movies based on the training data and the classification tasks, it would be interesting to compare semantic
type-C semantic space representation of movies, we have been able spaces derived from ratings to low-level features extracted from the
to produce results being only of slightly lower quality than those actual movies.
created by human experts [11]. By means of the method described
previously, the data quality can easily be increased incrementally. 5. REFERENCES
In summary, with the help of type-C attributes we are able to reduce [1] G. Adomavicius and A. Tuzhilin. Toward the next generation
another significant weakness of type-B attributes (amount of work).
of recommender systems: A survey of the state-of-the-art and
possible extensions. IEEE Transactions on Knowledge and
Enriching type-B attributes. Data Engineering, 17(6):734–749, 2005.
Again, by comparing type-B attributes to the semantic space rep- [2] D. Chandler. An introduction to genre theory, 1997. Available
resented by type-C attributes we are able to determine to what degree from
a type-B attribute value applies to each movie. For example, IMDb http://www.aber.ac.uk/media/Documents/intgenre.
only assigns binary genre judgments to its movies, which leads
[3] E. Cooper-Martin. Consumers and movies: Some findings on
to the classification Drama/Romance/Sport for the movie Rocky
experiential products. In Advances in Consumer Research,
(1976) and Action/Adventure/Mystery/Sci-Fi for the movie Star
volume 18, pages 372–378. 1991.
Trek (1976). Although this classification is justified, there are sev-
eral problems: Rocky contains romantic elements but it is a highly [4] E. C. Hirschman and M. B. Holbrook. Hedonic consumption:
Emerging concepts, methods and propositions. Journal of
untypical Romance movie. It is most well-known for being a typical
sports movie with dramatic activities. Similarly, Sci-Fi is widely Marketing, 46(3):92–101, 1982.
recognized as Star Trek’s most prominent genre, while it is a rather [5] C. Jörgensen, A. Jaimes, A. B. Benitez, and S.-F. Chang. A
untypical Mystery movie. By analyzing the semantic space for conceptual framework and empirical research for classifying
where typical movies of genre X are located, we are able to judge visual descriptors. Journal of the American Society for
how typical an assigned genre for each movie really is. To illustrate Information Science and Technology, 52(11):938–947, 2001.
this, Figure 1 depicts a “genre clouds” for the above two movies. We [6] Y. Koren and R. Bell. Advances in collaborative filtering. In
automatically generated it from IMDb’s binary genre assignments F. Ricci, L. Rokach, B. Shapira, and P. B. Kantor, editors,
(type B) in combination with a semantic space extracted from ratings Recommender Systems Handbook, pages 145–186. Springer,
(type C) [11]. 2011.
[7] Y. Liu, D. Zhang, G. Lu, and W.-Y. Ma. A survey of
Enabling conceptual queries. content-based image retrieval with high-level semantics.
When describing their movie preferences, users often refer to Pattern Recognition, 40(1):262–282, 2007.
factual movie properties as means attributes that approximately [8] P. Nelson. Information and consumer behavior. Journal of
characterize an intuitive concepts that they are unable to express Political Economy, 78(2):311–329, 1970.
otherwise. For example, movies in the style typically associated [9] C. Preston. Film genres. In W. Donsbach, editor, The
with the director Quentin Tarantino could be called Tarantino-ish International Encyclopedia of Communication. Blackwell,
movies. In fact, Google counts 4530 Web pages mentioning this 2008.
term. We refer to database queries in this style as conceptual queries. [10] J. Selke and W.-T. Balke. Extracting features from ratings:
We are able to answer such queries by first finding out where movies The role of factor models. In Proceedings of M-PREF 2010,
directed by Quentin Tarantino are typically located in the semantic pages 61–66, 2010.

16
Stallone-ish Tarantino-ish Jim Carrey-ish
Universal Soldier (1992) True Romance (1993) EDtv (1999)
Commando (1985) GoodFellas (1990) Innerspace (1987)
Missing in Action (1984) The Usual Suspects (1995) Bedazzled (2000)
Red Heat (1988) Casino (1995) Cadillac Man (1989))
Raw Deal (1986) Desperado (1995) Pleasantville (1998)
Bloodsport (1988) The Professional (1994) Dragon: The Bruce Lee Story (1993)
The Last Boy Scout (1991) Killing Zoe (1994) Honey, I Shrunk the Kids (1989)
The Running Man (1987) Full Metal Jacket (1987) Alive (1993)
Kickboxer (1989) 2 Days in the Valley (1996) Shallow Hal (2001)
The Delta Force (1986) Go (1999) Punchline (1988)

Table 3: Top 10 results for three different conceptual queries.

[11] J. Selke and W.-T. Balke. T EAMWORK: A data model for
experience products. ifis technical report, Institut für
Informationssysteme at Technische Universität Braunschweig,
2011.
[12] J. Selke, S. Homoceanu, and W.-T. Balke. Conceptual views
for entity-centric search: Turning data into meaningful
concepts. In Proceedings of BTW 2011, pages 327–346, 2011.

Acknowledgments
I am very grateful to Prof. Dr. Wolf-Tilo Balke for providing valu-
able guidance and supervising my doctoral thesis, which will be
based partly on the work presented in this paper.

17
18
Echtzeitüberwachung und Langzeitanalyse
mittels eingebetteter Systeme

Tino Noack
TU Cottbus
Institut für Informatik, Informations- und Medientechnik
Lehrstuhl Datenbank- und Informationssysteme
Tino.Noack@tu-cottbus.de

Kurzfassung Überwachung technischer Systeme ist ein sehr weit verbrei-
Der vorliegende Beitrag skizziert ein interdisziplinäres For- tetes Forschungsfeld und bezieht sich auf viele heterogene
schungsvorhaben im Rahmen einer Doktorarbeit. Einer der Anwendungsdomänen. Häufig werden Überwachungssyste-
Forschungsbeiträge ist die Kombination von Echtzeitüber- me für spezielle Anwendungen entworfen, entwickelt und
wachung und Langzeitanalyse. Diese Kombination basiert implementiert. Dies führt zu erhöhten Entwicklungskosten
auf existierenden Ansätzen und umfasst Event-Condition- und gleichzeitig zur Abnahme der Flexibilität bzw. der Wie-
Action-Regeln (ECA-Regeln), Data-Mining-Technologien so- derverwendbarkeit. Bedeutende Anwendungen sind z.B. die
wie Complex Event Processing (CEP). Im vorliegenden Bei- Überwachung von Raumfahrzeugen [21], [22] oder die Über-
trag werden zunächst drei grundlegende Annahmen und fünf wachung von Schienenfahrzeugen [16]. Die Überwachung von
Überwachungsanforderungen erarbeitet. Darauf aufbauend Raumfahrzeugen ist besonders herausfordernd, da komplette
wird die Forschungsfrage detailliert betrachtet. Die Grundla- Systemtests in der vorgesehenen Systemumwelt (dem Welt-
ge für die vorgestellte Idee bildet ein mathematisches Modell raum) und kontinuierliche Wartung unpraktisch bzw. un-
(der Zustandsraum), welches das Wissen über das zu über- möglich sind.
wachende System repräsentiert. Mit Hilfe dieses Zustands- Aufgrund der steigenden Komplexität heutiger Produk-
raums werden durch die Anwendung von Data-Mining-Tech- te werden verbesserte Überwachungsansätze benötigt, die
nologien ECA-Regeln erzeugt und an eine CEP-Anwendung, heutige und zukünftige Anforderungen berücksichtigen. Im
die sich auf einem eingebetteten System befindet, übertra- vorliegenden Beitrag steht die Überwachung des zu überwa-
gen. Dieser Teilschritt bezieht sich auf die Langzeitanalyse. chenden Systems, welches im Weiteren als Produkt bezeich-
Die CEP-Anwendung wertet anschließend die übertragenen net wird, im Vordergrund. Das Produkt besteht aus einer
ECA-Regeln auf einem kontinuierlichen Strom von Sensor- Menge von Systemkomponenten. Nur aufgrund des Zusam-
daten aus und erzeugt Aktionen. Dieser Teilschritt bezieht menspiels der einzelnen Systemkomponenten untereinander
sich auf die Echtzeitüberwachung. Weiterhin wird eine Pro- genügt das Produkt einer vorher definierten Funktion bzw.
zesskette vorgestellt, die zyklisch durchlaufen wird und zur Aufgabe. Zusätzlich wirken externe Einflüsse aus der umge-
Kombination von Echtzeitüberwachung und Langzeitanaly- benden Produktumwelt auf das Produkt (vgl. [15], [17]). So-
se dient. Hier wird ein dynamischer und flexibler Überwa- mit bezieht sich die Überwachung des Produkts je nach An-
chungsansatz vorgestellt. wendungsdomäne und je nach Überwachungsziel zusätzlich
auf externe Einflüsse und auf die korrekte Arbeitsweise der
beteiligten Systemkomponenten. Eine strikte Trennung der
Schlüsselwörter Überwachung externer Einflüsse, des Produkts selbst und
Überwachung, Echtzeit, Langzeit, Eingebettete Systeme, der einzelnen Systemkomponenten, aus denen das Produkt
Datenströme, Data Mining, Complex Event Processing besteht, kann nicht immer vollzogen werden.
Der vorliegende Beitrag skizziert ein interdisziplinäres For-
schungsvorhaben im Rahmen einer Doktorarbeit. Einer der
1. EINLEITUNG Forschungsbeiträge ist die Kombination von existierenden,
Viele Produkte, in denen sich eingebettete Systeme ver- gut bekannten und bereits praktisch angewendeten Ansät-
bergen, sind sicherheitskritisch und unterliegen Echtzeitan- zen, die für die Kombination von Echtzeitüberwachung und
forderungen wie z.B. Kraft-, Schienen-, Luft- oder Raum- Langzeitanalyse eingesetzt werden können. Anhand des Ein-
fahrzeuge. Eingebettete Systeme werden oft für Regelungs-, satzes von existierenden Ansätzen sind Einsparungen im Be-
Kontroll- und Überwachungsfunktionalitäten eingesetzt. Die reich der Entwicklungskosten möglich. Das Forschungsvor-
haben umfasst die Erstellung von Event-Condition-Action-
Regeln (ECA-Regeln) [10], Data-Mining-Technologien [27]
sowie Complex Event Processing (CEP) [12]. Hier wird ein
dynamischer und flexibler Überwachungsansatz vorgestellt,
der auf den drei folgenden Annahmen basiert:

1. Anwendungsübergreifend werden ähnliche Methodiken
23rd GI-Workshop on Foundations of Databases (Grundlagen von Daten-
banken), 31.05.2011 - 03.06.2011, Obergurgl, Austria. und Algorithmen für die Überwachung technischer Sys-
Copyright is held by the author/owner(s). teme eingesetzt.

19
2. Das Auftreten von Fehlern im laufenden Betrieb lässt
sich nicht ausschließen. Daher muss durch die Ände-
rung des Systemverhaltens so schnell wie notwendig
eine angemessene Aktion ausgelöst werden.

3. Teile des gesamten Überwachungsprozesses sind semi-
manuell. Informationssysteme werden nur zur Unter-
stützung des Überwachungsprozesses angewendet.

Der Rest des vorliegenden Beitrags ist wie folgt organi-
siert. Kapitel 2 beschreibt ein Anwendungsbeispiel. In Kapi-
tel 3 wird der Begriff eines eingebetteten Systems definiert,
so wie es für die Forschungsarbeit verwendet wird. Kapi-
tel 4 fasst Anforderungen an die Überwachung zusammen Abb. 1: Eingebettetes System
und aufbauend darauf wird in Kapitel 5 die Forschungsfrage
detailliert betrachtet. Kapitel 6 beschreibt das Systemmo- Sensoren und Aktoren mit dem Produkt und der Produk-
dell, welches dem vorgeschlagenen Überwachungsansatz zu tumgebung in Interaktion. Die elektronischen Baugruppen
Grunde liegt. In Kapitel 7 wird der vorgeschlagene Überwa- können mittels eines internen Netzwerkes miteinander ver-
chungsansatz detailliert beschrieben. Kapitel 8 fasst existie- bunden sein. Zusätzlich kann eine temporäre Verbindung zu
rende Lösungen zusammen und schließlich wird in Kapitel 9 einem externen Informationssystem vorhanden sein. Weitere
eine Zusammenfassung gegeben. Informationen zu eingebetteten Systemen finden sich u.a. in
[28], [20] und [23].

2. ANWENDUNGSBEISPIEL: ZUGUN- 4. ÜBERWACHUNGSANFORDERUNGEN
GLÜCK VOM ICE 884 IN ESCHEDE Entsprechend des vorgestellten Anwendungsbeispiels und
Das Zugunglück vom ICE 884 in Eschede ist ein sehr pra- in Anbetracht der abstrakten Architektur eines eingebette-
xisnahes Anwendungsbeispiel. Die Hauptursache des kata- ten Systems werden hier folgende fünf Überwachungsanfor-
strophalen Zugunglücks war der Bruch eines gummigefeder- derungen erarbeitet: Zeit, Lokalität, Wissen, Systemressour-
ten Radreifens. Dieser Bruch war die Folge von langfris- cen und Schärfe. Abbildung 2 fasst die genannten Anforde-
tigen Verschleißerscheinungen (z.B. Verringerung der Rad- rungen zusammen.
reifendicke und Korrosion). Bereits einige Monate vor dem Zeit: Diese Anforderung bezieht sich auf die zeitliche und
Unglück wurden während der Wartung anomale Messwer- kontinuierliche Veränderung der Bauteile.
te an dem besagten Radreifen festgestellt. Die detaillier-
te Bruchflächenanalyse stellte heraus, dass die langfristigen • kurzfristig: Es können plötzliche Änderungen der Bau-
Verschleißerscheinungen zu einem Riss in dem Radreifen, teile (z.B. Bruch des Radreifens) auftreten. Es ist not-
lange vor dem Unglück, führten. Der Bruch des Radreifens wendig, diese in Echtzeit zu erkennen.
führte zur Entgleisung des Zuges ([24], [13]). Der beschriebe-
• langfristig: Zur Erkennung langfristiger Einflussfakto-
ne Anwendungsfall deutet auf langfristige und auf kurzfristi-
ren und Veränderungen (z.B. Verschleiß und Alterung)
ge Einflussfaktoren hin. Verschleißerscheinungen sind lang-
sind Langzeitanalysen notwendig.
fristige Einflussfaktoren und der Bruch des Radreifes bzw.
die Zugentgleisung sind kurzfristige Einflussfaktoren. Lokalität: Diese Anforderung bezieht sich auf Wechselwir-
Durch die Langzeitanalyse können langfristige Verschleiß- kungen der Einflussfaktoren und die räumliche Lokalität der
erscheinungen erkannt, analysiert und bewertet werden. Der Überwachung.
Bruch des Radreifens und die nachfolgende Entgleisung des
• lokal : Fehler, die sich z.B. auf wenige Bauteile bezie-
Drehgestells haben zu einer plötzlichen und signifikanten
hen, müssen durch eine lokale Überwachung erkannt
Veränderung des Systemverhaltens geführt (bspw. Schlinger-
werden.
bewegung des entgleisten Drehgestells). Anhand der Anwen-
dung der Echtzeitüberwachung mittels eines eingebetteten • global : Aufgrund der steigenden Komplexität von Pro-
Systems kann diese plötzliche Veränderung des Systemver- dukten und eingebetteter Systeme korrelieren die Ein-
haltens erkannt und in einem angemessenen Zeitraum eine flussfaktoren zunehmend. Somit entstehen komplexe
Aktion (z.B. Notbremsung) durchgeführt werden. Zusammenhänge zwischen den Bauteilen, die durch ei-
ne globale Analyse erfasst und erkannt werden müssen.
3. EINGEBETTETES SYSTEM Wissen: Diese Anforderung bezieht sich auf das vorhandene
Abbildung 1 skizziert die abstrakte Architektur eines ein- Wissen über das eingebettete System, das Produkt und die
gebetteten Systems, wie sie hier Einsatz findet. Eingebettete Produktumwelt.
Systeme sind in ein umgebendes Produkt eingebettet. Das • bekannt: Es ist notwendig das bekannte Wissen über
Produkt ist in eine Produktumgebung eingebettet. Einge- das eingebettete System, das Produkt und die Produk-
bettete Systeme enthalten elektronische Baugruppen (Hard- tumwelt möglichst umfassend und zielorientiert für die
ware), die die Systemkomponenten repräsentieren. Zusätz- Überwachung einzusetzen.
lich sind diese elektronischen Baugruppen mit Software aus-
gestattet. Eingebettete Systeme unterliegen eingeschränkten • unbekannt: Aufgrund unbekannter bzw. unvorherseh-
Systemressourcen wie z.B. Prozessorleistung, Strom- und barer Umstände ist ein dynamischer und flexibler Über-
Speicherverbrauch. Das eingebettete System steht mittels wachungsprozess notwendig.

20
gesamte zu überwachende Produkt. Dabei ist die Anzahl der
Attribute je nach Anwendungsdomäne und Überwachungs-
ziel unterschiedlich. Diese Daten können zur Identifikation
von relevanten Wechselwirkungen Verwendung finden. Data-
Mining-Technologien werden eingesetzt, um das Wissen über
das Produkt mit der Zeit zu erhöhen.
In Bezug zum genannten Anwendungsbeispiel werden die
Daten mittels eines externen Informationssystems gesam-
melt. Diese persistent gespeicherten Daten werden einge-
setzt, um einen Klassifikator zu erlernen, der zwischen be-
kanntem und unbekanntem Verhalten des Zuges unterschei-
den kann. Dies wird in [8] als Anomalieerkennung bezeich-
Abb. 2: Überwachungsanforderungen net. Weiterhin können diese gespeicherten Daten zur Er-
kennung gradueller Änderungen der Systemkomponenten in
Bezug zur Zeit genutzt werden. Somit können langfristige
Systemressourcen: Diese Anforderung bezieht sich auf die Einflussfaktoren wie z.B. Verschleiß erkannt werden.
vorhandenen Ressourcen, die für die Überwachung zur Ver- Echtzeitüberwachung wird auf dem eingebetteten Sys-
fügung stehen. tem durchgeführt. Dieses unterliegt eingeschränkten System-
• uneingeschränkt: Die Überwachung von Systemen be- ressourcen. Die Echtzeitüberwachung wird automatisch, on-
nötigt äußerst viele Systemressourcen. Somit ist eine line und ohne Benutzerinteraktion durchgeführt. Plötzliche
Kombination von interner und externer Überwachung Änderungen des Systemverhaltens müssen so schnell wie not-
(hybrides Überwachungssystem [26]) notwendig, um wendig erkannt werden. Anschließend ist eine angemessene
ausreichend Ressourcen für die Überwachung zur Ver- Aktion notwendig. Die gelernten Klassifikatoren bzw. ECA-
fügung zu stellen. Regeln werden hier zum eingebetteten System übertragen
und anschließend zur Erkennung von Änderungen des Sys-
• eingeschränkt: Aufgrund der eingeschränkten System- temverhaltens bzw. zur Anomalieerkennung eingesetzt. CEP
ressourcen eingebetteter Systeme ist es notwendig, die- ist hier ein ausgewähltes Werkzeug, um die ECA-Regeln
se angemessen und zielführend für die Überwachung auf den kontinuierlichen Datenströmen anzuwenden. ECA-
einzusetzen. Regeln repräsentieren das Wissen über das Produkt. Ver-
halten, welches nicht zu diesen Regeln passt, kann als un-
Schärfe: Diese Anforderung bezieht sich auf die Auswertung
bekannt bzw. anomal gekennzeichnet werden. Dies ist ein
von Bedingungen (vgl. [25], [4]).
lokaler Aspekt, da nur eine Teilmenge der vorhandenen At-
• scharf : Systemzustände müssen exakt und zuverlässig tribute für die Definition eines speziellen Verhaltens mittels
durch eine exakte binäre Auswertung von Bedingungen ECA-Regeln Verwendung findet. Wie auch bei der Langzeit-
(Boolesches Modell) erkannt werden. analyse ist die Anzahl der Attribute je nach Anwendungsdo-
mäne und Überwachungsziel unterschiedlich, aber geringer
• unscharf : Diese scharfe Grenze zwischen Systemzu- als für die Anwendung der Langzeitanalyse.
ständen ist nicht immer gegeben. Um dies zu berück- In Bezug zum genannten Anwendungsbeispiel stellen das
sichtigen, wird die exakte binäre Auswertung mittels Brechen des Radreifens und die anschließende Entgleisung
Zugehörigkeitsgrade zwischen 0 und 1 verallgemeinert. signifikante und plötzliche Änderungen der Fahreigenschaf-
Der Wert 1 wird als volle Zugehörigkeit und der Wert ten des Zuges dar. Nachfolgend wird in Bezug zum Anwen-
0 als nicht zugehörig interpretiert. dungsbeispiel der ECA-Ansatz kurz erläutert. Ein Ereignis
(Event) ist hier das Verhalten des Zuges zu einer bestimmten
Zeit. Die Bedingung (Condition) bezieht sich auf die gelern-
5. FORSCHUNGSFRAGE ten Klassifikatoren bzw. die Regeln, die ermittelt wurden,
Es gibt eine Lücke zwischen Echtzeitüberwachung und um das Verhalten des Zuges zu einem bestimmten Zeitpunkt
Langzeitanalyse von Ereignissen, die die Zuverlässigkeit von zu klassifizieren. Eine Aktion (Action) kann bspw. die Ver-
Produkten beeinträchtigen. Dies ist die Motivation für un- ringerung der Geschwindigkeit des Zuges oder das Auslösen
sere Forschung an der Kombination von Echtzeitüberwa- der Notbremse sein, um materielle Schäden und menschliche
chung und Langzeitanalyse von Ereignissen. In dem ersten Opfer zu vermeiden.
Schritt werden hier alle Überwachungsanforderungen außer
der Schärfe betrachtet. Abbildung 3 fasst die Forschungsfra-
ge grafisch zusammen. 6. SYSTEMMODELL
Langzeitanalyse benötigt meist sehr viele Systemressour- Ein wesentlicher Punkt ist das Verständnis der Eingangs-
cen. Zusätzlich sind Data-Mining-Technologien semi-manu- daten. Sensoren erzeugen kontinuierliche Daten. Diese kon-
ell und müssen durch Fachpersonal betreut und gepflegt wer- tinuierlichen Sensordaten werden hier als Datenströme in-
den. Aus diesem Grund ist eine Offlineverarbeitung auf ei- terpretiert. Ein Datenstrom besteht aus einer Sequenz von
nem externen Informationssystem mit nahezu uneingesch- Datenelementen. Häufig ist diese Sequenz sehr lang. Ein Sys-
ränkten Systemressourcen notwendig. Data-Mining-Techno- tem, welches Datenströme verarbeitet, hat keine A-Priori-
logien werden hier für das Erlernen von Klassifikatoren ein- Kontrolle über die Reihenfolge der eintreffenden Datenele-
gesetzt, die anschließend durch ECA-Regeln repräsentiert mente. Die erneute Übertragung von verlorenen Datenele-
werden. Die persistent gespeicherten Daten umfassen alle ge- menten ist nicht möglich. Weitere Informationen über Da-
sammelten Attribute und geben eine globale Sicht über das tenströme finden sich u.a. in [1], [7], [3] und [14].

21
Abb. 3: Kombination von Echtzeitüberwachung und
Langzeitanalyse Abb. 4: Zustandsraum [8]

Die Menge von Eigenschaften, die das Zielsystem beschrei-
ben, wird hier als eine Menge von Attributen A1 , ... , An erlernen, der das Wissen über das Produkt repräsentiert.
interpretiert. Diese Attribute können u.a. nominal, ordinal Zunächst wird in diesem Kapitel eine Prozesskette für die
oder metrisch sein. Attributwerte sind Funktionen der Zeit, Überwachung beschrieben. Anschließend wird diese Prozess-
so dass Werte von Ai einer Funktion ai : T → R entsprechen. kette in eine abstrakte Überwachungsarchitektur überführt.
Dabei ist T die Zeit und R die Menge der reellen Zahlen. So- Die Prozesskette ist in Abbildung 5 grafisch verdeutlicht.
mit ist ein Zustand in Bezug zur Zeit ein Zustandsvektor Sie ist in zwei Teile gegliedert. Der obere Teil repräsen-
  tiert die Echtzeitüberwachung auf dem eingebetteten Sys-
a1 (t) tem. Der untere Teil repräsentiert die Langzeitanalyse auf
 a2 (t)  einem externen Informationssystem. Zur besseren Übersicht-
~a(t) =  .  .
 
 ..  lichkeit ist die untere Teilkette in umgekehrter Reihenfolge
dargestellt.
an (t)
Im ersten Schritt startet die Prozesskette mit Ereignissen
Der Raum, der durch die Attribute aufgespannt wird, heißt bzw. Zustandsvektoren. Die Vorverarbeitung ist der zweite
Zustandsraum. Die Anzahl der Attribute definiert die An- Schritt. Dieser kann u.a. zur Filterung, zur Selektion oder
zahl der Dimensionen des Zustandsraums. Eine Menge von für Fensterfunktionen, zur Verringerung des Verarbeitungs-
Zustandsvektoren im Zustandsraum, die ähnliche Arten von aufwands, Verwendung finden. Die Ausführung der Regeln
Zuständen repräsentieren, können geometrisch interpretiert ist der dritte Schritt. In diesem dritten Schritt werden die
werden. Diese geometrische Interpretation wird im Rahmen im Voraus definierten Regeln auf dem Datenstrom angewen-
von Data-Mining-Technologien als Cluster bezeichnet ([27], det. Der vierte Schritt umfasst das Senden von Nachrichten
[8], [5], [2]). zu den Aktoren. Der fünfte Schritt wird für die temporäre
Abbildung 4 veranschaulicht den Zustandsraum in einem Speicherung verwendet. Das schließt Datenaggregation zur
Zeitfenster unter Berücksichtigung der zwei Attribute A1 Minimierung des Speicherbedarfs sowie angemessene Spei-
und A2 . Zur besseren Übersichtlichkeit sind die Zustands- cherstrategien wie z.B. Ringpuffer oder eingebettete Daten-
vektoren als Punkte dargestellt. Sei S die Menge aller mög- banken mit ein. Der letzte Schritt der obersten Teilkette be-
lichen Systemzustände bzw. der gesamte Zustandsraum, Ck zieht sich auf das Senden der Daten vom eingebetteten Sys-
die Menge der bekannten Cluster tem zum stationären System. Aufgrund der temporären Ver-
S und Cu die MengeT aller un-
bekannten Cluster, so dass Ck Cu = S und Ck Cu = ∅. bindung mittels des externen Netzwerkes können die Daten
Somit sind bekannte Cluster komplementär zu unbekann- nur von Zeit zu Zeit an das externe Informationssystem ge-
ten Clustern. In Abbildung 4 repräsentieren die Cluster Ck1 sendet werden. Die genannten Schritte sind automatisch. Es
und Ck2 Mengen von bekannten Systemzuständen. Der Clus- ist notwendig, dass jeder Teilschritt austauschbar und konfi-
ter Cu1 sowie die Punkte pu1 und pu2 stehen exemplarisch gurierbar (z.B. Plug-in-System) ist, um einen dynamischen
für unbekannte Systemzustände. In [8] werden diese unbe- und flexiblen Überwachungsansatz bereitzustellen. Somit ist
kannten Systemzustände als Anomalien bezeichnet. Das Ziel es möglich, das CEP-System auf die vorhandene Hardware
des gelernten Systemmodells ist die Klassifizierung eines Zu- und den beabsichtigten Überwachungszweck zuzuschneiden.
standsvektors zu einem Zeitpunkt t zu einem bekannten Der erste Schritt der Langzeitanalyse betrifft das Laden
Cluster. Kann dieser Zustandsvektor keinem bekannten Clus- der empfangenen Daten vom eingebetteten System in ein
ter zugeordnet werden, so ist dieser Zustandsvektor unbe- persistentes Datenverzeichnis wie z.B. ein Data Warehou-
kannt und wird als eine Anomalie gekennzeichnet. Somit re- se (DWH). Der zweite Schritt umfasst die Erstellung der
präsentieren die ECA-Regeln den Klassifikator, der mittels Regeln mittels Data-Mining-Technologien. Dazu gehört die
der Data-Mining-Technologien erlernt wurde. Integration der empfangenen Daten in den Zustandsraum.
Dabei steigt das Wissen über das Produkt durch die Inte-
7. KOMBINATION VON ECHTZEITÜBER- gration von neuen und noch unbekannten Zustandsvektoren
in den Zustandsraum. Aktuell werden hier folgende Algo-
WACHUNG UND LANGZEITANALYSE rithmen zur Klassifikation bzw. überwachtes Lernen einge-
Wie bereits beschrieben, liegt die Kombination von Echt- schlossen: Regelinduktion, Support Vector Machine und k-
zeitüberwachung und Langzeitanalyse im Fokus des Inter- nächste Nachbarn. In vielen Fällen müssen die genannten
esses. Ziel ist es, ein Modell bzw. einen Zustandsraum zu Algorithmen ebenfalls kombiniert werden, um einen ange-

22
8. EXISTIERENDE LÖSUNGEN
Zur Analyse von Datenströmen werden Datenstrom-Ma-
nagement-Systeme (DSMS), z.B. STREAM [1] oder Auro-
ra [6], eingesetzt. Aurora enthält ein Pfeil-Box-Architektur-
Modell, welches einem Plug-in-System ähnlich ist. Ein Über-
blick über DSMS wird u.a. in [14] gegeben. CEP-Systeme
wie CAYUGA [9] oder ESPER [11] werden für das Anwen-
Abb. 5: Prozesskette den von Regeln auf Datenströme mittels Anfragesprachen
verwendet. Ein Überblick über CEP-Systeme wird in [12]
gegeben. Die genannten DSMS und CEP-Systeme sind nicht
für Überwachung mittels Data-Mining-Technologien konzi-
piert.
NanoMon [29] ist eine sehr spezielle Überwachungssoftwa-
re für Sensornetzwerke. MobiMine [19] ist ein mobiles Data-
Mining-System für den Aktienhandel. Beide Überwachssys-
teme unterstützen die genannten Überwachungsanforderun-
gen nicht. Weiterhin enthalten NanoMon und MobiMine kei-
ne Anfragesprache.
VEDAS [18] ist ein Datenstrom-Mining-System, welches
einigen der hier erarbeiteten Überwachungsforderungen ent-
spricht. Die Erkennung von ungewöhnlichem Fahrerverhal-
ten ist eines der Hauptaugenmerke von VEDAS. Wie auch
Abb. 6: Überwachungsarchitektur
hier kommen bei VEDAS Data-Mining-Technologien zum
Einsatz. Der Unterschied liegt in der Verwendung von un-
messenen Klassifikator bereitzustellen ([8], [27]). Der dritte überwachtem Lernen für Datenstrom-Mining. Weiterhin gibt
Schritt dient zur Evaluierung der neu ermittelten Regeln es keine strikte Trennung zwischen Echtzeitüberwachung und
und zum Testen mit vorhandenen Regeln, um evtl. Seiten- Langzeitanalyse sowie zwischen automatischen und semi-
effekte auszuschließen. Der letzte Schritt der unteren Teil- automatischen Funktionen. Dieses Argument kann durch die
kette betrifft die Übertragung des so ermittelten Wissens interaktive Verbindung vom externen Informationssystem
zum eingebetteten System. Dies schließt die Anpassung und zum eingebetteten System untermauert werden. Weiterhin
die Rekonfiguration des bestehenden Überwachungssystems wird bei VEDAS die Evaluierung vernachlässigt. Zusätzlich
auf Basis des neuen Wissens mit ein. Die genannten Schritte wird die Überwachungsanforderung Lokalität nicht berück-
sind semi-manuell und werden durch Fachpersonal betreut. sichtigt. In VEDAS ist das eingebettete System so konfigu-
Die komplette Prozesskette wird zyklisch durchlaufen. So riert, dass alle Attribute für die Überwachung Verwendung
kann mit der Zeit das Wissen über das zu überwachende finden. Dies kann unter Umständen zu sehr hohem Rechen-
Produkt gesteigert werden. aufwand führen.
Die vorgeschlagene Überwachungsarchitektur ist in Abbil-
dung 6 grafisch verdeutlicht. Sie basiert auf der Prozesskette,
die bereits beschrieben wurde. Sensoren erzeugen kontinuier- 9. ZUSAMMENFASSUNG
lich Datenströme, die über das interne Netzwerk übertragen Es besteht ein Bedarf an neuen Lösungen für die Überwa-
werden. Es ist notwendig, diese Ereignisse bzw. Zustands- chung von Systemen, die heutige und zukünftige Anforde-
vektoren kontinuierlich unter Berücksichtigung von Echt- rungen in Betracht ziehen. Der vorliegende Beitrag skizziert
zeitbedingungen zu verarbeiten. Das CEP-System muss ent- ein interdisziplinäres Forschungsvorhaben im Rahmen einer
sprechend der festgelegten Regeln Aktionen auslösen. Wei- Doktorarbeit. Einer der Forschungsbeiträge ist die Kombi-
terhin wird der Datenstrom aggregiert und temporär gespei- nation von Echtzeitüberwachung und Langzeitanalyse mit-
chert, bevor er zum externen Informationssystem übermit- tels eingebetteter Systeme, ECA-Regeln, Data-Mining-Tech-
telt wird. Das externe Informationssystem wird für die Lang- nologien und CEP. Drei Annahmen bilden die Basis für
zeitanalyse und zur Ermittlung neuer bzw. zur Verfeinerung den beschriebenen Überwachungsansatz. Weiterhin wurden
bestehender Regeln eingesetzt. Anschließend ist die Evalu- hier fünf Überwachungsanforderungen erarbeitet. Die Ana-
ierung der Regeln und die Übertragung zum eingebetteten lyse bestehender Lösungen zeigt, dass die dargestellten Über-
System notwendig. wachungsanforderungen nur unzureichend in Betracht gezo-
Für das beschriebene Forschungsvorhaben können folgen- gen werden. Aufbauend darauf wurde hier ein dynamischer
de zwei Herausforderungen identifiziert werden. und flexibler Überwachungsansatz vorgestellt. Der hier vor-
gestellte Überwachungsansatz basiert auf einem mathema-
1. Übersetzung der erlernten Klassifikatoren in verfügba- tischen Modell, welches als Zustandsraum bezeichnet wird.
re Anfragesprachen bzw. Funktionen. Dieser Zustandsraum repräsentiert das Wissen über das Pro-
dukt, welches im laufenden Betrieb überwacht wird. Weiter-
2. Erstellung einer dynamischen und flexiblen CEP-An- hin wurde eine Prozesskette erläutert. Diese Prozesskette
wendung, die stetig an neue Anforderungen anpassbar wird zyklisch durchlaufen und somit das Wissen über das
ist. Weiterhin muss unter Berücksichtigung der einge- Produkt mit der Zeit gesteigert. Der Zustandsraum wird
schränkten Systemressourcen und Echtzeitanforderun- mit der Hilfe von Data-Mining-Technologien in ECA-Regeln
gen ein kontinuierlicher Strom von Zustandsvektoren übersetzt und an eine CEP-Anwendung, die sich auf einem
zuverlässig klassifiziert werden können. eingebetteten System befindet, übertragen. Durch die CEP-

23
Anwendung werden die ECA-Regeln verwendet, um die kon- [17] Imboden, D. M. ; Koch, S. : Systemanalyse. Springer,
tinuierlich eintreffenden Zustandsvektoren als bekannt oder 2003
unbekannt zu klassifizieren. [18] Kargupta, H. ; Bhargava, R. ; Liu, K. ; Powers,
M. ; Blair, P. ; Bushra, S. ; Dull, J. ; Sarkar, K. ;
Klein, M. ; Vasa, M. ; Handy, D. : VEDAS: A
10. LITERATUR Mobile and Distributed Data Stream Mining System
[1] Babcock, B. ; Babu, S. ; Datar, M. ; Motwani, R. ; for Real-Time Vehicle Monitoring. In: Proceedings of
Widom, J. : Models and Issues in Data Stream the Fourth SIAM International Conference on Data
Systems. In: PODS ’02: Proceedings of the twenty-first Mining, 2004
ACM SIGMOD-SIGACT-SIGART Symposium on [19] Kargupta, H. ; Park, B.-H. ; Pittie, S. ; Liu, L. ;
Principles of Database Systems, ACM, 2002, S. 1–16 Kushraj, D. ; Sarkar, K. : MobiMine: Monitoring
[2] Bellmann, R. : Adaptive Control Processes. Princeton the Stock Market from a PDA. In: SIGKDD Explor.
University Press, 1961 Newsl. 3 (2002), S. 37–46
[3] Bifet, A. ; Kirkby, R. : Data Stream Mining - A [20] Marwedel, P. : Eingebettete Systeme.
Practical Approach / Centre for Open Software Springer-Verlag, 2007
Innovation (COSI) - Waikato University. [21] Noack, E. ; Belau, W. ; Wohlgemuth, R. ;
Version: 2009. http://moa.cs.waikato.ac.nz/ Müller, R. ; Palumberi, S. ; Parodi, P. ;
wp-content/uploads/2010/05/StreamMining.pdf. – Burzagli, F. : Efficiency of the Columbus Failure
Forschungsbericht Management System. In: AIAA 40th International
[4] Borgelt, C. ; Klawonn, F. ; Kruse, R. ; Nauck, D. Conference on Environmental Systems, 2010
: Neuro-Fuzzy-Systeme: Von den Grundlagen [22] Noack, E. ; Noack, T. ; Patel, V. ; Schmitt, I. ;
künstlicher Neuronaler Netze zur Kopplung mit Richters, M. ; Stamminger, J. ; Sievi, S. : Failure
Fuzzy-Systemen. Vieweg, 2003 Management for Cost-Effective and Efficient
[5] Boslaugh, S. ; Watters, P. A.: Statistics in a Spacecraft Operation. In: Proceedings of the 2011
Nutshell. O’Reilly, 2008 NASA/ESA Conference on Adaptive Hardware and
[6] Carney, D. ; Çetintemel, U. ; Cherniack, M. ; Systems, IEEE Computer Society, 2011 (AHS ’11). –
Convey, C. ; Lee, S. ; Seidman, G. ; Stonebraker, To appear
M. ; Tatbul, N. ; Zdonik, S. : Monitoring Streams: A [23] Peckol, J. K.: Embedded Systems: A Contemporary
New Class of Data Management Applications. In: Design Tool. John Wiley & Sons, 2007
VLDB ’02: Proceedings of the 28th International [24] Richard, H. ; Fulland, M. ; Sander, M. ;
Conference on Very Large Data Bases, VLDB Kullmer, G. : Fracture in a rubber-sprung railway
Endowment, 2002, S. 215–226 wheel. In: Engineering Failure Analysis 12 (2005), Nr.
[7] Chakravarthy, S. ; Jiang, Q. : Stream Data 6, S. 986 – 999
Processing: A Quality of Service Perspective. Springer, [25] Schmitt, I. : QQL: A DB&IR Query Language. In:
2009 The VLDB Journal 17 (2008), S. 39–56
[8] Chandola, V. ; Banerjee, A. ; Kumar, V. : [26] Tsai, J. J. P. ; Yang, S. J. H.: Monitoring and
Anomaly detection: A survey. In: ACM Comput. Surv. Debugging of Distributed Real-Time Systems. IEEE
41 (2009), S. 15:1–15:58 Computer Society Press, 1995
[9] Demers, A. J. ; Gehrke, J. ; Panda, B. ; [27] Witten, I. H. ; Frank, E. ; Hall, M. A.: Data
Riedewald, M. ; Sharma, V. ; White, W. M.: Mining: Practical Machine Learning Tools and
Cayuga: A General Purpose Event Monitoring Techniques. Elsevier, 2011
System. In: CIDR, 2007, S. 412–422 [28] Wolf, F. : Behavioral Intervals in Embedded Software:
[10] Dittrich, K. R. ; Gatziu, S. ; Geppert, A. : The Timing and Power Analysis of Embedded Real-Time
Active Database Management System Manifesto: A Software Processes. Kluwer Academic Publishers, 2002
Rulebase of ADBMS Features. In: SIGMOD Rec. 25 [29] Yu, M. ; Kim, H. ; Mah, P. : NanoMon: An
(1996), Nr. 3, S. 40–49 Adaptable Sensor Network Monitoring Software. In:
[11] EsperTech: Esper. http://www.espertech.com/ IEEE International Symposium on Consumer
products/esper.php. Version: 2011. – Online: Electronics (ISCE), 2007
30.03.2011
[12] Etzion, O. ; Niblett, P. : Event Processing in
Action. Manning Publications Co., 2010
[13] Fischer, G. ; Grubisic, V. : Praxisrelevante
Bewertung des Radbruchs vom ICE 884 in Eschede.
In: Materialwissenschaft und Werkstofftechnik 38
(2007), Nr. 10, S. 789–801
[14] Golab, L. ; Özsu, M. T.: Data Stream Management.
Morgan & Claypool Publishers, 2010
[15] Gordon, G. : Systemsimulation. Oldenbourg, 1972
[16] Guo, Y. : Algorithmen zur On-Board-Diagnose von
Fahrwerksschäden an Schienenfahrzeugen, TU Berlin,
Diss., 2005. http://opus.kobv.de/tuberlin/
volltexte/2005/1120/

24
Analyse und Vergleich von Zugriffstechniken für
funktionale Aspekte in RDBMS

Matthias Liebisch
Friedrich-Schiller-Universität Jena
Lehrstuhl für Datenbanken und Informationssysteme
Ernst-Abbe-Platz 2
07743 Jena
m.liebisch@uni-jena.de

KURZFASSUNG wicklung derartiger Applikationen ist deswegen auch im-
Neben klassischen fachlichen Anforderungen existieren in mer mit dem Entwurf eines für den Einsatzzweck geeig-
Anwendungssystemen oft auch querschnittliche Belange, de- neten Datenmodells verbunden. Dieses sollte unter Beach-
ren Funktionalität sich nicht einfach kapseln bzw. modu- tung verschiedener Kriterien, wie beispielsweise Benutzbar-
larisieren lässt. Vertreter dieser sogenannten funktionalen keit und Wiederverwendbarkeit, die modularisierte Speiche-
Aspekte sind beispielsweise die mehrsprachige oder versio- rung der fachlichen Datenobjekte in relationalen Strukturen
nierte Darstellung und Verwaltung von Anwendungsdaten. optimal unterstützen. Neben dieser Abbildung existieren je-
Nachdem sich in der Software-Entwicklung seit einigen Jah- doch häufig zusätzlich anwendungsweite Anforderungen wie
ren die Aspektorientierte Programmierung als Lösung eta- beispielsweise die Unterstützung von Mehrsprachigkeit oder
bliert hat, bietet das neuartige Paradigma der Aspektorien- Versionierung, welche als sogenannte funktionale Aspek-
tierten Datenhaltung ein entsprechendes Konzept zur Ab- te[11] Einfluss auf das gesamte Datenmodell haben.
bildung querschnittlicher Belange in einem relationalen Da-
tenmodell. Dabei stehen vor allem die Unabhängigkeit vom Dieses Problem der cross-cutting concerns ist bereits aus
Prozess der fachlichen Modellierung und ein hoher Wieder- dem Umfeld der Objektorientierten Programmierung seit ei-
verwendungsgrad im Vordergrund. Basierend auf dem zu nigen Jahren bekannt und hat zur Entwicklung der Aspekt-
diesem Zweck entwickelten Referenzmodell untersucht der orientierten Programmierung[3] geführt. Im übertragenen
vorliegende Beitrag unterschiedliche Techniken für den Zu- Sinne stellt die Aspektorientierte Datenhaltung[11] ein Mo-
griff auf jene funktionalen Aspekte. Diese werden anschlie- dellierungsparadigma dar, um funktionale Aspekte in ei-
ßend anhand wesentlicher Bewertungskriterien einer Evalua- nem Datenmodell gekapselt und unabhängig von den fach-
tion unterzogen und miteinander verglichen. lichen Datenobjekten zu integrieren. Triviale Ansätze, wie
beispielsweise die Erweiterung relevanter Tabellen um eine
Kategorien und Themenbeschreibung zusätzliche Spalte zur Festlegung der Locale im Fall mehr-
sprachiger Datenhaltung, sind meist nur auf konkrete An-
H.4 [Information Systems Applications]: Miscellaneous;
wendungsfälle zugeschnitten und versagen zudem bei der
H.2.3 [Database Management]: Languages—Query lan-
Unterstützung beliebig vieler funktionaler Aspekte unter den
guages
Anforderungen des Paradigmas der Aspektorientierten Da-
tenhaltung [19]. Ein generischer Ansatz zur Lösung der an-
Allgemeine Bestimmungen gedeuteten Herausforderungen ist das in [12] beschriebene
Design, Languages, Performance Referenzmodell. Darauf basierend zeigt der vorliegende Bei-
trag verschiedene Alternativen für den Zugriff und die Nut-
1. EINLEITUNG zung funktionaler Aspekte aus Sicht der Anwendung auf.
Seit der Beschreibung des relationalen Modells[4] Anfang der
1970er Jahre ist die Bedeutung auf diesem Modell basie- Nachfolgend werden in Abschnitt 2 das erwähnte Referenz-
render Datenbankmanagementsysteme (RDBMS) als Per- modell sowie ein kleines Anwendungsbeispiel kurz vorge-
sistierungsebene stetig gewachsen. Heutzutage bilden rela- stellt. Die darauf aufbauenden Zugriffstechniken stehen im
tionale Datenbanksysteme die Grundlage für die vielfältig- Fokus von Abschnitt 3, bevor sie in Abschnitt 4 einer Be-
sten Anwendungssysteme und sind damit aus den meisten wertung unterzogen werden. Schließlich fasst Abschnitt 5 die
alltäglichen Prozessen nicht mehr wegzudenken. Die Ent- Ergebnisse der Arbeit nochmal zusammen.

2. REFERENZMODELL
Für die vom fachlichen Datenmodell unabhängige und ge-
kapselte Persistierung aspektspezifischer Daten wurde in [12]
ein Referenzmodell vorgestellt und beschrieben, welches mit
Copyright is held by the author/owner(s).
geringfügigen Anpassungen bezüglich der Fremdschlüsselde-
23rd GI-Workshop on Foundations of Databases (Grundlagen von Daten-
banken) 31.5.-03.06.2011, Obergurgl, Austria. finitionen in den Tabellen zur Aspektverknüpfung auch in
diesem Beitrag zum Einsatz kommt.

25
Aspect.Assign Aspect.KeyValue Aspect.Datatype 3. ZUGRIFFSTECHNIKEN
PK AspAssID PK AspKeyID PK AspTypeID Dieser Abschnitt beschreibt verschiedene Möglichkeiten für
FK KeyValue FK Aspect TypeName den Zugriff auf funktionale Aspekte, welche mit Hilfe des
FK AspectValue KeyValue Length in Abbildung 1 präsentierten Referenzmodells in ein fachli-
Comment Scale
ches Datenmodell integriert werden. Aufgrund der Tatsache,
Aspect.Value Aspect.Definition Aspect.Table
dass das relationale Modell als Grundlage dient, ist der di-
rekte Zugriff mittels SQL auf die entsprechenden Strukturen
PK AspValID PK AspDefID PK AspTabID
RowID Name Schema
die naheliegendste Möglichkeit. Allerdings stellt die zentrale
FK Column Key TableName Tabelle Aspect.Value eine neue Herausforderung für die
Value FK Datatype Anfragegenerierung dar, weil darin enthaltene Daten durch
Aspect.Column das verwendete EAV-Prinzip[15] einer sogenannten unpivo-
Aspect.Additional tisierten ( gekippten“) Speicherungsform unterliegen. Dies
PK AspColID
”
PK AspAddID FK Table hat zur Konsequenz, dass zu jedem Attribut (Column) ei-
FK Aspect ColumnName nes traditionellen Tupels (identifizierbar über RowID) der
FK Table FK Datatype
jeweilige Wert (Value) in einer eigenen Zeile gespeichert
Aspektverknüpfung Aspektstammdaten Aspektmetadaten wird. Da jedoch die klassische relationale Verarbeitung von
PK/FK: Primär−/Fremdschlüssel Datensätzen mit zugehörigen Attributen als Tabellenspalten
ausgeht, ist eine Pivotisierung ( rows to columns“) notwen-
”
Abbildung 1: Referenzmodell dig, sobald in der Anfrage die Tabelle Aspect.Value invol-
viert wird. Die anschließenden Abschnitte beschreiben drei
Konstrukte in SQL sowie einen applikativen Ansatz, um die
Zentraler Bestandteil dieses in Abbildung 1 skizzierten Re- genannte Transformation zu unterstützen.
ferenzmodells sind die beiden Tabellen Aspect.Value und
Aspect.Assign, welche die Speicherung aspektspezifischer 3.1 SQL mit JOIN
Attributwerte sowie deren Zuordnung zu einer konkreten Bei einer Beschränkung auf normierte Sprachmittel ist die
Aspektausprägung (z.B. Locale ’en’ im Aspekt Mehrspra- erforderliche Transformation nur mittels JOIN-Operatoren
chigkeit) für eine Fachtabellenzelle realisieren. Daneben exis- realisierbar, da weder im SQL:92-Standard[6] als Grundlage
tieren weitere Tabellen zur Verwaltung von Metadaten, wie für das Paradigma der Aspektorientierten Datenhaltung[11]
beispielsweise Aspect.KeyValue für die Spezifikation von noch in der aktuellen SQL:2008-Norm[10] dedizierte Opera-
Ausprägungswerten zu allen im System definierten Aspek- toren zur Pivotisierung einer Tabelle existieren. Das prin-
ten oder Aspect.Column zur Hinterlegung aspektrelevan- zipielle Vorgehen ist exemplarisch für die in Abbildung 2
ter Attribute der Fachtabellen. formulierte Anfrage in Abbildung 3 dargestellt. Dabei wur-
de auf die Formatierung der Ergebnisattribute entsprechend
Die Anforderungen aus dem Paradigma der Aspektorientier- den zugeordneten Datentypen in Tabelle Aspect.Datatype
ten Datenhaltung werden insbesondere durch das Entity- verzichtet und zwecks Übersichtlichkeit die Kenntnis gewis-
Attribute-Value-Konzept[15] (EAV) gewährleistet, welches ser Metadaten wie Idents von Aspekten und Tabellenspalten
für Aspect.Value und Aspect.KeyValue zur Anwendung als bekannt vorausgesetzt.
kommt. Die damit verbundenen Konsequenzen[7] bezüglich
der Komplexität von direkten SQL-Anfragen im Referenz-
modell erfordern die Analyse alternativer Zugriffsarten. SELECT T1.Value AS Name, T2.Value AS Preis,
T5.KeyValue AS Locale
Demo.Modul Demo.Struktur FROM Aspect.Value T1
PK TeilNr PK,FK Oberteil INNER JOIN Aspect.Value T2
Mehrsprachigkeit
Name PK,FK Unterteil ON T1.RowID = T2.RowID
Preis Menge INNER JOIN Aspect.Assign T3
Flags
ON T1.AspValID = T3.AspectValue
PK/FK: Primär−/Fremdschlüssel INNER JOIN Aspect.Assign T4
ON T2.AspValID = T4.AspectValue
IAnfrage: Ermittle für das Modul mit TeilNr=4711 alle
INNER JOIN Aspect.KeyValue T5
mehrsprachigen Daten ( Name und Preis) sowie den jewei-
ON T3.KeyValue = T5.AspKeyID
ligen Aspektschlüsselwert als Locale.
WHERE T1.Column = 1 -- /* ’Name’ */
AND T2.Column = 2 -- /* ’Preis’ */
Abbildung 2: Beispiel für Datenmodell mit Anfrage
AND T3.KeyValue = T4.KeyValue
AND T5.Aspect = 1 -- /* ’Mehrsprachigkeit’ */
Zur Veranschaulichung der in Abschnitt 3 folgenden Techni-
AND T1.RowID = 4711
ken soll das in Abbildung 2 dargestellte Beispiel eines verein-
fachten Datenmodells zur Verwaltung von Stücklisten die-
nen, in dem der Aspekt Mehrsprachigkeit“ für die Attribute Abbildung 3: Anfrage mit JOIN
”
Demo.Modul.Name sowie Demo.Modul.Preis aktiviert
wurde. Darauf aufbauend soll jeweils die Beantwortung der Bereits für das simple in Abbildung 3 präsentierte Beispiel
zugehörigen Beispiel-Anfrage erläutert werden, welche das ist die Komplexität der Anfragegenerierung inklusive Pivo-
Prinzip für den Zugriff auf aspektspezifische Attributwerte tisierung der Tabelle Aspect.Value erkennbar. Insbeson-
in einem konkreten fachlichen Anwendungskontext verdeut- dere skalieren die notwendigen JOIN-Operatoren linear mit
lichen soll. den Attributen im Ergebnisschema. Dabei werden jeweils

26
die Tabellen Aspect.Value und Aspect.Assign miteinan- sicherzustellen, müssen die beiden genannten Tabellen zu-
der verbunden, welche für die Speicherung aller aspektspe- sammen mit der Tabelle Aspect.KeyValue verbunden wer-
zifischen Ausprägungen von Attributwerten in Fachtabellen den. Anschließend kann über die projezierte Attributmenge
zuständig sind und dadurch mit Abstand die umfangreichs- sinnvoll pivotisiert werden.
ten Mengengerüste aufweisen. Erwartungsgemäß haben der-
artige Anweisungen eine oft inakzeptable Verarbeitungszeit Zusätzlich ist bei der Nutzung des PIVOT-Operators zu be-
wie entsprechende Analysen gezeigt haben[13]. achten, dass für die IN-Klausel nur eine fest definierte Spal-
tenmenge angegeben werden kann. Ein Ausdruck der Form
3.2 SQL mit PIVOT SELECT Column FROM Aspect.Value ist beispielsweise nicht
Verlässt man die SQL-Norm auf der Suche nach adäqua- zulässig. Dies gilt sowohl für Microsoft SQL Server 20051 als
ter Unterstützung für die Pivotisierung von EAV-Tabellen, auch für Oracle 11g2 . Wird eine derartige Dynamik dennoch
dann zeigt sich, dass DBMS-Hersteller bereits produktspezi- benötigt, lässt sich diese nur über eine Stored Procedure,
fische SQL-Erweiterungen mit den Operatoren PIVOT und vorgeschalteten Anwendungscode oder im Fall von Oracle
UNPIVOT[20] anbieten. Unter anderem finden sich derar- unter Verwendung von XML realisieren.
tige Implementierungen in Datenbanksystemen wie Micro-
soft SQL Server 2005[18] oder Oracle 11g[14]. Ein typisches 3.3 SQL mit Spracherweiterung
Anwendungsgebiet für diese Transformationen sind OLAP- Aufgrund der fehlenden Normierung des PIVOT-Operators
Anfragen im Bereich Data Warehouse[17], deren Blickwinkel einerseits und dessen Nutzungs-Einschränkungen im Kon-
geändert werden soll (beispielsweise die Gruppierung nach text der Aspektorientierten Datenhaltung andererseits, ver-
Regionen statt Produkten in einer Umsatzübersicht). Durch folgt dieser Abschnitt die Idee einer SQL-Erweiterung für
Nutzung von PIVOT und UNPIVOT kann eine gezielte Op- einen adäquaten Zugriff auf funktionale Aspekte im Refe-
timierung auf Basis der klassischen Operatoren wie Verbund renzmodell. Die neuen Sprachelemente beeinflussen sowohl
oder Projektion erfolgen[5]. den DML-Teil als auch den DDL-Bereich, um beispielswei-
se für eine Tabellenspalte relevante Aspekte definieren zu
können. Hier soll jedoch aus Platzgründen nur das SELECT-
SELECT PivotedData.[1] AS Name, Statement im Fokus stehen.
PivotedData.[2] AS Preis,
PivotedData.KeyValue AS Locale
FROM ::=
(
[ ]
SELECT T1.RowID, T1.Column, T1.Value, |
T3.KeyValue |
FROM Aspect.Value T1 |
INNER JOIN Aspect.Assign T2
ON T1.AspValID = T2.AspectValue ::=
INNER JOIN Aspect.KeyValue T3 ASPECTVIEW BASED ON
ON T2.KeyValue = T3.AspKeyID GROUP BY [{, } ... ]
WHERE T3.Aspect = 1 -- /*’Mehrsprachigkeit’*/
AND T1.RowID = 4711 ::=
) AS JoinData ASPECTKEY()
PIVOT AS
(
MAX(JoinData.Value) Abbildung 5: SQL-Erweiterung ASPECTVIEW
FOR JoinData.Column IN ([1], [2])
-- /* 1 und 2 = relevante Column-IDs */ Aufbauend auf dem SQL:92-Standard[6] wird das Nichtter-
) AS PivotedData minalsymbol 3 um eine weitere Alter-
native ergänzt, deren Definition in Abbil-
Abbildung 4: Anfrage mit PIVOT dung 5 dargestellt ist. Das neue Schlüsselwort ASPECTVIEW
erzeugt dabei eine Sicht auf alle aspektspezifischen Daten
Aber auch die Verarbeitung von EAV-Tabellen wie hier im der über BASED ON angegebenen (fachlichen) Basistabelle.
Kontext der Aspektorientierten Datenhaltung ist mit Hilfe Da es möglich ist, einer Tabellenspalte verschiedene Aspekte
des PIVOT-Operators möglich. Abbildung 4 demonstriert zuzuordnen, erfolgt die Aufbereitung der Daten in gruppier-
dessen Verwendung unter Microsoft SQL Server 2005 für ter Form bezüglich des einattributigen Primärschlüssels[11]
die Beispielanfrage in Abbildung 2. Auf den ersten Blick und der über spezifizierten Aspekte. Diese
verwirrt dabei der Ausdruck MAX(JoinData.Value), welcher stehen anschließend im Rahmen der Anfrageformulierung als
die notwendige Aggregatbildung bei der Pivotisierung über- reguläre Attribute der Sicht zur Verfügung, für eine Tabelle
nimmt. Diese Funktion lässt das Ergebnis jedoch inhaltlich mit n Attributen und insgesamt k zugeordneten Aspekte er-
korrekt, solange jede Gruppe bezüglich der gruppierten At- gibt sich also das in Abbildung 6 dargestellte Relationssche-
tribute (T1.RowID, T3.KeyValue) und den zu Spalten um- ma. Voraussetzung hierfür ist eine im Referenzmodell ver-
gewandelten Werten aus T1.Column nur einen Datensatz 1
http://msdn.microsoft.com/en-us/library/ms177634.aspx
enthält. Um dies unter Beachtung der getrennten Speiche- 2
http://download.oracle.com/docs/cd/B28359_01/server.111/b28286/
rung der aspektspezifischen Werte (Aspect.Value) und den statements_10002.htm#CHDFAFIE
3
tatsächlichen Fachtabellen-Zuordnungen (Aspect.Assign) http://savage.net.au/SQL/sql-92.bnf

27
ankerte UNIQUE-Bedingung auf Aspect.Definition.Key, der Aspekte inklusive ihrer Metadaten als auch zur Abfrage
dessen Werte über den Ausdruck ASPECTKEY() referenziert werden. achtung sogenannter Aspektfilter und Aspektkontexte.

Basistabelle Aspekte

Anwendungsprogramm
z }| {z }| { JDBC−Schnittstelle

(Att1 , . . . , Attn , Asp1 , . . . , Aspk )
DB
(inkl. Referenz−
Abbildung 6: Relationsschema von ASPECTVIEW Funktionsbaustein modell)
("Aspekt−API")

Angewendet auf das in Abbildung 2 skizzierte Beispiel er-
gibt sich eine gegenüber den bisherigen Zugriffstechniken
Abbildung 8: Anwendungs-Integration der API
sehr kompakte Anfrage, wie Abbildung 7 zeigt. Neben dem
Aufwand zur Pivotisierung für die Aspektsicht T1 ist un-
Um einen möglichst plattformunabhängigen und universel-
abhängig von der Anzahl der Attribute oder Aspekte nur
len Funktionsbaustein bereitstellen zu können, ist dieser in-
noch eine JOIN-Operation erforderlich, um für die Idents
klusive seiner API in Java spezifiziert. Da in den meisten
in Aspi die eigentlichen Aspektschlüsselwerte anzeigen zu
Fällen bei Verwendung einer Java-Bibliothek das umgeben-
können.
de Anwendungsprogramm ebenfalls auf Java basiert und
für Datenbankzugriffe die JDBC-Schnittstelle genutzt wird,
SELECT T1.Name, T1.Preis, T2.KeyValue AS Locale zeigt Abbildung 8 ein typisches Integrations-Szenario. Dabei
FROM Aspect.KeyValue T2 INNER JOIN können in einer ersten Ausbaustufe über die API tatsächlich
( nur aspektspezifische Daten abgefragt und geändert werden,
ASPECTVIEW ModulAspects die Verarbeitung der fachlichen Daten erfolgt unverändert
BASED ON Demo.Modul über die bereits existierende Datenbank-Schnittstelle. Auf-
GROUP BY ASPECTKEY(’Locale’) AS AspLoc gabe der Anwendung ist damit also die Zusammenführung
) T1 der Ergebnisse beider Datenquellen, abhängig natürlich von
ON T2.AspKeyID = T1.AspLoc den inhaltlichen Anforderungen.
WHERE T1.TeilNr = 4711
AND T2.Aspect = 1 -- /*’Mehrsprachigkeit’*/ 1 // Deklarationen
AspectManager am = /* Verweis auf Instanz holen */
Abbildung 7: Anfrage mit ASPECTVIEW 3 AspectCatalogManager acm =
am.getAspectCatalogManager();
5 int aspLang = acm.lookupAspectID("Language");
Sollte sich eine derartige Spracherweiterung wie angedeu-
int tID = acm.lookupTableID("Demo","Modul");
tet für alle Bereiche (DDL und DML) als geeignetes Aus-
7 int cNameID = acm.lookupColumnID(tID, "Name");
drucksmittel im Umgang mit funktionalen Aspekten bewei-
int cPriceID = acm.lookupColumnID(tID, "Preis");
sen, bleibt die praktische Nutzung stark eingeschränkt, so-
9
lange eine Umsetzung in SQL-Norm oder DBMS-Produkten
// Anfragespezifikation
fehlt. In solch einem Szenario kann der Einsatz sogenann-
11 QueryStatement st = am.createQueryStatement(tID);
ter Proxys[1] oder Query Transformation Layer[2] zwischen
st.setRowIDs(new long[] {4711});
Anwendung und Datenbank eine Lösung darstellen. Im vor-
13 st.setColumnSet(am.createColumnSet(
liegenden Fall müssten alle neu definierten SQL-Ausdrücke,
new int[] {cNameID, cPriceID}));
beispielsweise ASPECTVIEW, durch einen Parser auf effiziente
15
Art und Weise in genormte oder produktspezifische SQL-
// Ergebnisverarbeitung
Anweisungen transformiert werden. Damit wäre zumindest
17 ResultRows result = st.execute();
eine benutzerfreundliche Schnittstelle im Umgang mit funk-
AspectSet aSet = st.getAspectSet();
tionalen Aspekten unter Nutzung der trivialen Umformung
19 ColumnSet cSet = st.getColumnSet();
(Anfrage mit JOIN, siehe Abschnitt 3.1) geschaffen. Die
int aspLangIdx = aSet.getIndex(aspLang);
nachfolgend beschriebene Zugriffstechnik ist ebenfalls ein
21 int cNameIdx = cSet.getIndex(cNameID);
Vertreter dieser Kategorie, allerdings erfolgt die Anfrage-
int cPriceIdx = cSet.getIndex(cPriceID);
formulierung nicht auf Basis von SQL.
23 while (result.next())
{
3.4 Funktionsbaustein mit API 25 long rowID = result.getRowID();
Gegenüber den bisher vorgestellten Möglichkeiten, den Zu- AspectContextElement e =
griff auf funktionale Aspekte allein mit SQL-Mitteln auf der 27 result.getContext().getElement();
Persistierungsebene zu realisieren, wird mit dem vierten An- String name = result.getValueString(cNameIdx);
satz eine applikationsseitige Verarbeitung verfolgt. Analog 29 String price = result.getValueString(cPriceIdx);
zum Konzept mit JDBC[9] eine einheitliche Schnittstelle für int localeID = e.getIndexKeyValue(aspLangIdx);
relationale Datenbanken zu etablieren, ermöglicht der hier 31 }
vorgestellte Funktionsbaustein den Zugriff auf funktionale
Aspekte, welche im Referenzmodell persistiert sind. Die zu-
gehörige API[16] umfasst Methoden sowohl zur Verwaltung Abbildung 9: Anfrage mit Funktionsbaustein

28
Eine Abfrage aspektspezifischer Daten wie für das Referenz- im Rahmen der Verarbeitung bekannt sein müssen oder ver-
Beispiel wird prinzipiell durch das in Abbildung 9 dargestell- borgen bleiben können, zeigt sich in der Transparenz ei-
te Code-Fragment realisiert. Der Einstieg erfolgt mit einer ner Technik. Weiterhin wird geprüft, ob im jeweiligen An-
implementierungsspezifischen Instanz der zentralen Klasse satz auf die bereits vorhandene Mächtigkeit eines zu Grun-
AspectManager (Zeile 2), welche im nächsten Schritt zur Er- de gelegten RDBMS in angemessener Weise zurückgegrif-
zeugung einer AspectCatalogManager-Instanz benötigt wird fen wird (Funktionsadäquatheit) oder ob Funktionalität,
und zudem auch für die Verwaltung einer Datenbank-Session wie beispielsweise das Parsen von Sprachausdrücken und
zuständig ist. Schließlich werden zum Aspekt Mehrsprachig- das Caching von Daten, reimplementiert werden muss. Hier-
keit sowie für die Attribute Name und Preis der Tabelle bei spielen auch prinzipielle Möglichkeiten zur Erweiter-
Modul die Idents ermittelt (Zeilen 5-8). Hierfür können ent- barkeit des Funktionsumfangs eine Rolle, erwartungsgemäß
sprechende Methoden an der Aspektkatalogmanager-Klasse werden diese durch Standardisierung beschränkt. Schließlich
genutzt werden, damit sind alle für die Anfrage notwendigen soll noch mit der Benutzerfreundlichkeit beurteilt wer-
Metadaten bekannt. den, wie sich letztlich die gesamte Auswertung funktionaler
Aspekte für den Anwendungsentwickler darstellt.
Für die Anfragespezifikation wird über den AspectManager
eine Instanz der Klasse QueryStatement angelegt (Zeile 11).
Da in der relevanten Fachtabelle Demo.Modul das Attri-
4.2 Bewertung
Eine detaillierte Bewertung jeder einzelnen Zugriffstechnik
but TeilNr bereits die Anforderung eines einattributigen
bezüglich der zuvor aufgestellten Kriterien kann hier aus
Primärschlüssels erfüllt, entspricht die Filterung mit der Me-
Platzgründen nicht beschrieben werden. Stattdessen enthält
thode setRowIDs in Zeile 12 genau der Einschränkung auf
Tabelle 1 einen Überblick mit den Ergebnissen.
das Modul mit TeilNr=4711 in einer WHERE-Klausel. Die
zu projezierenden Spalten werden analog in Zeile 13 festge-

Benutzerfreundlichkeit
legt. Weitere zusätzliche aspektspezifische Beschränkungen

Funktionsadäquatheit
beispielsweise über die AspectFilter-Klasse entfallen, da al-

Standardisierung
le mehrsprachigen Daten für die Attribute Name und Preis

Erweiterbarkeit
Praxisrelevanz
bereitzustellen sind.

Performance
Transparenz
Kriterium
Die Ausführung der Anfrage erzeugt ein ResultRows-Objekt
(Zeile 17), welches analog zum entsprechenden Konstrukt in
JDBC zeilenweise über den next-Iterator verarbeitet wer-
den kann (Zeile 23). Zuvor sind für die korrekte Auswer- Zugriffstechnik
tung der Ergebnisstruktur die darin enthaltenen Indexe des JOIN + + – – + – –
Mehrsprachigkeits-Aspekts sowie der beiden angefragten At- PIVOT o1 o1 o o + – o
tribute zu ermitteln (Zeilen 18-22). Mit Hilfe dieser Indexe
ASPECTVIEW – o3 o + o3 + +
kann nun auf die entsprechenden Informationen zugegrif-
fen werden (Zeilen 25-29). Weiterführende Details zu Da- API o2 + + 4 + – + o
tenstrukturen, Klassen und Methoden sowie zu deren Ver- + : ja/hoch o : neutral/mittel – : nein/niedrig
wendung finden sich bei Pietsch[16]. 1
unterstützt durch Oracle 11g und MS SQL Server 2005
2
de-facto Standard[8] aufgrund enormer Verbreitung
4. VERGLEICH 3
nur bei Nutzung von Zwischenschichten[1, 2]
Nachdem der vorangegangene Abschnitt 3 die unterschied- 4
begründet durch Ergebnisse in [7]
lichen Zugriffstechniken präsentiert hat, dient dieser Ab-
schnitt der Bewertung und dem Vergleich jener Techniken. Tabelle 1: Bewertung der Zugriffstechniken
Zuerst werden die dafür notwendigen Kriterien im Folgenden
beschrieben und anschließend für jeden Ansatz evaluiert. Dabei fällt auf, dass zwar der JOIN-Ansatz (Abschnitt 3.1)
als einziger Vertreter auf standardisierte Sprachkonstruk-
4.1 Kriterien te zurückgreift und damit eine große Praxisrelevanz bzw.
Ausgehend vom Paradigma der Aspektorientierten Daten- Produktunterstützung besitzt, allerdings weder performant
haltung spiegelt sich die Forderung nach Universalität[11] noch benutzerspezifisch erweiterbar ist. Zudem erzwingt die
bezüglich SQL:92 im Kriterium der Standardisierung wi- Nutzung des Verbund-Operators genaue Kenntnisse über die
der, welches hier jedoch auch bezüglich der Existenz ei- Aspekt-Tabellen, wodurch die Transparenz und Benutzer-
ner ISO-Norm erweitert werden soll. In direktem Zusam- freundlichkeit verloren geht.
menhang dazu stellt sich die Frage der Praxisrelevanz
eines Ansatzes, d.h. ob mit diesem der Zugriff auf funk- Dagegen verspricht die PIVOT-Methode (Abschnitt 3.2)
tionale Aspekte unter den aktuellen Gegebenheiten über- sowohl den transparenteren Zugang als auch eine performan-
haupt praktisch realisierbar ist. Eine große Bedeutung spie- tere Verarbeitung der aspektspezifischen Daten in den EAV-
len natürlich auch Ausagen zur Performance, allerdings Tabellen[5]. Dennoch fehlt hier ebenfalls die Möglichkeit zur
liegen nur für den ersten Ansatz (SQL mit JOIN) tatsächlich Erweiterbarkeit, zudem ist die Anwendbarkeit aufgrund der
konkrete Messwerte[13] vor, sodass für alle anderen Varian- (noch) fehlenden Normierung an Hersteller wie Oracle oder
ten nur eine qualitative Abschätzung möglich ist. Microsoft und deren DBMS-Produkte gekoppelt.

Inwieweit die Strukturen des Referenzmodells zur Persistie- Ähnliche Charakteristik besitzt auch der ASPECTVIEW-
rung funktionaler Aspekte dem Nutzer bzw. der Anwendung Vorschlag (Abschnitt 3.3), er soll jedoch als Erweiterung

29
von SQL die Konsequenzen der Aspektorientierten Daten- [5] C. Cunningham, G. Graefe, and C. A.
haltung berücksichtigen. Daher ist der praktische Einsatz Galindo-Legaria. PIVOT and UNPIVOT:
momentan nur über die genannten Zwischenschichten rea- Optimization and Execution Strategies in an RDBMS.
lisierbar. Andererseits wird dem Anwendungsentwickler ein In (e)Proceedings of the 30th International Conference
intuitives und adäquates Konstrukt zur Verfügung gestellt, on Very Large Data Bases (VLDB 2004), pages
um transparent auf funktionale Aspekte von Fachtabellen 998–1009, 2004.
zugreifen zu können. [6] C. Date and H. Darwen. SQL - Der Standard. SQL/92
mit den Erweiterungen CLI und PSM.
Schließlich ergibt sich für den API-Ansatz (Abschnitt 3.4) Addison-Wesley, 1998.
eine mindestens ebenso gute oder bessere Bewertung ge- [7] V. Dinu, P. Nadkarni, and C. Brandt. Pivoting
genüber den anderen Zugriffstechniken in vielen Kriterien, approaches for bulk extraction of
insbesondere ist ein performanter Aspekt-Zugriff möglich. Entity-Attribute-Value data. Computer Methods And
Der fehlenden Standardisierung lässt sich z.B. durch Por- Programs in Biomedicine, 82(1):38–43, 2006.
tierung auf die gängigsten Programmiersprachen begegnen. [8] T. Egyedi. Why Java Was Not Standardized Twice.
Großer Aufwand ist zudem notwendig, um der Mächtigkeit Hawaii International Conference on System Sciences,
von SQL auf Seiten der API gerecht zu werden. 5(1):5015–5025, 2001.
[9] M. Fisher, J. Ellis, and J. Bruce. JDBC API Tutorial
5. ZUSAMMENFASSUNG and Reference (Java Series). Addison-Wesley, 2003.
Der vorliegende Beitrag hat vier verschiedene Techniken für [10] ISO/IEC 9075-2:2008. Information technology –
den Zugriff auf funktionale Aspekte aufgezeigt, welche im Database languages – SQL – Part 2: Foundation
Kontext der Aspektorientierten Datenhaltung über ein eben- (SQL/Foundation). ISO, Geneva, Switzerland, 2008.
falls kurz beschriebenes Referenzmodell auf relationalen Da- [11] M. Liebisch. Aspektorientierte Datenhaltung - ein
tenbanken abgebildet werden können. Durch die Fokussie- Modellierungsparadigma. In Proceedings of the 22nd
rung auf RDBMS und deren hohen Verbreitungsgrad ist die GI Workshop Grundlagen von Datenbanken (GvDB
Grundlage für den praktischen Einsatz gewährleistet. Die 2010), pages 13–17, Bad Helmstedt, Germany, May
anschließende Bewertung anhand zuvor aufgestellter Krite- 2010.
rien sollte weitere Klarheit über die Potentiale der einzel- [12] M. Liebisch. Supporting functional aspects in
nen Ansätze liefern. Dabei hat sich herausgestellt, dass vor relational databases. In Proceedings of the 2nd
allem für eine performante und transparente Auswertung International Conference on Software Technology and
funktionaler Aspekte die standardisierten Mittel von SQL Engineering (ICSTE 2010), pages 227–231, San Juan,
nicht ausreichen. Puerto Rico, USA, Oct. 2010.
[13] M. Liebisch and M. Plietz. Performance-Analysen für
Unter den möglichen Alternativen erscheinen der Vorschlag Realisierungsansätze im Kontext der
zur Erweiterung von SQL mit ASPECTVIEW und die ap- Aspektorientierten Datenhaltung. Institut für
plikative Verarbeitung in einem Funktionsbaustein vielver- Informatik, Friedrich-Schiller-Universität Jena, Nov.
sprechend. Dabei ist der Aufwand zur Erweiterung der SQL- 2010.
Norm ungleich höher und nicht automatisch von Erfolg ge- [14] D. Lorentz. Oracle Database SQL Language Reference
krönt bzw. wie bereits vorgeschlagen nur durch Implemen- 11g Release 1. Oracle, Aug. 2010.
tierung einer transformierenden Zwischenschicht praktika- [15] P. Nadkarni, L. Marenco, R. Chen, E. Skoufos,
bel. Aus diesem Grund werden sich nachfolgende Arbei- G. Shepherd, and P. Miller. Organization of
ten vor allem der prototypischen Realisierung, quantitativen Heterogeneous Scientific Data Using the EAV/CR
Performance-Vergleichen sowie funktionellen Weiterentwick- Representation. In JAMIA, 6, pages 478–493, 1999.
lungen bezüglich aktueller Einschränkungen der vorgestell-
[16] B. Pietsch. Entwurf einer Zugriffsschicht für
ten API für funktionale Aspekte widmen.
funktionale Aspekte in DBMS. Studienarbeit, Institut
für Informatik, Friedrich-Schiller-Universität Jena,
6. LITERATUR Mar. 2011.
[1] A. Adam, S. Leuoth, and W. Benn. Nutzung von [17] A. B. Rashid and M. Islam. Role of Materialized View
Proxys zur Ergänzung von Datenbankfunktionen. In Maintenance with PIVOT and UNPIVOT Operators.
Proceedings of the 22nd GI Workshop Grundlagen von In Proceedings of the 1st IEEE International Advance
Datenbanken (GvDB 2010), pages 31–35, Bad Computing Conference (IACC 2009), pages 915–955,
Helmstedt, Germany, May 2010. Mar. 2009.
[2] S. Aulbach, T. Grust, D. Jacobs, A. Kemper, and [18] T. Rizzo, A. Machanic, and J. Skinner. Pro SQL
J. Rittinger. Multi-tenant databases for software as a Server 2005. Apress, 2005.
service: schema-mapping techniques. In SIGMOD [19] T. Schilling. Realisierungskonzepte für die
Conference, pages 1195–1206, 2008. Aspektorientierte Datenhaltung. Studienarbeit,
[3] R. Chitchyan, I. Sommerville, and A. Rashid. An Institut für Informatik, Friedrich-Schiller-Universität
Analysis of Design Approaches for Crosscutting Jena, Apr. 2011.
Concerns. In Workshop on Aspect-Oriented Design [20] C. M. Wyss and E. L. Robertson. A formal
(held in conjunction with the 1st Aspect Oriented characterization of PIVOT/UNPIVOT. In Proceedings
Software Development Conference (AOSD 2002), 2002. of the 14th ACM international conference on
[4] E. F. Codd. A relational model of data for large Information and knowledge management, pages
shared data banks. CACM, 13(6):377–387, 1970. 602–608, 2005.

30
Verbindung relationaler Datenbanksysteme und
NoSQL-Produkte
Ein Überblick
Andreas Göbel
Friedrich-Schiller Universität Jena
Lehrstuhl für Datenbanken und Informationssysteme
Ernst-Abbe-Platz 2
07743 Jena, Germany
andreas.goebel@uni-jena.de

KURZFASSUNG 1. EINLEITUNG
In den letzten Jahren entstanden verschiedene Open-Source- Die zunehmende Verbreitung von Unternehmensnetzwer-
Systeme, die mit fundamentalen Konzepten und Regeln rela- ken, globalen Netzwerken wie dem Internet und mobilen
tionaler Datenbanksysteme brachen, um die Verwaltung von Endgeräten gepaart mit dem Wunsch vieler Unternehmen
Daten in speziellen Einsatzbereichen zu optimieren. Die we- nach Globalisierung führt vermehrt zur Nutzung zentraler
sentlichen Gründe für die Entwicklung dieser so genannten (Datenbank-)Services für eine Vielzahl von Nutzern. Die un-
NoSQL-Systeme sind jedoch nicht SQL oder das relationale ter dem Begriff Web 2.0 zusammengefassten Entwicklungen
Datenbankmodell, sondern sie ist auf die Implementierung ermöglichen zunehmend Interaktion und Verknüpfungen in
relationaler Datenbanksysteme zurückzuführen. Der Beitrag Netzwerken, was sowohl die Gestalt als auch die Menge der
verdeutlicht durch eine Gegenüberstellung von Oracle Re- Daten auffallend beeinträchtigt. So werden Inhaber erfolg-
al Application Cluster, IBM DB2 PureScale und MySQL reicher Web-Anwendungen mit beachtlichen Datenmengen
Cluster die gegensätzlichen Implementierungen relationaler konfrontiert, die das Datenaufkommen in klassischen Anwen-
Clusterlösungen. An die Motivation der NoSQL-Produkte dungen um ein Vielfaches übersteigen können.
sowie einen Überblick ihrer Zielstellung, Vor- und Nachteile Relationale Datenbanksysteme sind zentraler Bestandteil
schließt sich das Aufzeigen von Möglichkeiten an, um Kon- des Software-Stacks vieler Unternehmen und Behörden. Mit-
zepte und Implementierungen beider Welten miteinander zu tels der Verbindung eines mathematischen Fundaments, der
verbinden und so die Vorzüge zu vereinen. Gewährleistung der ACID-Eigenschaften und der standardi-
sierten deskriptiven Abfragesprache SQL stellen sie die Ver-
fügbarkeit, Korrektheit und Auswertbarkeit der Unterneh-
Kategorien und Themenbeschreibung mensdaten sicher. Der vorliegende Beitrag motiviert, warum
H.2.4 [Database Management]: Systems—Parallel data- Betreiber vieler Web-Anwendungen trotz der auf der Hand
bases ; H.3.5 [Database Management]: Systems and Soft- liegenden Vorteile bewährter relationaler Produkte Eigenent-
ware—Distributed systems wicklungen propietärer Spezialsysteme zur Datenverwaltung
vorantreiben, die bewusst auf wesentliche Merkmale relatio-
naler Systeme verzichten.
Allgemeine Bestimmungen Nach einer Gegenüberstellung relevanter Implementierung
Theory, Design, Reliability relationaler Clusterdatenbanken werden die Herausforderun-
gen und Einschränkungen der zu dem Schlagwort NoSQL zu-
sammengefassten Systeme herausgearbeitet, einige aktuelle
Stichworte Entwicklungen zur Verbindungen von NoSQL und RDBMS
Parallel Databases, NoSQL, Postrelational, Hybrid zusammengefasst und die Notwendigkeit flexiblerer Imple-
mentierungen relationaler Datenbanksysteme aufgezeigt.

2. HERAUSFORDERUNGEN
Die Charakteristika zu verarbeitender Daten bei Web-An-
wendungen führen zu folgenden Kern-Herausforderungen an
zu verwendende Datenbanksysteme bzw. Datenspeicher.

Performance und Skalierbarkeit kennzeichnen die be-
deutendsten Herausforderungen. Die damit verbundene Ver-
ringerung der Latenzzeit in Web-Anwendungen steht häu-
fig in direktem Zusammenhang mit der Nutzerzufriedenheit
und ist insbesondere in Bereichen wie Suchmaschinen oder
23rd GI-Workshop on Foundations of Databases (Grundlagen von Daten-
banken), 31.05.2011 - 03.06.2011, Obergurgl, Austria. dem E-Commerce-Sektor von essentieller Bedeutung. Die
Copyright is held by the author/owner(s). Performance resultiert aus der Grundperformance für Anfra-

31
gen und der Verarbeitungsgeschwindigkeit für steigende Da-
tenvolumina, welche allgemeinhin als Skalierbarkeit bezeich-
net wird. Eine zunehmende Datenmenge kann hierbei die
Dauer von Aufgaben, die Anzahl der Aufgaben oder beides
erhöhen. Die Skalierbarkeit eines Rechensystems kann durch
den Einsatz leistungsfähigerer Hardware (vertikale Skalier-
barkeit) oder durch das Verteilen der Aufgaben auf weitere
Rechenressourcen (horizontale Skalierbarkeit) erzielt werden.
Die Vorgänge müssen jeweils transparent zur Anwendung ge-
schehen.

Ausfallsicherheit ist für jedes zentrale (Datenverarbei-
tungs-)System eine wesentliche Herausforderung, um Nut-
zern dauerhafte Verfügbarkeit zu bieten. Neben ungeplanten
Ausfällen eines Systems in Folge von Hardwaredefekten oder
Systemfehlern müssen auch geplante Ausfälle – beispielswei-
se zur Aktualisierung des Systems – vermieden werden. Bei-
de Ausfallarten können erheblichen wirtschaftlichem Scha-
den durch Kundenverlust oder Pönalen bei Verstoß gegen
Service Level Agreements nach sich ziehen. Um Hochverfüg-
barkeit zu erreichen, sollten Single Points of Failure (SPoF)
Abbildung 1: Architektur von Oracle RAC (nach
in einem System vermieden sowie binnen kurzer Zeit und
[12])
automatisiert auf jegliche Art von Fehlern reagiert werden.

Schemaflexibilität bezeichnet den Verzicht auf ein vor-
definiertes und stets omnipräsentes Datenbankschema, um 3. RELATIONALE DATENBANKCLUSTER
den Umgang mit Datenbanken und -speichern flexibler zu Horizontale Skalierbarkeit und Hochverfügbarkeit unter
gestalten. Dies ermöglicht die adäquate Verwaltung semi- Einsatz kostengünstiger Hardware bilden nach Abschnitt 2
strukturierter und dokumenten-orientierter Daten, die nicht die wesentlichen Herausforderungen an die Speicherung und
zuletzt aufgrund von Web-Standards und Auszeichnungs- Verarbeitung der Daten von Web-Anwendungen. Beinahe al-
sprachen wie XML oder RDF in Web-Anwendungen weit le relationalen Datenbanksysteme bieten Mittel, um ihre Sys-
verbreitet sind. Schemaflexibilität spielt des Weiteren eine teme vor Ausfällen und Datenverlust in diversen Fehlersze-
wichtige Rolle bei der Konsolidierung von heterogenen Nut- narien zu schützen und eine hohe Verfügbarkeit zu erzielen.
zerdaten innerhalb eines Systems. Sie bieten für dieses Ziel neben Sicherungs- und Wiederher-
stellungsmöglichkeiten von Datenbanken verschiedene Tech-
Kosten: Für viele Betreiber von Web-Anwendungen ist niken zur Replikation. Zumeist erkennen sie ein Problem je-
der Einsatz kostengünstiger Hard- und Software eine Grund- doch erst beim erfolglosen Datenzugriff statt unmittelbar
voraussetzung. Lizenz-, Support- und Administrationskos- nach dem Auftreten und erfordern im Fehlerfall einen ma-
ten für Datenbanksysteme sowie die Anschaffungs-, Admi- nuellen Eingriff zum Umleiten auf das Replikat. Zudem sind
nistrations- und Betriebskosten von Datenbankservern ma- die Replikate bei einigen Systemen ausschließlich im Fehler-
chen meist einen nicht unerheblichen Teil der IT-Gesamt- fall einsetzbar und dienen im Normalbetrieb nicht der Last-
aufwendungen aus. Aus diesem Grund wird für Unterneh- balancierung. Im Folgenden werden die Eckpunkte vorherr-
men die Nutzung von kostengünstigen Cloud-Services oder schender Hochverfügbarkeitslösungen gegenübergestellt, die
-Storages stets lukrativer. Entsprechend sollte ein geeignetes diese Mängel nicht aufweisen und zudem horizontale Skalier-
Lizenzierungskonzept angeboten und der Einsatz auf Com- barkeit in Mehrrechnersystemen ermöglichen.
modity-Servern unterstützt werden.
3.1 Oracle Real Application Cluster
Für viele Provider ist die Antwortzeit der Web-Anwen-
Oracle Real Application Cluster (RAC) ermöglicht bis zu
dung derart wichtig, dass sie Einschränkungen der Daten-
100 Datenbankinstanzen einen parallelen Zugriff auf den-
konsistenz in Kauf nehmen oder gar auf die Realisierbarkeit
selben Datenbestand und realisiert somit eine Shared-Disk-
des Definierens von Konsistenzsicherungen verzichten, wenn
Architektur. Wie Abbildung 1 verdeutlicht, greifen die Ap-
diese einen Performance-Overhead mit sich bringen. Dies ist
plication Server und Web Server über eine gemeinsame Ser-
bemerkenswert, denn es kennzeichnet einen wahrnehmbaren
vice-Schnittstelle auf das System zu, die u.a. der Lastba-
Wandel der Anforderungen an Datenbanksysteme. In klassi-
lancierung dient. Sämtliche Dateien für Daten, Verwaltung
schen Unternehmensanwendungen stellt die Forderung nach
und Konfigurationsparameter werden auf einem clusterfähi-
Datenkonsistenz die oberste Prämisse dar und ist unentbehr-
gen Storage-System gespeichert und sind von allen Servern
lich. Die Herausforderung besteht hierbei im Wesentlichen in
les- und schreibbar. Lediglich die Undo- und Redo-Logs bil-
der Optimierung der Performance. Dementgegen verdeutli-
den eine Ausnahme: Sie werden stets von der Besitzerinstanz
chen die obigen Herausforderungen, dass die Hauptaufgaben
geschrieben und können nur von deren Nachbarinstanzen ge-
vermehrt in der Optimierung der Antwortzeit oder nach [3]
lesen werden, um die Besitzerinstanz bei einem Ausfall auto-
gar in der Minimierung der (Hardware-)Kosten und Erhö-
matisch wiederherstellen zu können. Der Ausfall eines Kno-
hung des Konsistenzniveaus bei gegebenen Performance-Vor-
tens wird durch eine Heartbeat-Netzwerkverbindung in kür-
gaben zu sehen ist.
zester Zeit erkannt. Extended Distance Cluster bietet durch

32
Abbildung 2: Architektur von IBM DB2 PureScale
(nach [9])

eine Systemspiegelung auf ein aktives System innerhalb we-
niger Kilometer das Reagieren auf Fehlerszenarien, die zum Abbildung 3: Architektur von MySQL Cluster (nach
Ausfall des kompletten Clusters führen. Oracle Data Guard [10])
ermöglicht darüber hinaus das Spiegeln auf ein weiter ent-
ferntes Standby-System zur Realisierung einer Disaster Re-
covery.[12, 5] des Caches (Group Buffer Pool, GBP), wodurch analog zum
Oracle RAC bietet Skalierbarkeit durch das Hinzufügen GRD und GCS des Oracle RAC die Informationen der Da-
neuer Nodes, einen automatischen Lastausgleich und die pa- tenblöcke verwaltet und allen Servern zur Verfügung gestellt
rallelisierte Ausführung von Operationen auf mehreren Ser- werden. Die Server sind untereinander sowie mit der CF mit-
vern. Für den parallelen Zugriff mehrerer Instanzen auf den- tels eines Hochleistungsnetzwerks verbunden, welches einen
selben Datenbestand nutzt Oracle im Falle einer Datenmodi- direkten Fernzugriff auf den Arbeitsspeicher (RDMA) in we-
fikation den Global Cache Service (GCS), um zu bestimmen, nigen Mikrosekunden ermöglicht. Bei einem Schreibvorgang
in welchen lokalen Knotencaches die betroffenen Blöcke lie- ermöglicht diese schnelle Verbindung das synchrone Aktua-
gen bzw. ob sie sich gegebenenfalls bereits auf dem Storage- lisieren der zentralen Sperrtabelle in Form von Zeilen- und
System befinden. Nachdem die Position bekannt ist, werden Seitensperren und des zentralen wie auch anderer relevanter
die Blöcke durch ein In-Memory-Blockinventar (Global Re- Caches. Beim Lesevorgang eines Nodes wird nach erfolgloser
source Directory, GRD) und Global Enqueue Service auf ak- Suche im lokalen Cache im GBP nach den Blöcken gesucht.
tive Schreibsperren und weitere wartende Instanzen geprüft, Werden die Daten vom Festspeicher in den lokalen Cache
um anschließend eigene Schreibsperren zu setzen, die wieder- geladen, wird dies ebenfalls dem GBP bekannt gemacht. [9,
um im GRD vermerkt und anderen Nodes bekannt gemacht 6]
werden. Die verwendeten Komponenten werden unter dem Ein integrierter Watchdog-Prozess überwacht permanent
Begriff Cache Fusion zusammengefasst und ermöglichen zu- die Verfügbarkeit sämtlicher Knoten. Wird der Ausfall eines
dem beim Datenzugriff das direkte Versenden von Daten Knotens bemerkt, stehen bis zum Instanzneustart lediglich
zwischen Buffer-Caches verschiedener Nodes. Oracle RAC die momentan von diesem Knoten aktualisierten Tupel nicht
vermeidet somit Cache-Kohärenz und ein SPoF durch einen zur Verfügung. Logs werden im Gegensatz zu Oracle RAC
globalen Cache, jedoch auf Kosten von sehr viel Kommuni- auf den gemeinsamen Festspeicher geschrieben und sind für
kation.[12, 5] die Recovery von anderen Knoten lesbar.

3.2 IBM DB2 PureScale 3.3 MySQL Cluster
MySQL Cluster basiert im Gegensatz zu den Lösungen
Das Design der IBM-Clusterlösung DB2 pureScale basiert
von IBM und Oracle auf einer Shared-Nothing-Architektur,
auf der Architektur des bewährten Parallel Sysplex für Sys-
weshalb die bis zu 255 Datenknoten nicht parallel auf einen
tem z1 . Sie ermöglicht durch eine Shared-Disk-Architektur
gemeinsamen Datenbestand zugreifen, sondern jeder Daten-
den gemeinsamen Zugriff von bis zu 128 Datenbankservern
knoten einen Teil des Gesamtdatenbestands verwaltet. Die
auf einen gemeinsamen Datenbestand, der durch IBMs Ge-
Tabellen werden bei diesem Ansatz horizontal partitioniert.
neral Parallel File System zur Verfügung gestellt wird. Die
MySQL Cluster stellt keine spezifischen Voraussetzungen an
Abbildung 2 zeigt, dass der Cluster neben den Datenbank-
zu verwendende Netzwerke oder Server und unterstützt In-
servern aus Cluster Facilities (CF) besteht. Um einen SPoF
Memory- als auch Festpeicher-Datenspeicherung. Auf das
zu verhindern, ist diese Komponente meist doppelt ausge-
System wird über vollwertige MySQL-Server zugegriffen. Sie
legt. Sie kann ein eigenständiges System sein oder auf einem
sind mit einer Schnittstelle zur NDB-Engine versehen und
Clusterknoten betrieben werden. Die CF ermöglicht die zen-
werden zudem für verschiedene Funktionen wie Views, Trig-
trale Verwaltung der Sperren (Global Lock Table, GLT) und
ger oder Volltext-Indizes verwendet, die von der NDB-En-
1
Auf eine gesonderte Beschreibung des Parallel Sysplex wird gine nicht unterstützt werden. Die Management-Server sind
aufgrund analoger Konzepte verzichtet. für die Konfiguration des Clusters zuständig, während die

33
Datenknoten zur Speicherung der Daten und der Verwal- MySQL-Server ausgelagert werden, um deren Performance
tung von Transaktionen dienen. Knoten, die deckungsgleiche und Verfügbarkeit manuell gesorgt werden muss. Daher bie-
Inhalte verwalten, werden zu einer Datenknotengruppe zu- tet sich der MySQL Cluster vor allem in Szenarien mit ei-
sammengefasst, in der die synchrone Replikation der Knoten ner Vielzahl simpler Anfragen und hohen Latenz- und Ver-
dazu führt, dass der Ausfall von Knoten keine aufwändige fügbarkeitsanforderungen an, während die Einsatzmöglich-
Instanz -Wiederherstellung nach sich zieht. Somit müssen keiten von Oracle RAC und DB2 pureScale kaum begrenzt
Undo- und Redo-Dateien anderen Knoten nicht sichtbar ge- sind.
macht werden und das System ist verfügbar, solange ein Da-
tenknoten je Gruppe erreichbar ist. Da beim Ausfall eines 4. NOSQL-BEWEGUNG
Knotens die Aktualisierung einer zentralen Sperr- und Puf- In den letzten Jahren gewinnen so genannte NoSQL-Sys-
ferverwaltung nicht nötig ist, können sehr geringe Failover- teme zur Verwaltung von Daten zunehmend an Bedeutung.
Zeiten erzielt werden. Zudem werden asynchron Checkpoints Einige Kritikpunkte bei der Verwendung relationaler (Clus-
auf einen Festspeicher geschrieben, um auf den Ausfall kom- ter-)Systeme in der Welt der Services regten Unternehmen
pletter Gruppen reagieren zu können bzw. einen System- zur Eigenentwicklung von Systemen zur Datenspeicherung
Reboot zu ermöglichen. Durch den Einsatz der MySQL Clus- und -verarbeitung an, die bewusst auf Merkmale relatio-
ter Carrier Grade Edition kann Hochverfügbarkeit durch die naler DBMS verzichten, um sich auf einen Anwendungsfall
Realisierung geografischer Replikation erzielt werden.[10, 11, zu spezialisieren. Ausgehend von den technischen Beschrei-
5] bungen von Systemen bekannter Internetgrößen entstanden
im Laufe der letzten Jahre eine Vielzahl von Open-Source-
3.4 Bewertung Systemen. Diese kopierten, kombinierten und erweiterten die
Die vorgestellten Datenbankcluster ermöglichen Skalier- Konzepte der Ausgangssysteme mit dem Ziel, den Anfor-
barkeit sowohl durch Einsatz leistungsstärkerer Server als derungen der Unternehmen gerecht zu werden. Der Begriff
auch durch das Hinzufügen weiterer Server. Trotz verschie- NoSQL“ umfasst all jene Systeme und wird inzwischen übli-
”
dener Realisierungen verfügen sie über effiziente Strategi- cherweise als Not only SQL“ ausgelegt. Das Ziel dieser Sys-
”
en für die wesentlichen Herausforderungen im Kontext der teme besteht im Aufzeigen von Alternativen zu relationalen
Skalierbarkeit: Logging, Locking und die Verwaltung von Datenbanksystemen und nicht in deren Ablösung.
Zwischenspeichern[13]. Im Gegensatz zum Shared-Nothing-
Ansatz von MySQL Cluster basieren Oracle RAC und DB2 4.1 Zielstellungen
pureScale auf einer Shared-Disk-Architektur und benötigen Mangels einer anerkannten Definition des Begriffs NoS-
”
wegen ihrer nahen Knotenkopplung schnelle Kommunikation QL“ werden im Folgenden entsprechend der in Abschnitt 2
mittels Hochleistungsnetzwerken. Diese ist für die aufwändi- beschriebenen Herausforderungen die wesentlichen Zielstel-
ge Kommunikation der Sperr- und Cachingverwaltung bei lungen der NoSQL-Systeme zusammengefasst, wobei diese
gegebener Performance notwendig. als Obermenge der Ziele jedes einzelnen NoSQL-Systems zu
Alle Systeme bieten hohe Ausfallsicherheit bis hin zu Un- sehen sind.
terstützung einer Disaster-Recovery über die Anbindung ent- Performance, Skalierbarkeit: Untersuchungen wie [14]
fernter Standby-Systeme. Serverausfälle werden beinahe un- zeigen, dass die Performance moderner RDBMS in verschie-
mittelbar erkannt, die Wiederherstellung ist in kürzester Zeit denen Bereichen um ein Vielfaches übertroffen werden kann.
möglich und führt kaum zu wenig Einschränkungen. Wäh- Als Grund wird vor allem die nach wie vor auf System R
rend bei Oracle RAC im Fehlerfall bis zum Neuaufbau des basierende und stets erweiterte Architektur gesehen, wel-
CGS für einen Augenblick keine Datenmodifikation durchge- che in der Client-Server-Welt hervorragende Dienste leistet,
führt werden können, stehen bei DB2 PureScale die vom aus- für die Welt der Services und die verschiedenden Leistungs-
gefallenen Knoten aktuell veränderten Daten bis zur Instanz- und Kapazitätsverhältnisse von Prozessoren, Fest- und Ar-
Wiederherstellung nicht zur Verfügung. MySQL Cluster be- beitsspeicher jedoch neuer Architekturansätze bedarf [16].
sitzt durch den Shared-Nothing-Ansatz in Verbindung mit Das Hauptziel der meisten NoSQL-Datenspeicher ist das
synchroner Replikation der In-Memory-Daten im Fehlerfall Erreichen linearer horizontaler Skalierbarkeit zur Verarbei-
kaum Einschränkungen. tung riesiger Datenmengen. Sie nutzen hierfür überwiegend
Die wesentlichen Nachteile von Oracle RAC und DB2 pu- Shared-Nothing-Architekturen in Verbindung mit horizonta-
reScale bestehen im Kontext der Anforderungen in Abschnitt ler Partitionierung der Daten. Das im Jahre 2002 bewiesene
2 vor allem in den enormen Kosten für Lizenzen, spezielle Eric Brewers CAP-Theorem besagt, dass nur zwei der drei
Hardware und Wartung im Vergleich zu MySQL Cluster. folgenden Eigenschaften eines verteilten Systems erfüllt sein
Insbesondere sind hier der vor Ausfällen zu schützende Sha- können [4].
red Storage, das Cluster-Dateisystem sowie leistungsstarke • Consistency: Zu jedem Zeitpunkt sehen alle Knoten
Netzwerke für die Clusterkommunikation und Cache Fusion denselben Datenbestand.
bzw. die Cluster Acceleration Facilities zu nennen. Oracle
RAC wurde zudem in den vergangenen Jahren um diverse • Availability: Knoten können Datenbestände jederzeit
Features ergänzt, die zu einer System-Komplexität führten, schreiben und lesen.
die eine intensive Einarbeitungszeit unabdingbar macht.
• Partition tolerance: Das System arbeitet trotz einer
Ein wesentlicher Vorteile von Oracle RAC und DB2 pu-
Zerteilung in Teilsysteme weiter.
reScale ist hingegen die einfache Migration von Anwendun-
gen auf die Clustersysteme, da keine Änderung des Anwen- Während relationale Datenbanksysteme stets auf die Wah-
dungscodes notwendig ist. Da die NDB-Engine von MySQL rung der Konsistenz bestehen und dies zur Beeinträchtigung
Cluster nur einen Teil der Funktionen von InnoDB und My- der Performance und Skalierbarkeit nach sich zieht, verfol-
ISAM unterstützt, müssen fehlende Funktionalitäten auf die gen viele NoSQL-Systeme den im Abschnitt 2 aufgefassten

34
Ansatz, strenge Konsistenzforderungen zugunsten der Per- Komplexitäts- und Mächtigkeitsgrades genutzt, was aus Sicht
formance aufzugeben. des Programmierers ein Fortschritt, aus Sicht eines Daten-
Ausfallsicherheit: Ein Großteil der NoSQL-Systeme bie- bänklers aber durchaus als Rückschritt gesehen werden kann
tet hervorragende Replikations- und Failovertechniken, um [2]. Insbesondere der Verzicht einiger NoSQL-Systeme auf
Ausfälle von Knoten innerhalb einer Shared-Nothing-Archi- die Gewährleistung der ACID-Eigenschaften führt dazu, dass
tektur zu kompensieren, indem das System vor Datenverlust ein Großteil von Unternehmen den Einsatz dieser Systeme
geschützt und der laufende Betrieb minimal beeinflusst wird. ausschließen wird.
Schemaflexibilität: NoSQL-Systeme verdeutlichen, dass
neben dem relationalen Datenbankmodell andere Datenmo- 5. VERBINDUNG BEIDER WELTEN
delle existieren, die Daten gemäß ihrer Eigenschaften ad-
Relationale Datenbanksysteme bieten aufgrund jahrelan-
äquat speichern, ohne sie in ein fixes Datenbankschema zu
ger Forschung und Entwicklung u.a. eine enorme Verbrei-
fügen. Für einfache, schemafreie Daten bieten Key-Value-
tung und Bekanntheit, ein ausgereiftes mathematisches Fun-
Stores die Möglichkeit, mehrattribute Objekte anhand eines
dament, die Datenbanksprache SQL und nicht zuletzt zu-
eindeutigen Schlüssels zu speichern und abzufragen. Dokum-
gesicherte Transaktionseigenschaften durch ACID. Auf der
enten-basierte Systeme erlauben zudem das Speichern kom-
anderen Seite existieren NoSQL-Systeme, deren Verbreitung
plexerer Inhalte wie verschachtelte Daten und bieten durch
sich in der Regel auf wenige Web-Anwendungen beschränkt.
leistungsfähigere Abfragesprache beispielsweise das Suchen
Charakterisiert durch die in Abschnitt 4 zusammengefass-
auf beliebigen Attributen. Wide-Column-Stores vereinen hin-
te Eigenschaften sowie die verwendeten Konzepte, weisen
gegen Vorzüge des Relationenmodells mit Funktionalitäten
sie zum Teil Zielstellungen auf, die sich deutlich von der
wie flexiblen Schemata und Versionierung. Diese Datenmo-
Zielstellung klassischer relationaler Datenbanksysteme un-
delle werden beispielweise durch die Graphen-DBS ergänzt.
terscheidet.
Die Komplexität des Datenmodells spiegelt sich meist in der
Eine Verbindung von Konzepten und Implementierungen
zur Verfügung gestellten Programmierschnittstelle bzw. Ab-
relationaler Datenbanksysteme und NoSQL Data Stores kann
fragesprache wieder, es existieren für die Datenmodelle kaum
dazu genutzt werden, die Vorteile beider Welten zu vereinen.
standardisierte Notationen und standardisierte, deskriptive
Im Folgenden werden mögliche Ansätze zur Vereinigung an-
Sprachen. Entsprechend ihrer Zielstellung bieten sie häufig
hand stellvertrender Beispiele vorgestellt.
auf REST basierende Schnittstellen.[15]
Kosten: Das Gros der Systeme wird als Open Source 5.1 Erweiterungen von NoSQL-Produkten
und mit wenigen Nutzungseinschränkungen zur Verfügung
NoSQL-Systeme wurden in der Regel für ein spezielles An-
gestellt. Die Installation und Verwendung der Systeme ist
wendungsgebiet entwickelt. Durch eine Erweiterung der Sys-
meist unkompliziert. Zudem ist häufig ein Betrieb auf güns-
teme kann ihr Einsatzbereich vergrößert werden, wodurch sie
tigen Commodity Servern möglich, da Einschränkungen be-
die Aufmerksamkeit von mehr Unternehmen auf sich ziehen
züglich der zu verwendenen Hardware kaum vorhanden sind
können. Somit wird neben der Erweiterung der Funktionali-
und geläufige Betriebssysteme unterstützt werden.
tät auch die Bekanntheit des Produkts gesteigert. Ein Bei-
4.2 Bewertung spiel für diesen Ansatz ist das Produkt Hive[17], welches das
NoSQL-System Hadoop um die deskriptive, SQL-ähnliche
NoSQL-Datenspeicher sind hervorragend geeignet, um kos-
Sprache HiveQL erweitert und Schnittstellen in Form ei-
tengünstig skalierbare und hochverfügbare Datenspeicherung
nes CLIs, einer Web-Gui und JDBC/ODBC bietet. Zudem
und -verarbeitung in einem begrenzten Anwendungsfall be-
schafft es durch komplexe Analysen und das Absetzen von
reitzustellen. Aus Sicht dieser Systeme sind die größten Hür-
Ad-hoc-Abfragen die Voraussetzung, Hadoop für Data Ware-
den beim Einsatz relationaler Systeme für Web-Applikatio-
housing zu nutzen.
nen nicht das relationale Datenbankmodell, ACID oder gar
SQL. So zeigen aktuelle Entwicklungen im Bereich relationa- 5.2 Hybridsystem
ler Datenbanksysteme wie VoltDB2 oder HyPer3 , dass diese
Hybride Systeme wie HadoopDB[1] führen zu einem Kom-
Merkmale eine lineare Skalierbarkeit nicht zwingendermaßen
promiss zwischen zwei unterschiedlichen Produktwelten und
ausschließen. Im Zentrum der Beanstandungen stehen hin-
erschaffen dabei Produkte mit neuen Funktionalitäten. Das
gegen die Tatsachen, dass keine bewährten parallelen und
Open-Source-Produkt HadoopDB kombiniert MapReduce in
hochverfügbaren Open Source RDBMS existieren und die
Form der Implementierung Hadoops sowie Hive und Post-
Implementierung bewährter relationaler DBMS häufig kei-
greSQL, wobei das System bereits mit anderen Datenbank-
ne hinreichende Skalierbarkeit zulässt.
systemen getestet wurde. HadoopDB kann sowohl SQL-An-
Die Spezialisierung der NoSQL-Systeme auf eine wenige
fragen als auch MapReduce-Jobs entgegennehmen und bie-
Anwendungsgebiet verwehrt in vielen Fällen den Einsatz
tet den Zugriff auf Hadoops verteiltes Dateisystem HDFS
bei sich ändernden Anforderungen, wie beispielsweise dem
oder alternativ auf ein Datenbanksystem wie PostgreSQL
Wunsch komplexer Abfragen auf Daten bei simplen Daten-
an. In der Folge sind Nutzer durch die Verwendung von Ha-
modellen. Bei der Nutzung eines relationalen DBMS wären
doopDB in der Lage, mittels SQL auf ein Shared-Nothing-
hierbei kaum Änderungen vonnöten, während ein NoSQL-
DBMS zuzugreifen.
System angepasst oder gar ausgetauscht werden muss. Ein
Austausch gestaltet sich zudem schwierig, da es den Syste- 5.3 Anpassung von RDBMS
men an standardisierten Notationen und Schnittstellen man-
Der Abschnitt 4 verdeutlicht, dass die bewährten funda-
gelt. Zudem werden statt deskriptiven Sprachen je nach Da-
mentalen Konzepte hinter dem relationalen Datenbankmo-
tenmodell meist Low-Level-Abfragesprachen verschiedenen
dell mit Anforderungen wie enormer Skalierbarkeit vereinbar
2
http://voltdb.com/ sind, es hierzu jedoch einer Anpassung der von System R
3
http://www3.in.tum.de/research/projects/HyPer/ abstammenden Architektur bedarf. Die Implementierungen

35
von DBMS müssen sich durch geeignete Konfigurationsmög- von bereits wenige Beispiele existieren. Als Mittel der Wahl
lichkeiten weit mehr als bisher an verschiedene Einsatzzwe- zur Vereinigung von Konzepten relationaler Datenbanksys-
cke anpassen lassen. Realisiert werden kann dies beispielswei- teme und NoSQL-Systeme zeichnen sich jedoch aus Sicht
se durch die Ausnutzung der Austauschbarkeit von Kompo- des Autors flexible RDBMS-Implementierungen ab, die sich
nenten in modularen DBMS-Architekturen wie [7] oder die gezielter als in aktuellen Systemen an verschiedene Einsatz-
Implementierung von adaptierbaren DBMS-Komponenten. zwecke anpassen lassen. Als mögliche Ansatzpunkte wurden
Ein möglicher Ansatzpunkt dieses Konzepts könnte das die Implementierung verschiedener Storage-Engines und wei-
Anbieten einer wahlweisen Speicherung auf langsamen, per- terer Transaktionskonzepte vorgeschlagen.
sistenten Festspeichern oder im schnellen, flüchtigen Arbeits-
speicher oder einer kombinierten Lösung sein, was bereits in 7. LITERATUR
einigen Systemen wie dem in Abschnitt 3.3 beschriebenen [1] A. Abouzeid, K. Bajda-Pawlikowski, D. Abadi,
MySQL Cluster möglich ist. Hierdurch bieten sich entspre- A. Silberschatz, and A. Rasin. HadoopDB: an
chend der Charakteristika und des Umfang der zu speichern- architectural hybrid of MapReduce and DBMS
den Daten sowie den Zugriffseigenschaften verschiedene Ein- technologies for analytical workloads. In VLDB ’09,
satzmöglichkeiten. Orthogonal kann wahlweise eine spalten- pages 922–933. VLDB Endowment, 2009.
oder zeilenbasierte Speicherung angeboten werden, um so-
[2] D. J. DeWitt and M. Stonebraker. MapReduce: A
wohl im OLTP- als auch im OLAP-Bereich überzeugende
major step backwards, 2008.
Leistungskennzahlen zu erzielen. Für die Implementierung
[3] D. Florescu and D. Kossmann. Rethinking cost and
bieten einige Systeme bereits verschiedene Storage-Engines
performance of database systems. SIGMOD Rec.,
innerhalb eines Systems.
38:43–48, June 2009.
Auch die Transaktionsverwaltung relationaler Datenbank-
systeme bietet sich bezüglich einer Erweiterung an, indem [4] S. Gilbert and N. Lynch. Brewer’s conjecture and the
neben den harten Anforderungen von ACID und den heute feasibility of consistent, available, partition-tolerant
wählbaren Isolationsszenarien weitere Transaktionskonzep- web services. SIGACT News, 33:51–59, June 2002.
te mit schwächeren Anforderungen integriert werden und [5] T. Grebe. Gruppendynamik – Oracle Real Application
Administratoren die Wahl des Transaktionskonzepts über- Cluster vs. MySQL Cluster. databasepro, (6):46–63,
lassen wird. Aus Sicht des in Abschnitt 4 angesprochenen 2010.
CAP-Theorems könnten je nach Konfiguration des Systems [6] IBM. Transparent Application Scaling with IBM DB2
verschiedene CAP-Eigenschaften erfüllt werden und somit pureScale. Technical report, IBM, 2009.
das Datenbanksystem an verschiedene Einsatzzwecke ange- [7] F. Irmert, M. Daum, and K. Meyer-Wegener. A new
passt werden. Die Realisierung kann beispielsweise über ein approach to modular database systems. In EDBT
autonomes Modul zur Transaktionsverwaltung in einer mo- Workshop der SETMDM ’08, pages 40–44, New York,
dularen DBMS-Architektur gemäß [8] erfolgen. NY, USA, 2008. ACM.
[8] F. Irmert, C. P. Neumann, M. Daum, N. Pollner, and
K. Meyer-Wegener. Technische Grundlagen für eine
6. ZUSAMMENFASSUNG laufzeitadaptierbare Transaktionsverwaltung. In BTW
In diesem Beitrag wurde die Notwendigkeit adaptierbarer ’09, pages 227–236, Münster, Germany, 2009.
flexibler RDBMS-Implementierungen aufgezeigt. Als Grund- [9] A. Maslo. Unendliche Weiten – IBM DB2 pureScale
lage diente der Vergleich von Oracle RAC, IBM DB2 PureS- für Power Systems. databasepro, (1):82–86, 2010.
cale und MySQL Cluster. Er verdeutlichte, dass die Herstel- [10] MySQL. Hochverfügbarkeitslösungen von MySQL –
ler zum Erreichen des Ziels eines horizontal skalierbaren und Ein Überblick über die Hochverfügbarkeitslösungen
hochverfügbaren Clusterdatenbanksystems gemäß verschie- von MySQL. Technical report, MySQL AB, 2007.
dener Implementierungsansätze verfahren. Während Oracle [11] Oracle. MySQL Cluster 7.0 & 7.1: Architektur und
RAC und IBM DB2 PureScale sich durch gute Lastbalan- neue Funktionen. Technical report, Oracle, Inc., 2010.
cierung, effizientes Logging, Locking und Caching sowie ein- [12] Oracle. Oracle Real Application Clusters
fache Migration von Anwendungen auf die Clustersysteme Administration and Deployment Guide, 11g Release 2.
hervorheben, ist MySQL Cluster vor allem durch geringe Technical report, Oracle Corporation, 2010.
Ansprüche bezüglich der verwendeten Hardware und unkom-
[13] M. Stonebraker. The NoSQL Discussion has nothing
plizierte Fehlerbehandlung aufgrund der Shared-Nothing-Ar-
to do with SQL. Blog-Eintrag, 2010.
chitektur gekennzeichnet.
[14] M. Stonebraker, C. Bear, U. Çetintemel,
NoSQL Data Stores stellen vermehrt eine Alternative zu
M. Cherniack, T. Ge, N. Hachem, S. Harizopoulos,
RDBMS dar, die Systeme sind jedoch meist auf den Einsatz
J. Lifter, J. Rogers, and S. Zdonik. One size fits all -
in wenigen Anwendungsgebieten limitiert. Zudem mangelt
Part 2: benchmarking results. In In CIDR, 2007.
es ihnen an Standardisierung und vor allem die Low-Level-
Abfragesprachen sind aus Sicht der Datenbankforschung als [15] M. Stonebraker and R. Cattell. Ten Rules for Scalable
Rückschritt zu werten. Performance in Simple Operation“ Datastores.
”
Durch die Verknüpfung bewährter Konzepte und Imple- Communications of the ACM, 2010.
mentierungen der RDBMS mit Ansätzen der NoSQL-Bewe- [16] M. Stonebraker, S. Madden, D. J. Abadi,
gung können Vorteile beider Welten vereint werden. Die Er- S. Harizopoulos, N. Hachem, and P. Helland. The end
weiterung eines NoSQL-Systems führt nicht nur zu zusätzli- of an architectural era (it’s time for a complete
chen Funktionalitäten, sondern steigert zudem die Bekannt- rewrite). In VLDB ’07, pages 1150–1160. VLDB
heit und eröffnet neue Einsatzbereiche. Eine weitere Mög- Endowment, 2007.
lichkeit stellt eine Kombination von RDBMS- und NoSQL- [17] A. Thusoo. Hive - A Petabyte Scale Data Warehouse
Implementierungen in Form eines hybriden Systems dar, wo- using Hadoop. Technical report, Facebook Inc., 2009.

36
Ad-hoc Datentransformationen für Analytische
Informationssysteme

Christian Lüpkes
OFFIS - Institut für Informatik
Escherweg 2
26121 Oldenburg, Deutschland
christian.luepkes@offis.de

ABSTRACT ganisierten Taxonomien, sogenannten Dimensionen, gespei-
Beim Betrieb von Data Warehouse Systemen kann es zu ei- chert. Dimensionen beschreiben, wie die Daten analysiert
nem Semantic Shift kommen. Dieser bezeichnet eine Verän- werden können.
derung der Bedeutung von Dimensionselementen und kann Das Data Warehouse ist dabei nach der Definition von
bei Nichtbeachtung zu Informationsverlust und fachlich in- Inmon eine themenorientierte, integrierte, stabile Sammlung
korrekten Analyseergebnissen führen. In dieser Arbeit wird zeitbezogener Daten, welche als Datenbasis zur Analyse dient
ein graph-basierter Ansatz vorgeschlagen, welcher die Ände- [9]. Data Warehouses haben also immer einen Zeitbezug, bie-
rungen zwischen Dimensionen als Überleitungen verwalten ten aber keine hochentwickelten Konzepte, um mit Änderun-
und für Analysen zur Verfügung stellen kann. Dadurch wird gen in den Metadaten über die Zeit umzugehen. Klassisch
es möglich, Anfragen in Analytischen Informationssystemen wird davon ausgegangen, dass die Metadaten über die Zeit
unter Berücksichtigung eventueller Semantic Shifts zu be- weitgehend stabil sind [7] [11]. Falls die Metadaten in Einzel-
antworten. Dieser Ansatz verzichtet dabei auf eine kennzahl- fällen doch angepasst werden müssen, werden die gespeicher-
basierte Approximation und nutzt die Überleitungen klassi- ten Daten einfach den neuen Metadaten entsprechend umco-
scher Adaptionsverfahren. Der eingeführte Ansatz wird kri- diert, die sogenannte Instanzadaption [2] [11]. Der Nachteil
tisch hinsichtlich bestehender Ansätze diskutiert und exem- dieses Ansatzes ist, dass beim Umcodieren üblicherweise ein
plarisch in verschiedenen Domänen durchgeführt. Informationsverlust entsteht. Zudem wird durch die Ände-
rung der Metadaten und die Instanzadaption eine Wieder-
holung früherer Anfragen unmöglich. Außerdem besteht bei
Categories and Subject Descriptors klassischen Systemen keine Möglichkeit die spezifischen In-
H.2.7 [Database Management]: Administration — Da- formationen der Metadatenänderungen zu speichern, da die
ta warehouse and repository; H.2.8 [Database Manage- Metadaten selbst nicht zeitbezogen gespeichert werden [12].
ment]: Applications; H.4 [Information Systems Appli-
cations]: Miscellaneous
2. PROBLEMBESCHREIBUNG
Um das identifizierte Problem des Semantic Shift bei Da-
General Terms tenanalysen zu verdeutlichen, soll an dieser Stelle zunächst
Design, Data Analysis ein Beispiel aus der Arbeit des Autors im deutschen Ge-
sundheitswesen gegeben werden. Dort werden alle Diagno-
Keywords sen nach der ICD-Klassifikation, der International Statisti-
cal Classification of Diseases and Related Health Problems,
Data warehouse, Schema Versioning, OLAP, Temporal Data codiert. Die Klassifikation selbst beinhaltet sowohl beschrei-
Warehouse bende als auch ordnende Metadaten und wird als Dimension
zur Datenanalyse verwendet. Die deutsche Modifikation der
1. EINLEITUNG WHO-ICD, ICD-GM (German Modifikation), wird dabei je-
Die am meisten verwendete Architektur für Analytische des Jahr durch eine Expertengruppe des DIMDI, Deutsches
Informationssysteme ist die des Data Warehouses mit Me- Institut für Medizinische Dokumentation und Information
tadaten, welche die gespeicherten Daten beschreiben und ei- aktualisiert [3] [4] [5].
ner auf diesen Metadaten aufbauender Auswertungssoftwa- Die Aktualisierungen bestehen darin, dass neu identifi-
re. Die Metadaten werden dabei in streng hierarchisch or- zierte Erkrankungen einen Code zugewiesen bekommen, Er-
krankungen zusammengefasst werden oder einzelne Krank-
heitsbereiche neu unterteilt werden. So wurde zum Beispiel
im Jahr 2006 der Code J09 für die neu identifizierte Vogel-
grippe eingeführt.
Um die Daten zwischen den Jahren transformieren zu kön-
nen, stellt das DIMDI zusätzlich sogenannte Überleitungen
in einem Datenbankformat zur Verfügung. In den Abbildun-
gen 1 und 2 sind diese exemplarisch in Ausschnitten für die
23rd GI-Workshop on Foundations of Databases (Grundlagen von Daten-
banken), 31.05.2011 - 03.06.2011, Obergurgl, Austria. Jahre 2005 bis 2007 gezeigt. Der Buchstabe A zeigt dabei
Copyright is held by the author/owner(s). an, ob eine Überführung automatisch in der durch die Spal-

37
2005 2006 2007
icd_code2005 icd_code2006 auto2005_2006 auto2006_2005
J10.0 J10.0 A A J10 J09-J10 J09-J10
J10.0 J09 A
J10.1 J10.1 A A
J10.8
J10.0 J09 J10.8
J10.0 J10.8
J10.0
J10.8 J10.8 A A J09

J10.0
J10.8 J10.1 J10.0
J10.8 J10.1 J10.0
J10.8 J10.1

Abbildung 1: Ausschnitt der offiziellen ICD Über-
leitungen zwischen den Jahren 2005 und 2006
Abbildung 4: Darstellung dreier Teilgraphen der
ICD-GM Metadaten für Influenzaviren und deren
tenüberschrift festgelegten Richtung möglich ist. Überleitung über die Jahre 2005 bis 2007

icd_code2006 icd_code2007 auto2006_2007 auto2007_2006
J09 J09 A A ist dies unproblematisch, da es keinerlei Änderungen in der
J10.0 J10.0 A A Datenbeschreibung gab; zu erkennen an der Existenz der bi-
J10.1 J10.1 A A jektiven Kanten zu den gleichen Knoten jedes Jahres. Das
J10.8 J10.8 A A Problem des Semantic Shift tritt auf, wenn J10.0 für die
Jahre 2005 bis 2007 untersucht werden soll. Es ist nicht ein-
Abbildung 2: Ausschnitt der offiziellen ICD Über- deutig, welche Bedeutung von J10.0 verwendet werden soll.
leitungen zwischen den Jahren 2006 und 2007 Falls die Bedeutung des Codes J10.0 vom Jahr 2005 beab-
sichtigt ist, sollte für die Folgejahre auch der Code J09 be-
Im Jahr 2005 auf 2006 ist es zum Beispiel möglich, den rücksichtigt werden. Falls die Semantik von 2006 oder 2007
Code J10.0 zwischen den Jahren umzucodieren. Allerdings gemeint ist, muss dem menschlichen Analysten bewusst sein,
gibt es noch einen zweiten Eintrag von J10.0 auf J09 bei dass es eine inhaltliche Änderung vom Jahr 2005 zu 2006 für
dem nur eine Umcodierung von 2006 auf 2005 zugelassen J10.0 gab auch wenn die Daten syntaktisch identisch sind
ist. und Transitionen in beide Richtungen existieren.
In Analytischen Informationssystemen werden die Daten Das analysespezifische Hintergrundwissen des Fachexper-
meist nach der aktuellsten ICD-Definition gespeichert. Da- ten ist, dass J10.0 ein Sammelknoten für nicht genauer be-
ten aus dem Jahr 2005 würden also im Jahr 2006 und 2007 stimmte Influenzaviren ist. Wie bereits oben erwähnt, wurde
umcodiert. Entsprechend den Überleitungsregeln aus den in 2006 die Vogelgrippe identifiziert und als neuer Code J09
Abbildungen 1 und 2 würde der Wert J10.0 syntaktisch eingefügt. Dadurch wurde die Bedeutung von J10.0 als al-
gleich bleiben und nicht umcodiert werden. le unbestimmten Influenzaviren zwar nicht verändert, aber
Eine typische Anfrage wäre nun der Art Zeig mir die verglichen mit 2005 fehlen nun die Vogelgrippefälle. Für sta-
” tistische Analysen auf solch einer feingranularen Ebene wür-
jährliche Summe aller behandelten J10.0 Patienten der Jah-
re 2005, 2006 und 2007“ welche das in Abbildung 3 gezeigte den daher fehlerhafte Ergebnisse geliefert. Bei einer Analyse
Ergebnis liefert. Im Jahr 2006 gab es also im Vergleich zum auf den Elternknoten J10 des Jahres 2005 oder J09-J10 der
Vorjahr eine Abnahme von J10.0 Patienten die sich im Jahr Jahre 2006 und 2007 wären die Resultate korrekt, da alle
2007 noch deutlicher fortsetzt. Transformationskanten auf Kindknoten verweisen.
Für die Ergebnisse in Abbildung 3 bedeutet dies, dass die
Abnahme der J10.0 Erkrankungen auch darin begründet
Summe der behandelten J10.0 Patienten nach Jahr
liegt, dass Krankheitsfälle in J09 codiert wurden, die vorher
in J10.0 enthalten waren.
2005 2006 2007
18347 17913 17548 2.2 Weitere Domänen
Der Semantic Shift kann nicht nur in der medizinischen
Abbildung 3: Summe aller behandelten J10.0 Pati- Dokumentation beobachtet werden, sondern auch in anderen
enten der Jahre 2005, 2006 und 2007 Bereichen. So kann man z.B. für die Entwicklung der Länder
Europas von 1988 bis 2000 bedingt durch den Zusammen-
bruch des Warschauer Pakts ähnliches feststellen. Allerdings
2.1 Darstellung als Graph muss dort beachtet werden, dass es sich bei den abgeleiteten
In Abbildung 4 ist exemplarisch ein Ausschnitt der ICD- und angepassten Metadaten nicht um gesetzlich vorgegebene
Klassifikation für nachgewiesene sonstige Influenzaviren der Dimensionsstrukturen handelt, sondern um von Fachexper-
Jahre 2005 bis 2007 abgebildet. Der Graph repräsentiert da- ten erstellte Dimensionen. Dies ist der Normalfall bei Da-
bei die offizielle Taxonomie der ICD Codes und die gerichte- ta Warehouses. Die Dimension soll alle Länder im Herzen
ten Kanten repräsentieren die offiziell als gültig definierten Europas widerspiegeln. Bis zum Jahr 1991 gab es die bei-
Transformationsregeln für Umcodierugnen der drei abgebil- den eigenständigen deutschen Staaten BRD und DDR. In
deten Jahre 2005, 2006 und 2007, wie sie in den Tabellen der Dimension wären diese dann als Blätter verfügbar. Mit
der Abbildungen 1 und 2 definiert sind. der Wiedervereinigung wird das Blatt DDR gelöscht und
In einem Data Warehouse werden die zu analysierenden die dazugehörigen Daten der BRD zugeordnet. Der Begriff
Daten in der Regel auf der feinsten verfügbaren Klassifika- BRD ist also syntaktisch gleich geblieben, beschreibt nun
tionsstufe vorgehalten. Veranschaulicht handelt es sich also aber einen deutlich größeren Bereich.
um die Ausprägungen der Blätter. Falls eine Analyse der Würde man die Daten der BRD betrachten, so könnte
Erkrankungen J10.1 oder J10.8 durchgeführt werden soll, man z.B. in 1991 eine deutliche Steigerung der Einwohner-

38
zahl feststellen. Dies wäre aber nicht durch hohe Geburtsra- Die am weitest gehende Lösung für das präsentierte Pro-
ten begründet, sondern durch die größere betrachtete Fläche blem wurde 2002 in [12] veröffentlicht. Ein formales Tem-
infolge der Wiedervereinigung mit der DDR. poral-Modell für die Beschreibung von Änderungen in den
Die umgekehrte Richtung kann man bei der Tschechoslo- Dimensionen wurde dazu eingeführt [7]. Es wurden entspre-
wakei beobachten. Bis 1990 war es die ČSSR, dann wurde chende Transformationsfunktionen definiert, welche die er-
das gleiche Land umbenannt in ČSFR und im Jahr 1992 laubten Datenänderungen beschreiben. Der Ansatz ermög-
aufgeteilt in die zwei Staaten Slowakei SR und Tschechien licht dabei Anfragen über verschiedene Versionen der Di-
ČR. Für den letzt genannten Fall würde in der Dimension mensionen hinweg, indem die Daten zur Anfragezeit adap-
ein Blatt gelöscht und dafür zwei neue Blätter eingefügt. Die tiert werden. Der Nachteil des Ansatzes liegt in der Realisie-
dazugehörige Transformationsregel wäre, dass es keine Mög- rung der Instanzadaption durch die Verwendung von Matri-
lichkeit gibt, ČSFR auf SR und ČR abzubilden, wohl aber zenmultiplikation. Jeder Wert einer Dimensionsversion muss
in der Gegenrichtung. von Fachexperten mit einem Koeffizienten versehen werden,
der aussagt wie ähnlich der Wert dem Nachfolger in der ver-
1989 1990 1991 1992 bundenen Dimensionsversion ist. Dies erlaubt eine Abschät-
Alle Alle Alle Alle zung, um den Semantic Shift zu lösen. Jedoch hat dies zwei
Nachteile. Zum einen muss der Koeffizient für jede Verwen-
CSSR CSFR CSFR CR SR
dung der Dimension in einer Kennzahl individuell angege-
ben werden, da sich die Koeffizienten für z.B. Erkrankungs-
BRD DDR BRD DDR BRD BRD
und Sterberisiko unterschiedlich verhalten und deshalb die
Koeffizienten nicht für alle Analysen gleich sind. Zum ande-
ren wird das in den Transformationsdaten inhärente Wissen
Abbildung 5: Darstellung von vier Ausschnitten ei- nicht dazu genutzt, genaue anstatt approximierten Ergeb-
ner Länderdimension für die Jahre 1989 bis 1992 nissen zu liefern.
und deren Überleitungen

Die graph-basierte Visualisierung der beschriebenen Di-
4. DER GRAPH-BASIERTE ANSATZ
mensionsentwicklung ist in Abbildung 5 zusehen. Dazu muss Wie in der Problembeschreibung ausgeführt und in den
gesagt werden, dass der Aufbau und die Entwicklung der Di- Abbildungen 4 und 5 veranschaulicht, lassen sich Dimensio-
mension von Fachexperten für Analysezwecke durchgeführt nen als streng hierarchische Bäume mit einem Wurzelknoten
wurde. Die Dimensionen und Transformationen hätten auch darstellen. Die Blätter repräsentieren dabei in der Regel die
auf andere Arten modelliert werden können. im Data Warehouse speicherbaren Werte. Falls Analysen auf
den Elternknoten durchgeführt werden sollen, werden diese
standardmäßig aus den Kindelementen berechnet [2].
3. EXISTIERENDE LÖSUNGANSÄTZE Bei den Dimensionen handelt es sich um von Fachexper-
Der erste Lösungsansatz für das Problem der sich ändern- ten modellierte Metadaten, die nur zu bestimmten Zeitpunk-
den Dimensionen wurde 1993 von Kimball postuliert [11]. ten geändert werden. Deshalb ist es möglich, die Änderun-
Die Lösung besteht in der Umcodierung der Daten nach der gen einer Dimension zusammen mit einer Versionsnummer
jeweilig neuesten Dimensionsbeschreibung. Dies kann dabei zu speichern. Dieser Ansatz zur Beschreibung der zeitlichen
in drei verschiedenen Arten geschehen. Der Type 1 Ansatz Entwicklung wurde auch von [12] und [8] verfolgt. Anders
überschreibt die alten Werte mit den neuen, umcodierten aber als bei [11] soll keine Instanzadaption mit Informati-
Werten. Die Type 2 und Type 3 Ansatz behält die alten onsverlust vorgenommen werden, sondern die Transformati-
Werte zusätzlich bei. Auf diese Weise können alte Werte in onsregeln als gerichtete Kanten zwischen den Blättern zweier
die neue Dimension transformiert, bzw. eingebunden wer- Dimensionsversionen gespeichert werden. Es wird verlangt,
den. Der Nachteil aller dieser Ansätze ist aber, dass sie nicht dass jede neue Version einer Dimension Transformationsre-
in der Lage sind mit dem Semantic Shift syntaktisch gleicher geln zu mindestens einem Vorgänger definiert. Dies ist keine
Ausprägungen umzugehen. Es gibt also keine Unterstützung Einschränkung, da es beim Fehlen von Transformationsre-
für Datenanalysen, die über verschiedene Versionen der Di- geln nicht um einen Nachfolger der Dimension sondern um
mensionen hinausgehen, wenn sich die Bedeutung der Daten eine vollständig neue, andere Dimension handelt.
geändert hat. Bei einer Anfrage an das Analytische Informationssystem
Das Problem der Anfragen über mehrere Dimensionsver- soll ein Interpreter zwischen den Anwender und das Auswer-
sionen wurde 2006 in [8] als graphentheoretisches Problem tungssystem geschaltet werden. Dieser Interpreter wertet die
diskutiert. Dabei wurden die Metadaten als sogenannte Sche- Transformationsregeln aus und stellt fest, ob in dem ange-
magraphen repräsentiert. Für die Graphen wurden erlaub- fragten Zeitraum für die auszuwertenden Daten eine Ände-
te Modifikationen definiert, welche die potentiellen Ände- rung stattgefunden hat. Wenn dies nicht der Fall ist, wird
rungen der Dimensionen wiedergeben. Wird eine Dimension die Anfrage ohne Nutzerinteraktion und ohne Änderungen
durch eine Modifikation geändert, wird dies als neue Versi- durchgeführt. Falls jedoch zwei oder mehrere Dimensions-
on in einem Graphen gespeichert. Basierend auf einer Gra- versionen von der Anfrage betroffen sind, wird der Interpre-
phenalgebra ist es dadurch möglich, Anfragen über verschie- ter mittels der ein- und ausgehenden Kanten der Knoten
dene Dimensionsversionen hinweg zu stellen. Diesem Ansatz prüfen, ob auf zusätzliche Knoten über die Kanten zuge-
fehlt zum einen der Umgang mit dem Semantic Shift der Da- griffen werden kann. Wenn die Knoten für den gewünschten
ten. Zum anderen erscheint er nicht praxisgerecht, da für his- Zeitraum stabil sind, wird dem Nutzer die Veränderung der
torische Daten neu hinzugekommene Angaben nachträglich Dimension für seinen angefragten Ausschnitt als sogenann-
eingepflegt werden müssen, um Vergleiche über verschiedene ter Evolutionspfad angezeigt.
Versionen zu ermöglichen. Da es nicht beabsichtigt ist, die Definition der Transfor-

39
mationsregeln auf genau einen Vorgänger und Nachfolger Dimensionsversionen unter einem Elternelement sind, wird
zu beschränken, kann es durchaus mehrere unterschiedliche davon ausgegangen, dass die Elternelemente gleich sind. Die
Evolutionspfade geben, die zu unterschiedlichen Mengen von Anfrage wird dann direkt ausgeführt. Sollte es in irgendei-
Knoten führen. Deswegen sollen die gefunden Evolutions- nem gültigen Evolutionspfad eines beliebigen Kindes meh-
pfade dem anfragenden Nutzer angezeigt werden, der dann rere Elternknoten geben, würden dem Anwender wieder die
den für seine Anfrage geeignetsten auswählen kann. Dabei verschiedenen Optionen wie bei den Einzelelementen ange-
ist festzustellen, dass die Bedeutung der Evolutionspfade zeigt. Der Anwender wird also immer über Bedeutungsände-
immer der modellierten Realwelt einer Dimensionsversion rungen und Systembrüche automatisch graphisch informiert
entspricht. Dies führt dazu, dass die Daten dann ad-hoc und kann die für seine Zwecke geeignete Anfrage auswählen.
zum Anfragezeitpunkt unter die ausgewählte Dimensions-
version transformiert werden. Die Datentransformation ist 4.2 Vorteile des Ansatzes
allerdings keine Instanzadaption, sondern eine Transforma- Es wird erwartet und angestrebt, dass der vorgestellte An-
tion eines Wertes auf eine Menge von Werten. satz die folgenden Vorteile bietet:

4.1 Beispiel der Lösungsidee • Durch den graphenbasierten Ansatz, der auf eine kenn-
Falls der Nutzer eine Anfrage der Art Gib mir die Summe zahlabhängige Approximation verzichtet, ist es mög-
” lich die Überführungsregeln für alle Analyseanfragen
aller behandelten J10.0 Patienten der Jahre 2005 bis 2007“
stellt, wird der Interpreter die Werte J10.0 und die ICD-GM zu verwenden, welche die Dimension beinhaltet. Dies
Dimensionsversionen 2005, 2006 und 2007 identifizieren. Den ist eine deutliche Erweiterung gegenüber [12].
Transformationsregeln in Abbildung 4 folgend, wird der In-
• Da die Überfühungsregeln auch in klassischen Adap-
terpreter zwei verschiedene Arten von J10.0 feststellen: Die
tionsverfahren wie [11] benötigt werden, ist kein zu-
Version 2005 hat zwei eingehende Kanten aus der Version
sätzlicher Arbeitsaufwand der Fachexperten notwen-
2006, einmal vom J10.0 als auch vom J09 Knoten. Der In-
dig, um die Kanten bereit zustellen.
terpreter kann also feststellen, dass der Knoten J10.0 Ver-
sion 2005 geteilt wurde. Nun prüft der Interpreter die iden- • Durch den graphenbasierten Ansatz ist es bei meh-
tifizierten Knoten des Jahres 2006 und findet zusätzlich nur reren Überleitungsregeln pro Dimensionsversion mög-
bidirektionale Kanten zu den Knoten des Jahre 2007, was lich, gröbere Versionen einer Dimension zu übersprin-
bedeutet, dass keine Änderung stattgefunden hat. gen. Gröber meint dabei, dass Fehlen einzelner Kno-
ten, die in späteren Versionen wieder eingefügt wur-
2005 2006 2007 den. Bei einer Umcodierung des Datenbestandes wäre
J10.0
dies ein irreversiebler Informationsverlust.
J10.0 J09 J09 J10.0
• Der Import und die Haltung der Daten wird verein-
facht, da die Daten in ihrer originären Version gespei-
Abbildung 6: Lösungsvorschlag mit Erweiterung der chert werden können. Die Daten müssen nicht in eine
Anfragemenge, Konzept J10.0 Version 2005 einzige Version umcodiert werden.
• Da der Nutzer zwischen verschiedenen inhaltlichen In-
2006 2007
terpretationen eines Wertes wählen kann, ist das An-
fragesystem mächtiger als klassische Systeme. Zudem
J10.0 J10.0
erlaubt dies die Wiederholung historischer Analysen,
da die Datenbasis nicht umcodiert und die Dimensions-
daten genauso erhalten bleiben.
Abbildung 7: Lösungsvorschlag mit Beschränkung
des Anfragebereichs, Konzept J10.0 Version 2006 4.3 Zu untersuchende Fragestellungen
und 2007 Um sicherzustellen, dass ein Data Warehouse zusammen
mit einer OLAP Analyse Anwendung die vorgestellten Funk-
Dem Nutzer wird als Zwischenergebnis seiner Anfrage mit- tionen und insbesondere Vorteile erfüllen kann, muss unter-
geteilt, dass zwei verschiedene Interpretationen von J10.0 sucht werden, welche Konsistenzbedingungen die Überlei-
für den Zeitraum 2005 bis 2007 identifiziert wurden. Es wer- tungsregeln als auch die Metadaten einhalten müssen. Zu-
den dann diese zwei verschiedenen Evolutionspfade zur Aus- dem sind die Anforderungen an die Datenrepräsentation und
wahl angeboten: In Abbildung 6 wird die Erweiterung der Speicherung der Transformationsregeln und zusätzlichen Ver-
Anfrage für die Jahre 2006 und 2007 um den Wert J09 vor- sionsinformationen in den Metadaten als auch der Daten-
geschlagen, damit die Anfrage der Bedeutung von J10.0 im haltung zu untersuchen. Ein weiterer Bereich ist, wie sich
Jahr 2005 entspricht. Die zweite angebotene Lösung ist in die Methoden auf verschieden Datenarten (Integer, Boolean,
Abbildung 7 zu sehen. Hier wird die Bedeutung von J10.0 Nominal) als auch verschiedene Analyse Operationen (Sum,
der Jahre 2006 und 2007 vorgeschlagen. Max, Min, Average) anwenden lassen. Da in Analysen auch
Werden Anfragen auf höheren Ebenen der Dimension, wie oft mehrere verschiedene Dimensionen genutzt werden, muss
z.B. die Gib mir die Summer aller behandelten Fälle von als letzter wichtiger Punkt noch die Anwendbarkeit auf meh-
Grippen durch nachgewiesene Influenzaviren“ welche dem rere Dimensionen durchdacht werden.
”
ICD Gruppencode J10 des Jahres 2005 bzw. J09-J10 der
Jahre 2006 und 2007 entspricht, ist dies auch ohne wei- 4.4 Evaluation
teres möglich. Für alle Kindelemente von J10 werden die Um den Ansatz mit seinen Konzepten und festgelegten
Evolutionspfade ausgewertet. Da alle Kindelemente in den Anforderungen zu evaluieren, wird ein Prototyp auf Basis

40
von MUSTANG - Multidimensional Statistical Data Analy- Systematisches Verzeichnis. Systematisches Verzeichnis
sis Engine [1] [13] umgesetzt werden. Dies ist ein kommerzi- zur Internationalen statistischen Klassifikation der
elles Daten Analyse Tool, welches insbesondere für Analysen Krankheiten und verwandter Gesundheitsprobleme -
im Gesundheitswesen, z.B. Krebsregistern, eingesetzt wird. German Modification. Deutsche Krankenhaus
Verlags-Gesellschaft, (2004)
Da das vorgestellte Thema durch zwei Projekte mit Kli- [4] DIMDI - Deutsches Institut für Medizinische
nikdaten motiviert wurde, bei denen sich der Semantic Shift Dokumentation und Information: ICD-10-GM Version
als problematisch erwiesen hatte, soll das Konzept in diesen 2006. Systematisches Verzeichnis. Deutsche
evaluiert werden. Dabei handelt es sich zum einen um Da- Krankenhaus Verlags-Gesellschaft, (2005).
ten deutscher Kliniken der Jahre 2006 bis 2010. Hier sollen [5] DIMDI - Deutsches Institut für Medizinische
Fragen der Versorgungsforschung auf einer feingranularen Dokumentation und Information: ICD-10-GM Version
Ebene ausgewertet werden, was bisher nicht möglich war. 2007. Band I: Systematisches Verzeichnis. Deutsche
Zum anderen geht es in einem Forschungsprojekt der EU Krankenhaus Verlags-Gesellschaft, (2006)
darum, für spezielle Herzschrittmacherpatienten statistisch [6] DIMDI - Deutsches Institut für Medizinische
valide Muster zu identifizieren, die in historischen Patien- Dokumentation und Information: ICD-10-GM Version
tendaten früherer Fälle enthalten sind. Die Patientendaten 2011: Band I: Systematisches Verzeichnis. Deutsche
stammen dabei aus den Jahren 2006 bis 2011 eines österrei- Krankenhaus Verlags-Gesellschaft, (2010)
chischen Universitätsklinikums, in dem später die Anwen- [7] Eder, J, Koncilia, C., Morzy, T.,: The COMET
dung erfolgt. Hier liegt der Fokus darauf, alte Codierungen Metamodel for Temporal Data Warehouses. In Proc. of
akkurat unter die aktuellste Version zu subsumieren, damit the 14th Int. Conference on Advanced Information
die Muster auf aktuelle Fälle angewendet werden können. Systems Engineering (CAISE02), pp. 83–99.Springer
Verlag (LNCS) (2002)
5. ZUSAMMENFASSUNG [8] Golfarelli, M., Lechtenbörger, J., Rizzi, S., Vossen, G.:
Dieses Paper stellt einen Ansatz vor, der akkurate Da- Schema versioning in data warehouses: enabling
tenanalysen in einem Analytischen Informationssystem über cross-version querying via schema augmentation. In
sich ändernde Datengrundlagen ermöglicht. Die Datenände- DataKnowl. Eng., 59(2):435–459, 2006. Elsevier Science
rungen können dabei sowohl syntaktischer als auch seman- Publishers B. V., Amsterdam, (2006)
tischer Natur sein. Änderungen der Daten werden dabei als [9] Inmon, W. H.: Building the data warehouse (2nd ed.).
verbindende Kanten zwischen verschiedenen Versionen einer John Wiley & Sons, Inc.,New York, NY, USA, (1996)
Dimension modelliert und diese Dimensionen dabei als Gra- [10] Inmon, W. H., Strauss, D., Neushloss, G.: DW 2.0:
phenstruktur aufgefasst. Durch die Interpretation der Ver- The Architecture for the Next Generation of Data
bindungen zum Zeitpunkt einer Analyseanfrage, werden die Warehousing. Morgan Kaufmann Publishers Inc., San
möglichen Evolutionspfade identifiziert. Die Evolutionspfa- Francisco, CA, USA, (2008)
de repräsentieren dabei domänspezifisches Hintergrundwis- [11] Kimball, R.: Slowly Changing Dimensions. In DBMS
sen, wie z.B. die Bedeutungsänderung von Werten, den Se- online, http://www.dbmsmag.com/9604d05.html (1996)
mantic Shift. Der Nutzer kann dieses Hintergrundwissen vi- [12] Koncilia; C. A.: The COMET Temporal Data
suell erfassen und sich für einen geeigneten Evolutionspfad Warehouse. PhD thesis, Universität Klagenfurt (2002)
entscheiden. Die Analyseanfrage wird dann zur Anfragezeit [13] Teiken, Y., Rohde, M., Mertens, M.: Mustang -
so umgewandelt, dass die Daten ad-hoc unter die gewähl- Realisierung eines analytischen informationssystems im
te Bedeutung des Evolutionspfads transformiert werden. Da kontext der gesundheitsberichtserstattung. In K.-P.
die Evolutionspfade so berechnet werden, dass Sie inhaltlich Fähnrich and B. Franczyk, editors, GI Jahrestagung
identische und vergleichbare Mengen repräsentieren, sind die (1), volume 175 of LNI, pages 253–258. GI, (2010)
Anfrageergebnisse akkurat. Dies wird dadurch ermöglicht,
dass die Daten in ihrem Originalformat gespeichert und die
Transformationsregeln nur gespeichert aber nicht direkt auf APPENDIX
die Daten angewendet werden. Mit dem vorgestellten Modell A. ACKNOWLEDGMENTS
und den dazugehörenden Methoden sind keine verlustbehaf-
teten Datentransformationen oder Abschätzungen notwen- The research leading to these results has received in part
dig. funding from the European Community’s Seventh Frame-
work Programme (FP7/ 2007-2013) under grant agreement
no. ICT-248240, iCARDEA project.
6. REFERENCES
[1] Appelrath, H.-J., Rohde, M. , Thoben, W. , OFFIS
e.V., MUSTANG - Multidimensional Statistical Data
Analysis Engine:
http://www.offis.de/en/offis_in_portrait/
structure/projects/detail/status/mustang.html,
(2011)
[2] Bauer, A., Günzel, H.: Data Warehouse Systeme.
dpunkt.verlag, 3. überarbeitete und aktualisierte
Auflage, (2009)
[3] DIMDI - Deutsches Institut für Medizinische
Dokumentation und Information: ICD-10-GM 2005

41
42
Wissensbasiertes Business Intelligence für die
Informations-Selbstversorgung von Entscheidungsträgern

Matthias Mertens
OFFIS - Institut für Informatik
Escherweg 2
26121 Oldenburg, Germany
mertens@offis.de

ABSTRACT Keywords
Im Bereich der Business Intelligence haben sich Analyti- Semantic Metadata, Data Warehouse, Analytical Informati-
sche Informationssysteme (AIS) mit dem Ziel entwickelt, on System, Decision support, Business Intelligence
verschiedene Datenquellen integriert analysieren zu können
und Informationen zu gewinnen die Business User, in ih- 1. EINLEITUNG
rem Entscheidungsfindungsprozess unterstützen. Sowohl die
Die Unterstützung des Managements und die Verbesse-
hohe Komplexität, die sich aus der Flexibilität und Mäch-
rung des Entscheidungsfindungsprozesses werden als Schlüs-
tigkeit solcher Systeme ergibt, als auch die hohe notwendi-
seleigenschaften der Business Intelligence (BI) gesehen [6].
ge Interaktion mit dem Nutzer zur Durchführung adäquater
Entscheidungsträger, sogenannte Business User, sollen be-
Analysen, bedingen entsprechendes Analyse- und Domänen-
fähigt werden, alle benötigten Informationen zur richtigen
wissen sowie ein tiefergehendes konzeptionelles und techni-
Zeit zu erhalten. In der BI wurden analytische Informa-
sches Verständnis. Dieses ist meistens bei Business Usern
tionssysteme (AIS) entwickelt, die es Business Usern er-
ohne entsprechende Schulung nicht gegeben, wodurch eine
lauben große Datenmengen zu visualisieren, zu handhaben
eigenständige Informationsversorgung mittels AIS behindert
und zu analysieren. AIS bestehen aus einem Data Ware-
wird. Erschwerend kommt hinzu, dass AIS in der Regel kei-
house (DWH) und darauf aufbauenden Analysekomponen-
ne zusätzlichen Metadaten zu Business Regeln, Strategien
ten. Während das DWH es ermöglicht verschiedene Daten-
oder Hintergrundinformationen erfassen, verwalten und für
quellen qualitätsgesichert zu integrieren und multidimensio-
die Analyseunterstützung bereitstellen können.
nal aufzubereiten, erlauben die Analysekomponenten Online
Idealerweise sollten Business User auf Basis einer Analyse-
Analytical Processing (OLAP) Operatoren, komplexe statis-
unterstützung des AIS dazu befähigt werden, adäquate Ana-
tische Verfahren sowie geografische Operatoren in verschie-
lysen durchzuführen, ohne zwingend über Analyse- und Do-
denen Visualisierungen auf den integrierten Daten durchzu-
mänenwissen verfügen zu müssen. Diese analyseunterstüt-
führen.
zenden Funktionalitäten können von weiterführenden Infor-
mationen, über eine Navigationsunterstützung für Analyse-
AIS haben jedoch auch verschiedene Mängel, die im nächs-
pfade bis hin zu einer Vorschlagsgenerierung von Analyse-
ten Abschnitt 2 näher betrachtet werden. Aus diesen leitet
schritten reichen.
sich die Forschungsfrage sowie die zugehörigen Anforderun-
In diesem Paper werden Konzepte eines Analyseprozesses
gen an einen Ansatz ab, welcher in Abschnitt 3 diskutiert
und darauf aufbauend analyseunterstützende Funktionen vor-
wird. Im Anschluss wird der eigene Ansatz mit zugehörigen
gestellt, die eine Informations-Selbstversorgung des Business
Konzepten und Funktionalitäten zur Analyseunterstützung
Users erlauben. Der Fokus wird hierbei auf die Erweiterung
in Abschnitt 4 mit der Anwendungsdomäne Krankenhaus-
eines AIS um semantische Metadaten gelegt, um eine Erfas- ”
marktanalyse“ (KMA) präsentiert, bevor im Abschnitt 5
sung, Verwaltung und Nutzung von Analyse- und Domänen-
verwandte Arbeiten in diesem Forschungsumfeld aufgezeigt
wissen zu ermöglichen.
werden. Abschließend erfolgt in Abschnitt 6 eine Zusammen-
fassung sowie ein Ausblick des Forschungsvorhabens.
Categories and Subject Descriptors
J.1 [Administrative data processing]: Business; H.4.2 2. MÄNGEL ANALYTISCHER INFORMA-
[Information Systems Applications]: Types of Systems—
Decision support
TIONSSYSTEME
In dem am OFFIS entwickelten AIS - Multidimensional
Statistical Data Analysis Engine (MUSTANG) [9] - konn-
te beobachtet werden, dass sich aus der hohen Flexibilität
und Mächtigkeit von AIS eine Komplexität ergibt, welche
zu einer signifikanten Herausforderung für Business User
werden kann, wenn diese eigenständig adäquate explorative
Analysen durchführen möchten. Im Gegensatz zu Analys-
ten verfügen Business User in der Regel über ein geringeres
23rd GI-Workshop on Foundations of Databases (Grundlagen von Daten-
banken), 31.05.2011 - 03.06.2011, Obergurgl, Austria. konzeptionelles Verständnis des multidimensionalen Daten-
Copyright is held by the author/owner(s). modells (MDM) sowie geringeres notwendiges Analyse- und

43
Domänenwissen. Hierbei enthält das Domänenwissen Infor- Wie kann eine Komplexitätsreduktion von AIS
mationen darüber, welche Fragestellungen einer zu untersu- mit dem Ziel erfolgen, ungelernte Business User
chenden Analyse zu Grunde liegen, mit welchen Kennzahlen zu befähigen, selbst adäquate explorative Analy-
Analysen zu spezifischen Fragestellungen möglich sind, wel- sen für eine intuitive und effiziente Informations-
che explizite Semantik diese Kennzahlen haben und in wel- Selbstversorgung durchzuführen.
chen Beziehungen diese zueinander stehen. In Abgrenzung
dazu umfasst Analysewissen Informationen zu den Analyse- Um die Forschungsfrage zu beantworten, sieht der verfolg-
instrumenten, d.h den Analyseoperationen, -verfahren und te Lösungsansatz die Verwendung von verschiedenen Analy-
den möglichen Visualisierungen. Schließlich wird in den AIS seunterstützungsfunktionalitäten vor, welche explizites mo-
für die Durchführung komplexer Analysen eine hohe Inter- delliertes semantisches Domänen- und Analysewissen aus-
aktion mit den Business Usern benötigt, wodurch diese ohne nutzen. Dieses wird in ein semantisches Datenmodell des
entsprechende Schulung schnell überfordert sind. AIS importiert, dort verwaltet und durch verschiedene Ser-
vices genutzt werden.
Ein weiterer Mangel von AIS wird in der geringen Be-
rücksichtigung von Metadaten gesehen [2], die weiterführen- Folgenden Anforderungen werden an einen Ansatz gestellt:
de Informationen über die quantitativen DWH Daten so-
wie die DWH Struktur (Kennzahlen und Dimensionselemen- • Der Ansatz soll es einem domänenunabhängigen AIS
te) bereitstellen. Zu diesen zählen Annahmen, Definitionen, ermöglichen Business User im Kontext domänenspezi-
Business Regeln, Terminologien und Hintergrundinforma- fischer Analyseaufgaben zu unterstützen. Dafür wird
tionen [10]. Daher müssen Business User sich die Semanti- ein Konzept bestehend aus einem generischen Daten-
ken von Daten und Strukturen durch Zuhilfenahme externer modell in Verbindung mit einem domänenunabhängi-
Quellen selbst erschließen [2]. gen AIS benötigt. Das Konzept wird für eine spezifi-
sche Domäne instanziiert.
Des weiteren sind AIS derzeit nicht in der Lage, Analyse-
und Domänenwissen zu importieren, zu verwalten und für • Der Ansatz soll den Lernprozess von Analyse- und Do-
weiterführende Analyseunterstützung der Business User zu mänenwissen unterstützen und den initialen Einarbeit-
nutzen. Insbesondere ist die Expertise aus dem Bereich der ungs- und Trainingsaufwand ins AIS reduzieren. Busi-
Analysestrategien und den Best Practices“ für Analysen in ness User sollen von der inhärenten Expertise des AIS
”
spezifischen Domänen von Interesse. Wissen, das durch Ana- lernen.
lysten in AIS eingebracht wird, geht in der Regel verloren [1].
• Der Ansatz soll eine Komplexitätsreduktion eines AIS
Idealerweise sollten Business User befähigt werden, multi- verfolgen, ohne jedoch die Flexibilität und die Mäch-
dimensionale quantitative Daten zu analysieren, ohne zwin- tigkeit des AIS einzuschränken. Das AIS soll für Busi-
gend über Analyse- und Domänenwissen sowie ein tiefge- ness User mit geringer Expertise intuitiv benutzbar
hendes konzeptionelles Verständnis verfügen zu müssen. Das sein, so dass diese adäquate explorative Analysen auf
AIS sollte den Business User in seinen explorativen ad-hoc dem DWH durchführen können. Des Weiteren soll der
Analysen unterstützen, indem es modelliertes semantisches, Ansatz die Anzahl der Nutzer-Interaktionen für das
maschinenlesbares und -verständliches Wissen ausnutzt. Ana- Erreichen gleicher Analyseergebnisse reduzieren, wo-
lyseunterstützende Funktionalitäten für eine Business User durch die Effektivität des AIS gesteigert werden soll.
Self-Information Service [2, 12], könnten von weiterführen-
den Informationen zu DWH Entitäten, über eine Naviga-
• Das Konzept soll es ermöglichen, mit verschiedenen
tionsunterstützung für Analysepfade bis hin zu einer Vor-
Metadatenarten umzugehen und diese in einer intelli-
schlagsgenerierung von weiteren sinnvollen Analyseschritten
genten Art und Weise für eine Analyseunterstützung
reichen.
zu verknüpfen. Oftmals sind Ansätze in der Litera-
tur zu finden [2, 7, 8, 11], die Hintergrundinforma-
In diesem Paper werden nun im Folgenden Konzepte für
tionen sowie Regeln über die DWH Struktur bereit-
eine semantische Metadatenbasis sowie darauf aufbauende
halten. Ferner sollen aber Metadaten zum Analysepro-
analyseunterstützende Funktionalitäten für ein AIS vorge-
zess berücksichtigt werden, die den Analyseprozess von
stellt. Ziel ist es, dass Business User sich selbst mit Informa-
einer Fragestellung über verschiedene Analyseschritte
tionen auf eine effiziente und intuitive Art und Weise ver-
hin zu einem Analyseergebnis beschreiben und wesent-
sorgen können. Exemplarisch werden Beispiele aus der Do-
liche Informationen für eine Analyseunterstützung be-
mäne Krankenhausmarktanalyse (KMA) gebracht, da hier
reithalten. Diese Metadaten werden auch Strategien
Business User, z.B. Krankenhauscontroller durch die Verän-
oder Best Practices“ genannt und beschreiben die Ex-
derungen im deutschen Gesundheitswesen gezwungen wer- ”
pertise bzw. das Analyse- und Domänenwissen eines
den, zur Sicherung der Wettbewerbsfähigkeit die Potentiale
Analysten. Schließlich soll das AIS ebenfalls Metada-
ihres Krankenhauses zielgerichtet zu erschließen und Leis-
ten zu quantitativen Daten des DWH, sprich zu Analy-
tungsangebote konkurrenzfähig auszurichten.
seergebnissen wie z.B. Trends, spezifische Zusammen-
hänge, etc. verarbeiten.
3. FORSCHUNGSFRAGE UND ANFORDE-
Im nächsten Abschnitt 4 werden verschiedene Konzepte
RUNGEN eines Datenmodells sowie die darauf anwendbaren Funktio-
Motiviert aus den in Abschnitt 2 genannten Mängeln wird nalitäten zur Analyseunterstützung und zur Erfüllung der
die folgende Fragestellung abgeleitet: Anforderungen diskutiert.

44
4. WISSENSBASIERTE FUNKTIONEN UND 4.1 Analyseunterstützende Funktionalitäten
KONZEPTE FÜR EINE ANALYSEUNTER- Um den genannten Mängeln aus Abschnitt 2 unter Be-
STÜTZUNG rücksichtigung der in Abschnitt 3 erläuterten Anforderun-
gen zu begegnen, werden die Metadaten in Form einer se-
Ziel des hier diskutierten Ansatzes ist es, Business User mantischen Suche, Navigation und eines Recommendings ge-
im Kontext domänenspezifischer Analyseaufgaben zu unter- nutzt. Die Metadaten werden an den Business User über die-
stützen. Hierzu sollen verschiedene unterstützende Funktio- se Funktionalitäten kommuniziert.
nalitäten auf Basis eines modellierten semantischen Meta-
datenmodells bereitgestellt werden (s. Abschnitt 4.1). Als Semantische Suche: Das übergeordnete Ziel der seman-
Wissensrepräsentationssprache zur Modellierung des Meta- tischen Suche ist, eine Suchfunktion auf definierten Meta-
datenmodells, in Form von mehreren miteinander verknüpf- daten anzubieten. Instanzen des Metadatenmodells sollen
ten Ontologien, kommt OWL-DL zum Einsatz. Eine DWH- anhand ihrer Semantik gesucht, gefunden und anschließend
Ontologie bildet das MDM des jeweils zu Grunde liegen- visualisiert werden.
den DWHs als Instanzen ab und ermöglicht es, in den dar- Ein spezifischeres Ziel ist unter anderem die Suche nach be-
auf aufbauenden Ontologien das MDM zu referenzieren. Die stehenden Fragestellungen und damit verbundenen Analyse-
Analyse-Ontologie modelliert abstrakt Entitäten und deren ketten, die sich auf die jeweilige Analysesituation adaptieren
Beziehungen, die die Analyseprozesse in einem MDM be- lassen. Auch semantisch verknüpfte Fragestellungen, die in
schreiben. Diese decken den gesamten Analyseprozess von einer Vorgänger-, Nachfolgerbeziehung stehen, können ge-
Fragestellungen, über Analyseketten hin zu Analyseergeb- funden werden. Daneben spielt auch das Finden von Analy-
nissen ab, beschreiben aber auch die enthaltenden Opera- seergebnissen und damit verbundenen quantitativen Daten
toren, Visualisierungen, Verfahren und Business Rules. Die des DWH eine Rolle. Annotationen auf den quantitativen
wichtigsten Konzepte werden in Abschnitt 4.2 erläutert. Die Daten können mit ihrer Semantik gefunden und in der zu-
auf der Analyse-Ontologie aufbauende Domänen-Ontologie gehörigen Analysevisualisierung wieder dargestellt werden.
beinhaltet die konkreten Instanzen der Analyse-Ontologie Ebenfalls lassen sich die durchlaufende Analysekette samt
für eine Domäne. Sie bildet also das für Analyseunterstüt- Fragestellung und analysierendem Business User ermitteln
zung genutzte Analyse- und Domänenwissen ab. Für eine und als Ausgangsbasis für anknüpfende Analysen verwen-
detaillierte Beschreibung der Ontologien und deren Zusam- den.
menhänge sei auf [9] verwiesen.
Semantische Navigation: Werden die Klassen und Re-
Im Metadatenmodell zu speicherndes Wissen soll Aus- lationen des Metadatenmodells für eine konkrete Domäne
sagen zu konkreten Fragestellungen, über durchzuführende instanziiert, so kann eine Navigation von einer Klassenin-
Analyseschritte bis hin zu erkennbaren Analyseergebnissen stanz zur Nächsten, entlang der dazwischen definierten se-
enthalten. Soll z.B. die Fragestellung Welchen Marktanteil mantischen Relation, erfolgen. Im Kontext eines AIS kann
”
hat mein Krankenhaus (KH) im Einzugsgebiet?“ untersucht diese semantische Navigation zum einen als eine reine Navi-
werden, so ist als Wissen modelliert, dass das Einzugsge- gation innerhalb der Metadaten erfolgen und zum anderen
biet, bestehend aus Kernmarkt, erweiterter Kernmarkt und können zusätzliche assoziierte Operationen des AIS ausge-
Peripheriemarkt, für das KH über dessen Fallzahlen ermit- führt werden.
telt werden muss und dass der Marktanteil eine berechnete Für Ersteres sei auf Abb. 1 verwiesen. Wird die Fragestel-
Kennzahl im DWH ist. Diese berechnet sich aus dem Ver- lung zur Kennzahl B mit Hilfe der semantischen Suche ge-
hältnis der erwarteten Fallzahl und den behandelten Fällen funden, so kann der Business User sowohl zu den notwen-
des KH. Des Weiteren ist z.B. als Wissen modelliert, dass digen Vorgänger-Fragestellungen als auch den Nachfolger-
sich aus der ersten Fragestellung weitere relevante Frage- Fragestellungen oder zu weiteren verbundenen Instanzen na-
stellungen ableiten können, z.B. Wie verhält sich die Fra- vigieren.
”
gestellung für Konkurrenten oder aber für spezifische Fach-
abteilungen (FA) des eigenen KH?“. Für letzteres müssen
muss / optional verfeinert / aggregiert Kennzahl C
insbesondere die behandelten Diagnosen (ICD-Codes) und optional
die vorhandene Ausstattung / Verfahren (OPS-Codes) so- Nachfolger
Fragestellung
wie der Versorgungsschwerpunkt der FA im MDM berück- 1

sichtigt werden. Besonders relevant ist das Wissen zu weite- Kennzahl A Kennzahl B
Kennzahl ...
rem Analysevorgehen im Kontext von Analyseergebnissen, Vorgänger Nachfolger
Fragestellung Fragestellung
wie z.B. erkannten Auffälligkeiten: Änderungen im Patien- Fragestellung
...
tenspektrum / Einweiserverhalten; oder Erkennen von Ver-
Kennzahl m
sorgungslücken oder Regionen mit stillen Reserven“.
” Nachfolger
Fragestellung
m
Das Konzept sieht einen initialen Aufbau der Wissens-
basis, mit Hilfe einer Expertengruppe vor. Diese können im
Sub- Sub- Sub- Verfeinerungen
KMA Umfeld z.B. einer Krankenhauskette oder einem Bera- Kennzahl B Fragestellung Fragestellung Fragestellung in den
1 ... n verschiedenen
tungsunternehmen angehören und ihr Analyse- und Domä- Dimensionen
nenwissen in den Ontologien persistieren. Da das modellier-
te Wissen eine Allgemeingültigkeit in der modellierten Do- Abbildung 1: Beziehungen von Fragestellungen
mäne haben soll, ist eine spätere personifizierte Anpassung
bzw. die Erfassung zusätzlicher personenbezogener Metada-
Möchte der Business User basierend auf einer Fragestel-
ten derzeit nicht vorgesehen.
lung eine konkrete Analyse durchführen, so kann er von der

45
Fragestellung zu der verbundenen Start-Analysevisualisier- Analysevisualisierung: Eine Analysevisualisierung ist
ung wechseln und dann entlang eines spezifischen Analy- die grafische Repräsentation der quantitativen Daten eines
sepfades zu einer Ende-Analysevisualisierung navigieren (s. Analyseschrittes z.B. in Form einer Pivottabelle, eines Dia-
Abb. 2). Diese Art der semantischen Navigation ist immer gramms oder einer Karte. Sie besteht aus 1 bis n Kenn-
mit realen Aktionen und Daten des AIS verbunden, da Ana- zahlen, die wiederum in 1 bis m Dimensionen aufgespannt
lysevisualisierungen quantitative Daten des DWH anzeigen sind. Von diesen Dimensionen sind jeweils 1 bis z Dimen-
und beim Analysevisualisierungswechsel durch die Domä- sionselemente gewählt. Im Kontext der Analysekette sind
nenoperationen ein oder mehrere OLAP Operationen im sogenannte Start- und Ende-Analysevisualisierungen defi-
AIS angewendet werden. niert. Erstere dienen als Einstiegspunkte für die Analysen
von Fragestellungen. Von ihnen aus können die Analysepfa-
Vorschlagsgenerierung: Eine wichtige Funktion ist das de mit ihren verschiedenen Analysevisualisierungen durch-
Geben von Hinweisen und Vorschlägen durch das AIS im laufen werden. Letztere ermöglichen das Interpretieren der
Kontext einer Fragestellung und einer Analysevisualisierung. quantitativen Daten hinsichtlich der Fragestellung und das
Diese werden aus dem im Metadatenmodell hinterlegten Ana- Ableiten von Analyseergebnissen.
lyse- und Domänenwissen abgeleitet. Vor allem weiterfüh-
rende Hintergrundinformationen, Business Rules und Ana- Domänenoperation: Eine Domänenoperation ermöglicht
lysestrategien sowie weitere Fragestellungen können wertvol- das Navigieren zwischen zwei Analysevisualisierungen und
le Informationen im Analyseprozess sein. kommt zum Einsatz, wenn spezifische Ausprägungen des
Hinweise zu weiterführenden sinnvollen Analysevisualisie- MDM in einer Analysevisualisierungen eintreten. Domänen-
rungen können durch das AIS gegeben werden, indem mögli- operationen können aus einer Menge auszuführender OLAP-
che Domänenoperationen und die enthaltenen Business Ru- Operatoren, Business Rules und Visualisierungswechseln be-
les auf ihre Anwendbarkeit in einer Analysevisualisierung stehen. Ihr Zweck ist es, die notwendigen Schritte der Kenn-
überprüft werden. Ziel der Vorschlagsgenerierung soll es sein, zahlen-, Dimensionen-, Dimensionselemente- und Visualisie-
dass relevante Analysevisualisierungen erreicht werden, die rungsauswahl bzw. des -wechsels für den Endanwender durch-
eine Interpretation der quantitativen Daten hinsichtlich der zuführen und somit die Komplexität des MDM und der
Fragestellung zulassen. Wichtig ist, dass beim Geben der Analysedurchführung zu verbergen. So kann der Business
Hinweise und Vorschläge sowie bei der Anwendung von Do- User direkt von einer Analysevisualisierung zu einer nächs-
mänenoperationen die Hintergründe kurz erläutert werden, ten sinnvollen Analysevisualisierung gelangen. Ob eine Ana-
damit diese für den Business User nachvollziehbar bleiben lysevisualisierung als sinnvoller weiterer Analyseschritt ge-
und er sich zusätzlich Analyse- und Domänenwissen aneig- sehen werden kann, ist über die Business Rules definiert.
nen kann.
Business Rules: Business Rules repräsentieren konkre-
4.2 Wissensbasierte Konzepte tes Analyse- und Domänenwissen und werden als semanti-
sche Metadaten zu den domänenspezifischen Inhalten eines
Im Folgenden werden die für eine Analyseunterstützung
AIS modelliert. Sie beschreiben weiterführende Informatio-
notwendigen Entitäten des Analyseprozesses in einem AIS
nen und Regeln und kommen im Analyseprozess in den Do-
näher betrachtet.
mänenoperationen zur Anwendung. Business Rules lassen
Fragestellung: Eine Fragestellung gibt einer Hypothese Aus-
sich aus den Best Practices“ eines Analysten ableiten und
druck, die es zu klären gilt und auf deren Ergebnis eine ”
beziehen sich in der Regel auf eine Fragestellung, eine Analy-
Entscheidung basieren kann. Als Beispiel sei “Was sind die
sevisualisierung oder ein Analyseergebnis, oder aber auf eine
Marktanteile in meinem Einzugsgebiet?” genannt. Hierbei
Kombination aus diesen. Die Business Rule ist anwendbar,
ist eine einzelne Fragestellung in der Regel nicht losgelöst
wenn das MDM einen spezifischen definierten Zustand er-
von Anderen zu betrachten (s. Abb. 1). Vielmehr kann ei-
reicht. Mehrere Business Rules können in unterschiedlichen
ne Fragestellung über Vorgänger verfügen, wie z.B. “Was ist
Domänenoperationen anwendbar sein, woraus sich mehrere
mein Einzugsgebiet?”, auf welche zuvor eine Antwort gefun-
Möglichkeiten für den Business User ergeben können, wie er
den werden muss. Sie kann über weiterführende Nachfolger-
seine Analyse fortsetzen möchte. Durch die Gewichtung der
Fragestellungen verfügen, die sich aus dem Analyseergebnis
Business Rules kann hierbei ein Ranking entstehen.
ergeben und optional weiter analysiert werden können. Bei-
spiele sind: “Was sind die Marktpotenziale in meinem Ein-
Analysepfad: Unter einem Analysepfad wird eine Men-
zugsgebiet?” oder “Wie wird sich mein Marktanteil entwi-
ge von Analysevisualisierungen verstanden, die durch Domä-
ckeln?”. Neben Vorgängern und Nachfolgern kann es auch
nenoperationen zu einem Pfad in einer definierten Reihenfol-
Subfragestellungen geben, welche die gleiche Kennzahl(en)
ge verbunden werden. Typischerweise wird ein Analysepfad
wie die Originalfrage behandeln, jedoch diese hinsichtlich ein
in einer konkreten Analyse von einer Start-Analysevisual-
oder mehrerer Dimensionen weiter verfeinern.
isierung zu einer Ende-Analysevisualisierung durchlaufen.
Hierbei ist zu beachten, dass Analysepfade nicht zwingend
Analysekette: Eine Analysekette wird für die Analyse
zuvor definiert sein müssen, sondern sich aus der Anwend-
von Fragestellungen verwendet. Diese bildet den logischen
barkeit von Domänenoperationen auf Analysevisualisierun-
Rahmen der Analyse und enthält weitere Konzepte wie Ana-
gen im Kontext einer spezifischen Fragestellung ergeben kön-
lysepfade, Analysevisualisierungen, Domänenoperationen und
nen. Die Menge aller Analysepfade zu einer Fragestellung
Business Rules. Die Zusammenhänge sind in der Abb. 2 dar-
bildet die Analysekette.
gestellt. Ziel der Analysekette ist das Finden ein oder mehre-
rer Analysevisualisierungen, die eine Interpretation der quan-
Analyseergebnis: Analyseergebnisse beschreiben eine In-
titativen Daten des DWH erlauben.
terpretation von quantitativen Daten im MDM des DWH.

46
Finden von bestehenden Analysekette (Durchlaufen ein oder mehrerer Analysepfade) Analyse-
Fragestellungen und ergebnisse
Analysevisualisierungen (Bestätigung /
Analysepfad 1
als Startpunkt Wiederlegung
Analysepfad 2
der Hypothese)
Analysepfad 3

Start Ende
Fragestellung Analyse- erlaubt Analyse-
Verknüpft mit Analyse- Domänenoperation Domänenoperation Analyse-
visualisierung finden ergebnis
visualisierung visualisierung

Domänen-

Domänen-
operation

operation
Sub- Ende Analyse-
Analyse- erlaubt
Fragestellung Domänenoperation Domänenoperation Analyse- finden ergebnis
visualisierung
visualisierung

Domänen-
Domänen-

operation
operation
Ende
Sub- Domänen- Analyse- Domänen- erlaubt Analyse-
operation operation Analyse-
Fragestellung visualisierung finden ergebnis
visualisierung

wird zu Basis für

Hypothese neue Nachfolger-Fragestellung ç externe Domänenoperation Entscheidung

Abbildung 2: Zusammenhang von Konzepten im Analyseprozess

Dies können Korrelationen und Zusammenhänge zwischen tidimensionalen Datenraum zu navigieren und um die be-
den Daten, aber auch Trends, Einbrüche, Zunahmen, Auf- nötigten Informationen zu erfragen. Hierbei ist laut [5] das
fälligkeiten, geografische Ballungen, etc. sein. Erstellen entsprechender Anfragen eine schwierige Aufgabe.
Daher wird in dieser Arbeit ein Framework vorgestellt, dass
den Nutzer in der Analyse unterstützt, indem es passende
5. VERWANDTE ARBEITEN OLAP Operatoren vorschlägt. Diese werden durch die Aus-
Im Kontext der Business Intelligence gibt es vielfältige wertung des OLAP Server Query Logs abgeleitet.
Forschungsfragen, die von der Erschließung des Analysewis-
sens [1], über die Anpassung der BI-Tools an Business An- Eine andere Art der Analyseunterstützung für eine höhere
forderungen [11, 2] und die integrierte Anfrage von BI-Tools Nutzerfreundlichkeit wird im Kontext der BI in der Tren-
[12, 4] bis hin zur Annotation von Datenschemata mit wei- nung von Business und IT Belangen gesehen. Anders als
terführenden Informationen zur Analyseunterstützung rei- in den zuvor genannten Arbeiten spielen hier semantische
chen [2, 7, 8, 11]. In vielen Fällen soll der Analyst und teil- Metadaten eine entscheidende Rolle. Über die Metadaten-
weise auch der Business User [2, 12] stärker in den Fokus modelle können die Entitäten der zugrunde liegenden BI-
rücken, indem die BI-Software besser an individuelle Infor- Systeme mit ihren zugehörigen Relationen modelliert wer-
mationsbedürfnisse angepasst werden kann oder aber eine den. Ebenfalls erlauben diese flexiblen, erweiterbaren Meta-
Analyseunterstützung zur individuellen Befriedigung des In- datenstrukturen weiterführende Informationen zu den Enti-
formationsbedarfs angeboten wird. Viele der verwandten Ar- täten, wie beispielsweise Business Rules oder Expertenwis-
beiten versuchen die jeweiligen adressierten Probleme durch sen festzuhalten. In [7] und [8] werden diese Möglichkeiten
die Nutzung von semantischen Metadaten und damit ver- weiter vertieft und als Anwendung z.B. die Nutzung der Me-
bundenen Semantic Web Technologien zu lösen. tadaten im Extraktions-, Transformations- und Ladeprozess
(ETL) für ein DWH angeführt.
Im Bereich der Dokumentation von Analyseprozessen und
-ergebnissen ist die Arbeit [1] zur Distribution von Business- In der Arbeit von [11] wird auf dieser Semantic Web Basis
Intelligence-Wissen zu nennen. Diese zielt auf die kontrollier- eine Architektur für analytische Tools vorgeschlagen, um Ef-
te organisationsweite Verbreitung und Weiterverwendung fizienzsteigerungen im Entscheidungsfindungsprozess zu er-
von Berichten und Analyseansätzen durch das Einstellen der zielen. Durch die Nutzung einer Domänen-Ontologie, welche
BI-Inhalte in Wissensmanagementsysteme ab, jedoch ohne die Entitäten der zu untersuchenden Domäne, deren Relatio-
auf eine konkrete technische Umsetzung einzugehen. nen sowie weitere Informationen bereitstellt und durch die
Nutzung einer Business-Intelligence-Ontologie, welche Infor-
Im Kontext von Analyseprozessen ist auch die Arbeit von mationen zu den Datenstrukturen des multidimensionalen
[3] relevant, da diese den Begriff der Analysekette einführt. Modells vorhält, soll eine Unterstützung im Analyseprozess
Fokus der Arbeit ist die Mensch-Maschine Interaktion, wo- erfolgen. Zum einen soll die Auswahl von Dimensionselemen-
bei das Finden, Aufbereiten und Darstellen von Daten als ten durch proaktive Vorschläge erleichtert werden und zum
technisch / operative Tätigkeit gesehen wird. Zu den kogniti- anderen sollen durch ein semiautomatisches Umschreiben
ven Tätigkeiten zählen die Bildung eines anwenderorientier- der Anfragen Analyseergebnisse aufgewertet werden. Die En-
ten Analysemodells sowie dessen Prüfung und Verfeinerung. titäten werden in den jeweiligen Domänen-Ontologien oft-
mals mit ihrem natürlichsprachlichen Namen versehen, da
Während der Durchführung von Analysen werden eine diese eher die Business Semantik ausdrücken als die kor-
Reihe von OLAP Anfragen gesendet, um durch den mul- respondierenden technischen Bezeichner des MDM. Nutzer

47
können so Anfragen in einer für sie vertrauten Terminologie prachen modelliert und für die Domäne der Krankenhaus-
an das System stellen. Dieser Ansatz wird in [4] und [12] ver- marktanalyse instanziiert. Dieses Metadatenmodell wird in
wendet, um auf einer abstrakten Ebene unternehmensweite eine zu implementierende semantische Metadatenebene des
Informationen integriert aus verschiedenen BI-Systemen wie am OFFIS entwickelten AIS - Multidimensional Statisti-
DWH, ERP, CRM, etc. anzufragen. In diesen Ansätzen wer- cal Data Analysis Engine (MUSTANG) - eingebettet, um
den semantische Metadaten auch für die Integrationsaufga- Analyse- und Domänenwissen zu erfassen, zu verwalten und
ben und das Umschreiben von Anfragen verwendet. für die genannten Analyseunterstüzungsfunktionalitäten zu
verwenden. Eine Umsetzung und Evaluierung wird im Rah-
Die Unterstützung eines technisch unversierten Business men einer laufenden Dissertation und einer studentischen
Users wird insbesondere in [2] und [12] fokussiert. In [2] liegt Projektgruppe erfolgen.
der Schwerpunkt auf einer kollaborativen ad-hoc Entschei-
dungsunterstützung, in der Daten integriert aus den ver- 7. REFERENCES
schiedenen BI-Tools dargestellt und über semantische Meta- [1] H. Baars. Distribution von
daten mit weiterführenden Informationen versehen werden. Business-Intelligence-Wissen. Analytische
Insbesondere sollen über Web 2.0 Technologien Information Informationssysteme, pages 409–424, 2005.
Mash-Ups gebildet, aber auch eine Kollabration zwischen [2] H. Berthold, P. Rösch, S. Zöller, F. Wortmann,
verschieden Business Usern erzielt werden. A. Carenini, S. Campbell, P. Bisson, und
F. Strohmaier. An Architecture for ad-hoc and
Auch wenn, wie in vielen anderen Arbeiten, die semanti- collaborative Business Intelligence. In Proceedings of
schen Metadaten eine entscheidende Rolle spielen, grenzt der the 2010 EDBT/ICDT Workshops, EDBT ’10, pages
eigene Ansatz sich von diesen durch die Modellierung von 13:1–13:6, New York, NY, USA, 2010. ACM.
Konzepten und deren Instanziierung in Form von Analyse-
[3] N. Bissantz. Deltaminer. Wirtschaftsinformatik,
und Domänenwissen ab. Im Fokus steht dabei das Wissen
43(1):77–80, 2001.
zu Analyseprozessen, das von verschiedenen Komponenten
[4] L. Cao, C. Zhang, und J. Liu. Ontology-based
eines AIS zur Unterstützung des Business Users genutzt wer-
Integration of Business Intelligence. Web Intelligence
den kann. Eine technologisch ähnliche Umsetzung mit Hilfe
and Agent Systems, Volume 4, 2006.
von verschiedenen Ontologien wie sie in [11] und [12] genannt
werden, wird angestrebt. [5] A. Giacometti, P. Marcel, und E. Negre. A Framework
for Recommending Olap Queries. In Proceeding of the
ACM 11th international workshop on Data
6. FAZIT UND AUSBLICK warehousing and OLAP, DOLAP ’08, pages 73–80,
Analytische Informationssysteme haben sich im Kontext New York, NY, USA, 2008. ACM.
der Business Intelligence als Systeme zur Informationsge- [6] P. Gluchowski und H.-G. Kemper. Quo Vadis Business
winnung für Business User im Entscheidungsfindungsprozess Intelligence? Aktuelle Konzepte und
etabliert. Allerdings setzen AIS aufgrund ihrer hohen Inter- Entwicklunstrends. Business Intelligence Spektrum, 1.
aktionsmöglichkeiten und Komplexität entsprechendes Ana- Jg., Heft 1, Mai 2006:12 – 19, 2006.
lyse- und Domänenwissen sowie ein tiefergehendes techni- [7] N. Inference. Ontology and Data Warehousing.
sches Verständnis voraus, um adäquate Analysen durchfüh- Technology white paper, NETWORK INFERENCE,
ren zu können (s. Abschnitt 1). Dieses liegt jedoch ohne ent- INC., 2004.
sprechende Schulungen bei Business Usern nicht vor. Auch
[8] L. Ludwig. Business Intelligence und das Semantic
werden in der Regel keine Metadaten zu Business Regeln,
web: Ein Traumpaar. 2005.
Strategien oder Hintergrundinformationen durch AIS bereit-
[9] M. Mertens, Y. Teiken, und H.-J. Appelrath.
gestellt, die den Business User unterstützen können. Da je-
Semantische Anreicherung von strukturierten Daten
doch Business User befähigt werden sollen, sich selbst mit
und Prozessen in Analytischen Informationssystemen
Informationen zu versorgen, wurde in dieser Arbeit als For-
am Beispiel von Mustang. In Forschungskolloquium
schungsfrage untersucht, wie die Komplexität von AIS redu-
der GI Fachgruppe 5.8 - Management Support
ziert werden kann, damit Business User eine adäquate ex-
Systems, Dortmund, Deutschland. Universität
plorative ad-hoc Analyse durchführen können. Hierzu wur-
Dortmund, 2009.
den zunächst in Abschnitt 3 Anforderungen an einen ent-
sprechenden Ansatz definiert. Darauf aufbauend wurden in [10] B. ONeil. Semantics and business. The Data
Abschnitt 4 verschiedene Konzepte aus dem Bereich der Administration, 2007.
Datenanalyse definiert und erläutert, die in einem seman- [11] D. Sell, L. Cabral, E. Motta, J. Domingue,
tischen Metadatenmodell für ein AIS modelliert und instan- F. Hakimpour, und R. Pacheco. A semantic web based
ziiert werden können und somit als Basis für weiterführende Architecture for Analytical Tools. In CEC ’05:
Analyseunterstüzungsfunktionalitäten dienen. Von zentraler Proceedings of the Seventh IEEE International
Bedeutung waren die Konzepte der Fragestellung, Analyse- Conference on E-Commerce Technology, pages
kette, Analysepfad und Analysevisualisierung sowie Domä- 347–354, Washington, DC, USA, 2005. IEEE
nenoperationen, Business Rules und Analyseergebnisse. Als Computer Society.
Funktionen wurden die Semantische Suche, die Semantische [12] M. Spahn, J. Kleb, S. Grimm, und S. Scheidl.
Navigation und die Vorschlagsgenerierung präsentiert, be- Supporting Business Intelligence by providing
vor in Abschnitt 5 verwandte Arbeiten vorgestellt und gegen ontology-based End-User Information Self-Service. In
den eigenen Ansatz abgegrenzt wurden. Als weiterer Schritt OBI ’08: Proceedings of the first international
im Forschungsvorhaben werden die vorgestellten Konzepte workshop on Ontology-supported business intelligence,
in einem Metadatenmodell mittels Wissensrepräsentationss- pages 1–12, New York, NY, USA, 2008. ACM.

48
Towards Efficiently Running Workflow Variants by
Automated Extraction of Business Rule Conditions

Markus Döhring Christo Klopper Birgit Zimmermann
SAP Research Darmstadt SAP Deutschland SAP Research Darmstadt
Bleichstraße 8 Hasso-Plattner-Ring 7 Bleichstraße 8
64283 Darmstadt, Germany 69190 Walldorf, Germany 64283 Darmstadt, Germany
markus.doehring@sap.com christo.klopper@sap.com birgit.zimmermann@sap.com

ABSTRACT 1. INTRODUCTION
Efficient workflow variant management is becoming crucial Workflow management systems (WfMS) are becoming an
especially for enterprises with a large process landscape. Our essential part of most industrial IT system landscapes [19].
research fosters the combination of business rules for adapt- For some domains, traditional WfMS have already been de-
ing reference workflows at runtime and tailoring them to termined as unsuitable to cover prevalent requirements w.r.t.
many different situations. A main goal is to optimize the the flexibility of workflows [7]. In order to address the chal-
performance of workflow instances w.r.t. different aspects, lenge of managing workflow variants (i.e. workflows with
e.g., branching decisions, throughput time or compliance. slight deviations from a “reference workflow”) at design-time
Having a data mining procedure at hand which can auto- as well as their dynamic adaptation at runtime due to chang-
matically extract potentially useful conditions from execu- ing data contexts, we have proposed the integration of busi-
tion logs to create new variants is therefore a very signifi- ness rules containing adaptation operations on adaptive seg-
cant benefit. The extracted conditions could be conveniently ments in reference workflows [10].
reused within the business rules of our framework, which can In many practical scenarios, it is unrealistic that process
handle the deviations at runtime for those special situations. analysts are able to define all variants and exceptions in
However, most existing data-mining techniques do not de- a workflow. Especially when a WfMS is introduced in a
scribe a continuous mining pipeline how to get from work- company, but also if workflow models are already mature,
flow logs to problematic context conditions for new variant environmental changes may lead to shifts in the impact fac-
creation or are difficult for business people to interpret. tors on process performance. A potential relief for making
Therefore we present an integrated rule mining method- such blind spots in workflow execution visible is the applica-
ology, starting with the semi-automatic discovery of “hot tion of process mining techniques. The goal is to find data-
spots” within workflow instance logs. Then, data variables dependencies for weak spots in the workflows and making
of instances related to these hot-spots are translated into a them available as conditions for additional business rules
data mining classification problem. Other than related ap- leading to new workflow variants. Existing work has partly
proaches, we employ a fuzzy rule learning algorithm, yielding addressed these issues each with a relatively isolated view
easily interpretable and reusable conditions for variants. We on e.g. bottleneck detection or dependency mining. Results
also provide first insights from a case study at a consulting w.r.t. to an integrated “mining pipeline” for a business user
company and corresponding open research challenges. are however still quite unsatisfying. For example, prevalent
approaches leave the user with a mined decision tree which,
as we will show, might be hard to read for real-world work-
Categories and Subject Descriptors flow logs. Instead, we aim at a pipeline from a workflow defi-
H.2.8 [Database Management]: Database Applications— nition in an understandable notation over automated mining
Data Mining; H.4.1 [Information Systems Applications]: application to interpretable business (variant) rules.
Office Automation—Workflow Management; D.2.2 [Software Our approach is based on the general idea of rule-based
Engineering]: Design Tools and Techniques workflow adaptation as described in Section 2. As a solu-
tion to the above challenges, in Section 3 we present a min-
ing methodology which we consider promising as a suitable
Keywords mining pipeline for a business user. For each of the method-
workflow, business rules, process mining, process perfor- ology’s three generic steps, concrete technologies and their
mance, rule learning wiring are explicated, especially the employment of a fuzzy
mining approach for ruleset extraction. We then present
first learnings from a case study on real-world workflow ex-
ecution data building upon our methodology in Section 4
and summarize challenges which have to be solved to fully
implement our methodology in Section 5. In Section 6 we
discuss related research, before we conclude in Section 7 and
state remaining issues for future work.
23rd GI-Workshop on Foundations of Databases (Grundlagen von Daten-
banken), 31.05.2011 - 03.06.2011, Obergurgl, Austria.
Copyright is held by the author/owner(s).

49
2. FLEXIBILIZATION OF WORKFLOWS
BY ADAPTATION RULES Workflow
Logs Select Problem
Category(s)
Our methodology for condition extraction is motivated 2. Automatic Detection of
by a general approach for workflow adaptation [10, 9]. It is •Control-Flow
(BPMN Model)
„Hot Spots“ •Transformation of hot-
spots into classification
problem
considered essential to establish a basic understanding of the •KPIs (SCIFF or LTL)
•Behaviour Constraints
•BPMN to petrinet
conversion.
•Fuzzy rule-learning for
(SCIFF or LTL) data-dependencies of hot-
nature of business(variant) rules as targeted for being auto- •…
•Conformance checking
•Performance checking
spots

matically mined. Our framework as well as the examples (bottlenecks)
•Aggregation of problems 3. Automatic Filtering of
1. Specify Expectations to hot-spots.
in this paper rely on BPMN2 [1], because its notation is a Against your Process
„responsible“ data
dependencies

de-facto industry standard which was designed to be under-
Extract Adaptation Rule
standable for business users. Basically, the framework con- for Workflow Improvement
sists of three conceptual building blocks for workflow variant Workflow
Model
management and flexible workflow adaptation: Specify Rules
1. Adaptive Segments in BPMN2 Reference Work-
flows: An adaptive segment demarcates a region of a work- Figure 1: Outline of the Rule Extraction Procedure
flow which may be subject to adaptations at runtime when
entering the segment. It corresponds to a block-structured
part of the workflow, i.e. a subgraph which has only one 3. METHODOLOGY FOR VARIANT RULE
incoming and one outgoing connection. In special cases,
adaptive segments can also be “empty”. What matters is
CONDITION EXTRACTION
that they correspond to valid BPMN2 workflow definitions As already stated, we are interested in automatically ex-
and not to a kind of white box which is left empty for later tracting condition constraints (the “IF-part”) for potentially
filling. We have extended the BPMN2 metamodel to capture useful workflow adaptation rules within our framework. Use-
the special semantics of adaptive segments [9]. ful in this respect means, that the condition constraints
2. Workflow Adaptations Defined in BPMN2: The should describe eventually problematic situations in work-
actual definition of potential adaptations which can take flow instances by means of their data context values, such
place at runtime have been proposed as a pattern catalogue that a timely adaptation of a workflow instance can eventu-
[10] which also relies on BPMN2 notation, with the benefit ally prevent such a situation. Our proposed methodology is
that adaptation patterns are comprehensible and extensible. illustrated in Figure 1 in a circular manner. The methodol-
The catalogue contains basic adaptations like SKIP or IN- ogy is divided into three main phases explained in detail in
SERT, but also more sophisticated event- and time- related the following subsections. For each phase, concrete concepts
patterns, like “event-based cancel and repeat” or “validity and technologies for implementing the methodology are dis-
period”. Every adaptation pattern has the block-structured cussed and open challenges are outlined where existing.
adaptation segment as an obligatory input parameter. As
such, patterns can be conveniently nested and combined.
3.1 Formulation of Log Expectations
3. Linking Adaptations to Data Contexts by Busi- The first phase of our methodology consists in the def-
ness Rules: Business (variant) rules are used to apply suit- inition of expectations towards a set of workflow instance
able adaptations for different situations expressed by data logs. Correspondingly, there are two obligatory input com-
context conditions. The data context can be globally valid ponents for the extraction pipeline: a workflow model and
(like a date) or workflow instance specific (like an order a sufficiently large set of workflow instance logs belonging
value). A pseudo-syntax for variant rules, where ∗ stands to the model. The instance logs must contain workflow-
for 0-n repetitions, can be defined as: ON entry-event IF relevant events like at least the start or finishing timestamp
THEN APPLY []∗ Once the general relations of adaptive segments context variables1 . Since we want to target business users
and potential adaptations have been established by a pro- with our rule extraction approach, we consider BPMN as an
cess analyst, the conditions could be maintained by a busi- appropriate input format for the expected control-flow logic
ness user e.g., via a domain-specific language. For automatic restricing the expected order of task executions and event
rule extraction, in this work we therefore especially focus on occurrences in the input logs.
the IF-part of potentially newly discovered variant rules and As an optional input, additional constraints w.r.t. work-
aim at revealing data dependencies for variants which are flow execution can be provided in some form of logic. These
not a-priori known, but have significant implicit impact on constraints may concern time-related interdependencies of
the overall business performance of workflow execution. events within a workflow instance log, whereas typical key
Figure 2 exemplifies the above concepts based on a ship performance indicators (KPIs) like throughput times can be
engine maintenance workflow fragment. The actual conduc- understood as a subset of such time constraints. But also
tion of engine tests for a ship may depend on the harbor other more sophisticated circumstances which are hard to
in which it currently resides. Due to environmental re- model in BPMN2 graph structures can be provided as log-
strictions, many different harbors impose specific time con- ical constraints, as for instance that a task A should be
straints on ships conducting engine tests. In Hamburg for executed N times after the occurrence of task B. Suitable
example, ships may only have 12h time, after which devices logics to formulate such process-related constraints can for
need to be reset and the tests need to be restarted. For example be based on the SCIFF framework [5] or linear tem-
adapting the workflow correspondingly, a generic parame- poral logic (LTL) [17]. Since a regular business user may not
terizable template is used and weaved with the segment at 1
It is hard to give generally valid recommendations on data
runtime. size characteristics, but from experience reasonable mining
can start from 1000 instances with about 5 context variables.

50
be familiar or feel comfortable with such logics, it is recom- In contrast to the checking mechanisms for issues (1.)
mended to provide constraint templates, i.e. small chunks of and (2.), a challenge consists in the spotting of the
logic mapped to easily parameterizable pieces of restricted actual source for a constraint violation. For our KPI
natural language for constraint maintenance. example (B 1h after A), if B is not executed at all, it
has to be decided whether A or not B or both are to be
3.2 Automatic Discovery of “Hot Spots” considered as the actual error source and kept for fur-
For the ability to apply established mining and analy- ther analysis. Potentials lie in the partly automated
sis techniques on the instance logs in combination with the mapping of constraint predicates to places or transi-
workflow model, it is useful to first transform the BPMN tions in the underlying model and the consideration of
workflow definition into a pure formal representation, e.g. in “what happened first”. Research is still ongoing here.
terms of petri net graphs which are backed by a long trail of As a final step of this phase, the user is confronted with is-
research and corresponding toolsets. Transformation mech- sues which have a particular degree of “severity” (e.g. exceed
anisms which are able to map a large part of BPMN con- a predefined fraction of instances which are non-conformant)
structs to petri net constructs exist [8] and can be employed and gets the corresponding “hot-spots” based on average in-
within our methodology. The next phase of our methodol- stance execution marked in the BPMN process model. The
ogy then consists in the automatic discovery of problematic proper automatic accumulation and back-projection of is-
spots in the instance logs, relating to different issues: sues to the BPMN workflow model remains an open issue.
The user may then select one or several hot spots and one or
1. Non-conformance to defined workflow model: several problem types for these hot-spots for further analysis
Using log-replay approaches on the petri net model by mining data dependencies as business rule conditions as
as presented in [16], it can be determined whether described in the next subsection.
instances behave exactly according to the underlying
model or whether there are deviations. Provided the 3.3 Automatic Extraction of Rules for “Hot
petri net has been suitably constructed, such devia- Spot Occurrences”
tions can be structurally spotted as petri net places For the selected hot-spots and problem types, the instance
where tokens are left over after an instance has been data from the workflow logs is transformed into a classifica-
finished or where tokens often are missing when a tran- tion problem for machine learning algorithms. A classifi-
sition should be fired. In most of the latter cases, a cation problem consists of a number of cases (=workflow
distinct transition (=BPMN task) can be “blamed” for instances), each made up of a number of numeric or nomi-
causing the non-conformance. Places and transitions nal data variable values (=workflow instance or task context,
with a relatively high error-rate are kept for further e.g. order value, customer priority or shipment partner) and
analysis within our methodology. a single class in terms of a category for a learning instance.
The class can be determined in a binary manner as problem-
2. Disproportionate delays (bottlenecks): Similar atic or non-problematic from the problem types connected
to the above petri net log-replay techniques, the so- to the hot spots, but also the distinction of finer-granular
journ times of tokens in places and the times it takes problem classes can be considered. The variable values for
to execute transitions can be stored [12]. Based on this a learning instance can be constructed by looking at their
computed data, it can be determined where instances occurrence when an instance has reached a hotspot in the
on average get stuck for a disproportionate amount of petri net. Special challenges in this conversion step concern
time related to the average overall throughput time. the treatment of some control-flow constructs, as for exam-
The corresponding threshold values can be computed ple a loop which may cause multiple visits of a hotspot in a
automatically if they are not explicitly formulated as workflow, whereas the context variables may have changed
KPI constraints, which is discussed below. Again, con- meanwhile. Such problems and solution approaches, for in-
cerned places and transitions are kept for analysis. stance creating a separate training instance for each loop
execution, are discussed, e.g., in [15].
3. Non-conformance to execution constraints: SCIFF Having the training set for a machine learning classifier at
or LTL constraints can be checked on the instances logs hand, established algorithms like C4.5 decision tree [14] or
using approaches from [5] resp. [17] with respect to rule learners [6, 11] can be applied. In fact recent research
their violation. The employment of constraint check- mostly favors decision trees for presenting mining results to
ing allows for a very broad range of non-conformance the business user [18]. However, we have tested the C4.5
types being checked. Three of the most important ones decision tree learner on a real-world dataset (see Section 4)
are: and found its results not interpretable for the business user
to draw any reasonable conclusions from it mainly due to
• The violation of KPIs by the use of time-related the size and complexity of the overall decision tree. Despite
constraints (for example, task B has to be exe- ex-post global optimization heuristics in C4.5, local feature
cuted 1h after task A latest). selection often leads to redundant splits in the initial decision
trees. As rules can only be extracted one-by-one along paths
• The deviation from expected routing decisions (for
in the decision tree [11], they are of rather less use for di-
example if orderValue>10.000 in a sales order, al-
rectly extracting conditions for use in adaptation rules that
ways choose the “priority shipment” branch after
might eventually tackle the problematic situation at work-
an exclusive gateway).
flow runtime. The problem with established rule learners
• Data- or organizational incompliance like the vi- like RIPPER [6] in turn is that they generate ordered rule-
olation of the “four-eyes principle” for some tasks. lists, which means each rule in the list covers only those

51
learning instances which are not covered by the previous was conducted only after another task already was executed.
rule. This characteristic makes the corresponding output Combining these information types, we would identify the
rules also hard to read and interpret for an end user. Po- validation task as a “hot spot” in the process.
tential relief consists in the employment of a fuzzy learning For our first analysis purpose however, we have concen-
approach which generates globally valid rules that have a trated on the decision whether a request has been staffed or
probabilistic certainty factor to hold on the dataset or not. not. Following [15], we turn the decision into a binary classi-
We are currently evaluating a novel algorithm [13] w.r.t. fication problem using a manually selected subset of context
the suitability for being employed within our methodology, variables that have occurred while instance execution. The
which is subject to discussion in the following section. results are presented in the following.
4.3 Preliminary Results
4. CASE-STUDY Running a C4.5 decision tree (J48 implementation) learner
The first feasibility study for our methodology was con- with standard parameters yields a decision tree of size 757
ducted at a large globally operating IT consulting company. with 644 leaves. It is quite obvious that this output type
In the following, we report on the input dataset, the realiza- would need a considerable time to be interpreted for a busi-
tion of our methodology in the ProM2 framework, and our ness user. Leaving aside the rule learning algorithms for or-
preliminary results and findings. dered rule lists, we instead applied the fuzzy rule induction
algorithm presented in [13]. Results were very promising,
4.1 Description of the Dataset for example generating the following output (some context
The focus of the case study is on a staffing workflow for values changed for anonymization):
serving customer and company-internal human resource re- (Remote = Y) and (ReqingSRegion = DUCKBURG) and (ReqType = Project)
quests for different type of IT projects. A simplified cor- => class=Branch 4.1 { ROLE_Closed (Not Staffed)/complete } (CF = 0.61)
(ReqingSRegion = NA) and (StartDateFlexible = Yes) and
responding model in BPMN notation is shown in Figure 3. (ReqingLOB = FS__Consulting) and (CustIndustry = )
=> class=Branch 4.1 { ROLE_Closed (Not Staffed)/complete } (CF = 0.71)
The first three sequential steps are creating and submitting (Remote = N) and (ContractType = ) and (CustIndustry = UTILITIES) and
(JobText = B) and (Requestor = ABC) and (StartDateFlexible = No)
the request and then having it validated by an authorized => class=Branch 4.1 { ROLE_Closed (Not Staffed)/complete } (CF = 0.53)
person. Resources can be found by three different strategies: (Remote = ) => class=Branch 4.2 { ROLE_Staffed/complete } (CF = 0.73)
(Remote = Y) => class=Branch 4.2 { ROLE_Staffed/complete } (CF = 0.7)
by company-internal broadcasts, by external broadcasts to (ReqingSRegion = GOTHAM_CITY) => class=Branch 4.2 { ROLE_Staffed/complete } (CF = 0.72)
(StartDateFlexible = No) => class=Branch 4.2 { ROLE_Staffed/complete } (CF = 0.72)
partner consulting companies or by directly contacting a po-
tentially suitable resource. After at least one such search Manual inspection of the instances characterized e.g. by
procedure has been triggered, different reactions can occur, the first two rules immediately showed that they in fact con-
namely the acceptance, rejection, withdrawal or feedback of stitute problematic situations in the staffing workflows. In a
non-availability for a particular resource. At anytime during flexible WfMS according to Section 2, these conditions could
these search procedures, an initial proposition of currently now be reused as a condition for a variant rule with the click
gathered resources can be made to the customer. After the of a button, for example inserting addtional activities in the
request is closed, it is marked as either successfully or not workflow to handele the problematic situation or not even
staffed. The input dataset consisted of 13225 workflow in- trying specific activities because of potential waste of time.
stance logs each with up to 50 data context variable values
attached. In this case, context variables concern for example 5. OPEN CHALLENGES
the country a request is sent from, the concerned industry
For a better overview and to motivate future work in this
profile or the overall duration of the project.
area, the main challenges we experienced while setting up
4.2 Realizing the Methodology based on ProM the mining pipeline are briefly recapitulated:
For some basic analysis techniques, we rely on functional- • A petri net conversion most useful for mining purposes
ity provided by ProM. The translation of the BPMN model has to be determined, as straight-forward mappings
into a petri net was done manually, as automated mapping have problems with more advanced BPMN constructs
approaches still generated too complex results which could or generate valid but overcomplex petri nets.
make first mining and analysis efforts more difficult. The • The accumulation and aggregation of hot spots from
resulting petri net is shown in the upper middle of Figure 4. the petri net-based and especially the constraint-based
Black boxes indicate “silent” transitions which do not corre- checking methods has to be defined in more detail.
spond to any task in the BPMN model. On the left upper This challenge is connected to linking back hot spots
side, one of the additional constraints provided by the con- to the BPMN model for further investigation.
sulting company for its staffing workflows is shown, i.e. that
before or at least in parallel to an external broadcast, there • The conversion of hot spots to a classification prob-
should also be an internal broadcast trying to gather the lem has to be advanced w.r.t. problematic control-flow
required resources. The lower left window shows the evalu- structures as for example loop or special joins.
ation results of these rules. In the right window, the petri
• For the classification problem, the selection of context
net-based bottleneck analysis indicates an overproportional
variables and algorithm parameters has to be made
waiting time between request submission and request vali-
accessible for a business user. Experiments also showed
dation (concrete values in the figure have been changed for
that the rule output may vary significantly w.r.t. the
anonymization purposes). In the lower middle window, we
predicates used in the rules. We have to find a way
see an instance marked with a conformance issue, namely
for stabilizing the rule output, e.g. by modifying the
that the request validation sometimes has been left out or
learning algorithm w.r.t. this goal and not only taking
2 prediction accuracy into account.
http://www.promtools.org/prom5/

52
6. RELATED WORK 8. REFERENCES
Due to space restrictions, we do not cover the broad range [1] Business Process Model and Notation (BPMN) -
of general process mining approaches in this section, but Version 2.0 11-01-03, 2011.
rather elaborate on selected approaches which tackle the is- [2] L. Bodenstaff, A. Wombacher, M. Reichert, and M. C.
sue of dependency- or constraint-extraction in workflow logs: Jaeger. Monitoring Dependencies for SLAs: The
The authors of [15] present the idea of decision point min- MoDe4SLA Approach. SCC’08, pages 21–29, 2008.
ing in workflows by translating a routing decision into a [3] M. Castellanos, F. Casati, U. Dayal, and M.-C. Shan.
classification problem for machine learning. In this work, A Comprehensive and Automated Approach to
we generalize this idea also for problem domains in work- Intelligent Business Processes Execution Analysis.
flow execution like bottlenecks or general rule compliance. DAPD, 16(3):239–273, Nov. 2004.
In [18], a pipeline for analyzing influential factors of business [4] F. Chesani, E. Lamma, P. Mello, M. Montali,
process performance is presented. Some of the steps resem- F. Riguzzi, and S. Storari. Exploiting Inductive Logic
ble that of our approach, however e.g. decision trees are Programming Techniques for Declarative Process
used for dependency analysis. The approach is evaluated on Mining, pages 278–295. Springer, 2009.
a simulated dataset. As we have motivated, decision trees [5] F. Chesani, P. Mello, M. Montali, F. Riguzzi, and
are rather unsuited for direct extraction of globally valid S. Storari. Compliance Checking of Execution Traces
“hot-spot” conditions for a business user on real-world data. to Business Rules. In BPM’08 Workshops, pages
An approach for learning constraints for a declarative work- 129—-140, Milan, 2008. Springer.
flow model is presented in [4], however focusing on control-
[6] W. W. Cohen. Fast Effective Rule Induction. In
flow constraints and neglecting data-dependencies. In [3],
ML’95, pages 115—-123, 1995.
related to HP’s solution for business operation management,
an overview on the suitability of different mining techniques [7] P. Dadam and M. Reichert. The ADEPT Project: A
for specific analysis types are discussed. Rule extraction Decade of Research and Development for Robust and
is mentioned, but only as rules derived from decision trees Flexible Process Support. CSRD, 23(2):81–97, 2009.
which as discussed may get too complex for our purposes. [8] R. M. Dijkman, M. Dumas, and C. Ouyang.
The approach in [2] focuses on dependencies of service-level Semantics and Analysis of Business Process Models in
agreements for service compositions and analyzes reasons for BPMN. IST, 50(12):1281—-1294, 2008.
SLA violations. In contrast to our approach, where depen- [9] M. Döhring and B. Zimmermann. vBPMN:
dencies are extracted from historic data, the dependencies Event-Aware Workflow Variants by Weaving BPMN2
in [2] are identified at design time for later comparison with and Business Rules. In EMMSAD’11, London, 2011.
monitoring results at runtime. Springer.
[10] M. Döhring, B. Zimmermann, and L. Karg. Flexible
Workflows at Design- and Runtime using BPMN2
Adaptation Patterns. In BIS’11, Poznan, 2011.
Springer.
7. CONCLUSION [11] E. Frank and I. H. Witten. Generating Accurate Rule
We motivated the need for automated extraction of con- Sets Without Global Optimization. In ICML’98,
dition constraints for problematic “hot spots” in workflows Madison, 1998.
by the initial uncertainty of a modeler when introducing a [12] P. Hornix. Performance Analysis of Business Processes
flexible WfMS and by rapidly changing impact factors on through Process Mining. (January), 2007.
workflow execution performance. Existing approaches for [13] J. Hühn and E. Hüllermeier. FURIA: an algorithm for
data dependency extraction have turned out not to deliver unordered fuzzy rule induction. DMKD,
conveniently interpretable results on real-world datasets and 19(3):293–319, Apr. 2009.
were considered generally hard to employ for business users. [14] J. R. Quinlan. C4.5: Programs for Machine Learning.
Therefore in this work we have proposed a methodology Morgan Kaufmann Publishers Inc, 1993.
which starts from a BPMN workflow definition with a set [15] A. Rozinat and W. van Der Aalst. Decision mining in
of additional template-based constraints and transforms the business processes, 2006.
workflow into a petri net for automatic hot-spot discovery [16] A. Rozinat and W. M. P. van der Aalst. Conformance
according to rule-conformance, control-flow-conformance and checking of processes based on monitoring real
bottleneck detection. The hot-spots in turn are transformed behavior. IS, 33(1):64–95, 2008.
into a classification problem for further mining algorithms [17] W. M. P. van der Aalst, H. T. de Beer, and B. F. van
which should explain the data-dependencies characterizing Dongen. Process Mining and Verification of
the problem. One key differentiator to other approaches Properties. In OTM Conferences (1), pages 130—-147,
is the use of a fuzzy rule induction approach, which deliv- Agia Napa, 2005. Springer.
ers globally valid and interpretable rules. Our approach es- [18] B. Wetzstein, P. Leitner, F. Rosenberg, I. Brandic,
pecially aims at providing the corresponding conditions for S. Dustdar, and F. Leymann. Monitoring and
reuse in adaptation rules which improve the overall workflow Analyzing Influential Factors of Business Process
performance by circumventing critical situations. Performance. EDOC’09, pages 141–150, 2009.
However, some integration steps between the phases of our
[19] P. Wolf, C., Harmon. The State of Business Process
methodology, like a BPMN to petri net translation suitable
Management 2010, 2010.
for mining purposes, the aggregation of problem situations
to hot-spots or the guided parameter selection for the rule
mining algorithm remain subject to future work.

53
IF dockyardStation==Hamburg THEN APPLY NonFailableTimedHandler(measurements, time=12h, handlerTask=ResetDevices)
<>=12h
<>=Reset Devices [ ]
[ Measurements ]

12h after

=
Reset
Engine
Startup Test
Expected
Lifetime Test +
<>
Engine Expected
first act Devices

Startup Test Lifetime Test
<>

Figure 2: Example of a Rule-Based Workflow Adaptation

External Accept
Broadcast

Reject
Internal
Broadcast

Not
Available Close
Create Submit Validate Direct Request
Request Request Request Contact

Withdraw

Proposition to
Customer Not Staffed Successfully
Staffed

Figure 3: Staffing Workflow of a Large Globally Operating IT Consulting Company

Figure 4: Screenshot of ProM with Most Relevant Workflow Analyses within our Methodology

54
Vorschlag Hypermodelling: Data Warehousing für
Quelltext
Tim Frey
OvG University Magdeburg, Germany
tim.frey@tim-frey.com

ABSTRACT können, aus dem betriebswirtschaftlichen Kontext für Quelltext
This paper explains the idea to load source code into a Data einzusetzen. Es werden dabei erste Überlegungen zu deren
Warehouse. First, separation of concerns is explained. Follow- Einsatz präsentiert. Das Fernziel des Einsatzes dieser Analyse-
ing, the motivation to load source code in a Data Warehouse is verfahren ist es, Data Warehouse Technologie als Werkzeug
briefly presented. Afterwards, the multi-dimensionality of soft- zur Quelltextanalyse nutzen zu können.1
ware is discussed. Also, a first model for software in a Data Im Folgenden wird zuerst die Motivation und Vision, Quelltext
Warehouse is shown. Nearby, the challenge that multiple cubes in ein Data Warehouse zu laden, beschrieben. Danach wird die
will be needed in order to load software in a Data Warehouse is Mehrdimensionalität von Software erläutert, um den Bezug zu
elucidated. Thereafter, related work is shown and its relation to mehrdimensionalen Daten im Data Warehouse zu geben. Im
the revealed idea is explained. Finally, conclusions are done Anschluss werden erste relationale Schemata präsentiert und
and future work paths are described. diskutiert, die Quelltext in einem Data Warehouse abbilden
können. Durch deren Darstellungen werden weitere Anforde-
Categories and Subject Descriptors rungen für zukünftige Schemata aufgedeckt. Nachfolgend wer-
D.2.3 [Software Engineering]: Coding Tools and Techniques; den verwandte Arbeiten, im Vergleich zu der in diesem Papier
D.2.7 [Software Engineering]: Distribution, Maintenance, and vorgeschlagenen Idee, erläutert. Am Ende werden Rückschlüs-
Enhancement se und weitere Arbeitspfade beschrieben.
General Terms
Human Factors 2. MOTIVATION UND VISION
Im betriebswirtschaftlichen Bereich existiert eine Vielzahl von
Keywords Systemen, deren Daten in einem Data Warehouse zusammenge-
Separation of Concerns, OLAP fasst und homogenisiert werden. Dies ermöglicht es, diese zu
aggregieren, Mining zu betreiben und strategische Entschei-
1. EINLEITUNG dungen zu treffen [5]. Des Weiteren werden Data Warehouses
Bei der Softwareentwicklung ist das Prinzip der Separation of
zur integrierten Unternehmensplanung verwendet. Dabei wer-
Concerns (deutsch: Trennung der Belange, kurz SOC) etabliert.
den Planziele in einem Data Warehouse hinterlegt [6].2
Dieses Prinzip entspricht der Handlungsweise, ein Softwaresys-
tem aus verschiedenen Blickwinkeln zu betrachten und die
Codierung für jeden Blickwinkel, in einzelnen Modulen zu
erstellen [1]. Diese Blickwinkel werden oftmals auch Belang
oder Concern genannt. Verschiedene Programmiersprachen
stellen dabei verschieden mächtige Mechanismen zur Verfü-
gung, um Module für die einzelnen Blickwinkel zu erstellen.
Durch die Modularisierung wird eine erhöhte Wiederverwend-
barkeit und Verständlichkeit erreicht. Trotz der Anwendung
von SOC ist die Erstellung und die Untersuchung von Software
eine große Herausforderung. Ferner ist es nicht einfach mög-
lich, einzelne Concerns in Module zu kapseln, weil eine "abso-
lute" Modularität mit gängigen eingesetzten Programmierpara- Abbildung 1: Prozesse mit einem Data Warehouse
digmen nicht möglich ist [2,4]. So ist es zum Beispiel bei der Dargestellt ist dies in Abbildung 1. Daten werden aus operati-
Kodierung von Problemstellungen durch das objektorientierte ven Systemen in ein Data Warehouse geladen. Diese Daten
Paradigma nicht möglich, alle Concerns in einzelne Module zu
verpacken. Ein Modul ist oftmals für verschiedene Zuständig-
keiten zugleich programmiert [2, 3, 4]. Folglich sind verschie- 1
Aufgrund des Bezuges des Papieres auf SOC und Data Ware-
dene Concerns in Modulen vermischt und werden nicht in ein-
house Technologien wird im weiteren Verlauf von einer Ver-
zelnen Modulen, wie es eigentlich die Idee von SOC ist, ko-
trautheit mit SOC [1] und den hierbei auftretenden Problemen
diert. Um die Analyse von Software im Zusammenhang mit
[2,4], Frameworks [8,9], aspekt-orientierter Programmierung
Concerns zu ermöglichen, muss folglich ein Analyseverfahren
[12], domänen-spezifischen Sprachen [11], Annotationen [10]
den Umstand der Vermischung von Concerns in Modulen be-
und Grundkenntnissen im Data Warehouse Bereich [5,7]
achten. Der Beitrag dieses Papiers ist daher die Idee, mehrdi-
ausgegangen.
mensionale Analyseverfahren, die solche Umstände beachten
2
Eine integrierte Unternehmensplanung ist die Hinterlegung
von Planzielen in einem Data Warehouse. In diesem werden
Copyright is held by the author/owner(s). hierbei Merkmalkombinationen in Verbindung mit Kennzah-
GvD Workshop’11, 31.05.-03.06.2011, Obergurgl,Österreich. len gespeichert, wobei zumindest ein Merkmal ein zukünfti-
ges Zeitdatum darstellt. Der Zusammenhang zwischen strate-
gischen Entscheidungen und Planung ist, dass strategische
Entscheidungen zu Planzielen führen können.

55
werden dann genutzt, um Berichte zu erzeugen. Aufgrund die- oder sie spannen Dimensionen auf, die orthogonal zu den bishe-
ser Berichte werden Entscheidungen getroffen. Diese führen zu rigen Dimensionen stehen. Dabei rücken diese neuen Dimensi-
einer Planung für die Zukunft. Der Plan wird dann als Planda- onen in den Vordergrund und bisherige Dimensionen werden
ten im Data Warehouse gespeichert. Dabei können die Planda- verdeckt, was einer Drehung des Würfels ähnlich ist.
ten auch dazu führen, dass automatisiert in die operativen Sys- In Abbildung 2 wird Quelltext, der selbst in eine
teme geschrieben wird (grauer Pfeil). Durch Planung und deren Frameworkdimension aufsteigt, grafisch visualisiert. Dabei sind
Umsetzung entstehen neue Daten in den operativen Systemen. zuerst zwei Frameworks A und B zu sehen. Der Quelltext kon-
Diese werden dann wieder in das Data Warehouse geladen und sumiert die Fähigkeiten eines Frameworks A und eines anderen
können mit den Plandaten verglichen werden. Das führt zu B, womit eine Komposition von beiden Frameworks erreicht
Entscheidungen und gegebenenfalls zu einem neuen Plan [7]. wird. Ein solches Konsumieren kann z.B. ein Funktionsaufruf
Bei der Softwareentwicklung fallen ebenfalls Artefakte in einer oder jedes andere Nutzen der Fähigkeiten eines Frameworks
Vielzahl von Systemen an, und bei vielen Projekten ist die sein. Die Pfeile zeigen das Konsumieren von Fähigkeiten an.
Quelltextbasis zu groß, um einfach überblickt oder analysiert zu Aufgrund dessen, dass neuer Quelltext den bestehenden Quell-
werden. Die Vision ist daher eine integrierte, homogenisierte text nutzt, steigt der zuvor erzeugte Quelltext im unteren Teil
Sicht auf Software als multidimensionales Gebilde, durch die der Grafik, selbst zur eigenständigen Dimension auf. Diese
die verschiedenen Artefakte, die im Produktlebenszyklus auf- wird dann von neuem Quelltext konsumiert. Dabei kann es
treten, abgebildet werden können. Der Kern der Idee ist, dass auch sein, dass der New Code nicht mehr das originale Frame-
Software nicht nur aus der Applikationslogik besteht, sondern work B nutzt, sondern nur den zuvor erzeugten Code und Fra-
aus einer Vielzahl weiterer Artefakte, wie zum Beispiel Tests. mework A, was durch die Schraffierung angedeutet ist.
Eine multidimensionale Anordnung im Data Warehouse könnte Die Idee ist, dass Frameworkfunktionen oftmals Concerns re-
eine integrative Komponente sein, die es erlaubt, die Software präsentieren. Somit können die verschiedenen Concerns der
aus verschiedenen Blickwinkeln zu betrachten. Desweiteren Software mit Dimensionen gleichgesetzt werden.
würde es der Einsatz dieser Technologie zulassen, außer der
Analyse weitere Anwendungen möglich zu machen. Der Pla-
nungsprozess in Data Warehouses, der zur integrierten Planung
verwendet wird, könnte dazu dienen, Qualitätskriterien zu defi-
nieren, oder auch Weiterentwicklungen von Software zu planen
und diese dann mit der erfolgten Realität zu vergleichen.
Ziel dieser Arbeit ist es daher, erste Möglichkeiten des Spei-
cherns von Quelltext in einem Data Warehouse zu untersuchen.
Diese erste Evaluation soll Hinweise über die Realisierbarkeit
des Einsatzes von Data Warehouses zur Quelltextuntersuchung
liefern.

3. MEHRDIMENSIONALE SOFTWARE
Software wird normalerweise unter der Nutzung von Frame-
works, die vorgefertigte Funktionalität bereitstellen, erstellt.
[8,9]. Software kann als ähnlich zu einem n-dimensionalen
Hyperwürfel betrachtet werden. Die Ecken bzw. Kanten des
Würfels sind Frameworkfunktionen. Durch diese Anschauung
ist es nötig, Software nicht nur aus einer Position zu betrachten.
Die Ansicht ist ähnlich zu einem Hyperwürfel und kann gedreht
werden. Eine Drehung kann hierbei verschiedene Dimensionen
in den Vordergrund verschieben und andere im Hintergrund
verschwinden lassen. Dieser Vergleich zeigt, dass der Mensch
nicht dazu fähig ist Software, die ähnlich einem Hyperwürfel
ist, direkt und vollständig zu erfassen. Darstellungen sind viel-
mehr Projektionen in den Verständnisraum des Menschen. Abbildung 2: Quelltext, der zur Dimension aufsteigt
Die Analogie zu einem Hyperwürfel kann auf dessen Konstruk- Daraus folgt eine abstrahierte Darstellung des Sachverhaltes
tion reduziert werden. Dabei kann ein Würfel gesehen werden, von Abbildung 2 in Abbildung 3. Hierbei wurden die Dimensi-
der durch weitere Dimensionen erweitert wird. Im Falle von onen des Quelltextes mit C für Concern gekennzeichnet. Die
Software wird ein Würfel durch Quelltext "befüllt", der sich im Komposition durch Quelltext von verschiedenen Concerns ist
vorgegebenen Rahmen eingliedert. Dies bedeutet, dass Quell- durch den Verbindungsvektor VC1 dargestellt. In Abbildung 3b
textmodule aufgrund der Nutzung verschiedener wird diese Dimension, beziehungsweise dieser Concern, selbst
Frameworkfunktionen verschiedenen Dimensionen zugehörig wiederum konsumiert (VC2). Der gestrichelte VC1 Vektor und
sind. Diese Zugehörigkeit ergibt sich daraus, dass die einzelnen dessen Parallelverschiebung zeigt, dass die neue Dimension
Concerns nicht in Modulen getrennt sind, und somit ein Modul komplett gleichberechtigt zu den „normalen“ C Dimensionen
durch die Nutzung verschiedener Funktionen verschiedenen ist.
Dimensionen gleichzeitig zugehörig sein kann.
Beim Erstellen von Software werden Funktionen, die im „aktu-
ell erstellten“ Quelltext selbst sind und nicht aus Frameworks
stammen, auch genutzt. Der Programmierer erzeugt sich ein
eigenes Framework für seine spezielle Aufgabe. Dieses setzt
auf bestehende Funktionen von Frameworks auf oder definiert Abbildung 3: Quelltext der zur Dimension aufsteigt
vollkommen neue Funktionen. Somit wird ein Teil des Würfel- Ein weiterer Umstand, den es zu beachten gilt, ist die Anord-
inhaltes zu neuen Dimensionen. Diese befinden sich in dem nung der Concerns im Falle von Quelltext. Dieser kann, wie
Würfelrahmen und erzeugen hierin spezialisierte Unterräume beschrieben mehreren Concerns zugehörig sein. Diese können

56
sich zudem in verschiedenen Hierarchien befinden. Beispiels- enthalten. Oftmals werden Annotationen in Frameworks defi-
weise könnte eine Hierarchie VC2 zu VC1 und Cn sein. VC1 niert und daher ist die Annotationstabelle mit der
wiederum ist die Wurzel der Cx, Cy Hierarchie. Abstrakt dar- Frameworktabelle verknüpft. Die Parameter Tabelle zeigt die
gestellt ist dies in Abbildung 4a. Dort wird die Hierarchie vi- Möglichkeit, dass Annotationen auch Parameter besitzen kön-
sualisiert, in der sich VC2 befindet. VC2 bildet dabei den Ur- nen. Zusätzlich sind oftmals externe domänenspezifische Spra-
sprung von dem aus die Hierarchie aufgespannt wird. In Abbil- chen (domain specific language (DSL)) mit Quelltext assoziiert.
dung 4b wird der Sachverhalt verallgemeinert gezeigt, dass Durch diese können zu Quelltextfragmenten verschiedene
Dimensionen/Concerns auch hierarchisch angeordnet sein kön- Funktionalitäten hinzu konfiguriert werden [11]. Ein bekanntes
nen. Verschiedene Tiefenebenen sind als Dimensionsebenen Beispiel hierfür ist die Konfiguration persistenter Klassen über
(DE1- DEn) beschriftet.3 Die Wurzel der Hierarchien bildet eine DSL. In modernem Quelltext treten auch Aspekte [12] auf.
dabei das Fragment, in dem die einzelnen Concerns komponiert Aspekte sind Fragmente die es ermöglichen, Funktionalität, die
wurden. Ein praktisches Beispiel für Hierarchien sind Metho- nach dem Objektparadigma nicht an einer Stelle kodiert werden
denaufrufe oder Vererbung. kann, an einem zentralen Punkt zu realisieren. In diesem wird
dann angegeben welche Module von dem Aspektcode (Advice)
betroffen sind. Die Konfiguration der betroffenen Module er-
folgt über sogenannte pointcuts. Zuletzt kann ein Modul einer
Komponente und Aufgaben zugordnet werden. Beispielsweise
können solche Aufgaben das Einpflegen von Änderungen in der
Funktionalität darstellen.

Abbildung 4: Dimensionshierarchien
Da in modernem Quelltext oftmals eine hohe Anzahl von Fra-
meworks verwendet wird, stellt sich die Herausforderung, trotz
der Analogie zwischen Frameworkfunktionen und Dimensio-
nen, diese bei einer Umsetzung in einem Schema nicht voll-
ständig gleichzusetzen. Dies hat den Grund, dass oftmals eine
Vielzahl von Frameworks in Quelltext verwendet wird und
somit eine hohe Anzahl verschiedener Dimensionen wahr-
scheinlich die Skalierbarkeit der Umsetzung beeinflussen wür-
de. Folglich sollten Frameworkfunktionen als eine Dimension
Abbildung 5: Grundlegendes relationales Quelltextschema
mit verschiedenen Elementen, den eigentlichen Funktionen der
Frameworks, modelliert werden.
Ziel ist ein Modell, welches die zuvor genannten Sachverhalte
4.1.2 Schneeflockenschema
Das in Abschnitt 4.1.1 dargestellte Schema wurde in Abbildung
in einem Data Warehouse abbildet. Dies kann genutzt werden,
6, an ein Schneeflockenschema angelehnt, erweitert. Eine gene-
um Abfragen auf Quelltext zu ermöglichen. Aufgrund der
rische Zuordnung von Modulen zu Concerns wird besser er-
Mehrdimensionalität des Ansatzes und dem Hintergrund, dass
möglicht und mehr Sachverhalte können dargestellt werden.
bei der Programmierung Modelle die Realität abbilden, ist der
Ebenfalls wird der Umstand beachtet, dass eine generische
Name der Kombination, zwischen Data Warehouse und Soft-
Darstellung der Beziehungen im Quelltext aus Abschnitt 3
warequelltext, Hypermodelling.
dargestellt wird und verschiedene Frameworks nicht als eigen-
ständige Tabelle realisiert sind. Vielmehr sind die
4. MODELLIERUNG Frameworkfunktionen in einer Tabelle zusammengefasst.
Data Warehouses nutzen im Normalfall eine relationale Daten- Wie zu sehen ist, verweist die Faktentabelle auf verschiedene
quelle, um OLAP-Würfel zu füllen. Daher ist der erste Schritt Concerns, zu denen die Zugehörigkeit durch Cmembership in
ein relationales Schema, das Quelltext in einem Data Warehou- Prozent ausgedrückt werden kann. Als Modulgranularität wurde
se abbildet. In Data Warehouses werden zu der Abbildung von eine Funktion gewählt. Diese stellt eine kleine Einheit klarer
Daten in relationalen Tabellen im Normalfall Stern- oder Funktionalität dar und gliedert sich in eine Klasse ein. Folglich
Schneeflockenschemata verwendet [31]. Nachfolgend werden ist Aggregation von Fakten auf Klassenebene möglich. Eine
zwei relationale Modelle, inspiriert von diesen, gezeigt. Zuletzt Funktion kann andere Funktionen nutzen (Function_call). Hier-
wird die OLAP Darstellung angerissen und Problematiken des bei kann spezifiziert werden, ob der Konsum ein Aufruf oder
entwickelten Schemas aufgezeigt. ein andere Nutzungsart (Usage type), wie zum Beispiel das
Überschreiben einer Funktion eines Frameworks ist. Ebenfalls
4.1.1 Einfaches Schema können Typen eines Frameworks, wie zum Beispiel durch An-
In Abbildung 5 ist exemplarisch eine Tabellenstruktur mit
notationen oder Erbschaftbeziehungen, konsumiert werden
Fragmenten, die in Quelltext vorkommen, an ein Sternschema
(Type_usage).
angelehnt, dargestellt. In der Abbildung ist das zentrale Ele-
Rückverweise auf die Faktentabelle zeigen, dass Hierarchien
ment die Faktentabelle. Eine Zeile in dieser repräsentiert ein
von Funktionen möglich sind. Die Aufrufhierarchie wird durch
Quelltextfragment, wie ein Modul. Ein solches ist zum Beispiel
die CallHierarchy Table dargestellt. Die EvolvedConcernCode
eine Klasse oder Funktion. Eine Klasse kann Annotationen
Tabelle ermöglicht es, Funktionen/Fakten selbst als Concern zu
führen. Durch diese Tabelle kann Quelltext, der sich zum
3
Die Ebenen sind rein zur besseren Visualisierung dargestellt; Concern entwickelt (siehe Abschnitt 3), aber kein Teil eines
nicht jede Dimension muss über die gleiche Anzahl von Hie- Frameworks ist, dargestellt werden.
rarchien verfügen.

57
Besonders interessant ist die Issue Tabelle, die Bugs darstellt. somit keine Repräsentation der Programmstruktur, sondern
Diese können auf zugehörige Tests verweisen. Dabei können vielmehr die Assoziation von Programmelementen miteinander.
auch Tasks oder deren Kontext mit solchen Issues verbunden Ein Beispiel für die Assoziation von Programmelementen mit-
sein. Ebenfalls wurde der Umstand ins Modell eingeflochten, einander ist die zuvor beschriebene Aufrufhierarchie. Da somit
dass Packages oftmals Layer zugeordnet werden können. beide OLAP-Würfel eine Assoziation zu dem Quelltext besit-
Metrics, Profiling info und Author zeigen, dass weitere Infor- zen, können diese dann in einem Verknüpften OLAP-Würfel
mationen im Bezug auf Quelltext dargestellt werden können. zusammengeführt werden. In diesem Linked Cube werden dann
zusätzliche Fakten, mit denen des logischen Modells einer Pro-
grammiersprache zusammen geführt.

Abbildung 7: OLAP-Würfel, Zuordnung von Quelltext
Schlussendlich zeigt sich, dass für die Entwicklung eines relati-
onalen Schemas, zuerst Fakten von der Struktur von Quelltext
getrennt werden sollten. Danach können die verschiedenen
Fakten in einem weiteren Modell zusammengeführt werden.

5. VERWANDTE ARBEITEN
Auf der Homepage4 des Hypermodelling Projektes befinden
sich weitere Informationen über die Idee, Quelltext in ein Data
Warehouse zu laden und verwandte Forschung.
Die Gruppe der Source Code Query Tools stellt im Wesentli-
chen Programme dar, die Quelltext aufgrund von Abfragen
untersuchen können. Diese Werkzeuge können als verwandte
Abbildung 6: Quelltext, Schneeflockenschema Arbeiten zu der Idee von Hypermodelling gesehen werden, da
diesen zu Grunde liegt, Quelltext, aufgrund von Abfragen zu
4.1.3 OLAP-Darstellung untersuchen. JQuery ist ein Abfrage basierter Source Code
Grundlegend zeigt das Schema aus Abschnitt 4.1.2 bei näherer Browser für Java. Realisiert ist er als Eclipse Plugin [13].
Betrachtung die Einschränkung, dass eine direkte Umsetzung in JQuery stellt eine deklarative Abfragesprache zur Verfügung
einen OLAP-Würfel keine elegante Lösung darstellt. Insbeson- und erlaubt es, durch diese verschiedene Ansichten auf Quell-
dere die rückverweisende CallHierarchy besitzt Eigenschafen text zu erzeugen [14]. Ferret ist ein weiteres Source Code Que-
einer Faktentabelle; CallHierarchy kann mehrmals gleiche Ein- ry Tool und wurde von Brian de Alwis im Rahmen seiner Dis-
träge besitzen, wenn eine Funktion mehrmals die gleiche Funk- sertation entwickelt [15, 16]. Es erlaubt es ähnlich JQuery,
tion aufruft. Zur Realisierung sollte somit mit der Sichtweise Abfragen an Java Quelltext zu erstellen. Ferret ist hauptsächlich
einer zentralen Faktentabelle gebrochen werden. dafür gedacht, den Quelltext aufgrund seiner Aufrufstruktur
In Abbildung 7 ist aufgrund der zuvor genannten Einschrän- und Vererbung zu untersuchen. Lost ist ein Query Tool für
kungen daher die Idee, mehrere OLAP-Würfel zu erstellen, die aspekt-orientierte Programmierung [17]. Grundlegend verfol-
einen Bezug zu den Daten eines konkreten Programmes, das gen alle Source Code Query Tools das gleiche Ziel und besitzen
analysiert werden soll, haben. Ziel ist es einen OLAP-Würfel, ähnliche Funktionalität. JQuery erscheint von allen Tools das
ähnlich A, zu erstellen, der Zuordnungen mit einem logischen am besten gepflegteste und mächtigste zu sein und kann somit
Modell einer Programmiersprache enthält. Hierbei kann dieser als bestes Vergleichsprodukt zu Hypermodelling gesehen wer-
OLAP-Würfel durch zusätzliche Daten, die im direkten Zu- den. Im Vergleich zu Hypermodelling unterscheiden sich die
sammenhang zu der Programmiersprachenlogik, stehen ange- Source Code Query Tools darin, dass diese nicht das Ziel ver-
reichert werden. Solche Daten könnten zum Beispiel Tests oder folgen, Data Warehouse Technologie zur Analyse von Quell-
deren Ergebnisse sein. Dieser OLAP-Würfel stellt ein Abbild text zu nutzen. Ebenfalls orientiert sich ihre Funktionsweise
der Programmiersprachenstruktur dar, welches durch ein kon- oder die Abfragemöglichkeiten nicht an Data Warehouse Tech-
kretes Program als Fakten „befüllt“ wird. nologie.
In einem weiteren OLAP-Würfel werden dann Fakten, die nicht
der Programmiersprachenstruktur entsprechen, definiert. Jedoch
besitzen die Daten zumindest einen Bezug zu dem Quelltext-
4
model. Im Vergleich zu OLAP-Würfel A ist OLAP-Würfel B http://hypermodelling.com

58
Martin Robillard forscht auf dem Gebiet der Concernanalyse. strebt wird. Dies ist zudem auch darin zu sehen, dass Sourcerer
Sein Werkzeug, ConcernMapper [18], soll helfen, Quelltext keine Faktentabellen nutzt, um Beziehungen im Quelltext ab-
nach verschiedenen Concerns zu unterteilen und ist auf manuel- zubilden.
le Zuordung von Concerns zu Quelltextfragmenten ausgelegt. Codegenie, dass auf Sourcerer aufsetzt, ermöglicht es, Kompo-
Der Unterschied zu den Source Code Query Tools ist, dass der nenten aufgrund von Testfällen aufzudecken und in ein Pro-
Concern Mapper keine Abfragesprache oder ähnliche Mittel gramm zu integrieren [25, 26]. Ähnlich zu Codegenie zeigt [27]
nützt, sondern dieser auf die rein manuelle Zuordnung von weitere Möglichkeiten der Komponentenaufdeckung, unter der
Concerns ausgelegt ist. Der größte Nachteil im Vergleich zu Zuhilfenahme von Codesuchmaschinen und gibt einen Über-
Hypermodelling ist, dass das Anlegen und Zuordnen der blick und Vergleich über die Aufdeckung von Komponenten.
Concerns eine Mehrarbeit des Entwicklers bedeutet und nicht Im Vergleich zu diesen Codesuchmaschinen liegt der Fokus
das Ziel verfolgt wird, Abfragen aufgrund dem Entwickler be- von Hypermodelling auf der Analyse und Abfragen aufgrund
kannter Quelltextelemente zu ermöglichen. von Concerns. Eine Verwendung der Hypermodelling Idee zur
In [19] wird ein Verfahren beschrieben, bei dem ein Metrics Codesuche könnte jedoch eine interessante Anwendung sein.
Warehouse eingesetzt wird. Dieses erinnert aufgrund des Orthographic Software Modeling (OSM) ist der Ansatz, mehr-
Warehouses entfernt an die Idee des Hypmermodelling. Dabei dimensionale Navigation durch Modelle bei der Softwareent-
wird bei dem Verfahren beschrieben, wie Projekte anhand von wicklung einzusetzen [30]. Ziel ist es, Quelltext und die zuge-
Metriken, gesteuert werden können. Dies bezieht sich auf Met- hörigen Modelle in einem zentralen Modell abzubilden um
riken aus betriebswirtschaftlichen Systemen und nicht direkt daraus die verschiedenen Modellansichten dynamisch erzeugen
auf Metriken, die durch eine Funktion aus Quelltext berechnet zu können [28]. Um die Navigation durch die verschiedenen
werden können. Diese Metriken werden dann in ein nicht näher Modellansichten zu ermöglichen, werden verschiedene Dimen-
erläutertes Metrics Warehouse geladen, das einem Data Ware- sionen und deren Ausprägungen definiert. Zum Beispiel eine
house ähnlich ist. Der genaue Aufbau des Metrics Warehouses, Dimension die in ihren Ausprägungen die Abstraktionsebenen
die Struktur der Daten, und der Inhalt des Warehouses wird festlegt oder eine Projektionsdimension, deren Ausprägung die
nicht näher beschrieben. Struktur oder die Interaktion von Elementen beschreibt. Die
Source Code Mining ist die Anwendung von Data Mining Al- Auswahl einer Kombination von Ausprägungen von Dimensio-
gorithmen auf die Quelltext, Bug Datenbanken und Versions- nen bestimmt letztendlich dann, welches Modell gezeigt wird
verwaltungssysteme [20]. Somit stellt diese Technik auch die [29]. Die mehrdimensionale Navigation und die Sichtweise von
Zielsetzung auf, Quelltext zu analysieren und dadurch Verbes- Software als ein mehrdimensionales Konstrukt, das von ver-
serungen zu erreichen, und kann somit als ähnlich erachtet wer- schiedenen Blickwinken aus betrachtet werden kann, ähnelt
den. Die Hauptidee hierbei ist es, Bugs aus Issue Tracking Sys- Hypermodelling. Jedoch verfolgt OSM nicht das Ziel, Data
temen, mit deren Lösungen aus Versionsverwaltungssystemen, Warehouse ähnliche Mechanismen zu nutzen, um dadurch
aufgrund der entsprechenden Quelltexte zu verknüpfen und Quelltext untersuchen zu können. Ferner liegen die Ziele von
darauf Data Mining zur Analyse zu nutzen. Muster im Quelltext Hypermodelling nicht direkt in der Modellierung von Software,
werden aufgedeckt, interpretiert und Handlungen abgeleitet. sondern vielmehr darin, Abfragen unter der Nutzung verschie-
Solche Analysen können beispielsweise zu Feststellungen füh- dener Concerns zu ermöglichen. In diesem Kontext könnte
ren, dass Problemlösungen, die an einem bestimmten Wochen- natürlich auch die dynamische Erstellung von Ansichten bei
tag gemacht wurden, mit einer hohen Wahrscheinlichkeit wie- OSM als Abfragen verstanden werden, und es könnte interes-
der zurückgenommen werden [21]. Das Source Code Mining sant sein, eine Kombination zwischen OSM und Hypermodel-
besitzt den Nachteil, dass derzeit nur Zusammenhänge zwi- ling zu untersuchen.
schen Fehlern und Beziehungen zwischen einzelnen Quelltext- Bezogen auf die Data Warehouse Schemata zeigen [5] und [31]
elementen im Source Code aufgedeckt werden können. Es wird einen umfassenden Überblick über das Thema Data Warehouse.
dabei kein Verfahren offenbart, wie weitere Daten in die Wis- Hier werden die verschiedenen Schemata besprochen und prak-
sensbasis integriert werden können. Des Weiteren verfolgt tische Beispiele aufgezeigt. Business Intelligence, wie auch die
Source Code Mining im Vergleich zu Hypermodelling nicht das integrierte strategische Unternehmensplanung im speziellen
Ziel, eine Datenbasis in Form des Ladens von Daten in ein Data Anwendungsfall, wird in [7] beschreiben. Ein betriebswirt-
Warehouse zu erschaffen, auf welcher dann Analysen ausge- schaftlich- orientierter Überblick der integrierten Unterneh-
führt werden können. mensplanung stellt [6] dar. Einen herstellerneutralen Überblick
In [22] wird Software Intelligence beschrieben. Software über die Planung mit Data Warehouse Systemen bietet [32].
Intelligence wird hier als die Anwendung von Business
Intelligence Mechanismen oder Technologien auf Software 6. ZUSAMMENFASSUNG UND AUSBLICK
beschreiben. Dies ist der hier vorgestellten Idee ähnlich. Der In diesem Papier wurde die Idee, Quelltext in ein Data Ware-
Unterschied liegt darin, dass Software Intelligence nicht das house zu laden, vorgestellt. Hierbei wurde beschrieben, dass
Ziel verfolgt, Quelltext in OLAP-Würfel zu laden und sich auf Quelltext ein mehrdimensionales Gebilde aus Concerns ist.
Source Code Mining konzentriert. Dabei wurde insbesondere der Umstand hervorgehoben, dass
Die Untersuchung von Quelltext unter der Zuhilfenahme einer Module oftmals mehreren Concerns zugeordnet werden kön-
relationalen Datenbank zur Analyse wird im Sourcerer Projekt nen. Es wurde erläutert, dass in diesem mehrdimensionalen
durchgeführt [23]. Das relationale Modell umfasst vier Tabel- Gebilde neue Dimensionen durch Kompositionen erschaffen
len. Quelltext wird in Projekte, Dateien, Kommentare und Enti- werden können. Dieser Umstand zeigt eine besondere Heraus-
täten die mit Beziehungen verknüpft sind, aufgeteilt. Solche forderung, im Bezug auf das Laden von Quelltext in ein Data
Entitäten sind zum Beispiel Klassen, Interfaces und Methoden Warehouse. Unter Beachtung dieser Rahmenbedingung wurden
[24]. Im Vergleich zu Hypermodelling zeigt der Umfang des relationale Modelle mit Faktentabellen präsentiert, in die Quell-
relationalen Modells einen wesentlichen Unterschied; Hyper- text geladen werden kann. Durch deren Darstellung konnte die
modelling visualisiert schon in den ersten vorgestellten Model- Problematik aufgedeckt und verdeutlicht werden: Eine einzige
len die verschiedenen Beziehungen in unterschiedlichen Tabel- Faktentabelle ist zur Darstellung von Quelltext nicht ausrei-
len. Zudem ist das Ziel von Hypermodelling, Data Warehouse chend. Zuletzt wurden verwandte Arbeiten präsentiert, deren
und insbesondere OLAP-Würfel zu verwenden. Dies ermög- Analyse zeigt, dass die Idee, Quelltext in ein Data Warehouse
licht Aggregationen von Fakten, was bei Sourcerer nicht er- zu laden, bisher noch nicht durchgeführt wurde. Dennoch deu-

59
ten die verwandten Arbeiten darauf hin, dass der primäre Ein- of Declarative Languages, 8th International Symposium.
satzort für Abfragewerkzeuge derzeit die integrierte Entwick- Springer. 2006.
lungsumgebung ist. [15] B. de Alwis, G. C Murphy. Ferret: A Tool Supporting
Eine wichtige Folgerung aus den Darstellungen dieses Papiers Software Exploration. The University of British Columbia
ist, dass bei der Erstellung eines weiteren Schemas, Quelltext in Vancouver, Canada.
verschiedene Fakten aufgeteilt werden sollte. Dies wird benö- http://www.cs.ubc.ca/~bsd/research/ferret/
tigt, um ein relationales Modell zu erstellen. Somit stellt sich [16] B. de Alwis. Supporting Conceptual Queries Over Inte-
für zukünftige Arbeiten die Frage, welche Mittel einer Pro- grated Sources of Program Information . PHD Thesis.
grammiersprache als strukturell und welche als assoziativ zu- University of British Columbia, Vancouver Canada. 2008
einander begriffen werden können. Eine derzeitige Überlegung [17] J.-H. Pfeiffer. Complex code querying and navigation for
ist daher Quelltext als Mechanismen von Kategorisierung AspectJ. OOPSLA ’05. ACM. 2005
(strukturell) und Komposition (assoziativ) zu betrachten. Kate- [18] M. P. Robillard and F.Weigand-Warr. ConcernMapper:
gorisierung ist hierbei alles, das einer logischen Zuordnung simple view-based separation of scattered concerns. In
dient. Zum Beispiel Klassen zu Packages. Komposition stellen Proceedings of the 2005 OOPSLA Workshop on Eclipse
sämtliche Elemente dar, die eine direkte Auswirkung auf die technology eXchange, ACM, 2005
Funktionalität ausüben, wie Methodenaufrufe. Dennoch sind [19] C. R. Pandian. Software metrics: a guide to planning,
hier Diskussionspunkte offen. So ist es zum Beispiel fragwür- analysis and application. Auerbach Publications. 2003
dig, ob Ableitungen eher eine Kategorisierung oder eine Kom- [20] Mining Software Archives.Lehrstuhl für Softwaretechnik
position darstellen. Ziel dieser Überlegungen ist es Quelltext in Universität des Saarlandes – Informatik. Prof. Zeller.
OLAP-Würfel zu laden, um dadurch komplexe Analysen von http://www.st.cs.uni-saarland.de/softevo/.
Quelltext zu ermöglichen. [21] T. Zimmermann, A. Zeller. When do changes induce fix-
Eine weitere Überlegung kommt aus der Betrachtung der ver- es?. ICSE 05, ACM. 2005
wandten Arbeiten, die Großteils für Eclipse umgesetzt wurden. [22] A. E. Hassan, T. Xie.Software Intelligence: Future of Min-
Diese inspirieren dazu, OLAP ähnliche Abfragen direkt in der ing Software Engineering Data.In Proceedings of
integrierten Entwicklungsumgebung zu ermöglichen. Dies kann FSE/SDP Workshop on the Future of Software Engineer-
ein besonders großer Vorteil für Entwickler sein, da diese mit ing Research .Santa Fe. ACM. 2010
solchen Hypermodelling Abfragen direkt in der Entwicklungs- [23] Sushil Bajracharya, Trung Ngo, Erik Linstead et. al. Sour-
umgebung Quelltext untersuchen können. cerer: A Search Engine for Open Source Code Supporting
Structure-Based Search, OOPSLA’06. USA. ACM. 2006
7. LITERATUR [24] Sushil K. Bajracharya, Joel Ossher, Cristina V. Lopes,
[1] E. W. Dijkstra. Selected Writings on Computing: A Per- Sourcerer - An Infrastructure for Large-scale Collection
sonal Perspective. On the role of scientific thought. Sprin- and Analysis of Open-source Code, Third International
ger.1982 Workshop on Academic Software Development Tools and
[2] W.Harrison, H. Ossher. Subject-oriented programming: a Techniques, Belgium, ACM, 2010
critique of pure objects. OOPSLA '93. ACM. 1993 [25] Otavio Lemos, Sushil Bajracharya et al.. CodeGenie: Us-
[3] Bernhard Lahres, Gregor Rayman. Objektorientierte Pro- ing Test-Cases to Search and ReuseSource Code, ASE’07,
grammierung. Galileo Computing. 2009 2007, Atlanta, Georgia, USA. ACM
[4] H. Ossher, P. Tarr. Multi-dimensional separation of con- [26] Otávio Augusto Lazzarini Lemos , Sushil Bajracharya and
cerns and the hyperspace approach. In Proceedings of the Joel Ossher , CodeGenie: a Tool for Test-Driven Source
Symposium on Software Architectures and Component Code Search, OOPSLA’07, Canada. ACM, 2007
Technology. Kluwer. 2001. [27] O. Hummel, “Semantic Component Retrieval in Software
[5] W.H. Inmon. Building the Data Warehouse. 4th ed., Engineering”,Ph.D. dissertation, Faculty of Mathematics
J.Wiley & Sons, New York. 2005. and Computer Science, University of Mannheim, 2008.
[6] M. C. Meier, W. Sinzig, P. Mertens. Enterprise Manage- [28] C. Atkinson and D. Stoll: "Orthographic Modelling Envi-
ment with SAP SEM/Business Analytics. 2nd Edition, ronment", in Proceedings of Fundamental Approaches to
Springer. Berlin. 2005 Software Engineering (FASE'08), Hungary, Spring, 2008
[7] J. M. Gómez, C. Rautenstrauch, P. Cissek. Einführung in [29] C. Atkinson and D. Stoll: "An Environment for the Ortho-
Business Intelligence mit SAP NetWeaver 7.0. Sprin- graphic Modeling of Workflow Components", in Proceed-
ger.2008 ings of the Prozessinnovationen mit Unternehmenssoft-
[8] S. H. Kaisler. Software paradigms. John Wiley and ware (PRIMIUM), Germany, 2008
Sons.2005 [30] C. Atkinson, D. Brenner, et al.. Modeling Components and
[9] W. Pree. Meta Patterns - A Means For Capturing the Es- Component-Based Systems in KobrA, in A. Rausch, R.
sentials of Reusable Object-Oriented Design. ECOOP 94. Reussner et al. The Common Component Modeling Ex-
Springer. 1994 ample: Comparing Software Component Models, Springer,
[10] J. A. Bloch. Metadata Facility for the Java Programming 2008
Language. 2004. http://www.jcp.org/en/jsr/detail?id=175 [31] R. Kimball, M. Ross. The data warehouse toolkit: the
[11] T. Stahl, M. Völter, S. Efftinge, A. Haase. Modellgetrie- complete guide to dimensional modeling. John Wiley and
bene Softwareentwicklung: Techniken, Engineering, Ma- Sons. 2002
nagement. Dpunkt Verlag.2007 [32] F. Navrade. Strategische Planung mit Data-warehouse-
[12] R. E. Filman, T. Elrad, S. Clarke, M. Aksit Aspect- systemen. Gabler Verlag. 2008.
Oriented Software Development. Addison-Wesley Profes-
sional; 1 edition. 2004
[13] JQuery a query-based code browser. homepage. The Uni-
versity of British ColumbiaVancouver, Canada.
http://jquery.cs.ubc.ca/index.htm.
[14] K. De Volder. JQuery: A Generic Code Browser with a
Declarative Configuration Language. In Practical Aspects

60
Die probabilistische Ähnlichkeitsanfragesprache QSQL2

Sascha Saretz und Sebastian Lehrack
Brandenburgischer Technische Universität Cottbus
Institut für Informatik
Postfach 10 13 44
D-03013 Cottbus, Germany
{ssaretz, slehrack}@informatik.tu-cottbus.de

ABSTRACT Um die Klassifikation aufzubauen identifizieren wir zwei
Die quantenlogik-basierte probabilistische Ähnlichkeitsan- signifikante Kriterien der Ausdrucksmächtigkeit der Anfra-
fragesprache QSQL2 soll vorgestellt werden. Dabei liegt das gesprache und der darunterliegenden relationalen Datenba-
Hauptaugenmerk auf der Formulierung von Anfragen, wel- sis:
che “unsicher” sind, also nicht nur die traditionelle Boo- (i) das Einbauen von Konzepten der Ungenauigkeit und
lesche Werte wahr und falsch annehmen können. QSQL2 Ähnlichkeit durch Ähnlichkeitsprädikate und
kann Ungenauigkeiten sowohl auf Relationenebene als Ein-
trittswahrscheinlichkeiten, als auch auf Prädikatebene als (ii) Tupel, welche Konfidenzwerte besitzen.
Relevanzwahrscheinlichkeiten modellieren. Zusätzlich bietet Wir benennen die Erfüllung einer dieser beiden Kriterien
die Sprache die Eigenschaft einer Booleschen Algebra, womit mit dem Term unsicher. Dies bedeutet, dass wir sichere oder
bekannte Äquivalenzen für die Anfragen nutzbar sind. unsichere Anfragen auf sicheren oder unsicheren relationa-
len Daten anwenden. Es ist dabei darauf zu achten, dass
1. MOTIVATION die Begriffe sicher und unsicher auch mit anderen Bedeu-
Im traditionellen relationalen Modell von Codd [4] sind tungen genutzt werden. In unserem Zusammenhang nutzen
Tupel entweder in einer Relation enthalten oder nicht. Im wir den Begriff unsicher für den Datenmodellierungsaspekt.
Gegensatz dazu können die Ansätze probabilistischer Daten- Wenn ein Nutzer nicht weiß, welche die korrekte Instanz
banken unpräzisen Daten verarbeiten, wobei jede mit einer oder der richtige Wert seiner Daten ist, kann er diese mit
Eintrittswahrscheinlichkeit annotiert ist. Es ist also unsi- einem Konfidenzwert annotieren, welcher die Eintrittswahr-
cher, ob ein Tupel in einem bestimmten Datenbankzustand scheinlichkeit darstellt.
(mögliche Welt) vorkommt oder nicht [5]. Indem die beiden Klassifikationsdimensionen orthogonal
Ein anderer Typ von Unsicherheiten sind Ähnlichkeitsprä- angewendet werden, erhält man vier Anfrageklassen. Diese
dikate wie “Größe≈1.80m”. Sie drücken unsichere Beziehun- Klassen werden im Folgenden kurz beschrieben.
gen zwischen Tupeln aus.
Dies sind zwei unterschiedliche Arten Unsicherheit zu for- (i) Sichere Anfragen auf sicheren Daten (CQonCD)
malisieren. Unsere Sprache QSQL2 erlaubt es beide Arten Die Klasse CQonCD (Certain Queries on Certain Data) ent-
zu nutzen, was dem Nutzer mehr Freiheiten beim Stellen hält alle Anfragen, welche durch Boolesche Bedingungen auf
von Anfragen bietet. Des Weiteren beachtet die QSQL2 die deterministischen relationalen Daten erzeugt werden. Die-
Gesetze der Booleschen Algebra, womit viele für den Nutzer se Anfragen können durch traditionelle relationale Anfrage-
sehr intuitive Äquivalenzen anwendbar sind. sprachen wie den relationalen Kalkül, die relationale Algebra
Um diese erweiterten Möglichkeiten zu verstehen, betrach- und SQL gestellt werden. Die folgenden drei Klassen enthal-
ten wir im nächsten Abschnitt zunächst eine Klassifikation ten CQonCD vollständig.
von Anfragearten.
(ii) Unsichere Anfragen auf sicheren Daten (UQonCD)
2. ANFRAGETYPEN Die Klasse UQonCD (Uncertain Queries on Certain Data)
Wir wollen zunächst eine Klassifikation unterschiedlicher steht für Anfragen, welche Ungenauigkeiten und Vagheit
Anfrageklassen erstellen. Mit diesen sollen semantische Un- unterstützen indem Ähnlichkeitsprädikate genutzt werden
terschiede zwischen Anfragen deutlich gemacht werden. Die können. Diese Prädikate basieren auf einer sicheren Daten-
Entwicklung dieser Klassifikation ist in [13] zu finden. grundlage. Das Evaluationsergebnis einer solchen Anfrage
kann durch einen score-Wert aus dem Intervall [0, 1] ange-
geben werden, welches den Grad der Erfüllung darstellt.

(iii) Sichere Anfragen auf unsicheren Daten (CQonUD)
Die Anfragen der Klasse CQonUD sind typisch für probabi-
listische Datenbanken mit Possible-Worlds-Semantik (siehe
Abschnitt 3.2). Diese Anfragen nutzen Boolesche Bedingun-
23rd GI-Workshop on Foundations of Databases (Grundlagen von Daten-
banken), 31.05.2011 - 03.06.2011, Obergurgl, Austria. gen auf unsicheren Daten mit einem Konfidenzwert aus dem
Copyright is held by the author/owner(s). Intervall [0, 1].

61
(iv) Unsichere Anfragen auf unsicheren Daten (UQonUD) raum gehört, kann man diese Bedingung als vollständige
Wenn man die Possible-Worlds-Semantik (iii) durch Bedin- Übereinstimmung interpretierten (mit einem Score-Wert von
gungen mit Ähnlichkeitsprädikaten (ii) kombiniert, erhält 1). Im Gegensatz dazu entspricht der rechte Winkel von 90◦
man eine Anfrage einer Klasse mit erweiterter Ausdrucks- zwischen Tupelvektor und Bedingungsraum keiner Überein-
kraft. In UQonUD können Ähnlichkeitsbedingungen auf Da- stimmung, der Score-Wert ist 0.
ten genutzt werden, welche nur in einem bestimmten unsi- In frühreren Arbeiten [12, 11] entwickelten wir eine pro-
cheren Datenbankzustand gegeben sind. Die Klasse UQonUD babilistische Interpretation für unser Retrievalmodell, da-
umfasst die ersten drei Klassen. her kann das geometrische Ähnlichkeitsmaß auch als Wahr-
scheinlichkeit der Relevanz aufgefasst werden. Aus diesem
Grund kann man die folgenden bekannten Auswertungsre-
Wir werden sehen, dass QSQL2 eine Vielzahl von Anfra-
geln für Wahrscheinlichkeiten anwenden, wenn alle beteilig-
gen aus allen vier Klassen auswerten kann und somit eine
ten Teilbedingungen c1 und c2 unabhängig sind:
große Bandbreite für die Nutzung von unsicheren Anfragen
bietet.
evalt (c) := SF(t, c), wenn c atomar ist
3. DATEN- UND ANFRAGEMODELL evalt (c1 ∧c2 ) := evalt (c1 ) ∗ evalt (c2 )
Nun soll das grundlegende Datenmodell der Anfragespra-
che QSQL2 beschrieben werden. Es kombiniert zwei Wahr- evalt (c1 ∨c2 ) := evalt (c1 )+evalt (c2 )−
scheinlichkeitsarten: (i) eine Relevanzwahrscheinlichkeit ge- evalt (c1 ) ∗ evalt (c2 )
gen eine Anfrage und (ii) eine Eintrittswahrscheinlichkeit für
ein Datenobjekt. evalt (¬c) := 1 − evalt (c).

3.1 Relevanzwahrscheinlichkeit Die Berechungsfunktion SF den Ähnlichkeitswert für atoma-
re Ähnlichkeitsbedingungen berechnet, z. B. ‘Ort ≈ Berlin’.
Um die Relevanzwahrscheinlichkeit z. B. einer UQonCD-
Um die Unabhängigkeit der Teilbedingungen zu erhalten
Anfrage auszudrücken, nutzen wir die probabilistische In-
benötigt man die folgende Einschränkung: In einer gültigen
terpretation eines geometrischen Retrievalmodells, welches
Bedingung darf kein Attribut gegen mehr als eine Konstante
auf dem quadrierten Kosinus-Ähnlichkeitsmaß basiert [12].
in unterschiedlichen Ähnlichkeitsprädikaten angefragt wer-
Die Hauptidee unseres Retrievalmodells ist die Anwendung
den. Daher ist die Bedingung ‘Ort≈Berlin ∧ Ort≈München’
von Vektorräumen, welche auch aus der Quantenmechanik
nicht in QSQL2 erlaubt. Die Ähnlichkeitsprädikate ‘Ort ≈
oder Quantenlogik bekannt sind, um Anfrageauswertung in
Berlin’ und ‘Ort ≈ München’ können somit nicht für einen
Datenbanken zu betreiben. Hier wollen wir eine Idee der
festen Ort gleichzeitig zu 1 ausgewertet werden (vollständige
grundlegenden Prinzipien vermitteln. Für diesen Zweck sind
Übereinstimmung), was auch der Intuition entspricht. Diese
Zusammenhänge zwischen Konzepten aus der Anfrageaus-
Einschränkung entspricht der Unabhängigkeitsannahme von
wertung und dem angewandten Retrievalmodell in Tabelle 1
Tupel-unabhängigen bzw. Block-unabhängigen probabilisti-
dargestellt.
schen Datenbanken, welche im folgenden Abschnitt näher
Das Retrievalmodell beschreibt die Auswertung eines ein-
erläutert werden.
zelnen Tupels gegen eine gegebene Ähnlichkeitsanfrage. Wir
beginnen unsere Beschreibung, indem wir uns ein Vektor- 3.2 Eintrittswahrscheinlichkeit
raum vorstellen, welcher die Domäne für ein Tupel ist. Alle
Die Possible-Worlds-Semantik wird von den meisten pro-
Attributwerte eines Tupels werden durch die Richtung ei-
babilistischen Datenbanken genutzt um Anfragen aus der
nes entsprechenden Tupelvektors der Länge 1 ausgedrückt.
Klasse CQonUD zu verarbeiten.
Eine logik-basierte Bedingung korrespondiert zu einem spe-
Als Grundlage dient eine Relation R ⊆ Dom(A1 ) × . . . ×
zifischen Vektorunterraum des Domänen-Vektorraums, auch
Dom(An ) eines Relationenschemas attr(R) = {A1 , . . . , An },
Bedingungsraum genannt.
wobei Ai für ein Attribut steht. Dann definiert jede Tu-
Das Resultat der Auswertung ist festgelegt durch den mi-
pelteilmenge von R einen eigenen Datenbankzustand, auch
nimalen Winkel zwischen Tupelvektor und Bedingungsraum.
Welt von R genannt. Nehmen wir eine ein-attributige Rela-
Der quadrierte Kosinus dieses Winkels ist ein Wert aus dem
tion R = {(1), (2)} an. Für dieses Beispiel sind die möglichen
Intervall [0, 1] und kann daher als Ähnlichkeitsmaß interpre-
Zustände oder möglichen Welten durch Rw1 = {(1), (2)},
tiert werden. Wenn also ein Tupelvektor zum Bedingungs-
Rw2 = {(1)}, Rw3 = {(2)} und Rw4 = {} gegeben. Eine die-
ser möglichen Welten repräsentiert die eine, welche in Real-
Anfrageauswertung CQQL Modell tität vorkommt. Allerdings ist unbekannt, welche dies genau
ist. Um diese Unsicherheit zu meistern, nutzen wir ein Wahr-
Wertebereich Dom(t) ↔ Vektorraum H
scheinlichkeitsmaß über der Menge aller möglichen Welten,
#»
angefragtes Tupel t ↔ Tupelvektor t welches aus einer probabilistischen Tabelle abgeleitet ist.
Bedingung c ↔ Bedingungsraum cs[c] Wir nennen eine Welt mit einer Eintrittswahrscheinlichkeit
höher als 0 eine mögliche Welt oder possible world.
t
Auswertung eval (c) ↔ quadrierter Kosinus des Im Allgemeinen ist die Semantik der genutzten Wahr-
Winkels
#» scheinlichkeitsmaße nicht vordefiniert. Um die Wahrschein-
zwischen t und cs[c]
2 #» lichkeitsberechnung zu vereinfachen nutzen wir die Semantik
(cos (]( t , cs[c]))) der probabilistischen Block-unabhängigen Datenbanken [2]
für QSQL2.
Table 1: Zusammenhänge zwischen Anfrageauswer- In probabilistischen Block-unabhängigen Datenbanken ist
tung und dem Retrieval-Modell CQQL jedes Tupel t mit einem Ereignis E[t] verknüpft, welches das

62
Vorkommen oder das Nichtvorhandensein eines Tupels t in Criminals (crim)
der Realität ausdrückt. Insbesondere unterscheiden wir zwei TID name status sex age height
t1 Bonnie jail female 21 1.63
Arten von Ereignissen und Tupeln. Auf der einen Seite be- t2 Clyde free male 32 1.83
trachten wir Basisereignisse welche von Basistupeln abge- t3 Al free male 47 1.76
leitet sind, welche durch initiale probabilistische Relationen
gegeben sind. Außerdem berücksichtigen wir komplexe Er- Table 2: Deterministische Informationen über regi-
eignisse, welche mit während der Anfrageverarbeitung er- strierte Kriminelle
zeugen komplexen Tupeln verknüpft sind. Diese Ereignisse
bestimmen die Eintrittswahrscheinlichkeit der Ergebnistu- Observation (obs)
pel. TID witness obs_sex obs_age obs_height Pr
Dabei sind Tupel aus einem Block disjunkt zueinander, t4 Amber male 30 1.85 0.3
Tupel aus unterschiedlichen Blöcken sind unabhängig zu ein- t5 Amber male 35 1.90 0.3
ander. Durch diese Vereinfachung erhält man eine relativ t6 Amber female 25 1.70 0.3
einfache Berechnungsvorschrift für komplexe Ereignisse. t7 Mike female 20 1.60 0.7
t8 Carl female 30 1.80 0.9
Wenn die zugrundeliegende Ereignisstruktur unabhängig
ist, kann man die Wahrscheinlichkeiten eines komplexen Er- Table 3: Zeugenaussagen annotiert mit Konfidenz-
eignistupels wie in [8] berechnen: werten
Pr(E[t1 ] ∧ E[t2 ]) := Pr(E[t1 ]) ∗ Pr(E[t2 ])
Pr(E[t1 ] ∨ E[t2 ]) := Pr(E[t1 ]) + Pr(E[t2 ])−
wahrscheinlichkeit aufgefasst werden kann. Wir nehmen an,
Pr(E[t1 ] ∧ E[t2 ]) dass Beobachtungen von unterschiedlichen Zeugen unabhän-
Pr(¬E[t1 ]) := 1 − Pr(E[t1 ]). gig voneinander sind (z. B. die Tupel t6 und t7 ) und dass
die Aussagen eines Zeugen disjunkt sind. Zum Beispiel kann
3.3 Kombinierter Wahrscheinlichkeitsraum nur maximal eins der Tupel t4 , t5 und t6 der Zeugin Amber
Schlussendlich kombinieren wir die eingeführten probabi- der Wahrheit entsprechen.
listischen Modelle, um beliebige Anfragen aus der Klasse
Anfragen bzgl. Klassifikation: Als erstes sollen Bei-
UQonUD verarbeiten zu können. Dies wird getan, indem die
spiele für die Anfrageklassen aus Abschnitt 2 erfolgen. Ein
Wahrscheinlichkeitsräume, welche Relevanz- und Eintritts-
typisches Beispiel für ein CQonCD-Anfrage ist “Bestimme al-
wahrscheinlichkeiten repräsentieren, durch einen Produkt-
le Kriminellen, welche den Status ’free’ haben”. Diese Anfra-
wahrscheinlichkeitsraum vereinigt werden. Die Nutzung ei-
ge ist in QSQL2 und SQL gleich, da keine Ähnlichkeitsprädi-
nes Produktwahrscheinlichkeitraumes kann durch die Klas-
kate oder probabilistischen Relationen benötigt werden (Li-
sifikation der Anfrageklasse UQonUD gerechtfertigt werden.
sting 1).
Wir nehmen also zuerst ein gegebenes Tupel als Daten-
basis an, welches mit einer Eintrittswahrscheinlichkeit an-
Eine UQonCD-Anfrage ist z. B. “Bestimme alle Kriminel-
notiert ist. Dann wenden wir zusätzlich eine Ähnlichkeitsbe-
len, welche den Status ‘free‘ haben und deren Altern un-
dingung an, um eine Relevanzwahrscheinlichkeit auf dieser
gefähr 30 ist”. Listing 2 zeigt das entsprechende Anfrage
Datenbasis zu erzeugen. So verhindern wir das Vermischen
in QSQL2-Syntax. Die Vagheit (“ungefähr”) wird durch ein
oder Überlappen von beiden Eingabewahrscheinlichkeiten.
Ähnlichkeitsprädikat (≈) umgesetzt.
Somit nehmen wir an, dass beide Wahrscheinlichkeitsmaße
unabhängig voneinander und in den kombinierten Produkt-
Als ein komplexeres Beispiel betrachten wir “Bestimme
wahrscheinlichkeitsraum eingebettet sind.
alle Kriminellen, welche möglicherweise beobachtet wurden.
Dies bedeutet, dass das Alter in einem Intervall von zehn
4. ANFRAGEN IN QSQL2 Jahren um das beobachtete Alter liegt und dass das beob-
Um Ideen zu verdeutlichen und Beispielanfragen anzuge- achtete Geschlecht passend ist”. Dieses Beispiel enthält eine
ben wollen wir ein laufendes Beispiel einführen. Es ist ein Boolesche Bedingung, während die Relation Observation
vereinfachter Verbrechenslöser, welcher an ein Beispiel vom probabilistisch ist (Listing 3).
Trio Projekt [15] angelehnt ist. Die Datenwerte sind aus [13].
Es gibt eine deterministische Tabelle Criminals (abgekürzt Als ein Beispiel für eine Anfrage aus der Klasse UQonUD
crim, Tabelle 2), welche ein Dossier von registrierten Kri- wollen wir eine Variante der letzten CQonUD-Anfrage (Li-
minellen enthält. Des Weiteren gibt es eine probabilistische sting 3) betrachten: “Bestimme alle Kriminellen, welche mög-
Tabelle Observations (abgekürzt obs, Tabelle 3) mit Zeugen- licherweise beobachtet wurden. Dies bedeutet, dass das Alter
aussagen und den zugehörigen Konfidenzen. ähnlich zum beobachteten Alter ist und dass das beobach-
Die Datei der Kriminellen enthalt die Attribute name, tete Geschlecht passend ist” (Listing 4). In dieser Anfrage
status, sex, age und height jeder registrierten Person, kommt sowohl ein Ähnlichkeitsprädikat (≈), als auch eine
wobei die Domänen für die Attribute status und sex {free, probabilistische Relation (Observation) vor.
jail, parole} und {female, male} sind.
Die Aufzeichnung der Beobachtungen beinhaltet die Zeu-
genaussagen für ein spezielles Verbrechen, so dass jeder Zeu- SELECT name FROM Criminals C
ge nur genau eine Person mit entsprechenden Geschlecht WHERE C.status = ’free’
(obs_sex), geschätztem Alter (obs_age) und geschätzter
Größe (obs_height) sah. Jedes Aussagentupel in obs ist Listing 1: CQonCD-Anfrage
mit einem Konfidenzwert annotiert, welcher als Eintritts-

SELECT name FROM Criminals C SELECT name FROM Criminals C, Observation O
WHERE C.status = ’free’ and C.age ≈ 30 WHERE C.height ≈ O.obs_height and[ 1, 0.5 ]
C.age ≈ O.obs_age

Listing 2: UQonCD-Anfrage
Listing 5: Beispiel für gewichtete Anfrage

SELECT name FROM Criminals C, Observation O
WHERE C.sex = O.sex and C.age > O.obs_age-5
and C.age < O.obs_age+5
5. VERGLEICHBARE ANSÄTZE
In den letzten Jahren wurden viele probabilistische rela-
tionale Datenbankansätze vorgeschlagen [3, 2, 7, 8, 6, 10, 1].
Listing 3: CQonUD-Anfrage
Sie unterstützen alle die Verarbeitung von probabilistischen
relationalen Daten, d.h. Anfragen aus der Klasse CQonUD.
Neben der Berechnungskomplexität ist die Ausdruckskraft
Logische Anfragen: Ein großer Vorteil von QSQL2 ist, ein signifikantes Vergleichsmerkmal. Im Folgenden werden
dass das zugrunde liegende theoretische Fundament eine Boo- drei unterschiedliche Ansätze beschrieben, wie probabilisti-
lesche Algebra bildet, also viele bekannte mathematische sche Datenbanken um Ähnlichkeitsprädikate erweitert wer-
Äquivalenzen wie z. B. Distributivität, Idempotenz und Ab- den können.
sorption erfüllt sind. An dieser Stelle sollen einige dieser
logischen Eigenschaften exemplarisch von QSQL2 für pra- 5.1 Ähnlichkeitsprädikate als Built-In-Prädi-
xisrelevante Anfragen genutzt werden. Wie wir später noch kate
in Abschnitt 5.4 sehen werden, erfüllen z. B. die Fuzzy- Fuhr und Rölleke schlagen vor die Bewertungsfunktion ei-
Datenbanken nicht alle diese logischen Eigenschaften, inso- nes Ähnlichkeitsprädikates durch eine separate probabilisti-
fern sind einige der folgenden Anfragen trotz einfacher Syn- sche Relation umzusetzen [8]. Diese Relation für eine Ähn-
tax nicht selbstverständlich. lichkeitsfunktion (SF-Relation) ersetzt das Ähnlichkeitsprä-
Oft macht es Sinn Implikationen der Form A → B aus- dikat und wird durch ein Join in die Anfrage integriert.
zudrücken, d.h. wenn die erste Aussage wahr ist, muss es Leider gibt es bei diesem Ansatz ein Problem bei der Kon-
die andere auch sein. Durch die bekannte Äquivalenz A → struktion der Ähnlichkeitsfunktion SF. Die Funktion reprä-
B ≡ ¬A ∨ B kann man diesen Junktor auch auf Anfragen sentiert ein Ähnlichkeitsprädikat, aber bzgl. der Auswertung
mit Relevanz- und Eintrittswahrscheinlichkeiten anwenden. ist es kein unabhängiges Konzept, sondern unterliegt den sel-
Analog verhält es sich mit der Äquivalenz A ↔ B. Bei ihr ben Regeln wie alle probabilistische Relationen. So müssen
sind im Booleschen Fall entweder beide Variablen wahr oder die Tupel unabhängige Basisereignisse bilden, damit man
beide sind falsch. Durch die Umformung A ↔ B ≡ A → B geeignete Aggregationsfunktionen anwenden kann. Die Un-
∧ B → A ≡ (¬A ∨ B) ∧ (¬B ∨ A) ≡ (A ∧ B) ∨ (¬A ∧ ¬B) abhängigkeit der Tupel in einer SF-Relation ist aber nicht
kann diese Aussage auch äquivalent in QSQL2 ausgedrückt gegeben. Fuhr und Rölleke schlagen daher vor nur Anfragen
werden. zu nutzen, in denen keine Tupel aus der selben SF-Relation
QSQL2 bietet ebenfalls gewichtete Junktoren. So macht kombiniert werden. Deshalb kann keine SF-Relation mehr
es manchmal Sinn den Einfluss einer Teilbedingung herauf- als einmal in einer Anfrage vorkommen und Projektionen
oder herabzusetzen. In der Sprache gibt es deshalb jeweils können nicht mehr beliebig genutzt werden.
eine gewichtete Konjunktion, ausgedrückt durch and[θ1 , θ2 ],
und eine gewichtete Disjunktion, ausgedrückt mit or[θ1 , θ2 ]. 5.2 Ähnlichkeitsprädikate als Wahrscheinlich-
Die Gewichtsvariablen θi sind reelle Zahlen aus dem Inter-
vall [0, 1], wobei ein Gewicht von 0 überhaupt keinen Einfluss
keit von Relationen
und ein Gewicht von 1 normalen Einfluss bedeutet. Der letzte Ansatz nutzte Ähnlichkeitsprädikate wie proba-
Man könnte sich vorstellen, dass die Identifizierung der bilistische Relationen, welche während der Anfrageauswer-
Verdächtigen durch die Zeugen nicht eindeutig war, weil das tung eingebaut werden. Im Gegensatz dazu schlagen Dalvi
Verbrechen bei Dunkelheit geschehen ist. So kann man fol- und Suciu [6] vor, die Wahrscheinlichkeiten für die genutz-
gende Variante der UQonUD-Anfrage in QSQL2 stellen: “Be- ten Ähnlichkeitsprädiakte vor der eigentlichen Anfrageaus-
stimme alle Kriminellen, welche möglicherweise beobachtet wertung auszuwerten. Die Ergebnisse dieser Vorberechnung
wurden. Dies bedeutet, dass das Alter ähnlich zum beobach- werden als Eintrittswahrscheinlichkeiten den Relationen zu-
teten Alter ist und dass die Größe ähnlich zur beobachteten gewiesen, auf welche die Ähnlichkeitsprädikate verweisen.
Größe ist. Die Relevanz des beobachteten Größe ist doppelt Dieser Ansatz arbeitet nur auf Anfragen mit konjunktiv-
so hoch wie die des geschätzten Alters.” (Listing 5). verknüpften Ähnlichkeitsprädiaten. Schon bei einer einfa-
chen Disjunktion von Ähnlichkeitsprädiaten, welche sich auf
unterschiedliche Relationen beziehen, ist es nicht mehr mög-
lich, die Auswertung der disjunktiven Ähnlichkeitsbedingung
aufzuspalten und hinunter in die entsprechenden Relationen
zu schieben.

SELECT name FROM Criminals C, Observation O
5.3 Ähnlichkeitsprädikate auf Attributebene
WHERE C.sex = O.sex and C.age ≈ O.obs_age In anderen Modellen wie [1, 10] können Wahrscheinlich-
keiten auch auf Attributebene modelliert werden. In diesem
Listing 4: UQonUD-Anfrage Fall ist es möglich, die Auswertung der Ähnlichkeitsprädi-
kate in den abgefragten Attribut vor der eigentlichen An-

64
frageauswertung zu speichern. Wie beim letzten Ansatz aus [5] N. N. Dalvi, C. Ré, and D. Suciu. Probabilistic Databa-
Abschnitt 5.2 funktioniert dies nur bei konjunktiv verknüpf- ses: Diamonds in the Dirt. Commun. ACM, 52(7):86–
ten Ähnlichkeitsprädikaten, weil die Wahrscheinlichkeit ei- 94, 2009.
nes Tupels konjunktiv aus den Wahrscheinlichkeiten der je-
weiligen Attributwerte berechnet wird. Deshalb können nicht [6] N. N. Dalvi and D. Suciu. Efficient query evaluation on
alle komplexen (z. B. disjunktiven) Kombinationen von Ähn- probabilistic databases. VLDB J., 16(4):523–544, 2007.
lichkeitsprädikaten ausgewertet werden. [7] D. Dey and S. Sarkar. A probabilistic relational model
5.4 Fuzzy-Datenbanken and algebra. ACM Trans. Database Syst., 21(3):339–
369, 1996.
Fuzzy-Datenbanken wie FSQL [9] können ebenfalls un-
sichere Anfragen auf einer unsicheren Datengrundlage be- [8] N. Fuhr and T. Rölleke. A Probabilistic Relational Al-
werkstelligen, allerdings sind sie kein probabilistisches Mo- gebra for the Integration of Information Retrieval and
dell. Die entsprechenden Tupel-Konfidenzwerte werden ein- Database Systems. ACM Trans. Inf. Syst., 15(1):32–66,
fach ohne Rücksicht auf die Semantik der Teilbedingungen 1997.
aggregiert. Es findet also keine Überprüfung auf Korrelatio-
nen statt, was das Ergebnis verfälschen kann. [9] J. Galindo, A. Urrutia, and M. Piattini. Fuzzy Databa-
Außerdem bildet die Fuzzylogik [16] keine Boolesche Alge- ses: Modeling, Design and Implementation. Idea Group
bra, da bekannte Äquivalenzen wie Idempotenz und Distri- Publishing, Hershey, USA, 2006.
butibität nicht erfüllt sind. Aufgrund des Fehlens dieser ele-
[10] C. Koch. MayBMS: A system for managing large uncer-
mentaren Eigenschaft sind Fuzzy-Datenbanken für uns nicht
tain and probabilistic databases. Managing and Mining
geeignet. Einen ausführlichen Vergleich zwischen Fuzzy- und
Uncertain Data, 2008.
Quantenlogik wird in [14] gegeben.
Wir fassen zusammen, dass im Gegensatz zu QSQL2 die [11] S. Lehrack, S. Saretz, and I. Schmitt. QSQLp :
anderen Ansätze [8, 6, 1, 10, 9] nicht beliebige, logik-basierte Eine Erweiterung der probabilistischen Many-World-
Ähnlichkeitsbedingungen beherrschen. Semantik um Relevanzwahrscheinlichkeiten. In T. Här-
der, W. Lehner, B. Mitschang, H. Schöning, and
6. ZUSAMMENFASSUNG H. Schwarz, editors, BTW, volume 180 of LNI, pages
In dieser Arbeit wurde die quantenlogik-basierte probabi- 494–513. GI, 2011.
listische Ähnlichkeitsanfragesprache QSQL2 vorgestellt. Ihre
[12] S. Lehrack and I. Schmitt. A Probabilistic Interpre-
Grundlagen wurden kurz dargelegt, ihre Syntax an Beispie-
tation for a Geometric Similarity Measure. In Procee-
len anschaulich gemacht und ihre Besonderheiten demon-
dings of the 11th European Conference on Symbolic and
striert.
Quantitative Approaches to Reasoning with Uncertain-
Im Gegensatz zu probabilistischen Datenbanken ist die In-
ty, ECSQARU ’11, June 2011.
tegration und Nutzung von Ähnlichkeitsprädikaten in mehr
Fällen möglich. Die zusätzlichen Eigenschaften einer Boole- [13] S. Lehrack and I. Schmitt. A unifying probability mea-
schen Algebra wie Idempotenz oder Distributibität ermögli- sure for logic-based similarity conditions on uncertain
chen bessere Resultate als z. B. bei Fuzzylogik-basierte Spra- relational data. In Proceedings of the 1st Workshop on
chen. Das mathematisch Fundament ermöglicht die Inter- New Trends in Similarity Search, NTSS ’11, pages 14–
pretation der Ergebnisse als Wahrscheinlichkeiten, was sie 19, New York, NY, USA, 2011. ACM.
anschaulicher und verständlicher macht.
[14] I. Schmitt, A. Nürnberger, and S. Lehrack. On the
Relation between Fuzzy and Quantum Logic. In Views
Danksagung: Diese Arbeit wurde durch die Förderung on Fuzzy Sets and Systems from Different Perspectives,
SCHM 1208/11 – 1 der Deutschen Forschungsgemeinschaft chapter 5. Springer-Verlag, 2009.
(DFG) unterstützt.
[15] J. Widom. Trio: A system for data, uncertainty, and li-
neage. In Managing and Mining Uncertain Data, pages
Literatur 113–148. Springer, 2008.
[1] P. Agrawal, O. Benjelloun, A. D. Sarma, C. Hayworth,
S. Nabar, T. Sugihara, and J. Widom. Trio: A System [16] L. A. Zadeh. Fuzzy sets. Information and Control,
for Data, Uncertainty, and Lineage. In 32nd Internatio- 8(3):338–353, June 1965.
nal Conference on Very Large Data Bases. VLDB 2006
(demonstration description), September 2006.
[2] D. Barbara, H. Garcia-Molina, and D. Porter. The ma-
nagement of probabilistic data. IEEE Trans. Knowl.
Data Eng., 4(5):487–502, 1992.
[3] R. Cavallo and M. Pittarelli. The theory of probabilistic
databases. In P. M. Stocker, W. Kent, and P. Hammers-
ley, editors, VLDB, pages 71–81. Morgan Kaufmann,
1987.
[4] E. F. Codd. A relational model of data for large shared
data banks. Commun. ACM, 13(6):377–387, 1970.

65
66
Informationsanbieterzentrierte Spezifikation und
Generierung von Informationssystem-Apps

Jonas Pencke, David Wiesner, Hagen Höpfner und Maximilian Schirmer
Bauhaus-Universität Weimar
Bauhausstraße 11
99423 Weimar, Germany
VORNAME.NACHNAME@uni-weimar.de

Schlüsselworte der sogenannte Push-Notifikation. Dabei werden Neuigkeiten, Än-
Mobile Informationssysteme, Nutzergetriebene Programmierung, derungen oder Hinweise direkt vom Anbieter auf das Gerät trans-
App-Erzeugung feriert, wodurch der Benutzer nicht explizit und regelmäßig danach
suchen muss. Von diesem weiteren Informationsverteilungprozess
profitieren auch die Informationsanbieter, da sie somit ihre Infor-
Zusammenfassung mationskonsumenten nahezu jederzeit und direkt erreichen können.
Mobilgeräte wie z.B. Smartphones werden heutzutage nicht mehr
ausschließlich zur Sprachkommunkation eingesetzt. Sie ermögli- Im Gegensatz zur Entwicklung von Softwareprodukten für Desk-
chen es, zeitnah Informationen an mobile Nutzer zu übertragen. top-Computer ist das Programmieren von Anwendungen für Smart-
Hierbei spielt der Aufenthaltsort der Nutzer weitestgehend keine phones (den sogenannten Apps) an die Verwendung einer dedi-
Rolle, er/sie ist quasi jederzeit und allerorts erreichbar. Im Gegen- zierten Programmiersprache gebunden. iOS-Entwickler verwenden
satz zu der Einfachheit der Informationskonsumtion ist das Entwi- Objective-C. Apps für Smartphones mit Google Android werden in
ckeln von Apps nicht trivial. Hierzu ist Expertenwissen notwendig. Java implementiert. Geräte mit Microsoft’s Windows Phone 7 un-
Zahlreiche potentielle Informationsanbieter verfügen nicht über die terstützen C# und Apps für HPs webOS werden in HTML 5, CSS
notwendigen Kenntnisse, wenngleich ihre Informationen für zahl- und JavaScript realisiert. Folglich bedingt der Wunsch nach einer
reiche Konsumenten interessant wären und es starke strukturelle breiten Unterstützung verschiedener Smartphones die Notwendig-
Ähnlichkeiten zwischen mobil verfügbar gemachten Informationen keit, dass Entwickler mit mehreren dieser Programmiersprachen
gibt. Ein weiteres Problem ist, dass unterschiedliche Smartphone- vertraut sind. Natürlich eröffnet dies einen neuen Markt für Pro-
Hersteller dediziert unterschiedliche Programmiersprachen benut- grammierer, es hält jedoch zahlreiche technisch nicht versierte In-
zen. In diesem Papier präsentieren wir unseren Ansatz zur anbie- formationsanbieter davon ab, ihre Information über das Medium
terzentrierten Generierung von Apps, wobei ein Hauptaugenmerk Smartphone anzubieten. Unseres Wissens nach existieren momen-
auf der Unterstützung heterogener Zielplattformen liegt. Somit er- tan keine Lösungen, welche, vergleichbar zu den im WWW eta-
möglichen wir es technisch nicht versierten Informationsanbietern, blierten Redaktionssystemen (engl. content management systems),
ihre eigenen Apps zu erzeugen. einen einfachen Zugang für Nicht-Programmierer bieten. Des Wei-
teren sind Web-basierte Ansätze, welche die Verwendung der Inter-
1. EINLEITUNG UND MOTIVATION net-Browser der Smartphones voraussetzen, keine Lösung des Di-
Der Einsatz moderner mobiler Endgeräte wie z.B. Smartphones lemmas. Einerseits bieten diese keine Push-Notifikation, anderer-
ist nicht mehr auf reine Sprachkommunikation begrenzt. Vielmehr seits erhöht das manuelle, wiederholte (meist vergebliche) Suchen
werden zahlreiche Bereiche der Informations- und Kommunikati- nach aktuellen Informationen, die Anzahl von energieintensiven
onstechnologien, welche noch vor wenigen Jahren Desktop-Com- drahtlosen Datenübertragungen.
putern vorbehalten waren, unterstützt. Leistungsfähige Geräte wie
Apples iPhone oder HTCs Desire ermöglichen den Einsatz von So- In diesem Papier präsentieren wir unseren Ansatz, die genannten
fortnachrichtendienste (engl. instant messaging) und klassischen Probleme durch ein Framework zur Erzeugung von Informations-
Informationssystemen sowie die Partizipation in sozialen Netzen system-Apps zu beheben. Durch die Analyse verschiedener exis-
(Facebook, MySpace, StudiVZ, etc.) somit beinahe jederzeit und tierender Apps haben wir herausgefunden, dass die angebotenen
allerorts. Im August 2010 veröffentliche Gartner eine Studie [11], Informationen klassifiziert werden können. Basierend auf dieser
nach der 19% aller neu verkauften Mobiltelefone derartige Smart- Klassifikation haben wir eine modulare Struktur entwickelt, die als
phones sind. Neben der Tatsache, dass Smartphones den mobilen Code-Skelett für verschiedene Plattformen realisiert wurde. Mit-
Informationszugriff ermöglichen, bieten sie auch die Möglichkeit hilfe dieser Code-Skelette kann dann eine App wie folgt erzeugt
werden: Zuerst wird die App mithilfe eines domänen-spezifischen,
Web-basierten Konfigurationswerkzeugs parametrisiert. Die dabei
spezifizierten statischen Informationen werden dem Quelltext hin-
zugefügt. Dynamische Informationen werden auf der Webseite des
Anbieters hinterlegt, wo sie auch gewartet werden können. An-
schließend wird die App automatisch kompiliert und zum Down-
load angeboten. Neben dem Vorteil, dass auf diese Weise technisch
nicht versierte Anwender wie Musiker, Politiker, etc. ohne Kennt-
Copyright is held by the author/owner(s). nis einer Programmiersprache Apps erstellen können, vermeidet
GvD Workshop’11, 31.05.-03.06.2011, Obergurgl, Tirol, Austria.

67
unser Verfahren die potentielle Verletzung von Urheber- und Ver- zugehen [6]. Die Software-Entwicklungsumgebungen der verschie-
wertungsrechten. Alle Informationen, die durch die App angeboten denen Smartphone-Plattformen bieten bereits vereinheitlichte In-
werden, werden auch direkt vom Anbieter bereitgestellt und befin- teraktionsschemata, an die die Benutzer der jeweiligen Geräte und
den sich unter dessen Kontrolle1 . Plattformen gewöhnt sind. Generell bevorzugen sie eine konsisten-
te Benutzeroberfläche über alle verwendeten Apps [10]. Deshalb
Der Rest des Papieres ist wie folgt strukturiert: Abschnitt 2 be- haben wir uns dazu entschlossen, bestehende Benuteroberflächen-
schreibt verwandte Arbeiten. Abschnitt 3 analysiert die Eigenschaf- Toolkits zu verwenden.
ten der Informationen, welche üblicherweise durch Informations-
system-Apps angeboten werden. Abschnitt 4 beinhaltet eine kurzen
Einblick in unseren Evaluationsprototyp und präsentiert die Archi-
3. INFORMATIONEN IN APPS
Durch die Analyse verschiedener Informationssystem-Apps haben
tektur unseres App-Erzeugungssystems. Abschnitt 5 fasst das Pa-
wir zwei Klassen von präsentierten Informationen ableiten können:
pier zusammen und gibt einen Ausblick auf Folgearbeiten.

2. VERWANDTE ARBEITEN Statische Informationen sind Informationen, die explizit in den
Die in diesem Beitrag vorgestellten Forschungsergebnisse können Binärcode von Apps hinein kompiliert werden. Nahezu al-
den Forschungsgebieten Code-Generierung (engl. code generati- le Apps enthalten statische Informationen wie den Namen
on), mobile Informationssysteme und Mensch-Maschine-Interak- der App, statisch verknüpfte Bilder, Informationsdialog, usw.
tion (engl. human-computer interaction) zugeordnet werden. Aktualisierungen dieser Informationen sind nur durch Neu-
kompilierung der App möglich. Dafür ist es möglich, stati-
Code-Generierung wird oft als Teilgebiet der modellgetriebenen sche Informationen auch ohne Netzverbindung zu verwen-
Softwareentwicklung [5] angesehen. Hierbei werden domänen-spe- den.
zifische Sprachen verwendet, um abstrakte Modelle von Software-
Systemen zu erzeugen. Aus diesen Modellen erzeugen dann Code- Dynamische Informationen sind Informationen, die zur Laufzeit
Generatoren den Quelltext, entweder in Teilen oder komplett. Un- heruntergeladen werden. Dies sind beispielsweise Nachrich-
ser Ansatz ist es jedoch, Endbenutzern ohne technisches Wissen ten-Streams, ortsabhängige Informationen oder Informatio-
die Möglichkeit zu geben, Anwendungen zu erzeugen. Von die- nen über Ereignisse. Zur Aktualisierung von dynamischen
sen Benutzern kann nicht verlangt werden, formale Spezifikatio- Informationen wird eine bestehende Netzverbindung benö-
nen zu verstehen oder zu verwenden. Zudem unterscheiden sich tigt. Durch Caching, Hoarding oder Replikation kann jedoch
die verfügbaren Smartphones verschiedener Hersteller sehr in den auch eine Offline-Nutzung zuvor heruntergeladener dynami-
unterstützten Programmiersprachen, wie bereits in Abschnitt 1 er- scher Informationen ermöglicht werden. Es gibt zwei Sub-
läutert. Für unseren Ansatz hätte dies bedeutet eine sehr große An- klassen dynamischer Informationen: (1) Interne Informatio-
zahl von verschiedenen, formal spezifizierten Code-Generatoren nen sind Informationen, die zumeist vom Anbieter der App
und domänen-spezifischen Sprachen zu erzeugen, um eine brei- bereitgestellt werden. So werden in Zeitungs-Apps zum Bei-
te Masse von Smartphones unterstützen zu können. Daher haben spiel aktuelle Nachrichten der zugehörigen Zeitung herun-
wir uns dazu entschlossen, ein gerätespezifisches Code-Skelett an- tergeladen und präsentiert. (2) Externe Informationen sind
zubieten, gemäß dem Paradigma der generativen Programmierung verknüpfte Informationen, die von Dritten bereitgestellt wer-
[2]. Unser „Code-Generator“ parametrisiert und ergänzt das Code- den. Dies können zum Beispiel in Ereignisinformationen ver-
Skelett, welches schließlich kompiliert wird. In der Zukunft werden knüpfte Videos bei Youtube sein, die nicht direkt vom Anbie-
wir an einer formaleren Spezifikation arbeiten. ter des Ereignisses zur Verfügung gestellt werden.

Mobile Informationssysteme machen es möglich, Informationen auf
mobilen Endgeräten anzubieten. Die größte Herausforderung be- Bei der Konzeption einer App spielen auch Fragestellungen des Ur-
steht dabei in der Reduktion des übertragenen Datenvolumens zum heberrechts eine Rolle. In unserem Ansatz gehen wir davon aus,
und vom Gerät. Die drahtlose Datenübertragung ist unverzichtbar, dass der Anbieter der App die nötigen Urheberrechte an den in
aber auch sehr energieintensiv [3, 1], vergleichsweise langsam [13] einer App verwendeten statischen und internen Informationen be-
und (je nach Mobilfunkvertrag) teuer. Zudem mindern physikali- sitzt. Ferner gehen wir davon aus, dass der Anbieter einer App bei
sche Effekte die Verfügbarkeit von drahtlosen Netzen [9]. Es gibt der Verwendung von externen Informationen die Nutzungsbedin-
bereits verschiedene Ansätze, um das anfallende Datenvolumen zu gungen des jeweiligen Informationsanbieters berücksichtigt.
reduzieren. Die Forschungsergebnisse reichen dabei von Caching
[8, 12] über Hoarding [7] bis hin zur Replikation [4]. In unserem Generell ist davon auszugehen, dass Benutzer auf statische und
System begegnen wir dieser Herausforderung, indem so viele In- dynamische Informationen nur lesenden Zugriff besitzen. Einige
formationen wie möglich bereits in der App enthalten sind. Nur Apps unterstützen jedoch interaktive (dynamische) Informationen.
dynamische Informationen (s. Abschnitt 3) werden an das mobile So kann zum Beispiel eine App, die Informationen über Ereignisse
Endgerät übertragen, wo sie zudem für den späteren Zugriff zwi- bereitstellt, das Kommentieren von Ereignissen durch soziale Netz-
schengespeichert werden. werke wie Facebook, Twitter oder MySpace ermöglichen.

Smartphones bieten meist nur sehr kleine Bildschirme und im Ver- 4. SYSTEMARCHITEKTUR UND PROOF-
gleich zu normalen Desktop-Computern grundverschiedene Mög-
lichkeiten der Benutzerinteraktion. Entsprechend gilt es, bei Aspek- OF-CONCEPT
ten der Mensch-Maschine-Interaktion auf diese Unterschiede ein- Aufgrund der besseren Verständlichkeit verzichten wir in diesem
Papier auf die Trennung zwischen der Beschreibung unseres An-
1 satzes und der Implementierung des Proof-of-Concept-Systems na-
Wir nehmen an, dass der Anbieter die entsprechenden Rechte be-
sitzt bzw. entsprechende Verträge hierfür selbst abgeschlossen hat. mens MyBand-App. Dieses System ermöglicht es Musikern, ihre

68
eigenen Apps für Android- und iOS-basierte Smartphones zu er-
stellen. Uns ist bekannt, dass es mit FansMagnet2 bereits einen
Anbieter eines vergleichbaren Services für Musiker gibt. Jedoch
werden dabei auch die Inhalte der Apps durch FansMagnet ver-
waltet. Aufgrund rechtlicher Bedenken, obliegt es in unserem An-
satz tatsächlich dem Informationsanbieter, dem Musiker oder des-
sen Beauftragten, sicherzustellen, dass alle Urheber- und Verwer-
tungsrechtsfragen geklärt werden.

Der Proof-of-Concept stellt ein Anwendungsszenario von Bands
bzw. Musikern dar, die Informationen an Ihre Fans über ein mobiles
Informationssystem weitergeben möchten. Dieses Beispiel dient al-
lerdings nur der Verdeutlichung unseres Ansatzes. Der hier beschrie-
bene Ansatz lässt sich auf beliebige andere Informationsanbieter
übertragen.

Um diese Übertragbarkeit zu gewährleisten, muss das System an-
passbar und leicht erweiterbar sein. Aus diesem Grund ist unser
System ist als Framework aufgebaut. Für die App-Erzeugung sind
drei Komponenten verantwortlich: (1) ein Web-basiertes Konfigu-
rationswerkzeug (MyBandServlet), (2) die Code-Skelette für die
Apps und (3) die eigentliche App-Erzeugung. Der Arbeitsablauf
beim Erstellen einer App ist wie folgt: Zuerst wählt der Nutzer die
Zielplattform(en) und die Module, welche er/sie in die App inte- Abbildung 2: MyBand-App Web-basierte Konfiguration (Mo-
grieren will (vgl. Abbildung 1). Anschließend werden die App und dulkonfiguration)
die ausgewählten Module konfiguriert und der Erzeugungsprozess
angestoßen. Nach dessen Beendigung (nach dem Kompilieren der
App) kann der Nutzer seine App herunterladen. durch den Web-basierten Konfigurator festgelegte Modulkonfigu-
ration (bestehend aus statischen und dynamischen Informationen)
verarbeitet wird (vgl. Abbildung 2). Dies umfasst im verwendeten
Anwendungsszenario unter anderem den Namen und das Bild der
Band bzw. Musiker, sowie die Liste der Band-Mitglieder. Für die
Diskographie werden z.B. die Datei DiscographyModule.xml
und zwei AppModule IPhoneDiscographyModule.jar und
AndroidDiscographyModule.jar genutzt. Bevor der eigen-
tliche Erzeugungsprozess gestartet wird, analysiert das MyBand-
Servlet die verfügbaren XML-Dateien, erzeugt aus den Meta-Infor-
mationen zu statischen Informationen die Formulare für den Konfi-
gurator und generiert aus den Meta-Informationen zu dynamischen
Informationen eine RSS-Vorlage3 , die zur späteren Bereitstellung
der dynamischen Informationen dient. Nachdem das Konfigurati-
onsformular durch den Nutzer abgeschickt wurde, wird pro App-
Modul die configure-Methode, welche jedes AppModul imple-
mentiert, aufgerufen. Diese Methode modifiziert das Code-Skelett
des entsprechenden AppModuls entweder direkt oder, wie in Ab-
bildung 4 dargestellt, durch Ändern der XML-Datei basierend auf
der durch den Nutzer angegebenen Konfiguration. Anschließend
werden die konfigurierten AppModule an das BuilderModule über-
geben, welches für das Kompilieren der App verantwortlich ist.

Die Abbildungen 5 und 6 zeigen eine iOS-App, welche beispiel-
haft mit dem beschriebenen MyBand-App-Ansatz erzeugt wurde.
Abbildung 1: MyBand-App Web-basierte Konfiguration (Mo- Sicherlich ist die dargestellte Oberfläche noch nicht „fancy“, die
dulauswahl) Abbildungen verdeutlichen aber, dass ein Java-basiertes Framework
genutzt werden kann, um Programme in Objective-C zu erzeugen.
Aus einem technischeren Blickwinkel betrachtet, funktioniert un-
ser Ansatz wie folgt: Wie Abbildung 1 verdeutlicht, sind Modu- Abbildung 3 verdeutlicht, dass der vorgestellte Ansatz zum Ziel
le die kleinsten Bausteine in unserem Erzeugungsprozess. Es gibt hat, so generisch wie möglich zu sein. Zur Unterstützungen von
intern zwei Arten von Modulen: BuilderModule sind für die Er- Apps abseits der Musiker-Domäne müssen lediglich andere App-
stellung des plattformabhängigen Binärcodes zuständig. AppMo- Module und XML-Dateien bereitgestellt werden.
dule kapseln die Funktionalität der App. Jedes AppModule umfasst
3
das entsprechende Code-Skelett und eine XML-Datei, mit der die Im Prototyp werden die RSS-Dateien händisch editiert. Ein Editor
zum formularbasierten Eingeben der dynamischen Daten ist indes
2
http://www.fansmagnet.com in Vorbereitung.

69
MyBandServlet

MyBandServlet Builder
+settingsManager: SettingsManager = new SettingsManager()
+doPost(request:HttpServletRequest, response:HttpServletResponse): void +createBuilder(settings:List): Builder
+doGet(request:HttpServletRequest, response:HttpServletResponse): void +getBuildStatus(buildID:String): int
+getBuild(buildID:String): URL
+getBuildID(): String
+build(): void

SettingsManager

+formatModuleSettings(settings: List, formatter:SettingFormatter): String
+handleSettings(settings:List, request:HttpServletRequest): boolean

ModuleManager ModuleLoader
for(File jarFile:directory.listFiles()) {
+getInstance(): ModuleManager +loadModules(directory:File): void Module module = this.loadModule(jarFile);
+loadModules(): void –loadModule(jarFile:File): Module ModuleManager.registerModule(module);
+getDefaultModuleSettings(): List }
+registerModule(module:Module): void
+setModuleState(module:Module, state:State): void
+getModules(): List

Module

+getState(): State
+setState(state:State): void

AppModule BuilderModule

+configure(setting:ModuleSetting) +preBuild(): void
+getDepends(): List +build(outDir:File,modules:List,settings:List): void
+addFiles(): Map +postBuild(outDir:File,outFile:File)
+replaceInFile(): List

iPhoneCoreModule AndroidCoreModule iPhoneBuilder AndroidBuilder

+configure(setting:ModuleSetting) +configure(setting:ModuleSetting) +preBuild(): void +preBuild(): void
+getDepends(): List +getDepends(): List +build(outDir:File,modules:List, +build(outDir:File,modules:List,
+addFiles(): Map +addFiles(): Map settings:List): void settings:List): void
+replaceInFile(): List +replaceInFile(): List +postBuild(outDir:File,outFile:File) +postBuild(outDir:File,outFile:File)

Abbildung 3: Klassendiagramm des Framework-Servlets für die MyBand-App-Konfiguration und -Erzeugung

AndroidCoreModule
5. ZUSAMMENFASSUNG UND AUSBLICK
+configure(setting:ModuleSetting)
+getDepends(): List
In diesem Beitrag haben wir erste Ideen präsentiert, die es End-
+addFiles(): Map
+replaceInFile(): List
benutzern ohne technische Kenntnisse ermöglichen, Informations-
system-Apps für Smartphones verschiedener Betriebssysteme zu
erstellen. Wir haben die generellen Eigenschaften von Informatio-
nen, die in solchen Apps angeboten werden, klassifiziert und diese
public void configure(ModuleSetting settings) {
... Klassifikation für den Entwurf von Code-Skeletten verwendet. Mit
String content = Util.readFile("res/values/strings.xml");
Hilfe eines Web-Interfaces können Benutzer ihre App parametri-
String bandname = settings.getString("bandname");
content = content.replaceFirst("@@@BANDNAME@@@", bandname); sieren. Anschließend wird die App über die nativen Entwicklungs-
String updateurl = settings.getString("updateurl");
werkzeuge kompiliert und kann heruntergeladen werden. Weitere
content = content.replaceFirst("@@@UPDATEURL@@@", updateurl);
Vorzüge unseres Systems sind die native Benutzeroberfläche und
util.writeFile("res/values/strings.xml";
...
die Berücksichtigung des Urheberrechts der angebotenen Informa-
} tionen. Neben diesen allgemeinen Ansätzen haben wir unseren Pro-
totypen „MyBand-App“ vorgestellt, den wir zudem einer breiten
Öffentlichkeit auf der CeBIT-Messe im März 2011 in Hannover

@@@BANDNAME@@@ zeigen konnten.
@@@UPDATEURL@@@

Wir stehen erst am Anfang unserer Forschung und sehen nun ver-
schiedene Forschungsrichtungen, die sich in Zukunft eröffnen. Zu-
nächst werden wir interaktive Informationen berücksichtigen. Zu-
Die Apokalyptischen Reiter
http://reitermania.de/feed.rss dem werden wir die in unserem Evaluationssystem umgesetzten

Ideen generalisieren, um die Erstellung von sehr unterschiedlichen
mobilen Informationssystem-Apps zu unterstützen. Ferner werden
Abbildung 4: Beispiel für die XML-basierte Transformation ei- wir somit die Formalisierung unseres Ansatzes beginnen, um die
nes Android-Code-Skeletts dem Ansatz bislang noch fehlende fundierte formale Basis zu er-
halten.

70
6. LITERATURVERZEICHNIS
[1] N. Balasubramanian, A. Balasubramanian, and
A. Venkataramani. Energy consumption in mobile phones: a
measurement study and implications for network
applications. In Proceedings of the 9th ACM SIGCOMM
conference on Internet measurement conference, pages
280–293, New York, NY, USA, Nov. 2009. ACM.
[2] K. Czarnecki and U. Eisenecker. Generative Programming:
Methods, Tools, and Applications. Addison-Wesley
Professional, 2000.
[3] L. M. Feeney and M. Nilsson. Investigating the energy
consumption of a wireless network interface in an ad hoc
networking environment. In Proceedings IEEE INFOCOM
2001, The Conference on Computer Communications,
Twentieth Annual Joint Conference of the IEEE Computer
and Communications Societies, Twenty years into the
communications odyssey, 22-26 April 2001, Anchorage,
Alaska, USA, volume 3, pages 1548–1557, Los Alamitos,
CA, USA, 2001. IEEE. available online: http:
//www.sics.se/~lmfeeney/publications/
Files/infocom01investigating.pdf.
[4] H. Höpfner. Replication in Mobile Information Systems. In
Informatik bewegt, volume P-19 of Lecture Notes in
Informatics (LNI), pages 590–593, Bonn, Germany, 2002.
GI, Köllen Druck+Verlag GmbH.
[5] S. Kent. Model driven engineering. In M. Butler, L. Petre,
and K. Sere, editors, Integrated Formal Methods, volume
2335 of Lecture Notes in Computer Science, pages 286–298.
Abbildung 5: Beispiel: MyBand-App für iOS Springer Berlin / Heidelberg, 2002.
[6] J. Kjeldskov and C. Graham. A review of mobile hci
research methods. In Human-Computer Interaction with
Mobile Devices and Services, volume 2795 of Lecture Notes
in Computer Science, pages 317–335. Springer Berlin /
Heidelberg, 2003.
[7] G. H. Kuenning and G. J. Popek. Automated Hoarding for
Mobile Computers. In W. M. Waite, editor, Proceedings of
the 16th ACM Symposium on Operating Systems Principles,
pages 264–275, New York, NY, USA, 1997. ACM Press.
[8] K. C. K. Lee, H. V. Leong, and A. Si. Semantic query
caching in a mobile environment. ACM SIGMOBILE Mobile
Computing and Communications Review, 3(2):28–36, 1999.
[9] P. Nicopolitidis, A. S. Pomportsis, G. I. Papadimitriou, and
M. S. Obaidat. Wireless Networks. John Wiley & Sons, Inc.,
New York, NY, USA, 2003.
[10] J. Nielsen. ipad usability: First findings from user testing.
Website, May 2010.
http://www.useit.com/alertbox/ipad.html.
[11] C. Pettey. Gartner Says Worldwide Mobile Device Sales
Grew 13.8 Percent in Second Quarter of 2010, But
Competition Drove Prices Down. Website, Aug. 2010.
http:
//www.gartner.com/it/page.jsp?id=1421013.
[12] Q. Ren and M. H. Dunham. Semantic Caching and Query
Processing. Transactions on Knowledge and Data
Engineering, 15(1):192–210, Jan. 2003.
[13] X. Wang. Wired and Wireless Networks. Vdm Verlag Dr.
Müller, Saarbrücken, Germany, 2007.

Abbildung 6: Beispiel: MyBand-App für iOS (die Galerie)

71
72
XQuery Framework for Interoperable Multimedia Retrieval

Mario Döller, Florian Stegmaier, Alexander Stockinger, Harald Kosch
Chair of Distributed Information Systems
University of Passau
94034 Passau, GERMANY
firstname.lastname@uni-passau.de

ABSTRACT well known and established XQuery2 language. The XQuery
Multimedia retrieval relies on the underlying metadata for- language has its strengthens in expressing data centric and
mat for effective querying of multimedia information. Most exact queries over XML data such as Give me all images
of the metadata formats are XML-based (for instance MPEG- whose filesize > 100 kByte, but lack the ability to express
7 or P/META). In this context, the XQuery query language fuzzy requests common in multimedia retrieval (e.g., Query-
is a natural choice for querying these data based on exact By-Example). To fill this gap, a new multimedia query lan-
matches. However, XQuery lacks in expressing and eval- guage, the MPEG Query Format [5] (MPQF) has been stan-
uating multimedia specific requests (e.q., spatial, fuzzy re- dardized in late 2008 by MPEG (formally known as ISO/IEC
quests). Therefore, the MPEG Query Format (MPQF), a SC29 WG11). The query language addresses XML based
novel XML based query language tuned for standardized metadata formats (e.g., MPEG-7) and combines data and
multimedia requests, has been developed. Based on this, the information retrieval components as well as management
paper introduces a MPQF aware XQuery framework which functionalities.
features a.) a plug-in architecture for external multimedia In this context, the paper contributes with a XQuery
routines, b.) an automatic approach for MPQF to XQuery framework for multimedia search that features a.) a plug-
transformation and c.) an injection of information retrieval in architecture for external multimedia routines, b.) an
capabilities to XQuery (e.g., scoring, ranking). Besides, the automatic approach for MPQF to XQuery transformation
framework can be adopted to any available XQuery reposi- and c.) an injection of information retrieval capabilities to
tory and allows the retrieval in any XML based multimedia XQuery (e.g., scoring, ranking). Besides, the framework can
metadata format. be adopted to any available XQuery repository and allows
the retrieval in any XML based multimedia metadata for-
mat. Another benefit of adopting XQuery for multimedia
Categories and Subject Descriptors retrieval is the broad diversity of available XQuery tools
H.2.4 [Systems]: Query Processing—Multimedia Databases; (databases, parsers, etc.).
H.3.3 [Information Storage and Retrieval]: Information The paper uses the MPEG Query Format (MPQF). The
Search and Retrieval—Query Formulation definition of the format is out of scope of this paper and has
been published elsewhere. Readers not familiar with MPQF
may look in [5] for detailed information. Further note, the
Keywords specified transformation model presents only selected trans-
XQuery, MPEG Query Format, Multimedia retrieval formation rules and an extended version of this paper can
be found at: http://dimis.fim.uni-passau.de/iris/GI_
1. INTRODUCTION Workshop_extended.pdf.
The reminder of this paper is organized as follows: Sec-
Retrieving information in multimedia repositories is one
tion 2 introduces related work in the area of XQuery exten-
of the major challenging tasks in the multimedia life cy-
sions for fuzzy retrieval. This is followed by Section 3 where
cle. Whenever, multimedia retrieval is discussed, one has
the proposed MPQF to XQuery framework is described. In
to deal with the related metadata (formats) which are of-
this context, Section 4 specifies our mapping approach for a
ten XML based (e.g. MPEG-71 ). In series, by investigating
MPQF to XQuery transformation. The specification is eval-
XML based retrieval techniques, one finally ends up by the
uated by a small example in Section 5. Performance analysis
1
http://mpeg.chiariglione.org/ results are presented in Section 6. Finally, this article is con-
cluded in Section 7.

2. RELATED WORK
As highlighted in the introduction, multimedia retrieval
considers (to an high extend) multimedia metadata which
is often XML-based (e.g., TV-Anytime, MPEG-7, etc.). In
this context, in the past several query languages that are es-
23rd GI-Workshop on Foundations of Databases (Grundlagen von Daten- pecially designed for XML data have been developed such as
banken), 31.05.2011 - 03.06.2011, Obergurgl, Austria. 2
Copyright is held by the author/owner(s). http://www.w3.org/TR/xquery/

73
XIRQL [4], but the most well known representative approach
is XQuery [8]. XML based query languages are strong in ex-
pressing data centric, but lack the ability to express fuzzy
requests common in multimedia retrieval (e.g., Query-By-
Example). There are already some approaches (e.g., VeX-
Query [9]) aiming to extend XQuery in this direction. How-
ever, none of them is completely adequate for multimedia
retrieval in terms of missing support for weighting of query Figure 2: Overview of plug-in injection
terms (to reflect user preferences) or support for tempo-
ral or spatial retrieval etc. Further approaches that extend
extension of the XQuery language set (e.g., power function),
XQuery for fuzzy retrieval can be summarized as follows:
data model dependent transformations (e.g., MIME type fil-
Early works (e.g. [6]) introduced an XQuery rank opera-
tering) or functionality specific for the underlying XQuery
tor for the evaluation of information retrieval request that
database. In general, a plug-in is a Java module which re-
target on an estimation of the relative relevance of docu-
ceives a fixed set of input parameters and is able to ma-
ments within document collections. The integration of a
nipulate the internal context of the transformation process.
vector space model and an associated vscore function has
For instance, the plug-in module for our QueryByMedia im-
been presented in [7]. The vscore function returns the sim-
plementation receives as input parameters the possible el-
ilarity degree between a query vector and a content ele-
ements and attributes of the specified MPQF query type
ment vector. Recently, in [3], the authors proposed a fuzzy
(e.g., matchT ype and M ediaResource). Then, the mod-
XQuery processing technique which allows the users to use
ule performs a similarity search at an external PostgreSQL3
linguistic terms based user-defined functions in XQuery in-
database where the ScalableColor features of MPEG-7 are
stances. The approach has been implemented in the native
stored. After finalization, the module responds with the re-
eXist XML database and provides better output than nor-
sults as presented by Transformation Rules 7 and 8.
mal XQuery language execution.

3. MPQF BASED XQUERY FRAMEWORK 4. MPQF TO XQUERY TRANSFORMATION
This section describes the overall structure and architec- RULES
ture of the proposed MPQF based XQuery framework. The transformation formalism presented in this paper con-
centrates on the implementation of a global framework for
3.1 Architecture fuzzy retrieval within XQuery based on the MPQF stan-
Figure 1 presents the overall architecture and workflow of dard. In general, the rules distinguish between data model
the framework. First, the incoming MPQF request is parsed depended and data model independent transformation. That
by an internal MPQF parser which establishes a visitor pat- is, data model depended rules need to be adopted to the un-
tern syntax tree. derlying metadata format as the required information can
not be addressed by a given XPath4 within the MPQF query
request but need additional domain specific data.

4.1 Transformation Rules for Selection
The transformation rules for selection cover the mapping
of the filtering step which is described by the QueryCon-
dition element in an MPQF request. In this context, the
skeleton for integrating a single MPQF condition (e.g., query
type or comparison condition) into XQuery is implemented
as follows:
Transformation Rule 1 (Query Condition).
Figure 1: Overview of the system architecture Let Score i be a substitute for the transformation of an
expression (e.g, comparison evaluation see Transformation
The MPQF syntax tree is forwarded to the transforma- Rule 6), a boolean operator (see Transformation Rule 5) or
tion module which executes a mapping algorithm for pro- a query type which refers to external processing (see Trans-
ducing an equivalent XQuery request. The plug-in system formation Rule 8) for e.g., information retrieval evaluation.
(see Subsection 3.2) supports the integration and evaluation Furthermore, let T hreshold i be the user given limit
of external information retrieval routines (e.g. query by ex- of the minimum similarity score for an operation (where
ample). After the finalization of the transformation process, 1 ≤ i ≤ n and n ∈ N). Then the transformation of a MPQF
a final XQuery instance is available. In series, this XQuery query condition to XQuery is embedded as:
request is forwarded to the connected XQuery database for let
$ s c o r e V a r i := <>,
execution. ...
where
3.2 Plug-in system $ s c o r e V a r i >= <>
In order to support a flexible system, the framework in-
Note, $scoreV ar i is a variable keeping the score value of
troduces a plug-in system. Figure 2 demonstrates where
the evaluation.
plug-ins take action in the transformation life cycle.
3
The framework identifies different categories of plug-ins: http://www.postgresql.org/
4
support for individual query types (e.g., QueryByMedia), http://www.w3.org/TR/xpath20/

74
Constitutively on the abstract transformation of query i f (<< E x p r e s s i o n >>) t h e n 1.0 else 0.0

conditions to score values, a closer look to its specific sub-
stitutions has to be performed. As defined in MPQF, an For the evaluation of information retrieval related tech-
individual query condition can contain comparison, string niques (e.g., the QueryByMedia or SpatialQuery query type)
and arithmetic operations. Exemplarily for this set of oper- separate external processes have to be applied. These pro-
ations, the contains operation (see Transformation Rule 2) cesses filter the document set and produce document id and
and comparison operation (see Transformation Rule 3) are score value pairs which are integrated into the final XQuery
defined. request. For instance, as described in Subsection 3.2, the
Transformation Rule 2 (Contains Operator). QueryByMedia query type can be implemented by forward-
Let Opi be the respective operands of a MPQF contains ing this part of the MPQF request to a specialized similarity
condition where 1 ≤ i ≤ 2. Then the corresponding trans- search engine for image retrieval by example. The result of
formation to XQuery is defined as: such an evaluation is then integrated as specified by Rule 7.
c o n t a i n s (<>, <>)
Transformation Rule 7 (Plug-in Integration).
Let $qbmVar be the container variable for results of an ex-
Transformation Rule 3 (Comparison Condition). ternal evaluation and anyU RI i an unique identifier of
Let Operand i be the respective operands of a MPQF an XML instance document and anyScore i its respec-
comparison operation where 1 ≤ i ≤ 2 and Operator is tive score value (where i in [1 .. n] and n ∈ N). Then, the
the substitute of one of the defined MPQF operators (e.g., external result is integrated by the following format:
EQUAL to =). Then the transformation of a MPQF com-
$qbmVar := (
parison condition to XQuery is defined as:
>’ s c o r e =’<< a n y S c o r e 1 >>’/>
<> <> <> ...
>’ s c o r e =’<< a n y S c o r e n >>’/>

)
A special role plays the fuzzy boolean operators as they
combine the results of preceding evaluations by the means of Note, this approach assumes that there is a unique iden-
scoring functions. In this context, the fuzzy boolean opera- tifier for every document. However, parts of a description
tors of MPQF (OR, AND, etc.) are transformed as follows: (e.g. low level features) can be swapped to specialized re-
trieval stores but the unique identifier remains as link be-
Transformation Rule 4 (Boolean operator).
Let scoreV ar i be the score value as described in Rule 1. tween those parts.
Further, pref V ar i specifies the given user preference
Besides, the intermediate result set (stored in a variable)
value (where i in [1 .. n] and n ∈ N) for the respective oper-
ation. Then, the mapping of fuzzy boolean operators (AND, is integrated into the overall evaluation by Rule 8 supporting
OR, XOR) follows the following interface: the access to already existing score results.
<> Transformation Rule 8 (Plug-in Evaluation).
(<< s c o r e V a r 1 >>,<< p r e f V a r 1 > > ,... , < < s c o r e V a r n >>,<< p r e f V a r n >>)
Let qbmVar be the container as specified in Rule 7.
Then, access to individual score values is accomplished as
Based on the abstract definition for fuzzy boolean oper- follows:
ators in Rule 4 one example for a fuzzy AND operator is i f ( e x i s t s ( $qbmVar / d o c [ @id = b a s e−u r i ( $ d o c ) ] ) )
t h e n ( number ( $qbmVar / d o c [ @id = b a s e−u r i ( $ d o c ) ] / @ s c o r e ) )
specified in Rule 5. else (0.0)

Transformation Rule 5 (AND Boolean operator).
Let scoreV ar i and pref V ar i be specified as pre- The TargetMediaType element of MPQF restricts the mul-
sented in Rule 4 and $scoreV ar (N + 1) the variable for timedia data set according to their mime type. This filtering
holding the final result. Then, a mapping for the AND fuzzy is data model depended as no additional information (e.g.
boolean operator to a scoring function using the product t- XPath to the data) is provided within the MPQF query it-
norm is defined as follows: self. Therefore, the evaluation is embedded as follows:
$ s c o r e V a r (N+1) := math : pow (
math : pow(<< s c o r e V a r 1 >>, <>)∗ Transformation Rule 9 (MIME type).
...
math : pow(<< s c o r e V a r n >>, <
>),
Let M IM E type i be defined as a MIME type descrip-
<>) tion where i in [1 .. n] and n ∈ N. Then, the filter criterion
extends the XQuery where clause as follows:
Note, as the MPQF boolean operators rely on the fuzzy set
where
theory, the scoring functions should cope the t-norm and t- {<> OR
....
conorm fuzzy logics [2], respectively. Further note, this Rule <>} AND
assumes that the XML engine provides specific mathematic
libraries or is extensible in this direction. Otherwise, lookup Finally, the resulting documents are ordered by their score
tables containing precalculated values in the interval [0.0 .. evaluation and stored in an internal format for further pro-
1.0] can be provided (e.g., has been applied as plug-in for the cessing (see Rule 10).
Berkeley DB XML).
Transformation Rule 10 (Ordering).
The integration of data centric evaluations (e.g., compar- Let $scoreVarN contain the final score value after N calcu-
ison operators) which base on a true/false basis is applied lation steps, then the resulting documents are ordered and
by Transformation Rule 6. preliminary stored as follows:
where
Transformation Rule 6 (Expression). ...
o r d e r by
Let Expression be any expression derived by the Rules 2 $scoreVarN d e s c e n d i n g
and 3. Then the score of those operations is gathered by the return
{ $ d o c }
following transformation:

75
4.2 Transformation Rules for Projection 5.1 Selection phase
In a final step, the desired information is extracted from The transformation mechanism starts by parsing all ele-
the filtered documents and integrated in a valid MPQF out- ments of the generated sequence. The first element is the
put instance. As the wanted elements are addressed as contains condition which belongs to the set of expressions.
XPath expressions within an MPQF query, they can be re- and triggers the execution of Transformation Rule 2. This
cycled in the transformation as well. Note, the final MPQF results in the following XQuery snippet (see Code 1).
query result is embedded in an internal proprietary format
in order to support enhanced functionalities such as caching, Code 1 Transformation of the contains condition
paging, relevance feedback, etc. by the framework. contains($doc//mpeg7:FamilyName, ’Bob’)

4.3 Transformation process
The so far introduced Transformation Rules (TR) describe This is followed by Transformation Rule 6 which is used
techniques for mapping parts of a MPQF request to its for the integration of expressions into XQuery (see Code 2)
equivalents in XQuery. The overall transformation process
creates a rule chain during the evaluation of the query in or- Code 2 Integrating the contains condition
der to map the entire MPQF request. Input of the chain is
$scoreVar1 = if (contains($doc//mpeg7:FamilyName, ’Bob’))
the MPQF request. Then, a post order traversal is applied then 1.0 else 0.0
which responds with a list of nodes (MPQF conditions) of
the QueryCondition element. By parsing this list, the type
of the current node is identified and the respective (set of) Similarly to the contains condition, the next element in
Transformation Rule(s) is/are accomplished. Then, the al- the sequence is processed, namely the GreaterT hanEqual
gorithm applies optional Rules for existing aggregation or condition. Here, in our example, the Transformation Rule 3
sorting parts. Finally, the rest of MPQF’s OutputDescrip- followed by Rule 6 are evaluated, which results in the XQuery
tion element is evaluated by applying the Projection rule snippet given in Code 3.
(not shown in this paper). Finally, the output of this map-
ping process is an equivalent XQuery instance. Code 3 Transformation of GreaterThanEqual
$scoreVar2 = if ($doc//mpeg7:FileSize >= 500000)
5. EXAMPLE TRANSFORMATION then 1.0 else 0.0
For a better understanding of the defined Transformation
Rules, a simple example transformation is demonstrated by
the following MPQF query request (see Figure 3)5 . The ex- After applying the Transformation Rules for the leaf nodes,
ample request addresses MPEG-7 based image descriptions our approach concentrates on the inner nodes (the boolean
and selects the title and the creator information of all JPEG operators). The inner nodes regulate how the results of the
images whose file size is greater or equal to 500000 Bytes leaf nodes are combined. For this purpose, scoring functions
and where the creators family name contains the string Bob. are assigned to the respective boolean operators according
Besides, the threshold of the combined score result must ex- to t-norm and t-conorm rules. Our example uses the Prod-
ceed 0.5. Furthermore, the final result set should contain uct function for the AND operation in order to combine the
not more then 30 elements. individual score values. In this context, applying Transfor-
The processing engine of the incoming query tree applies mation Rule 5 results in Code 4 for the AN D condition.
a post order traversal to extract the internal nodes. For The resulting score value and the threshold of an condi-
our example, this results on the following sequence: Con- tion are integrated into the XQuery request by evaluating
tains, GreaterThanEqual, AND, TargetMediaType. Then, Transformation Rule 1. Due to space constraints in this pa-
by traversing this sequence, the assigned transformation rules per, the final result for integrating the given thresholds is
are executed. shown in Code 5. If no threshold is assigned, the minimum
value is used (0).
As our example makes use of the TargetMediaType ele-
ment for restricting the result set according to the file for-
mat, a data model depended filtering has to be found. In
our example, we assume that the respective information is
annotated in the Content and FileFormat elements of the
MPEG-7 description. In assuming so, the following trans-
formation for MIME-types (see Rule 9) has to be applied
(see Code 6).
The final result of all combined transformations of the
selection phase can be found in Code 7.
Figure 3: Example tree
5.2 Projection phase
In the following, Subsection 5.1 describes the used rules The last stage in the transformation process is the cre-
for the selection phase. Finally, in the project phase (see ation of a valid MPQF response and the integration of the
Subsection 5.2) the desired information is extracted and the requested information of the target data model. Our ex-
entire XQuery is consolidated. ample only instantiates the TextResult and Description el-
5 ements. As described beforehand, the final MPQF output
Note, the request as MPQF language can be found in the
extended version of this article. description is wrapped in a proprietary format (ResultDocu-

76
Code 4 Applying Transformation Rule for scoring function Code 6 Transformation of MIME type filtering
$scoreVar3 = math:pow(math:pow($scoreVar1, 0.5)* (
math:pow($scoreVar2, 0.5), 2) exists($doc//mpeg7:Content[@href = ’image’])
and
string($doc//mpeg7:FileFormat/mpeg7:Name/text()) = ’JPEG’
)
Code 5 Integration of threshold values
$scoreVar1 >= 0.0 and
$scoreVar2 >= 0.0 and Code 7 Result of selection phase
$scoreVar3 >= 0.5
$selected :=
(for
$doc in collection(’db.dbxml’)/*
let
$scoreVar1 = if (contains($doc//mpeg7:FamilyName, ’Bob’))
ment element) in order to support caching, paging, relevance then 1.0 else 0.0,
feedback, etc. $scoreVar2 = if ($doc//mpeg7:FileSize >= 500000)
then 1.0 else 0.0,
$scoreVar3 = math:pow(math:pow($scoreVar1, 0.5) *
6. EVALUATION math:pow($scoreVar2, 0.5), 2),
$id := base_uri($doc)
This section describes the series of experiments we per- where
formed in order to evaluate the effectiveness of our transfor- ((
exists($doc//mpeg7:Content[@href = ’image’])
mation approach. The tests were carried out on a subset of and
the CoPhiR6 [1] data set containing MPEG-7 annotations string($doc//mpeg7:FileFormat/mpeg7:Name/text()) = ’JPEG’
of Flickr images. The sizes of our test data sets varied from )) and
$scoreVar1 >= 0.0 and
100 up to 10000 annotations. In order to demonstrate the $scoreVar2 >= 0.0 and
transformation approach with various XML databases, the $scoreVar3 >= 0.5
following solutions have been chosen: Saxon7 , Berkeley DB order by
$scoreVar3 descending
XML8 and eXist DB9 . return
The overall performance evaluation is divided into two {$doc}),
main parts. First, the processing time of parsing and exe-
cuting the Transformation Rules has been analyzed in Sub-
section 6.1. The final execution of the resulting XQuery
instance at the mentioned databases is demonstrated in Sub- PostgreSQL10 database coping with low level features (color,
section 6.2. texture, etc.) of images. Similarity calculation has been
simplified on the basis of color features and the Euclidean
6.1 Transformation Evaluation distance (no index has been used). Figure 4 presents the
This subsection describes the set of experiments for evalu- average run time needed for the transformation of an MPQF
ating the performance of applying the Transformation Rules. query request to an appropriate XQuery request. The tests
Input is a MPQF query request and output an equivalent have been repeated 50 times. The evaluation shows that
XQuery query request. In order to receive clear differences there is a slight increase of time consumption depending on
between the used query classes a less powerful system config- the increase of query complexity. However, the maximum
uration has been applied, namely an Intel Premium M 1.60 differences between query classes do not increase 17%.
GHz CPU with 512 MB DDR2 400 main memory running
Windows XP. 6.2 Database comparison
The complexity of the queries is divided into the follow- The experiments have been executed on a Windows based
ing six classes in order to demonstrate the evaluation time stand-alone PC with Intel Core i7 1,6GHz (4 cores) CPU and
for different compositions of Transformation Rules: queries 4 GB main memory. All databases have been tested out of
where either aggregation or sorting is used (classes NoAg- the box without optimization. Similar to Subsection 6.1 six
g/Sort, NoAgg/Sort Complex, Agg/NoSort), queries where different query classes have been used during the evaluation,
both (class Agg/Sort) and queries where none (class NoAg- whereas exemplarily only two are demonstrated in this arti-
g/NoSort) of these features have been used. Except the cle. Note, the presented performance behavior is also valid
NoAgg/Sort Complex class, the example queries contain for the rest of the tests. Figure 5 show the results of our ex-
only one condition (e.g. EQUAL condition). The com- periments for a query where sorting has been enabled. The
plex query class demonstrates the use of Boolean operators y-axis describes the average processing time per document
(AND/OR) and multiple other conditions (e.g., contains or (average processing time divided by the amount of docu-
comparison). ments in the database) and the x-axis shows the amount of
Finally, the sixth query class addresses the performance MPEG-7 documents stored in the database. The measured
of the plug-in system by demonstrating a QueryByMedia overall processing time for one MPQF query consists of the
query type which requires external processing. The external transformation time applied by our module and the time
processing has been realized by the integration of a relational needed for processing the resulting XQuery.
By evaluating the performance results, one can identify a
6
http://cophir.isti.cnr.it linear scaling of the Saxon and Berkeley DB XML engines,
7
http://saxon.sourceforge.net which is stable over the increasing size of the test data set.
8
http://www.oracle.com/database/berkeley-db/xml/ The impact of the initial phase needed by the engines can
index.html
9 10
http://exist.sourceforge.net/ http://www.postgresql.org/

77
Figure 6: Comparison of database performance for
XQuery with QueryByMedia plug-in
Figure 4: Performance of the transformation process

tory. By using the proposed framework, XQuery repositories
be observed by small test data sets (100 documents) and can be enhanced for multimedia retrieval on any XML based
here the Berkeley DB XML is outperformed by the others. multimedia metadata format in a standardized way.
In contrast to Saxon and Berkeley DB, the eXist engine is Future work will concentrate on further developments for
outperformed clearly for larger test data sets as it shows a the projection and output description part and the integra-
nearly quadratic scale factor. tion of additional plug-in elements coping for instance spa-
tial and temporal retrieval.

8. ACKNOWLEDGMENTS
This work has been supported in part by the THESEUS
Program, which is funded by the German Federal Ministry
of Economics and Technology.

9. REFERENCES
[1] Paolo Bolettieri, Andrea Esuli, Fabrizio Falchi, Claudio
Lucchese, Raffaele Perego, Tommaso Piccioli, and Fausto
Rabitti. CoPhIR: a test collection for content-based image
retrieval. CoRR, abs/0905.4627v2, 2009.
Figure 5: Comparison of database performance for [2] Didier Dubois, Henri Prade, and Florence Sedes. Fuzzy
Logic Techniques in Multimedia Database Querying: A
XQuery with sorting Prelimiary Investigation of the Potentials. IEEE Transaction
on Knowledge and Data Engineering, 13(3):383–392, 2001.
In general, the processing time for the MPQF-XQuery [3] E.J. Thomson Fredrick and G. Radhamani. Fuzzy Logic
transformation is in average under 7% of the overall pro- Based XQuery operations for Native XML Database
cessing time for evaluating the final XQuery request and Systems. International Journal of Database Theory and
therefore negligible. Application, 2(3):13–20, 2009.
The last experiment targets on the evaluation of the plug- [4] Norbert Furh and Kai Grossjohann. XIRQL: A Query
Language for Information Retrieval in XML Documents. In
in injection process by the means of a QueryByMedia query Proceedings of the 24th ACM-SIGIR Conference on
type which realizes similarity search on multimedia data. Research and Development in Information Retrieval, pages
As described beforehand, the test environment consists of a 172–180, New Orleans, Louisiana, USA, 2001. ACM Press.
PostgresSQL database storing the low level features (Scal- [5] ISO/IEC. Information technology - Multimedia content
ableColor of MPEG-7). As a proof of concept, similarity description interface - Part 12: Query format. ISO/IEC
search is implemented by an SQL function in the target 15938-12:2008, 2008.
database. Of course, here is room for improvements (e.g., [6] Ji-Hoon Kang, Chul-Soo Kim, and Eun-Jeong Ko. An
XQuery engine for digital library systems. In Proceedings of
use of index structures or enhanced multimedia retrieval
the 3rd International ACM/IEEE-CS joint conference on
modules). Figure 6 show the results for the QueryByMedia Digital libraries, pages 400–400, Houston Texas, 2003.
evaluation. [7] Jacques Le Maitre. Indexing and Querying Content and
Structure of XML Documents According to the Vector Space
7. CONCLUSIONS Model. In Proceedings of the IADIS International
Conference WWW/Internet, pages 353–358, Lisbon,
This article proposed a MPQF based XQuery framework Portugal, 2005.
which provides a specification of a set of Transformation [8] Priscilla Walmsley. XQuery. O’Reilly Media, 2007. ISBN:
Rules for mapping a MPEG query format request to an 978-0596006341.
equivalent XQuery request. Based on this, a framework has [9] Ling Xue, Chao Li, Yu Wu, and Zhang Xiong. VeXQuery:
been developed featuring a plug-in system for external mul- an XQuery extension for MPEG-7 vector-based feature
timedia retrieval routines, a threading model for fast and query. In Proceedings of the International Conference on
Signal-Image Technology and Internet Based Systems
scalable processing and an internal result set format enabling (IEEE/ACM SITIS’2006), pages 176–185, Hammamet,
caching, paging and relevance feedback operations. The Tunesia, 2006. Springer-Verlag.
framework is able to connect to any available XQuery reposi-

78
Workload Representation across Different Storage
Architectures for Relational DBMS

Andreas Lübcke Veit Köppen Gunter Saake
School of Computer Science School of Computer Science School of Computer Science
University of Magdeburg University of Magdeburg University of Magdeburg
Magdeburg, Germany Magdeburg, Germany Magdeburg, Germany
andreas.luebcke@ovgu.de veit.koeppen@ovgu.de gunter.saake@ovgu.de

ABSTRACT 2. STATISTICS REPRESENTATION
Database systems differ from small-scale stripped database pro- To select the optimal storage architecture, we have to analyze a
grams for embedded devices with minimal footprint to large-scale given workload; thus, we need to decompose this workload. We
OLAP applications for server devices. For relational database man- have to map single operations of a workload (at least of one query)
agement systems, two storage architectures have been introduced: and their optimizer statistics to evaluable patterns. Therefore, we
the row-oriented and the column-oriented architecture. To select present our pattern framework which stores all necessary statistics
the optimal architecture for a certain application, we need workload for subsequent performance analyses. In [18], we illustrate the
information and statistics. In this paper, we present a workload rep- procedure of our decision process regarding the storage architecture
resentation approach that enables us to represent workloads across selection. Below, we outline the design of our pattern framework.
different DBMSs and architectures. Our approach also supports
fine granular workload analyses based on database operations. 2.1 Pattern Types
To analyze the influence of single operations, we propose three
patterns for operations in workload queries. The three operation
1. INTRODUCTION patterns are tuple operations, aggregations and groupings, and
join operations. We define a number of sub-patterns for each of
New requirements for database applications [23, 26, 27] came up those three to characterize particular operations more precisely within
in recent years. Therefore, database management system (DBMS) the patterns. This way, we support analyses based on the three pat-
vendors and researchers developed new technologies, e.g., column- terns and additionally fine granular analyses based on sub-patterns,
oriented DBMSs (column stores) [1, 22, 30]. New approaches are i.e., we can determine where the majority of costs emerge within a
developed to satisfy the new requirements for database applica- workload (at least one query).
tions, thus the number of candidates in the decision process has also First, the tuple operation pattern covers all operations that pro-
increased. Moreover, new application fields imply a more complex cess or modify tuples, e.g., selection, sort operations. We propose
decision process to find the suitable DBMS for a certain use case. this pattern for performance analyses because row stores process
We need statistics to come to a suitable design decision. These directly on tuples in contrast to column stores that costly recon-
statistics have to be represented system-independent for sound and struct tuples. We identify the following sub-patterns:
comparable decision. That implies the independence of workload
representation from different storage architectures. In this paper, Sort/order operation: Sort/order operation creates sequences of
we introduce a new approach of workload statistics aggregation tuples and affects all attributes of a tuple. We consider dupli-
and maintenance across different DBMSs and architectures. We cate elimination as a sort operation because an internal sort
showed in [16] that query-based workload analyses, as described is necessary to find duplicates.
in [7], are not suitable to select the optimal storage architecture. To Data access and tuple reconstruction: Row stores always access
overcome drawbacks of query-based workload analyses, we define tuples and column stores must reconstruct tuples to access
workload patterns based on database operations. We introduce a more than one column.
workload decomposition algorithm that enables us to analyze query Projection: Projection returns a subset of tuple attribute values
parts. Workload patterns represent the decomposed workloads to and causes (normally) no additional costs for query execu-
compare the performance of database operations for column and tion.
row stores. These workload patterns contain all statistics needed Filtering: Filtering selects tuples from tables or intermediate re-
for cost estimations. We simulate the statistic gathering process sults based on a selection predicate, e.g., selection in WHERE-
with a exemplary workload. clause and HAVING-clause.
Second, we cover all column processing operations in the aggre-
gation and grouping pattern, e.g., COUNT and MIN/MAX. We
propose this pattern as counterpart to the tuple operation pattern.
The operations of this pattern work only on single columns except
for grouping operations which can also process several columns,
e.g., GROUP BY CUBE. Due to column-wise partitioned data and
single column processing, column stores perform well on aggrega-
23rd GI-Workshop on Foundations of Databases (Grundlagen von Daten-
tions (cf. [16]). We identify the following sub-patterns:
banken), 31.05.2011 - 03.06.2011, Obergurgl, Austria. Min/Max operation: The min/max operation provides the mini-
Copyright is held by the author/owner(s).
mum/maximum value of a single attribute (column).

79
Sum operation: This operation provides the sum of all values in sustain the comparability of operations beyond the architectures be-
one column. cause row stores are not affected by tuple reconstructions.
Count operation: The count operation provides the number of at- We assume further workload decomposition is not meaningful
tribute values in a column and COUNT(*) provides only the because administrative costs would affect the performance of exist-
number of key values, thus it processes a single column. ing systems as well as the comparability of performance issues be-
Average operation: The average operation computes all values of tween the architectures according to certain workload parts. These
a single column as well as the sum operation, but it can have impacts would disadvantageously affect the usability of our pattern
different characteristics, e.g., mean (avg) or median. framework.
Group by operation: This operation merges equal values accord-
ing to a certain column and results in a subset of tuples.
Grouping across a number of columns is also possible. 3. QUERY DECOMPOSITION
Cube operations: The cube operation computes all feasible com- In this section, we introduce the query decomposition approach.
bination of groupings for selected dimensions. This gener- First, we illustrate the (re-) used DBMS functionality and how we
ation requires the power set of aggregating columns, i.e., n gather necessary statistics from existing systems. Second, we in-
attributes are computed by 2n GROUP BY clauses. troduce the mapping of decomposed query parts to our established
Standard deviation: The standard deviation (or variance) is a sta- workload patterns and show a decomposition result by example.
tistical measure for the variability of a data set and is com- Our approach is applicable to each relational DBMS. Nevertheless,
puted by a two pass algorithm which means two cycles. we decide to use a closed source system for the following consider-
Third, the join pattern matches all join operations of a workload. ations because the richness of detail of optimizer/query plan output
Join operations are costly tasks for DBMSs. This pattern shows dif- is higher and easier to understand. More detailed information will
ferences of join techniques between column and row stores, e.g., result in more accurate recommendation.
join processing on compressed columns or on bitmaps. Within
this pattern, we evaluate the different processing techniques against 3.1 Query Plans
each other. Consequently, we define the following sub-patterns: A workload decomposition based on database operations is nec-
essary to select the optimal storage architecture (cf. [16]). There-
Vector based: The column oriented architecture naturally supports fore, we use query plans [4] which exist in each relational DBMS.
vector based join techniques while row stores have to main- On the one hand, we reuse database functionality and avoid new
tain and create structures, e.g., bitmap (join) indexes [15]. calculation costs for optimization. On the other hand, we make
Non-vector based: This pattern matches "classic" join techniques use of system optimizer estimations that are necessary for physical
(from row stores1 ) to differentiate the performance between database design [10].
vector and non-vector based join, thus we can estimate ef- Based on query plans, we gather statistics directly from DBMS
fects on the join behavior by architecture. and use the optimizer cost estimations. The example in Listing 1
shows an SQL query and we transform this to a query plan in Ta-
We only propose these two sub-patterns because the join concepts,
ble 1 [19]. Table 1 already offers some statistics such as number
e.g., merge or nested loop join, exist for both architectures. Hence,
of rows, accessed bytes by the operation, or costs. Nevertheless,
we assume that there is no necessity to map each join concept into
Table 1 shows only an excerpt of gathered statistics. All possible
its own sub-pattern. Figure 1 shows all introduced patterns and
values for query plan statistics can be found in [20] Chapter 12.10.
their relation to each other based on our exemplary workload.
Hence, we are able to determine the performance of operations on
2.2 Dependencies between Patterns a certain architecture (in our example a row store) by statistics such
as CPU costs and/or I/O costs. In addition to performance evalua-
Database operations are not always independent from each other.
tion by several estimated costs, we can gather further statistics from
We can identify dependencies between the following patterns: join,
query plans which may influence performance of an operation on a
filtering, sort/order, group/cube, and data access pattern.
certain architecture, e.g., cardinality. For column stores, the oper-
Join operations innately imply tuple selections (filtering pattern).
ation cardinality can indirectly affect performance if the operation
However, the tuple selection itself is part of the join operation by
processes several columns, thus column stores have to process a
definition, thus we assume that an additional decomposition of join
number of tuple reconstructions, e.g., high cardinality means many
operations is not necessary. Moreover, new techniques would have
reconstructions. Thus, we use meta-data to estimate influences of
to be implemented to further decompose join operations and gather
data itself on the performance, e.g., we can compute the selectivity
the necessary statistics. Hence, the administrative cost for tun-
of attributes.
ing will be noticeably increased. To a side-effect, the comparison
of join techniques belonging to different architectures will be no
longer possible because of system-specific decomposition.
3.2 From Query Plans to Workload Patterns
We state that two different types of sort/order operation can oc- We have to map the gathered statistics from DBMS to our work-
cur, i.e., implicit and explicit sort. The explicit sort is caused by load patterns. We use a second example [21] (Listing 2 and Table 2)
workload or user, thus we consider this operation in the sort/order to simulate a minimum workload instead of a single query. In the
pattern. In contrast, we do not consider the implicit sort operation following, we illustrate the mapping approach by using the exam-
in the sort/order pattern because this sort operation is caused by the ples in Listing 1 and 2. In our name convention, we define a unique
optimizer, e.g., for sort-merge join. Therefore, we assign all costs number2 that identifies queries of the workload within our mapping
of grouping to the GROUP BY (or CUBE) pattern including the algorithm, i.e., 1.X represents query 1 (Listing 1) and equally 2.X
sort costs to sustain comparability. represents query 2 (Listing 2). Furthermore, we reuse the opera-
Third, tuple reconstruction is part of several operations for col- tion IDs from query plans (Table 1 and 2) in the second hierarchy
umn stores. We add these costs to the tuple operation pattern. We 2
In the following considerations, we start with 1 which represents
1
Some column stores also support these join techniques. the first query.

80
1 SELECT * ID Operation Name Rows Bytes Cost (%CPU) ...
2 FROM employees e JOIN departments d 0 SELECT STATEMENT 106 9328 7 (29) ...
3 ON e.department_id=d.department_id 1 SORT ORDER BY 106 9328 7 (29) ...
4 ORDER BY last_name; *2 HASH JOIN 106 9328 6 (17) ....
3 TABLE ACCESS FULL DEPARTMENTS 27 540 2 (0) ...
4 TABLE ACCESS FULL EMPLOYEES 107 7276 3 (0) ...
Listing 1: Example SQL query (14-
1) [19] Table 1: Textual query plan of SQL example (14-1) [19]

level (for X), e.g., 1.4 is the operation with ID 4 of query 1 (cf. can be also mapped to our workload patterns. Representatively, we
Table 1). In the following, we refer the CPU cost of Table 1 and 2. illustrate the mapping of C-Store/Vertica query plan operations in-
The first query (Listing 1) is decomposed into four patterns. First, troduced in [25] and map them to our workload patterns as follows:
we see the data access operation of the department (ID 3)
and the employees (ID 4) tables in the corresponding query Decompress: Decompress is mapped to the data access pattern.
plan in Table 1. The total cost for the data access operations is 5. This operation decompresses data for subsequent operations
Second, the join operation (ID 2) is executed with a hash join in the query plan that cannot process on compressed data
algorithm. The hash join cost is only 1 because in Table 1 costs (cf. [1]).
Select: Select is equivalent to the selection of relational algebra
are iteratively sum up and the costs of its children (5) and its own
with the exception that the result is represented as bitstring.
cost (1) are summed up to 6 for ID 2. Third, the sort opera-
Hence, we map it to the filtering pattern.
tion (ID 1) implements the ORDER BY statement with cost of
Mask: Mask process on bitstrings and returns only those values
1. The total costs of all processed operations are 7 now. Fourth,
whose associated bits in the bitstring are 1. Consequently,
the select statement (ID 0) represents the projection and causes
we map mask to the filtering pattern.
no additional cost (remain 7). Following our name convention, the
Project: Projection is equivalent to the projection of relational al-
identifiers from 1.0 to 1.4 represent the operations of our first
gebra, thus this operation is mapped to the projection pattern.
query (Listing 1) in Figure 1.
We also decompose the second example (Listing 2) into four op- Sort: This operation sorts the columns of a C-Store projection ac-
eration types (cf. Table 2). First, IDs 3, 7, and 8 represent cording to a (set of) sort column(s). This technique is equiv-
the data access operations and cause total costs of 14. Second, alent to sort operations on projected tuples, i.e., we can map
the optimizer estimates both hash joins (ID 2 and 6) with no this operation to the sort/order pattern.
(additional) costs because their costs are only composed by the Aggregation Operators: These operations compute aggregations
summed costs of their children (ID 3, 4 and ID 7, 8). Third, and groupings like in SQL [1], thus we directly map these
the GROUP BY statement in Listing 2 is implemented by hash- operations to the corresponding sub-pattern in the aggrega-
based grouping operations (ID 1 and ID 5). The cost of each tion & grouping pattern.
HASH GROUP BY is 1 and the total costs of this operation type Concat: Concat combines C-Store projections sorted in the same
are 2. Fourth, the projection (ID 0) and the sum operation rep- order into a new projection. We regard this operation as tuple
resented by select statement causes again no additional costs. If reconstruction and map it to the corresponding pattern.
the sum operation causes costs then it will be represented by a sep- Permute: This operation permutes the order of columns in C-Store
arate operation (ID). Following our name convention, the identi- projections according to the given order by a join index. It
fiers from 2.0 to 2.8 represent the operations of the second query prevents additional replication overhead that would emerge
(Listing 2) in Figure 1. The view (ID 2.4) is not represented in through creation of join indexes and C-Store projections in
our workload pattern because its costs are already mapped by its several orders. This operation is used for joins, thus we map
child operations (ID 2.5-2.8). its cost to the join pattern.
In our examples, we summarize single operations of similar types Join: We map this operation to the join pattern and distinguish two
(five for example query two). In the following, we list the five op- join types. First, if tuples are already reconstructed then we
eration types and assign them to our workload patterns and their process them as row stores, i.e., we map this join type to
sub-patterns that we introduced in Section 2. The join operations the non-vector based join pattern. Second, the join operation
of our example queries ID 1.2, 2.2, and 2.6 are assigned to only processes columns that are needed to evaluate the join
the non-vector based join pattern. We assign the operations with predicate. The join result is a set of pairs of positions in the
ID 1.3, 1.4, 2.3, 2.7, and 2.8 to the data access sub- input columns [1]. This join type can process on compressed
pattern of the tuple operation pattern. We also assign the projec- data as well as it can use vector based join techniques, thus,
tions (ID 1.0 and 2.0) and the sort operation (ID 1.1) to we map this join type to the vector based join pattern.
the tuple operation pattern. Finally, we assign the group by op- Bitstring Operations: These operations (AND, OR, NOT) pro-
erations (ID 2.1 and 2.5) to the group by sub-pattern within the cess bitstrings and compute a new bitstring with respect to
aggregation and grouping pattern. We present the result in Figure 1 the corresponding logical operator. These operations im-
whereby we only show ID and cost of each operation for reasons plement the concatenation of different selection predicates.
of readability. We state that the we do not need to directly extract Therefore, we map these operations to the filtering pattern.
statistics from existing systems. Our pattern framework is system
Finally, we state that our approach can be used for each rela-
independent, thus we are also able to use already extracted (or ag-
tional DBMS. Each relational DBMS is referable to the relational
gregated) data as well as estimated values.
data model, so these DBMSs are based on the relational algebra
in some manner too. Thus, we can reduce or map those opera-
3.3 Operations in Column Stores tions to our workload patterns; in worst case, we have to add an
We state that we do not need a separate decomposition algorithm architecture-specific operation for hybrid DBMSs to our pattern,
for column stores, i.e., the query plan operations of column stores e.g., tuple reconstruction for column stores. For a future (relational)

81
ID Operation Name Rows Bytes Cost (%CPU) ...
0 SELECT STATEMENT 144 4608 16 (32) ...
1 SELECT c.cust_last_name, SUM(revenue)
1 HASH GROUP BY 144 4608 16 (32) ...
2 FROM customers c, v_orders o
*2 HASH JOIN OUTER 663 21216 15 (27) ...
3 WHERE c.credit_limit > 2000
*3 TABLE ACCESS FULL CUSTOMERS 195 2925 6 (17) ...
4 AND o.customer_id(+) = c.customer_id
4 VIEW V_ORDERS 665 11305 ...
5 GROUP BY c.cust_last_name;
5 HASH GROUP BY 665 15960 9 (34) ...
*6 HASH JOIN 665 15960 8 (25) ...
Listing 2: Example SQL query (11- *7 TABLE ACCESS FULL ORDERS 105 840 4 (25) ...
8 TABLE ACCESS FULL ORDER_ITEMS 665 10640 4 (25) ...
9) [21]
Table 2: Textual query plan of SQL example (11-9) [21]

Workload

Aggregation &
Join Tuple Operation
Grouping

Non-vector based Count Min / Max
Projection
ID Cost Filtering
Vector based ID Cost
1.2 1 (Having, Selection)
1.0 0
2.2 0 Sum Cube
2.0 0
2.6 0

Tuple Reconstruction /
Data Access St. Dev. Avg
ID Cost
Sort / Order
1.3 2
ID Cost
1.4 3
1.1 1 Group by
2.3 6
2.7 4 ID Cost Median
2.8 4 2.1 1
2.5 1

Figure 1: Workload patterns with cost of operations for the row store example workload

hybrid storage architecture, such an operation could be necessary measurements of ICE are on the data pack (65k) level.
to map the cost for conversions between row- and column-oriented In Figure 2, we present our workload patterns with I/O costs of
structures and vice versa. the corresponding TPC-H queries. As we mentioned before, the
projection operation causes no additional costs. Hence, the I/O
4. DEMONSTRATING EXAMPLE costs in Table 3 and Figure 2 represent the size of final results.
The stored information can be analyzed and aggregated in decision
We decide to simulate the workload with the standardized TPC- models with any necessary granularity. In our example, we only
H benchmark (2.8.0) to show the usability of our approach. We use sum up all values of the data access pattern for each query to calcu-
the DBMSs Oracle 11gR2 Enterprise Edition and Infobright ICE late the I/O costs per query in Kbytes. For these three queries, all
3.3.1 for our experiments3 . We run all 22 TPC-H queries and ex- results and intermediate results are smaller than the available main
tract the optimizer statistics from the DBMSs. For reasons of clar- memory, thus no data has to be reread subsequently. Oracle reads
ity and comprehensibility, we only map three representative TPC-H 1452.133 Kbytes for query Q2 and takes 8.14 seconds. ICE needs
queries namely Q2, Q6, and Q14 to the workload patterns. 41 seconds and access 2340 Kbytes. We suppose, the DBMS with
The query structure, syntax, and execution time are not sufficient minimal I/O cost performs best. Our assumption is confirmed for
to estimate the query behavior on different storage architectures. query Q14. Oracle accesses 7020.894 Kbytes and computes the
We introduced an approach based on database operations that pro- query in 22.55 seconds whereas ICE computes it in 3 seconds and
vides analyses to find long running operations (bottlenecks). More- reads 6240 Kbytes. Nevertheless, we cannot prove our assumption
over, we want to figure out reasons for the behavior, thus we have for query Q6. Oracle (3118 Kbytes) accesses less data than ICE
to use additional metrics. We select the I/O cost to compare the (5980) Kbytes but ICE (2 seconds) computes this query ten times
DBMSs and summarize the optimizer output in Table 3. Following faster than Oracle (22.64 seconds). Hence, we cannot figure out a
our previous name convention, we define the query IDs according definite correlation for our sample workload.
to their TPC-H query number, i.e., we map the queries with the We state that only I/O cost is not sufficient to estimate the be-
IDs 2, 6, and 14. The operations are identified by their query havior of database operations. However, I/O cost is one important
plan number (IDs in Table 3), thus the root operation of TPC-H metric to describe performance behavior on different storage archi-
query Q2 has the ID 2.0 in Figure 2. All values in Table 3 are tectures because one of the crucial achievements of column stores is
given in Kbytes. The given values are input costs of each opera- the reduction of data size (i.e., I/O cost) by aggressive compression.
tion except the table access costs because no information on input The I/O cost also gives an insight into necessary main memory for
costs to table access operations are available. Note, the granular- database operations or if operations have to access the secondary
ity of Oracle’s costs measurements is on the byte level whereas the memory. Hence, we can estimate that database operations are com-
3
We also wanted to evaluate our approach with the DBMSs solu- pletely computed in main memory or data have to be reread/read
tions from Vertica and Sybase because both DBMSs use cost-based stepwise4 .
optimizer and we would be able to receive more expressive results.
We requested the permission to use the systems for our evaluation 4
We remind of the performance gap (circa 105 ) between main
but until now the decision is pending. memory and HDDs.

82
Oracle ICE
Operation Q2 (8.14sec) Q6 (22.64sec) Q14 (22.55sec) Q2 (41sec) Q6 (2sec) Q14 (3sec)
Data Access ID7:0.8;ID12:0.029;ID13:11.2; ID2:3118 ID3:1620.894; ID4:65;ID5:65;ID6:845;ID7:65ID8:260; ID2:5980 ID3:5980;
ID15:0.104;ID16:1440 ID4:5400 ID10:65;ID11:65;ID12:65;ID13:845 ID4:260
Non-vector based join ID6:202.760;ID8:1440;ID9:88.016; ID2:7020.894 ID3:1300;ID9:1040 ID2:6240
ID10:17;ID11:11.229
Sort ID3:33.18;ID5:45.346 ID2:65
Count ID1:31.284 ID1:65
Sum ID1:3118 ID1:3610.173 ID1:5980 ID1:65
Projection ID0:19.800 ID0:0.020 ID0:0.049 ID0:65 ID0:65 ID0:65

Table 3: Accessed Kbytes by query operations of TPC-H query Q2, Q6, and Q14.

Workload

Aggregation &
Join Tuple Operation
Grouping

Count
Non-vector based Projection ICE Oracle
ICE Oracle Filtering ICE Oracle Min / Max
Vector based ID KBytes ID Kbytes
ID KBytes ID KBytes (Having, Selection) ID Kbytes ID KBytes 2.1 65 2.1 31.284
2.3 1300 2.6 202.760 2.0 65 2.0 19.800
2.9 1040 2.8 1440.000 6.0 65 6.0 0.020
14.2 6240 2.9 88.016 Tupel Reconstruction / Data Access 14.0 65 14.0 0.049 Sum
2.10 17.000 ICE Oracle ICE Oracle
2.11 11.229 ID KBytes ID KBytes ID KBytes ID KBytes Cube
14.2 7020.894 2.4 65 2.7 0.800 Sort / Order 6.1 5980 6.1 3118.000
2.5 65 2.12 0.029 ICE Oracle 14.1 65 14.1 3610.173
2.6 845 2.13 11.200 ID Cost ID Cost
2.7 65 2.15 0.104 2.2 65 2.3 33.180
2.8 260 2.16 1440.000 2.5 45.346 St. Dev. Avg
2.10 65 6.2 3118.000
2.11 65 14.3 1620.894
2.12 65 14.4 5400.000 Group by Median
2.13 845
6.2 5980
14.3 5980
14.4 260

Figure 2: Workload graph with mapped I/O costs of TPC-H query Q2, Q6, and Q14.

5. RELATED WORK these approaches operate on single systems instead of comparing
Several column stores have been proposed [1, 14, 30] for OLAP two or more systems. In contrast to the mentioned approaches, our
applications. But all systems are pure column stores and do not approach do not consider tune configurations, indexes, etc.
support any row store functionality. Thus, a storage architecture Another approach for OLAP applications is Ingres/Vectorwise
decision between row and column store is necessary. Abadi et which applies the Vectorwise (formerly MonetDB/X100) architec-
al. [2] compare row and column store with respect to performance ture into the Ingres product family [12]. In cooperation with Vec-
on the star schema benchmark. They simulate column store archi- torwise, Ingres developes a new storage manager ColumnBM for
tecture by indexing every single column or vertical partitioning of the new Ingres/Vectorwise. However, the integration of the new
the schema. They show that using column store architecture in a architecture into the existing environment remains unclear [12].
row store is possible but the performance is poor. In this paper, we
do not compare end to end performance of DBMSs or architectures. 6. CONCLUSION
We support sound and comparable analyses based on database op-
erations across different DBMSs with our approach. We do not In recent years, column stores have shown good results for DWH
discuss approaches like DSM [8], hybrid NSM/DSM schemes [9], applications and often outperformed established row stores. How-
or PAX [3] because the differences to state-of-the-art column stores ever, new requirements arise in the DWH domain that cannot be
have been already discussed, e.g., Harizopoulus et al. [11]. satisfied only by column stores. The new requirements demand
There are systems available which attempt to fill the gap between also for row store functionality, e.g., real-time DWHs need suffi-
a column and a row store. C-Store [1] uses two different storage cient update processing. Thereby, the complexity of design pro-
areas to overcome the update problems of column stores. A related cess increases because we have to choose the optimal architecture
approach brings together a column store approach and the typical for given applications. We showed with an experiment that work-
row store domain of OLTP data [24]. However, we do not develop load analyses based on query structure and syntax are not sufficient
hybrid solutions that attempt to fill this gap for now. to select the optimal storage architecture. Consequently, we sug-
There exist a number of design advisors which are related to our gested a new approach based on database operations. We intro-
work, e.g., IBM DB2 Configuration Advisor [13]. The IBM Con- duced workload patterns which contain all workload information
figuration Advisor recommends pre-configurations for databases. beyond the architectures, e.g., statistics and operation cost. We
Zilio et al. [28, 29] introduce an approach that gathers statistics like also presented a workload decomposition approach based on exist-
our approach directly from DBMSs. The statistics are used to ad- ing database functionality that maps operations of a given workload
vise index and materialized view configurations. Similarly, Chaud- to our workload patterns. We illustrated the methodology of our de-
huri et al. [5, 6] present two approaches which illustrate the whole composition approach using an example workload. Subsequently,
tuning process using constraints such as space threshold. However, we state that a separate decomposition algorithm for column stores
is not needed. We stated that our presented approach is transparent

83
to any workload and any storage architecture based on the rela- Database: Compressing years of performance expertise into
tional data model. In the evaluation, we proved the usability of seconds of execution. In BTW ’03, pages 620–629, 2003.
our approach. Additionally, we demonstrate the comparability of [14] T. Legler, W. Lehner, and A. Ross. Data mining with the
different systems using different architectures even if the systems SAP NetWeaver BI Accelerator. In VLDB ’06, pages
provide different information with respect to their query execution. 1059–1068. VLDB Endowment, 2006.
The decision process can be periodically repeated, thus the storage [15] A. Lübcke. Cost-effective usage of bitmap-indexes in
architecture selection is not static. Moreover, our approach can be DS-Systems. In 20th Workshop "Grundlagen von
used for optimizer (decisions) in hybrid relational DBMS that has Datenbanken", pages 96–100. School of Information
to select the storage method for parts of data. Technology, International University in Germany, 2008.
In future work, we will investigate two strategies to implement [16] A. Lübcke. Challenges in workload analyses for column and
our workload patterns in a prototype. First, we utilize a new DBS row stores. In 22nd Workshop "Grundlagen von
to export periodically statistics and operation costs which we map Datenbanken", volume 581. CEUR-WS.org, 2010.
to our workload patterns. This way, we will not affect performance [17] A. Lübcke, I. Geist, and R. Bubke. Dynamic construction
of analyzed systems by prediction computation. Second, we adapt and administration of the workload graph for materialized
existing approaches [5, 17] to automatically gather statistics, e.g., views selection. Int. Journal of Information Studies,
mapping statistics and workload patterns directly into a graph struc- 1(3):172–181, 2009.
ture (query graph model). Additionally, aggregated or estimated
[18] A. Lübcke, V. Köppen, and G. Saake. A decision model to
values from other sources can be stored. We will perform detailed
select the optimal storage architecture for relational
studies on OLAP, OTLP, and mixed workloads to gather expressive
databases. RCIS, France, MAY 2011. IEEE. to appear.
values for predictions.
[19] Oracle Corp. Oracle Database Concepts 11g Release (11.2).
14 Memory Architecture (Part Number E10713-05), March
7. REFERENCES 2010.
[1] D. J. Abadi. Query execution in column-oriented database [20] Oracle Corp. Oracle Performance Tuning Guide 11g Release
systems. PhD thesis, Cambridge, MA, USA, 2008. Adviser: (11.2). 12 Using EXPLAIN PLAN (Part Number
Madden, Samuel. E10821-05), March 2010.
[2] D. J. Abadi, S. R. Madden, and N. Hachem. Column-stores [21] Oracle Corp. Oracle Performance Tuning Guide 11g Release
vs. row-stores: How different are they really? In SIGMOD (11.2). 11 The Query Optimizer (Part Number E10821-05),
’08, pages 967–980, New York, NY, USA, 2008. ACM. March 2010.
[3] A. Ailamaki, D. J. DeWitt, M. D. Hill, and M. Skounakis. [22] H. Plattner. A common database approach for OLTP and
Weaving relations for cache performance. In VLDB ’01, OLAP using an in-memory column database. In SIGMOD
pages 169–180, San Francisco, CA, USA, 2001. Morgan ’09, pages 1–2, New York, NY, USA, 2009. ACM.
Kaufmann Publishers Inc.
[23] R. J. Santos and J. Bernardino. Real-time data warehouse
[4] M. M. Astrahan, M. W. Blasgen, D. D. Chamberlin, K. P. loading methodology. In IDEAS ’08, pages 49–58, New
Eswaran, J. Gray, P. P. Griffiths, W. F. K. III, R. A. Lorie, York, NY, USA, 2008. ACM.
P. R. McJones, J. W. Mehl, G. R. Putzolu, I. L. Traiger, B. W.
[24] J. Schaffner, A. Bog, J. Krüger, and A. Zeier. A hybrid
Wade, and V. Watson. System R: Relational approach to
row-column OLTP database architecture for operational
database management. ACM TODS, 1(2):97–137, 1976.
reporting. In BIRTE ’08, 2008.
[5] N. Bruno and S. Chaudhuri. To tune or not to tune? A
[25] M. Stonebraker, D. J. Abadi, A. Batkin, X. Chen,
lightweight physical design alerter. In VLDB ’06, pages
M. Cherniack, M. Ferreira, E. Lau, A. Lin, S. Madden, E. J.
499–510. VLDB Endowment, 2006.
O’Neil, P. E. O’Neil, A. Rasin, N. Tran, and S. B. Zdonik.
[6] N. Bruno and S. Chaudhuri. An online approach to physical C-Store: A column-oriented DBMS. In VLDB ’05, pages
design tuning. In ICDE ’07, pages 826–835, 2007. 553–564. VLDB Endowment, 2005.
[7] S. Chaudhuri and V. Narasayya. Autoadmin “what-if” index [26] A. A. Vaisman, A. O. Mendelzon, W. Ruaro, and S. G.
analysis utility. In SIGMOD ’98, pages 367–378, New York, Cymerman. Supporting dimension updates in an OLAP
NY, USA, 1998. ACM. server. Information Systems, 29(2):165–185, 2004.
[8] G. P. Copeland and S. N. Khoshafian. A decomposition [27] Y. Zhu, L. An, and S. Liu. Data updating and query in
storage model. In SIGMOD ’85, pages 268–279, New York, real-time data warehouse system. In CSSE ’08, pages
NY, USA, 1985. ACM. 1295–1297, Washington, DC, USA, 2008. IEEE Computer
[9] D. W. Cornell and P. S. Yu. An effective approach to vertical Society.
partitioning for physical design of relational databases. IEEE [28] D. C. Zilio, J. Rao, S. Lightstone, G. M. Lohman, A. J.
Trans. Softw. Eng., 16(2):248–258, 1990. Storm, C. Garcia-Arellano, and S. Fadden. DB2 Design
[10] S. J. Finkelstein, M. Schkolnick, and P. Tiberio. Physical Advisor: Integrated automatic physical database design. In
database design for relational databases. ACM TODS, VLDB ’04, pages 1087–1097. VLDB Endowment, 2004.
13(1):91–128, 1988. [29] D. C. Zilio, C. Zuzarte, S. Lightstone, W. Ma, G. M.
[11] S. Harizopoulos, V. Liang, D. J. Abadi, and S. Madden. Lohman, R. Cochrane, H. Pirahesh, L. S. Colby, J. Gryz,
Performance tradeoffs in read-optimized databases. In VLDB E. Alton, D. Liang, and G. Valentin. Recommending
’06, pages 487–498. VLDB Endowment, 2006. materialized views and indexes with IBM DB2 Design
[12] Ingres/Vectorwise. Ingres/VectorWise sneak preview on the Advisor. In ICAC ’04, pages 180–188, 2004.
Intel Xeon processor 5500 series-based platform. White [30] M. Zukowski, P. A. Boncz, N. Nes, and S. Heman.
Paper, September 2009. MonetDB/X100 - a DBMS in the CPU cache. IEEE Data
[13] E. Kwan, S. Lightstone, K. B. Schiefer, A. J. Storm, and Eng. Bulletin, 28(2):17–22, June 2005.
L. Wu. Automatic database configuration for DB2 Universal

84
Data Locality in Graph Databases
through N-Body Simulation

Dominic Pacher Robert Binna Günther Specht
Institute of Computer Science Institute of Computer Science Institute of Computer Science
Technikerstrasse 21a Technikerstrasse 21a Technikerstrasse 21a
Innsbruck Austria Innsbruck Austria Innsbruck Austria
dominic.pacher@uibk.ac.at robert.binna@uibk.ac.at guenther.specht@uibk.ac.at

ABSTRACT
1 2 3 4 5 6 7
Data locality poses a major performance requirement in
graph databases, since it forms a basis for efficient caching
and distribution. This vision paper presents a new approach
to satisfy this requirement through n-body simulation. We
describe our solution in detail and provide a theoretically Figure 1: A two dimensional structure gets mapped
complexity estimation of our method. To prove our con- to one-dimensional space. Since no locality is pre-
cept, we conducted an evaluation using the DBpedia dataset served, large jumps (6 nodes) appear in the data
data. The results are promising and show that n-body simu- (red).
lation is capable to improve data locality in graph databases
significantly.
this requirement influences all of the different sub compo-
Categories and Subject Descriptors nents of a graph database and can be fulfilled through im-
H.2.4 [Database Systems]: Graph databases provements on many different levels. However, there is no
other property, which has as much influence on the perfor-
mance and scalability of the overall system as data locality.
General Terms In terms of graphs this means that any node stored has to be
Locality, N-body Simulation, Graph Data, Experimentation also physical near to its linked nodes in the memory. This
seems to be a straightforward requirement, but it’s hard to
Keywords fulfill practically. In theory, a graph describes a multidi-
mensional data structure, which has to be managed by the
Database, Graph, Simulation, Graph Database, Triple Store computer. Unfortunately, since memory systems work on a
fixed one-dimensional memory layout, this cannot be done
1. INTRODUCTION directly. The common solution to this problem is to define
Recently the demand to manage high amounts of linked a mapping from multidimensional data to less (one) dimen-
data increased substantially. This development has its origin sional space. Although it’s not a problem to find any kind
in data, generated by social as well as linked knowledge net- of mapping, it’s hard to preserve data locality at the same
works like Wikipedia [1]. In addition, all of today’s imper- time. Therefore data locality isn’t assured directly (Figure
ative programming languages work on graph oriented (ob- 1) and databases try to speed up operations using additional
ject) memory systems, because they are easy to understand indexes or in the case of main memory systems, by providing
and can be efficiently processed in main memory. More- cheap jumps through random access memory.
over, graph oriented memory systems provide means to eas- Despite the fact that this solutions work out quite well for
ily formulate complex recursive behavior and data struc- the problem, they are always tied to additional costs and re-
tures. Usually these data structures need to be stored per- maining limitations and don‘t solve the actual problem. For
sistently in some kind of external database. example, additional indices need space and have to be up-
Beside the exact internal concept, this (graph) database has dated on every change. Main memory systems work well on
to support query, update and remove operations of single one core and one computer. But since, frequent jumps be-
nodes or complete sub graphs as fast as possible. Clearly tween the cores memory or even worse, between computers,
are orders of magnitudes costlier than jumps within main
memory of one single thread, it’s hard to distribute them
properly.

To come up with a new approach to improve this situation,
this paper suggests building a graph database whose nodes
are aligned in memory by a n-body simulation system. In-
spired by real world physics laws, links will be simulated as
23rd GI-Workshop on Foundations of Databases (Grundlagen von Daten-
banken), 31.05.2011 - 03.06.2011, Obergurgl, Austria. springs causing nodes to arrange themselves automatically.
Copyright is held by the author/owner(s). As a result, when the state of lowest energy is reached, a

85
adapted Jena TDB [18] (in contrast to SDB), Virtuoso [10],
YARS [11] and RDF-3X [13]. Where the last two approaches
1 7 2 6 3 5 4 make excessive use of indices to speed up the query execu-
tion process. Though RDF-3X achieved new query speed
records, this approach is heavily optimized on read opera-
tions. As a consequence on any data update all indices have
to be changed accordingly. In contrast, BitMap [3] uses
Figure 2: Better solution of Figure 1. Locality is a completely different design using compressed bit-matrix
preserved and the maximum jump length is reduced structure.
to two nodes (green) Finally Sesame [8] provides storage engines of all tree groups.
The performance of these systems have been evaluated in
[13] [6] and through the Berlin Benchmark [7].
maximum of data locality is provided at the same time (Fig- Consequently there is no system yet using n-body simula-
ure 2). In addition, n-body simulation systems are known tion to improve data locality and it’s interesting if such an
to be highly distributable and computational feasible [16]. approach is able to improve the overall performance of graph
Consequently the aim of this paper is to show through databases.
experimentation, that such a simulation will optimally place
graph nodes in memory achieving improved data locality on
global scale.
2. THE METHOD
The remainder of this paper is structured as follows. Sec- In contrast to existing methods to store graph data we
tion 2 describes related papers in more detail. In section suggest an algorithm, which achieves a high degree of data
3 we present our new method by a short introduction to n- locality. This algorithm is based on the idea, that link length
body simulation idea, as well as some adjustments we had to don’t come for free, making longer links to more distant data
make. To prove that our concept is feasible, we performed locations more expensive than shorter links. With this ad-
some preliminary evaluations which results are discussed in ditional costing factor c, an optimal solution for the locality
section 4. Section 5 sums up with an conclusion and future problem in databases can be defined as achieving the global
works. minimum of the sum of this costs overall nodes n:

1.1 Related Work n
X
Although there is, at best of our knowledge, no related ap- Call = min ci
proach solving the data locality problem of graph database i=0

using n-body simulation, papers exists which make use of This optimization process becomes quickly unsolvable us-
this method for related problems. ing analytically methods, therefore a common n-body simu-
The idea of n-body simulation to support graph alignment lation approach is applied. Every edge is seen as a physical
has been already proposed in the 80s [14] and constantly spring between two data nodes. Springs will add distance
improved [19]. However, these algorithms try to find an op- depended forces Fl to the connected links causing them to
timal layout for graph nodes, which is a far more complicated approach each other:
problem than preserving locality as it includes additional re-
quirements like finding aesthetic pleasing solutions. Fortu-
Fl = Fc ∗ D(l)
nately, this is clearly not an affordance for graph databases.
Plenty of systems were developed in the RDF research area Where Fc is the force constant and D(l) a distance function
trying to optimize storing and querying graphs. These graph of linked node l. This distance function can be for example
stores can be separated into three groups of stores, which a linear function returning the distance to the linked node l
or an exponential function causing forces to increase expo-
• reside completely in memory (In-Memory Store) nentially with the distance.
• are based on a relational database (Relational Triple Since a node is influenced by all its linked nodes, all forces
Store) Fl have to summed up to achieve the final overall force Fn :

• use their own implementation (Native Triple Store) n
X
Fn = Fi
To the group of In-Memory Stores belong GRIN [17] and i=0
Brahms [12], which mainly try to solve special purpose queries
Now we can calculate the acceleration of the current node
through dedicated indices. Also SpiderStore [6] operates in
nusing its mass mn :
memory completely. However it makes no special assump-
tions about queries.
Jena SDB [18] and Virtuoso RDF Views [10] are part of an = Fi /mn
the second group using a traditional row oriented relational
In our prototype we set mn to 1 but for later implementa-
model. Mapping graph data to the relational model tend
tions this parameter may represent a ideal way to reduce the
to result in one big table with three columns: source node,
movement of big nodes using the number of links as mass.
edge, destination node (or in RDF terms subject, predicate
This would cause big nodes to be moved less often. Finally
object) and billions of rows. As the mapping of this table
we can use an to calculate the change of velocity
to a common row oriented store is inefficient [2] and [15] ap-
plied a column oriented relational model.
Part of the third group, the native implementations, are the ∆vn = an ∗ s

86
2 3

1
1 2 3 5 6
5 6

Figure 3: Nodes 2 / 5 and 3 / 6 have to be stored
to the same position in one-dimensional space. 1 5 2 6 3

where s describes the used step size. For the sake of sim-
plicity our prototype used a step size of 1. The simulation
can now be formulated in three steps:

1. Calculate vn for all n.
Figure 4: Mapping of Figure 3 to one dimension.
2. Change vn according to ∆vn and calculate new posi-
The upper Figure shows a non optimal solution with
tion.
jump size of three. The lower Figure shows a better
3. Check if there is any movement . If yes then goto 1. solution with a jump size of two.

4. Simulation finished.
nodes. Indeed for a complete graph, the n-body simulation
2.1 Adjustments cannot improve any locality, because energy equilibrium is
N-body simulation methods have been used widely and already reached and the simulation would terminate after
very successfully in many fields of physics over the past the first step. Assuming that n >> m the next important
decades. However some adjustments are necessary to make factor is snum , which depends on the dataset as well as the
the approach useful for locality calculations. used step size s. Consequently an increased step size would
As memory of all modern computers is accessed through dis- lead to less simulation steps. However too large steps sizes
crete addresses, the simulation has to take this into account also increase the computational error between steps and will
and have to operate on integers entirely. This approach has lead to an unstable simulation eventually. Fortunately, a
two advantages. In the first place it avoids the introduction variety of algorithms exist to minimize this approximation
of additional repulsion forces to keep nodes at a minimum error, using one step or multistep methods as well as meth-
distance to each other and secondly, the calculations can be ods with variable step size at need [9].
done with faster integer calculations. Finally, if simulated once, we assume that the majority of
As mentioned previously, graph data is naturally multi di- data locations will remain stable and won’t have to be re-
mensional, which stands in direct contrast to the one-dimensional calculated on every data update on global scale. This esti-
memory space. Because of that, nodes may have found a fi- mation and in addition, that existing implementations deal
nal position, which is already be claimed by another node. with about 10 billion elements [16], let us believe that a large
Therefore, a priority function has to be defined to solve this scale simulation of graph data is feasible.
problem, preserving that the node wins which leads to less
energy in the overall system. This can be accomplished by
using the nodes overall force as priority value. 3. PRELIMINARY EVALUATION
An example of this problem can be found in Figures 3 and 4 To prove the suggested concept we implemented a proto-
where nodes 2/5 and 3/6 claiming the same position. Figure type and made some preliminary evaluations. To get realis-
4 also shows, that preserving locality comes at cost of the tic results we chose a subset (first 200 000 triples = 110,205
link length of other nodes. nodes) of the DBpedia dataset. All tests were conducted
on a single machine (Mac Pro Intel Xeon 2,26 GHz) using
2.2 Complexity Estimation a simple single threaded process with 200 MiB of dedicated
Generally the complexity of n-body simulations can be es- ram.
timated as O(n ∗ m ∗ snum ) where n describes the number To get an visual impression how effective our method in-
of nodes, m the number of links per node and s the number creases data locality, we visualize every data element as a
of simulation steps needed until energy equilibrium. Conse- pixel in an image. As we are working on a one-dimensional
quently for a complete graph, where n = m the complexity space, all values are simply wrapped at the end of image
raises to O(n2 ∗ snum ). This wouldn’t be feasible for high width to create a two dimensional image. Every pixel posi-
amounts of data. Fortunately [4] showed for gravity simula- tion corresponds to the actual position of a data node in the
tions, which can be reduced to a fully connected graph, that data space.
complexity can be reduced to O(n ∗ log(n) ∗ snum ), using a In Figure 5 the color of this pixel represents the maximum
supporting tree structure and aggregation for distant nodes. distance of a node to its linked neighbor nodes in the data
Although this is the worst-case estimation, it is very unlikely space. Using a maximum value of n/2 (value red) this Figure
to happen for real data where the number of links per node shows the development over time until energy equilibrium is
should always be significantly smaller than the number of reached. At t = 0 the data is scattered randomly in the

87
Figure 5: Complete data space of 110205 nodes. Each pixel represents one node. The color key on the right
describes the maximum distance of a node’s link. From left to right the image shows the data space at at
t=0, t = 0.5 and t = 1.

Figure 6: Series of access heat maps showing high access zones which should not be separated. Red positions
are accessed by 55,000, dark blue nodes by less than 1,000 nodes. From left to right the image shows the
data space at at t=0, t = 0.5 and t = 1.

data space. There are plenty of nodes, which have to jump nificant reduction of distances to about one quarter of the
through the whole data space to access their linked nodes. originally data space. In addition, the histogram points out
At t = 0.5 the data distribution has improved already, but that global data locality comes also at cost of local data lo-
can be further enhanced until a state of minimum energy cality, which is showed by the reduction of the red peak at
(no more movement of nodes) is reached (t = 1). The final t = 0 mentioned before to the blue one at t = 1.0. The
result shows that all nodes have now arrived at a position, cause of this reduction can be seen again in the mapping of
where they can access their most distant linked node with a multi dimensional data to less (in our case one) dimensional
minimum of locality change. space, where different data nodes claim the same position
To get a better impression of the exact numbers, we created (Figures 3 and 4).
a histogram (Figure 7) for the same sample data. For better Furthermore there are some small peaks (two nodes) remain-
understanding, be aware of the logarithmic scaling on the ing near distance 50, 000. These nodes couldn’t be aligned
vertical axis. Furthermore we moved the mid-term frame very well. Although we always expected problems with
t = 0.5 to quarter time t = 0.25 to get a better impression nodes that are highly linked to different other nodes and
of the progress over time. Similar to Figure 5, at t = 0 can’t be further optimized by means of location, this ap-
one can observe an almost equal distribution of nodes along pears not to be the case here, as the number of links of the
the complete range of possible distances. As an important worst-case node where only about 300. Unfortunately, this
matter of fact, there is already a peak of values having very remains a rather unsatisfied situation and has to be further
close linked nodes on the very left side (distance < 1, 000) investigated in future. However, as shown in our sample
of the diagram. Since it’s often the case that new nodes data set, these nodes can be considered as very rare (overall
are introduced followed by their direct neighbors, the input 8 nodes out of 110, 025 until distance of 26, 000).
file itself can be seen as origin of this peak. Of course this These problems apart, it’s most important that the global
issue can only have a positive impact on local data locality data locality improved substantially. As previously seen in
and not on global scale, as we want to achieve. During the Figure 5, the histogram shows that most nodes are far less
simulation over t = 0.25 to t = 1.0 one can observe a sig- distant to their linked nodes than at the start of simulation.

88
Figure 7: Histogram of the occurrence of nodes and their maximum distances to linked nodes. For better
understanding the time frames were changed to t=0, t = 0.25 and t = 1.

In particular, the link length was reduced to 1/4 in the worst 5. REFERENCES
and to 1/10 in the average case.
Based on this data it should be possible to make efficient de- [1] Wikipedia Free Encyclopedia. http://wikipedia.com,
cisions how graph data can be separated in certain chunks, apr 2011.
to be distributed on different cores as well as on different [2] D. J. Abadi, A. Marcus, S. R. Madden, and
computers. To gather more insight into this, we used an K. Hollenbach. Scalable semantic web data
access heat map. To create this map all data positions lying management using vertical partitioning. VLDB
between a node and all it’s linked nodes are incremented by Endowment, sep 2007.
one. Of course in main memory we are able to randomly [3] M. Atre, V. Chaoji, M. J. Zaki, and J. A. Hendler.
access every position at same speed, but in a distributed en- Matrix Bit loaded: a scalable lightweight join query
vironment this model fits very well. When this is done for processor for RDF data. ACM, apr 2010.
all nodes and their respective linked nodes, every position [4] J. Barnes and P. Hut. A hierarchical O(N*log(N))
marks the number of accesses needed to visit every neigh- force-calculation algorithm. nature, 324(4):446–449,
bor node within data space (Figure 6). This image gives 1986.
an impression, where the data space can be separated best, [5] C. Becker. RDF Store Benchmarks with DBpedia.
choosing less dense (blue in the Figure) zones. www4.wiwiss.fu-berlin.de, 2011.
[6] R. Binna, W. Gassler, E. Zangerle, and D. Pacher.
SpiderStore: Exploiting Main Memory for Efficient
4. CONCLUSION AND FUTURE WORK RDF Graph Representation and Fast Querying. 2010.
The aim of this paper was to show that a n-body simula- [7] C. Bizer. The berlin sparql benchmark. Int J Semantic
tion can improve graph data locality significantly. After a Web Inf Syst, 2009.
introduction to our suggested method, we evaluated a exper- [8] J. Broekstra, A. Kampman, and F. van Harmelen.
imental prototype using partial data of the DBpedia dataset Sesame: A generic architecture for storing and
[5]. As a result, we were able to restrict jumps to about 1/4 querying RDF and RDF schema. In Semantic Web -
of the whole data space in the worst-case and to 1/10 for Iswc 2002, pages 54–68, Aidministrator Nederland
the average case. Although these are very promising re- BV, Amersfoort, Netherlands, 2002. Aidministrator
sults, there is plenty of work remaining. Nederland BV, Amersfoort, Netherlands.
We theoretically showed that our n-body approach should [9] J. Butcher. Numerical Methods for Ordinary
scale well into millions of graph nodes. However, our proto- Differential Equations . Wiley, 2 edition, jun 2008.
type is currently not optimized for very large data sets like [10] O. Erling and I. Mikhailov. Rdf support in the
the complete DBpedia dataset, consisting of about 100 mil- virtuoso dbms. In T. Pellegrini, S. Auer,
lion triples. Hence our goal for future works will be to opti- K. Tochtermann, and S. Schaffert, editors, Networked
mize the simulation by improving the algorithm and finding Knowledge - Networked Media, volume 221 of Studies
a way to distribute the simulation on many cores and com- in Computational Intelligence, pages 7–24. Springer
puters. As a result of this development, we hope to provide Berlin / Heidelberg, 2009.
practically evidence that our method is working on large real [11] A. Harth, J. Umbrich, and A. Hogan. YARS2: A
world graphs preserving computational feasibility. federated repository for querying graph structured

89
data from the web. The Semantic Web, 2007.
[12] M. Janik and K. Kochut. BRAHMS: A WorkBench
RDF Store and High Performance Memory System for
Semantic Association Discovery. In Fourth
International Semantic Web Conference, pages
431–445. Springer, 2005.
[13] T. Neumann and G. Weikum. The RDF-3X engine for
scalable management of RDF data. The VLDB
Journal — The International Journal on Very Large
Data Bases, 19(1):91–113, feb 2010.
[14] E. Peter. A Heuristic for Graph Drawing. Congressus
Numerantium, 42:149–160, nov 1984.
[15] L. Sidirourgos, R. Goncalves, M. Kersten, N. Nes, and
S. Manegold. Column-store support for rdf data
management: not all swans are white. Proc. VLDB
Endow., 1:1553–1563, August 2008.
[16] V. Springel, S. D. M. White, A. Jenkins, C. S. Frenk,
N. Yoshida, L. Gao, J. Navarro, R. Thacker,
D. Croton, J. Helly, J. A. Peacock, S. Cole,
P. Thomas, H. Couchman, A. Evrard, J. o. r. Colberg,
and F. Pearce. Simulations of the formation, evolution
and clustering of galaxies and quasars. nature,
435(7042):629–636, jun 2005.
[17] O. Udrea, A. Pugliese, and V. S. Subrahmanian. Grin:
a graph based rdf index. In Proceedings of the 22nd
national conference on Artificial intelligence - Volume
2, pages 1465–1470. AAAI Press, 2007.
[18] K. Wilkinson, C. Sayers, and H. Kuno. Efficient RDF
storage and retrieval in Jena2. In Proceedings of
SWDB, 2003.
[19] V. Zabinako and P. Rusakovs. Development and
Implementation of Partial Hybrid Algorithm for
Graphs Visualization. Scientific Proceedings of Riga
Technical University, 5(34):192–203, jul 2008.

90
SpiderStore: A Native Main Memory Approach for Graph
Storage

Robert Binna, Wolfgang Gassler, Eva Zangerle, Dominic Pacher, Günther Specht
Databases and Information Systems, Institute of Computer Science
University of Innsbruck, Austria
{firstname.lastname}@uibk.ac.at

ABSTRACT been developed. Despite the highly connected nature of
The ever increasing amount of linked open data results in a these graphs, the main approaches proposed in this con-
demand for high performance graph databases. In this pa- text are facilitating technologies originating from relational
per we therefore introduce a memory layout which is tailored databases. Even though these represent major and robust
to the storage of large RDF data sets in main memory. We technologies, they were not tailored for the scenario of stor-
present the memory layout SpiderStore. This layout features ing graph based structures. At the same time the ever in-
a node centric design which is in contrast to the prevailing creasing capacities of main memory and the increasing num-
systems using triple focused approaches. The benefit of this bers of cores have lead to an architectural shift in the de-
design is a native mapping between the nodes of a graph velopment of databases and information systems by mov-
onto memory locations connected to each other. Based on ing from hard disk to main memory as the primary stor-
this native mapping an addressing schema which facilitates age device. Whereas these architectural changes lead to
relative addressing together with a snapshot mechanism is enormous performance improvements, when implementing
presented. Finally a performance evaluation, which demon- graph-operations like graph traversals they still have to be
strates the capabilities, of the SpiderStore memory layout implemented through costly self join operations. Despite the
is performed using an RDF-data set consisting of about 190 possibility of supporting these operations with appropriate
mio triples. index structures they still take O(log(n)) where n denotes
the number of index entries. Therefore we present the Spi-
derStore storage concept as an in-memory storage approach,
Categories and Subject Descriptors which allow to process edges in O(1). In contrast to previ-
H.2.2 [Database Management]: Physical Design; H.3.2 ous work [3] the storage layout and space estimations are
[Information Storage and Retrieval]: Information Stor- captured in more detail. In addition, a new relative ad-
age; H.3.3 [Information Storage and Retrieval]: Infor- dressing scheme is introduced. The successive sections are
mation Search and Retrieval structured as follows. Chapter 2 deals with the memory lay-
out and space estimations. Chapter 3 explains the relative
addressing scheme used for faster restarts and for snapshot
General Terms generation. In chapter 4 we present an evaluation of the pre-
Performance, Algorithms, Design, Experimentation sented technology using the YAGO2 [8] data set. Chapter
5 discusses the related work in the field of RDF-databases.
Keywords Finally Chapter 6 draws a conclusion and makes forecasts
for possible future work.
RDF, Main Memory, Database, RDF Store, Triple Store,
SPARQL, Addressing Scheme
2. MEMORY LAYOUT
1. INTRODUCTION This section represents a detailed description over the Spi-
Due to the increasing significance of linked open data and derStore memory layout. The aim of this memory layout
publicly available SPARQL-endpoints, the need for high per- is to provide an in-memory storage of graphs, where the
formance graph databases has increased. To meet those basic operation of navigating between two vertices can be
requirements several approaches for storing and retrieving done in O(1). Therefore, the node is the core component
large RDF (Resource Description Framework) graphs have of the layout. This is in contrast to the concept favored by
most triple stores where the the triple represent the atomic
building block. To realize this concept of a node centric
layout, two factors have to be fulfilled. The first is that
all edges belonging to a node need to be stored in a sin-
gle place, which allows to navigate back and forth along all
edges. The second factor is that there need to be a direct
connection between those nodes that can be resolved within
a single operation. These requirements can be fulfilled by
23rd GI-Workshop on Foundations of Databases (Grundlagen von Daten-
banken), 31.05.2011 - 03.06.2011, Obergurgl, Austria. an in-memory storage layout, which is designed as follows.
Copyright is held by the author/owner(s). Each node has to be located at a unique location within

91
memory. At each of these locations the information about
ingoing and outgoing edges is stored and grouped by the re-
wordnet_scientist icate
spective edge label. The information about edges itself is not pred
stored directly but implicitly through pointers. Therefore,
outgoing .....
the traditional pointer structures, which themselves can be
seen as graphs connecting different memory locations are
used to represent arbitrary graphs. object

"scientist"
Each node contains a set of ingoing and a set of outgoing
edges (pointers). These pointers are grouped by the predi-
.....
cates labeling the corresponding edges. Grouping is done by
the address of the predicates. This address is equal to the
address of the property within the predicate index, which
stores a list of all subjects occuring together with a specific predicate
ingoing
property.
Beside the raw pointer data, implicit statistical information
.....
is stored. This is the case for the number of nodes, the num-
ber of predicates and the number of strings. Furthermore,
for each subject the number of predicates and for each sub-
ject/predicate combination the number of objects is stored. su
bje
The same information is stored the other way around (the ct Einstein
number of predicates for an object and the number of pred-
icate/subject combinations for an object). .....

To illustrate this layout, Figure 1 visualizes the memory lay-
out of a short example. The main node emphasized in this
example represents the category of a wordnet_scientist.
It can be seen from this example that two different types of Figure 1: Memory Layout - Example
edges exist: ingoing and outgoing edges. Both types them-
selves group their destination pointers by the predicate node.
In Figue 1, an outgoing edge with the property hhasLabeli
and an incoming edge with the property htypei is featured.
To simplify matters, URIs are abbreviated and marked with m= (#nodes ∗ (5 + degree ∗ 2) + #edges ∗ 3)
angle bracket while literals are put in quotes. As it can ∗ sizeof (pointer) + sizeof (dictionary)
be seen in the example, all nodes independent of their type
This formula consists of three parts, i.e. the size of the
(URI, literals, . . .) share a uniform node layout. For example
data dictionary, the fraction influenced by the number of
the node "scientist" has the same structure as the node
nodes and the fraction influenced by the number of edges.
hwordner_scientisti. The facts described in this example
The part of this formula that depends on the number of
are that hEinsteini is of htypei hwordner_scientisti and
nodes can be interpreted as follows. For each node a data
that this category has a label with the name "scientist".
structure is stored consisting of the number of incoming
The triple notation of the example in Figure 1 is shown in
edges and a link to the table containing the incoming edges
the listing below:
as well as the number of outgoing edges and a link to the ta-
ble containing the outgoing edges. Furthermore a pointer to
...
the corresponding entry within the dictionary table is stored
hEinsteini htypei hwordner_scientisti
within each node. The term degree ∗ 2 can be explained by
hwordner_scientisti hhasLabeli "scientist"
the pointers which group the edges by their corresponding
...
predicates. For each predicate there exist a pointer to the
edges itself and a counter, which is used for statistics. Be-
cause all edges are bidirectional, the estimation is quite ac-
curate even though it does not take the number of distinct
2.1 Space Estimations subjects or objects into account.
Given that SpiderStore is a main memory based graph The part of the formula, which depends on the number of
store, space consumption becomes a crucial factor. There- edges, can be derived of the following facts. For each edge
fore we introduce and discuss a formula that can be used the destination is stored on both ends. Furthermore, an
to calculate the expected amount of memory needed for a additional entry is stored within the predicate index which
specific set of data. To describe a specific data set we use allows to start the query execution not only at subject or
the following variables. The variable #nodes represents the object nodes but as well at predicate nodes.
total number of distinct nodes within a graph. A node can As an example the YAGO2 [8] data set used throughout
either be a URL or a character string and can be be used the evaluation consists of 194,35 million triples and of 28,74
as subject, predicate or object. The second variable used million distinct nodes. The dictionary size in the case of
for calculating the expected space consumption is the total the YAGO2 data set is roughly about 1.1 gigabytes. In this
number of triples or facts #notriples. The space consump- example 1.2 would be an appropriate value for the variable
tion is then calculated as follows: degree. This number can be derived by counting the number

92
of all distinct subject-predicate combinations and dividing it 4. EVALUATION
by the total number of nodes. By apply these values to the As a platform for the evaluation a server equipped with
formula above a space consumption of about 7,4 gigabytes two Intel Xeon L5520 Quad Core CPUs, 2.27 GHz, Linux
might be expected. In comparison to the real footprint, kernel 2.6.18, CentOS, 64-bit architecture and 96 GB main
which is about 7.2 gigabytes this value is quite accurate. memory was used.
Hence knowing the basic facts about a data set allows to es-
tablish an adequate estimation about the expected memory 4.1 DataSet
footprint. For the evaluation we used the YAGO2 [8] data set. The
YAGO2 data set is the successor of the YAGO [16] data set
and represents a large semantic knowledge base which is gen-
erated on the basis of Wikipedia, WordNet and GeoNames.
The data set consist of of 194,350,853 triples (98 predicates,
3. RELATIVE ADDRESSES 28,744,214 unique subjects and objects). The queries exe-
Using absolute pointer addresses for the location of nodes cuted on this data set are derived from the queries on the
enables the navigation between two nodes in O(1) as it has YAGO data set used in the benchmark presenting the RDF-
been explained in the section before. The drawback of this 3X approach [12].
concept is that storing a persistent state of a whole graph
database can become quite complex. The reason for this is 4.2 Evaluated Systems
that the database can only be dumped either by serializing For the evaluation of SpiderStore we used Virtuoso [6] in
the whole graph and later deserializing the whole graph or version 6.1.3, RDF-3X [12] in version 0.3.5 and Jena TDB
by dumping the whole memory snapshot and swizzling the [19] in version 0.8.9. The decision for these systems was
pointers to their correct representation at load time. taken to the best of our knowledge. Even though Spider-
Another alternative to these approaches is to arrange the Store is the only main memory system tested, the decision
whole database content based on an offset address. Hence for choosing the other systems is accurate. The reason for
all memory locations have to be converted into relative ad- this is that those systems are assumed to be the currently
dresses based on this offset. Resolving such relative pointers fastest systems available and that the benchmark results are
yields in an overhead, which is negligible compared to the measured with warm caches on a system where the whole
total amount of time needed to fetch an arbitrary junk of database would be able to fit into main memory. All systems
memory. The time for fetching an arbitrary chunk of mem- were granted a maximum of 40 GB to ensure that sufficient
ory can vary between some cpu cycles, when accessing mem- space is available.
ory already located within L1-cache, up to some hundreds
cpu cycles, when accessing a random chunk of memory which 4.3 Evaluation Results
is not available in the cache hierarchy yet. The test results are separated into two parts. The first
In the context of SpiderStore we decided to use relative ad- part compares the bulk import times of the different sys-
dressing. This has two advantages. The first advantage tems. The bulk import time is specified as the time needed
is that the general architecture of SpiderStore is still ap- to load the data, to create the indexes and to ensure that a
plicable and the overhead introduced through relative ad- persistent state of the database is written to disk. A sum-
dressing is insignificant in the SpiderStore concept as it has mary of the load times can be seen in Table 1. As can be
been explained before. The main advantage of this ad- seen, SpiderStore is significantly faster than any of the other
dressing scheme is that database restarts can be executed systems. The reason for this is that SpiderStore, due to its
within a few milliseconds. This is possible by facilitating implicit statistics, does not need to explicitly create statis-
the Unix memory mapping techniques which does not dis- tics or indexes.
miss the mapped pages unless another executable allocates
large amounts of memory. Furthermore this concept allows System Load Time
to facilitate the copy on write approaches used by the Hy-
Per project [10]. This approach benefits from the operating SpiderStore 1:09:18
system’s memory management, which would allow different Jena 1:36:35
processes to share large memory segments, while preserving RDF-3X 1:21:12
an isolated view on the data.
Virtuoso 3:32:16
Due to the lack of a customized memory allocator, the Spi-
derStore snapshot mechanism is currently implemented as Table 1: Import Times (in hours, minutes and sec-
a read only approach. Each snapshot is split up into five onds)
parts. One part is responsible for the storage of the node
data structures, another for the indexes between node iden-
tifiers and node addresses. One more file stores the node The second part of the evaluation compares the query ex-
identifiers. The other files are responsible for the storage ecution for each query on the YAGO2 data set. Queries with
and indexing of predicate nodes and for the storage of the an execution time over 15 minutes without producing any
edge information. The separation into several files prevents output are marked with ”DNF”. For the calculation of the
memory fragmentation and leads to shorter ”addresses” for geometric mean, a query runtime of 15 minutes is assumed
nodes, predicates and strings. For example all entries within for each cell which is marked with ”DNF”. Due to large re-
the node, predicate or index files have uniform sizes and can sult sets for query C-1 this limit is set to 60 minutes. The
therefore be seen as simple array structures. results of this evaluation are shown in Table 2.

93
Query A1 A2 B1 B2 B3 C1 C2 C3 geom. mean
SpiderStore 0.0016 0.2084 0.3688 0.0119 0.5143 DNF 16,5464 319.0703 0.4521
Jena 55.203 142.155 DNF DNF DNF DNF DNF DNF 578.3126
RDF-3X 0.0496 0.0524 0.0471 0.0936 0.0482 657.2100 0.2056 2.4741 0.3414
Virtuoso 0.766 0.127 0.71 0.46 3.223 2197,672 2.401 36.474 3,4420
#results 3 5 274 128 166 6,876,673 5313 35811

Table 2: Query Runtimes on the YAGO2 data set (in seconds).

Considering the average execution time, RDF-3X performs two major categories exist: (i) systems which have a main
better than all other stores tested. While SpiderStore in the memory architecture and (ii) systems which use secondary
average case is the second fastest system, two queries exist memory storage as their primary storage layer. Systems
where SpiderStore outperforms the other stores. In the case falling into the first category are for example Brahms [9],
of those queries, the coarse heuristics were able to generate Grin [18], Swift-OWLIM [11] or BitMat [2] as well as our sys-
a highly efficient execution plan. On the other side consider- tem SpiderStore [3]. While Brahms is highly optimized for
ing the queries C1-C3 SpiderStore has significant problems association finding and Grin for answering long path queries
to arrange and optimize the execution order to obtain bet- the goal of SpiderStore is to provide efficient query process-
ter results. Regarding query C1 even though intermediate ing for arbitrary SPARQL queries. Swift-OWLIM is also
results where present the total execution time did exceed a general purpose RDF-store, which has a strong emphasis
the time limit of one hour. The reason for the performance on OWL-reasoning. Bitmat on the other hand represents a
shortcomings in the case of those queries is that the selec- lightweight index structure which uses bitmap indexes to
tivity estimations based on the triple selectivity used for the store space efficient projections of the three dimensional
generation of the execution plan can in some cases produce triple space. In contrast to the main memory based sys-
misleading execution orders. This is due to the fact that the tems YARS2 [7], RDF-3X [12] can be considered as native
cardinality of properties is not considered in the current al- systems of type (ii). Both systems make heavy use of in-
gorithm. Regarding the other evaluated systems Jena TDB dex structures. While YARS facilitates six index structures
seem to have severe problems when executing queries on for subject, predicate, object and the context, RDF-3X [12]
such large knowledge bases, because only two queries were generates index structures for all possible combinations and
able to determine the results within the given time frame. orderings of subject, predicate and object. Beside these huge
Whereas Virtuoso can be considered as the third fastest sys- number of index structures, RDF-3x makes heavy use of sta-
tem, which has a stable performance without any negative tistical information and has a highly sophisticated query ex-
outliers. ecution engine, which is described in [13]. While such an
enormous effort results in a good query performance, the
5. RELATED WORK management of these specific data structures can become
quite complex. Neumann et al. therefore describe in [14]
Several approaches exist for storing graph based data in
how a query centric RDF-engine can be extended to pro-
databases. In the particular case of this paper we focus on
vide full-fledged support for updates, versioning and trans-
RDF-stores because SpiderStore, the developed system, can
actions. Beside these systems which can be clearly dedi-
be considered as part of this category. Hence we give a short
cated to either the category of memory-native, secondary
overview about the different approaches available for storing
memory-native or relational based systems several semantic
RDF data.
web frameworks exist, which provide storage engines fitting
For storing RDF-data, two approaches are prevailing. On
in several or all of these categories. Examples of such frame-
the one hand the approach of mapping the RDF-data onto
works are Sesame [5], Jena [19] and Virtuoso [6]. For all the
relational schema exists while on the other hand the ap-
systems described in this section several benchmarks exist
proach of native RDF-stores exist.
[4, 12], which extensively compare those systems.
The mapping of RDF-data onto relational databases is done
either by facilitating a large triple table, where the columns
correspond to the RDF atoms subject, predicate and object 6. CONCLUSION AND FUTURE WORK
or by clustering the triples according to their predicate into In this paper we presented the SpiderStore memory lay-
several tables. The latter approach is called property tables. out, which is able to store arbitrary graphs. The node cen-
Both approaches are less than perfect because both suffer tric layout has been discussed in detail and a formula for
from severe performance drawbacks imposed by the archi- the estimation of the space consumption was described. An
tecture of relational databases. For example in the property enhancement to the basic layout introducing a relative ad-
tables approach the number of tables is equal to the number dressing schema was presented. Finally our experiments
of properties in the worst case. Several approaches which ex- showed that a node centric layout is able to perform ar-
tend these two main approaches when mapping RDF-data bitrary SPARQL-queries on knowledge bases of up to 190
onto relational database have been developed and are bench- mio nodes with a performance comparable to highly sophis-
marked in [17]. Beside mappings to traditional relational ticated RDF-stores. This promises further performance im-
database systems, mappings which make use of column ori- provements because the query optimisation approach, which
ented databases exist [1, 15]. In the case of native stores has been developed in [3] is rather simple. Therefore future

94
work on SpiderStore will emphasize on the query execution Management of data, pages 627–640, New York, NY,
engine to achieve excellent performance results on a scale of USA, 2009. ACM.
up to a billion triple. [14] T. Neumann and G. Weikum. x-rdf-3x: fast querying,
high update rates, and consistency for rdf databases.
Proceedings of the VLDB Endowment, 3(1-2), Jan
7. REFERENCES 2010.
[1] D. J. Abadi, A. Marcus, S. R. Madden, and [15] L. Sidirourgos, R. Goncalves, M. Kersten, N. Nes, and
K. Hollenbach. Scalable semantic web data S. Manegold. Column-store support for RDF data
management using vertical partitioning. In VLDB ’07: management: not all swans are white. Proceedings of
Proceedings of the 33rd international conference on the VLDB Endowment, 1(2):1553–1563, 2008.
Very large data bases, pages 411–422. VLDB [16] F. M. Suchanek, G. Kasneci, and G. Weikum. Yago: A
Endowment, 2007. Core of Semantic Knowledge. In 16th international
[2] M. Atre, V. Chaoji, M. J. Zaki, and J. A. Hendler. World Wide Web conference (WWW 2007), New
Matrix ”bit” loaded: a scalable lightweight join query York, NY, USA, 2007. ACM Press.
processor for rdf data. In WWW ’10: Proceedings of [17] Y. Theoharis, V. Christophides, and
the 19th international conference on World wide web, G. Karvounarakis. Benchmarking database
pages 41–50, New York, NY, USA, 2010. ACM. representations of RDF/S stores. The Semantic
[3] R. Binna, W. Gassler, E. Zangerle, D. Pacher, and Web–ISWC 2005, pages 685–701, 2005.
G. Specht. Spiderstore: Exploiting main memory for [18] O. Udrea, A. Pugliese, and V. Subrahmanian. GRIN:
efficient rdf graph representation and fast querying. In A graph based RDF index. In Proceedings of the
Proceedings of the 1st International Workshop on National Conference on Articial Intelligence,
Semantic Data Management (Sem-Data) at the 36th volume 22, page 1465. Menlo Park, CA; Cambridge,
International Conference on Very Large Databases, MA; London; AAAI Press; MIT Press; 1999, 2007.
Singapore, Jan 2010. [19] K. Wilkinson, C. Sayers, H. Kuno, D. Reynolds, et al.
[4] C. Bizer and A. Schultz. The berlin SPARQL Efficient RDF storage and retrieval in Jena2. In
benchmark. International Journal On Semantic Web Proceedings of SWDB, volume 3, pages 7–8. Citeseer,
and Information Systems, 5(1), 2009. 2003.
[5] J. Broekstra, A. Kampman, and F. Van Harmelen.
Sesame: A generic architecture for storing and
querying RDF and RDF schema. The Semantic APPENDIX
WebâĂŤISWC 2002, pages 54–68, 2002. A. QUERIES
[6] O. Erling and I. Mikhailov. RDF Support in the
Virtuoso DBMS. Networked Knowledge-Networked
Media, pages 7–24.
A.1 YAGO data set
[7] A. Harth, J. Umbrich, A. Hogan, and S. Decker. prefix rdfs:hhttp://www.w3.org/2000/01/rdf-schema#i
YARS2: A federated repository for querying graph prefix xsd:hhttp://www.w3.org/2001/XMLSchema#i
structured data from the web. The Semantic Web, prefix owl:hhttp://www.w3.org/2002/07/owl#i
pages 211–224. prefix rdf:hhttp://www.w3.org/1999/02/22-rdf-syntax-ns#i
prefix yago:hhttp://www.mpii.de/yago/resource/i
[8] J. Hoffart, F. M. Suchanek, K. Berberich, and
G. Weikum. Yago2: a spatially and temporally
A1: SELECT ?GivenName ?FamilyName WHERE { ?p
enhanced knowledge base from wikipedia. Research
yago:hasGivenName ?GivenName. ?p yago:hasFamilyName
Report MPI-I-2010-5-007, Max-Planck-Institut für
?FamilyName. ?p rdf:type ?scientist. ?scientist rdfs:label
Informatik, Stuhlsatzenhausweg 85, 66123
”scientist”. ?p yago:wasBornIn ?city. ?city yago:isLocatedIn
Saarbrücken, Germany, November 2010.
?switzerland. ?switzerland yago:hasPreferredName ”Switzer-
[9] M. Janik and K. Kochut. Brahms: A workbench RDF land”. ?p yago:hasAcademicAdvisor ?a. ?a yago:wasBornIn
store and high performance memory system for ?city2. ?city2 yago:isLocatedIn ?germany. ?germany
semantic association discovery. The Semantic yago:hasPreferredName ”Germany”. }
Web–ISWC 2005, pages 431–445.
[10] A. Kemper and T. Neumann. Hyper: Hybrid OLTP & A2: SELECT ?name WHERE { ?a yago:hasPreferredName
OLAP high performance database system. Technical ?name. ?a rdf:type ?actor. 1 ?actor rdfs:label ”actor”. ?a
Report TU-I1010, TU Munich, Institute of Computer yago:actedIn ?m1. ?m1 rdf:type ?movie. ?movie rdfs:label
Science, Germany, May 2010. ”movie”. ?m1 yago:hasWikipediaCategory ”German films”.
[11] A. Kiryakov, D. Ognyanov, and D. Manov. Owlim–a ?a yago:directed ?m2. ?m2 rdf:type ?movie2. ?movie2
pragmatic semantic repository for owl. Web rdfs:label ”movie”. ?m2 yago:hasWikipediaCategory ”Cana-
Information Systems Engineering–WISE 2005 dian films”. }
Workshops, pages 182–192, Jan 2005.
[12] T. Neumann and G. Weikum. RDF-3X: a RISC-style B1: SELECT ?name1 ?name2 WHERE { ?a1
engine for RDF. Proceedings of the VLDB yago:hasPreferredName ?name1. ?a2
Endowment, 1(1):647–659, 2008. yago:hasPreferredName ?name2. ?a1 rdf:type
[13] T. Neumann and G. Weikum. Scalable join processing yago:wikicategory English actors. ?a2 rdf:type
on very large rdf graphs. In SIGMOD ’09: Proceedings yago:wikicategory English actors. ?a1 yago:actedIn ?movie.
of the 35th SIGMOD international conference on ?a2 yago:actedIn ?movie. FILTER (?a1 != ?a2) }

95
B2: SELECT ?name1 ?name2 WHERE { ?p1
yago:hasPreferredName ?name1. ?p2
yago:hasPreferredName ?name2. ?p1 yago:isMarriedTo ?p2.
?p1 yago:wasBornIn ?city. ?p2 yago:wasBornIn ?city. }

B3: SELECT distinct ?name1 ?name2 WHERE { ?p1
yago:hasFamilyName ?name1. ?p2 yago:hasFamilyName
?name2. ?p1 rdf:type ?scientist1. ?p2 rdf:type ?scientist2.
?scientist1 rdfs:label ”scientist”. ?scientist2 rdfs:label ”scien-
tist”. ?p1 yago:hasWonPrize ?award. ?p2 yago:hasWonPrize
?award. ?p1 yago:wasBornIn ?city. ?p2 yago:wasBornIn
?city. FILTER (?p1 != ?p2) }

C1: SELECT DISTINCT ?name1 ?name2 WHERE { ?p1
yago:hasFamilyName ?name1. ?p2 yago:hasFamilyName
?name2. ?p1 rdf:type ?scientist. ?p2 rdf:type ?scientist.
?scientist rdfs:label ”scientist”. ?p1 ?c ?city. ?p2 ?c2 ?city.
?city rdf:type ?cityType. ?cityType rdfs:label ”city”. }

C2: SELECT DISTINCT ?name WHERE { ?p
yago:hasPreferredName ?name. ?p ?any1 ?c1. ?p ?any2 ?c2.
?c1 rdf:type ?city . ?c2 rdf:type ?city2. ?city2 rdfs:label
”city”. ?city rdfs:label ”city”. ?c1 yago:isCalled ”London”.
?c2 yago:isCalled ”Paris”. }

C3: SELECT ?p1 ?predicate ?p2 WHERE { ?p1 ?anypred-
icate1 ?city1. ?city1 yago:isCalled ”Paris”. ?p1 ?predicate
?p2. ?p2 ?anypredicate2 ?city2. ?city2 yago:isCalled ”Hong
Kong”. }

96
Kriterien für Datenpersistenz bei Enterprise Data
Warehouse Systemen auf In-Memory Datenbanken
Thorsten Winsemann Veit Köppen
Otto-von-Guericke-Universität Magdeburg Otto-von-Guericke-Universität Magdeburg
Kanalstraße 18 Universitätsplatz 2
D-22085 Hamburg D-39106 Magdeburg
+49(0)160/90819410 +49(0)391/67-19351
thorsten.winsemann@t-online.de veit.koeppen@ovgu.de

ABSTRACT Die Verbesserung der Datenzugriffsgeschwindigkeit ist oftmals
Persistente Datenhaltung über mehrere Schichten innerhalb eines der Hauptgrund zusätzlicher Datenhaltung. Setzt man voraus, dass
Enterprise Data Warehouse Systems ist notwendig, um den dort dies in einer IMDB weniger wichtig ist, so kommt die Frage auf:
vorhandenen, sehr großen Datenbestand nutzen zu können, z.B. Wieviel Persistenz, d.h. nicht-flüchtige Datenspeicherung, ist in
für Reporting und Analyse. Die Pflege und Wartung solcher meist IMDB-basierten DWS überhaupt noch notwendig? Dies gilt
redundanten Daten ist jedoch sehr komplex und erfordert einen insbesondere für Enterprise Data Warehouses (EDW). Ist es
hohen Aufwand an Zeit und Ressourcen. Neueste In-Memory- möglich, jede Art von Analyseanfrage direkt auf dem
Technologien ermöglichen gute Performanz beim Datenzugriff, so Rohdatenbestand abzusetzen, welcher „on-the-fly“ transformiert
dass sich die Frage stellt, welche Daten aus welchem Grund bzw. wird? Oder gibt es dennoch gewichtige Gründe der
für welchen Zweck überhaupt noch persistent abgelegt werden Datenspeicherung? Um diese Fragen zu beantworten, erläutern
müssen – und wie sich dies effizient entscheiden lässt. In diesem wir Persistenzgründe in EDW-Systemen und potentielle Konflikte
Papier präsentieren wir eine Übersicht von Gründen für zwischen Datenspeicherung und -verwendung. Zudem definieren
Datenpersistenz, welche als Entscheidungsgrundlage bei der wir Indikatoren zur Entscheidungsunterstüzung, ob Daten
Problematik dient, Daten in Enterprise Data Warehouses auf In- gespeichert werden sollen oder nicht.
Memory Datenbanken zu speichern. Abschnitt 2 erläutert einführend die Besonderheiten von
Enterprise Data Warehouses und einer Schichtenarchitektur. In
Kategorien und Themenbeschreibung Abschnitt 3 führen wir Gründe der Datenpersistenz in heutigen
H.2.7 [Database Management]: Datenbank-Administration – EDW auf und beschreiben mögliche Konflikte, welche aufgrund
Data Warehouse und Repository. der Anforderungen der Datennutzung und der hierfür
notwendigen Aufwände entstehen. Abschnitt 4 erläutert
Allgemeine Begriffe Datenpersistenz auf IMDB-basierten EDW sowie
Management, Design. entscheidungsunterstützende Faktoren. Abschnitt 5 fasst die Teile
zusammen und gibt einem Ausblick auf zukünftige Arbeiten.
Schlüsselwörter
Enterprise Data Warehouse, Persistenz, In-Memory Datenbank. 2. EINE SCHICHTENARCHITEKTUR FÜR
1. EINLEITUNG ENTERPRISE DATA WAREHOUSES
Heutige Data Warehouse Systeme (DWS) sind gekennzeichnet Ein Enterprise Data Warehouse ist ein Business Data Warehouse
durch sehr große Datenvolumina [1]. Der Aufbau und Betrieb [4], stellt also entscheidungsunterstützende Informationen für das
solcher Systeme erfordert hohe Anforderungen an die Management in allen Geschäftsbereichen zur Verfügung. Darüber
Datenbereitstellung, insbesondere hinsichtlich Performanz, hinaus stellen EDW eine wichtige Datenbasis für eine Vielzahl
Datengranularität, -flexibilität und -aktualität. Außerdem von Anwendungen dar, wie zum Beispiel Business Intelligence
erfordern solche Einschränkungen die Speicherung zusätzlicher (BI), Customer Relationship Management (CRM) und die
Daten. Verdichtungsebenen werden verwendet, um die Planung. Innerhalb einer umfassenden Systemlandschaft stellen
Geschwindigkeit des Datenzugriffs zu verbessern, z.B. bei EDW-Systeme die „Single Source of Truth“ (vgl. [3]) für alle
Reporting und Analyse. Diese Datenredundanz wiederum analyse-relevanten Daten des Unternehmens dar. Das heißt, sie
erfordert einen hohen Aufwand an Zeit und Ressourcen, um ermöglichen eine allgemein gültige Sicht auf einen zentralen,
Datenkonsistenz zu gewährleisten Gleichzeitig wird eine zeitnahe harmonisierten, validen und konsistenten Datenbestand. Ein EDW
Datenverfügbarkeit eingeschränkt. Neueste Ankündigungen integriert sehr große Datenbestände aus einer Vielzahl
versprechen auf In-Memory Datenbanken (IMDB) basierende unterschiedlicher Quellsysteme des Konzerns – oftmals weltweit,
Anwendungen, die auf größte Datenbestände – ohne zusätzliche so dass Daten verschiedener Zeitzonen zusammengeführt werden
Verdichtungsebenen – performant zugreifen können [2,3]. müssen. Dies erfordert eine fortlaufende Datenverfügbarkeit mit
gleichzeitigem Datenladen und -zugriff. Zudem gibt es weitere
Anforderungen an den Datenbestand: Ad-hoc-Berichte, „near-
real-time“ Verfügbarkeit und Anwendungen, wie beispielsweise
CRM, mit einem Bedarf an detaillierten historischen Daten. Ein
23rd GI-Workshop on Foundations of Databases (Grundlagen von sich ändernder Informationsbedarf muss schnell und flexibel
Datenbanken), 31.05.2011-03.06.2011, Obergurgl, Austria.
Copyright is held by the author/owner(s).

97
gedeckt werden können. Zudem wird ein umfassendes In der Berichts- & Analyseschicht werden Daten hauptsächlich
Berechtigungskonzept zur Sicherung sensibler Daten verwendungsbezogen transformiert, um performante Zugriffe zum
vorausgesetzt. Somit sind verschiedene Gründe von Beispiel beim Reporting oder der Analyse zu gewährleisten.
Datenpersistenz spezifisch in einem EDW. Innerhalb der Operationalen Datenversorgung werden Daten für
Persistenz in einem Data Warehouse ist eng verbunden mit dessen sehr spezielle Anwendungsfälle und Anforderungen zur
Architektur. Eine allgemeine Referenzarchitektur (vgl. z.B. Verfügung gestellt, zum Beispiel bei „near real-time Reporting“.
[5,6,7,8]) definiert drei Bereiche, welche die drei Arten der Obwohl die Grenzen fliessend sind, können die fünf Schichten
Datenverarbeitung darstellen: Datenbeschaffung in der „Staging den drei Bereichen der Datenverarbeitung wie folgt zugeordnet
Area“, Datenbearbeitung in der Basisdatenbank, werden: Datenbeschaffung in der Datenempfangs- und der
Datenbereitstellung im Data-Mart-Bereich. In diesem eher groben Qualitäts- & Harmonisierungsschicht, Datenbearbeitung in der
Modell ist Datenspeicherung in jedem Bereich implizit [9]. Die in Datenverteilungs- und der Betriebswirtschaflichen
[10] vorgestellte Schichtenarchitektur (Abb. 1) entwickelt diesen Modellierungsschicht, sowie Datenbereitstellung in den Data
Ansatz hinsichtlich der bereits erwähnten Anforderungen an ein Marts der Berichts- & Analyseschicht.
EDW weiter. Die Schichten werden zweckbestimmter; jede der
fünf Schichten repräsentiert einen Bereich, in dem der Wert der 3. GRÜNDE FÜR DATENPERSISTENZ
Daten hinsichtlich ihrer Verwendung gesteigert wird, wenn dies Zwei Gründe von Datenpersistenz im Data Warehouse werden
notwendig ist. Eine Schicht bedeutet aber nicht zwangsläufig hauptsächlich genannt: Speicherung der bereits transformierten
Datenspeicherung. Wird beispielsweise ein Datenbestand nach der Daten in der Basisdatenbank und Speicherung redundanter,
Harmonisierung gespeichert und ist bereits für Analysezwecke aggregierter Daten im Data-Mart-Bereich. Darüber hinaus gibt es
verwendbar, so muss er nicht auf die oberste Schicht allerdings noch eine Vielzahl von Persistenzgründen im EDW.
„durchgereicht“ und dort nochmals gespeichert werden. In einem Hierzu zählen technische Einschränkungen, Governance-
ersten Schritt muss entschieden werden, in welchem Format die Bestimmungen des Unternehmens und Gesetze, Vereinfachung
Daten wo zu speichern sind. Deshalb ist zunächst der Zweck der der Datenhandhabung oder ein subjektives Sicherheitsbedürfnis.
Datenverwendung als Grund der Datenspeicherung zu ermitteln. Sofern uns bekannt, werden Gründe für Datenpersistenz in der
Literatur nur selten erwähnt; zudem vermissen wir eine
vollständige Auflistung, wie im Folgenden beschrieben.
Entkopplung des Quellsystems: Zur Entlastung des Quellsystems
werden Daten direkt nach ihrer erfolgreichen Extraktion im
Eingangsbereich des DW gespeichert; hierbei werden die Daten
nicht oder nur in geringem Maße verändert (z.B. werden
Herkunftsmerkmal oder Zeitstempel angefügt).
Datenverfügbarkeit: Oftmals sind Daten nicht mehr oder nur in
einem veränderten Zustand verfügbar; hierzu zählen z.B. Daten
aus dem Internet, aus Dateien, welche regelmäßig überschrieben
werden, oder aus Altsystemen. Zudem können Netzwerkprobleme
dazu führen, dass auf Daten nicht zugegriffen werden kann. Die
Speicherung im Warehouse garantiert die Datenverfügbarkeit.
Komplexe Transformationen: Aufgrund ihrer Komplexität sind
einige Transformationen sehr zeit- und ressourcenaufwendig, so
dass die Daten gespeichert werden, um ein wiederholtes
Transformieren zu vermeiden.
Abhängige Transformationen: Unter „abhängige Transformation“
verstehen wir solche, deren Durchführung den Zugriff auf weitere
Daten erfordert; z.B. erfordert die Verteilung eines Bonus‘ auf die
einzelnen Mitarbeiter die Gesamtanzahl der Mitarbeiter. Diese
Abb. 1. Schichtenarchitektur für EDW (nach [10]) notwendigen Daten werden im DW gespeichert, um das korrekte
Die in Abb. 1 dargestellte Schichtenarchitektur für EDW unterteilt Durchlaufen der Transformation zu gewährleisten.
sich in die folgenden Bereiche: Veränderte Transformationsregeln: Regeln können geändert
Die Datenempfangsschicht stellt den „Posteingang“ des EDW dar; werden. Besitzen die Daten kein Zeitmerkmal und werden die
extrahierte Daten werden ohne oder mit geringen Modifikationen Transformationen nicht „historisiert“, so ist eine identische
entgegengenommen und abgelegt. Transformation nicht mehr möglich.
Innerhalb der Qualitäts- & Harmonisierungschicht werden die Aufwendige Datenwiederherstellung: Sind Daten nicht mehr im
Daten technisch und semantisch integriert. Das beinhaltet DWS verfügbar (z.B. weil sie archiviert sind), ist eine
Dublettenerkennung, Aspekte der Informationsintegration (vgl. Wiederherstellung aufwendig, so dass sie gespeichert werden.
[11]) etc., und entspricht der Transformation des ETL-Prozesses. Datenzugriffsgeschwindigkeit: Die redundante Speicherung von
Die Datenverteilungsschicht enthält harmonisierte und integrierte Daten in Verdichtungsebenen oder materialisierten Sichten zum
Unternehmensdaten ohne betriebswirtschaftliche Logik und bildet Zwecke der Performanzverbesserung beim Datenzugriff stellt
somit die einheitliche Datenbasis für alle Anwendungen. einen der häufigsten Gründe für die Einführung einer weiteren
In der Betriebswirtschaftlichen Modellierungsschicht werden Persistenzebene dar.
Daten hinsichtlich der Geschäftsanforderungen transformiert; zum „En-bloc Datenversorgung“: Üblicherweise fliessen neue Daten,
Beispiel werden Finanz- mit Logistikdaten verknüpft. aus verschiedenen, gegebenenfalls weltweiten Quellen, zeitlich

98
verteilt in ein EDW. Nachdem diese syntaktisch und semantisch und Ressourcen, die notwendigen Voraussetzungen hierfür zu
integiert wurden, werden sie zwischengespeichert und erst zu schaffen. Im Folgenden beschreiben wir diese Anforderungen und
einem bestimmten Zeitpunkt in die Datenbasis des Warehouse ihre Konsequenzen kurz.
gespielt. Hierdurch wird ein zeitlich definierter, konstanter und in Wie bereits erwähnt, stellt ein EDW häufig die Datenbasis für
sich plausibler Datenbestand für die darauf aufsetzenden verschiedene Anwendungen dar; das hohe Datenvolumen
Anwendungen gewährleistet. resultiert aus den unterschiedlichen Anforderungen dieser
Konstante Datenbasis: Einige, auf Daten des DWS aufbauende Applikationen an die Daten. Der Bedarf an Detailinformationen
Applikationen, wie beispielsweise Planung, erfordern eine erfordert viele Daten feinster Granularität. Der Bedarf an
konstante Datenbasis, welche sich während der Benutzung nicht historischen Informationen erfordert eine lange Historisierung der
ändern darf und deswegen separiert gespeichert wird. Daten. Schließlich wird eine große Bandbreite an Daten
„Single Version of Truth“: Transformierte Daten werden nach gesammelt, beispielsweise für Data-Mining-Szenarios. Dieser
unternehmensweit gültigen Definitionen, aber ohne spezielle große Datenbestand muss für seine Verwendung aufbereitet
Geschäftslogik gespeichert. Hierdurch wird ein einheitlicher, werden; z.B. ist eine gute Berichtsperformanz sicherzustellen.
vergleichbarer Datenbestand geschaffen, auf den die jeweiligen Eine hohe Geschwindigkeit beim Datenzugriff wird zumeist durch
Geschäftsbereiche und Anwendungen zugreifen können [10]. ein reduziertes Datenvolumen erreicht – durch den Aufbau
„Corporate Data Memory“: Alle ins EDW extrahierten Daten materialisierter Sichten oder Verdichtungsebenen. Ein einfaches
werden ohne oder nur mit minimaler Veränderung (z.B. durch Beispiel hierfür ist die Verdichtung tagesgenauer Daten auf
Anfügen eines Herkunftsmerkmals) gespeichert, um eine Monat, mit einem Faktor von etwa 30. Pflege und Verwaltung
größtmögliche Autarkie und Flexibilität von Datenquellen zu solcher Redundanzen erfordert nicht nur Speicherplatz, sondern
ermöglichen. So können Datenbestände (wieder-)hergestellt auch zusätzlichen Aufwand, die Daten aktuell und konsistent zu
werden, ohne auf die Quellsysteme zuzugreifen, in denen die halten (vgl. [15]). Da diese Aufwände Zeit kosten, ist die
Daten möglicherweise schon gelöscht wurden oder nicht mehr Verfügbarkeit der Daten eingeschränkt. Außerdem beschränken
zum Zugriff bereitstehen (vgl. [10]). die vordefinierten Datenbestände die Flexibilität der Daten
Komplex-abweichende Daten: Zu integrierende Daten können in hinsichtlich geänderter und neuer Nutzungsanforderungen.
Syntax und Semantik sehr von der im EDW üblichen abweichen; Ein komplexer Staging-Prozess mit mehreren Schichten
eine (zumeist schrittweise) Eingliederung erfolgt erst nach persistenter Daten ist einer schnellen Datenverfügbarkeit
vorheriger Speicherung. gegensätzlich. Dies ist insbesondere auch bei Konzepten für
Data-Lineage: Daten in Berichten oder Analysen sind häufig „Near-Realtime Reporting“ zu beachten [16].
Ergebnis mehrstufiger Transformationsprozesse. Um eine
Rückverfolgung zu den Urprungsdaten zu erleichtern oder zu 4. PERSISTENZ BEI IN-MEMORY
ermöglichen, etwa zur Validierung, können gespeicherte EDW-Architekturen basieren gewöhnlich auf relationalen
Zwischenergebnisse erforderlich sein (vgl. [12]). Datenbanken (RDBMS) mit Stern-, Snowflake- oder Galaxy-
Komplexe Berechtigungen: Anstatt der Definition und Erstellung Schema als Grundlage der Datenmodellierung; siehe z.B. [15,17].
komplexer Benutzerberechtigungen (z.B. auf Merkmale oder auf Solche Modelle ermöglichen gute Performanz bei On-line
Feldinhalte), werden bestimmte Data-Marts mit den Daten erstellt Analytical Processing. Große Datenbestände müssen aber auch
und die Berechtigungen auf dem Data-Mart vergeben. hier mittels materialisierter Sichten und Verdichtungsebenen
„Informationsgewährleistung”: Viele EDW haben zu reduziert werden – mit den bereits beschriebenen Konsequenzen.
gewährleisten, dass die Daten den Benutzern in einem bestimmten Spaltenbasierte Datenbanken (vgl. [18,19]) werden aufgrund ihrer
Zeitraum (oftmals sogar 24 Stunden pro Tag) zur Verfügung Vorteile bei der Datenkomprimierung und dem Lesezugriff
stehen und für die Anwendungen genutzt werden können. Hierfür [20,21] im Data Warehousing genutzt (z.B. [22,23]). Seit einigen
werden in der Regel besonders kritische Datenbestände zusätzlich Jahren wird spaltenbasierte In-Memory-Technologie in
gespeichert. kommerziellen Data Warehouse Produkten verwendet (z.B. „SAP
Corporate Governance: Daten werden gemäß den Compliance- NetWeaver® Business Warehouse Accelerator“ [24,25],
Vorgaben des jeweiligen Unternehmens (Corporate Governance) „ParAccel Analytic DatabaseTM“ [26]), um verbesserte
gespeichert; z.B., um eine aufgrund bestimmter Daten getroffene Antwortzeiten beim Zugriff auf sehr große Datenbeständen zu
Managemententscheidung auch im Nachhinein beurteilen zu erzielen. Solche Technologien erlauben das Laden und Abfragen
können. von Datenvolumina im Teradatenbereich mit guter Performanz.
Gesetze und Bestimmungen: Zudem gibt es auch Gesetze und Es wurden bereits Installationen angekündigt, die On-Line
Bestimmungen, die eine Datenspeicherung begründen; für Transactional und Analytical Processing in einem System mit bis
Deutschland existieren solche beispielsweise im Finanzbereich zu 50 TB Daten im Hauptspeicher ermöglichen [27]. In diesem
(Handelsgesetzbuch u.a., [13]) und bei der Produkthaftung [14]. Bereich ist SanssouciDB als ein erstes Produkt zu nennen [3].
Subjektive Sicherheit: Letzlich kann das sujektive Bedürfnis an Diese technologischen Veränderungen führen zu der Frage, in
Sicherheit ein Grund für Datenspeicherung sein. welchem Maße Datenpersistenz in IMDB-basierten EDW-
Systemen noch notwendig ist. Es wird suggeriert, dass bei In-
Persistenz beinhaltet häufig redundante Datenhaltung, da sowohl
Memory-Technologie keine Daten zusätzlich zu den
Quell- als auch transformierte Zieldaten gespeichert werden;
gespeicherten Urspungsdaten persistent gehalten werden müssen.
ausschließliches Speichern der Zieldaten bedeutet in aller Regel
Alle abgeleiteten Daten, insbesondere die für Analysezwecke
Datenverlust. Hieraus entstehen hohe Anforderungen, nicht nur an
aggregierten oder verdichteten, werden „on-the-fly“ ermittelt und
die Hardware (Speicherplatz etc.), sondern auch an die
zur Verfügung gestellt [3,27]. Dies gilt jedoch nur für einige der
Datenpflege, um etwa die Datenbestände konsistent zu halten.
o.g. Gründe, wie im folgenden deutlich wird. In diesem
Der Betrieb produktiver DWS führt zwangsläufig zu Konflikten
Zusammenhang fokussieren wir uns auf Datenbanken, die ACID-
zwischen den Anforderungen der Datennutzung, wie z.B.
fähig sind, inklusive Dauerhaftigkeit (z.B. SanssouciDB, solidDB
Performanz bei Reporting und Analyse, und dem Aufwand an Zeit

99
von IBM und TimesTen von Oracle [3,28,29]). Persistenz ist hier Gruppe sind Daten, die gespeichert werden, um den Betrieb des
zu unterscheiden von volatiler Speicherung, bei der die Daten in Warehouse oder einzelner Anwendungen zu vereinfachen; hierzu
flüchtigem Speicher gehalten werden und verloren gehen, wenn zählen speziell abgelegte Plandaten oder Data-Marts mit
das System heruntergefahren wird oder abstürzt. Berechtigungen für besondere Benutzer. Drittens begründet sich
Persistenz mit spezieller Konzeption (Design) des EDW: „Single
4.1 Notwendigkeit der Datenpersistenz Version of Truth“, „Corporate Data Memory“ zählen u.a. hierzu.
Eine Entscheidung für Datenpersistenz kann nicht ausschließlich Sicherheit, etwa zur Gewährleistung der Datenverfügbarkeit, stellt
nach einem kostenbasierten Vergleich von „Plattenplatz und eine weitere Gruppe dar. Letztlich ist Datenspeicherung für eine
Kosten des Updates versus Geschwindigkeitsgewinn der Analyse” hohe Performanz ein Grund; oftmals der, dem das größte
getroffen werden. Zunächst ist der Grund der Datenspeicherung redundante Datenvolumen zugrunde liegt.
(s. Abschnitt 3) zu berücksichtigen. Im RDBMS-basierten DWS Daten, deren Speicherung unterstützend ist, beinhalten solche, die
ist diese Überlegung weniger ausgeprägt, da die geringere wegen subjektiver Sicherheitsüberlegungen abgelegt werden.
Leistungsfähigkeit der Datenbank und der daraus resultierende Eine komplette Auflistung der Persistenzgründe, gruppiert nach
Bedarf an aggregierten Daten das Speichern begründet. Um die Notwendigkeiten, zeigt Tab. 1.
Notwendigkeit von Datenpersistenz zu ermitteln, führen wir eine
Einteilung dieser Gründe ein: die Speicherung der Daten ist nur Abb. 2 zeigt ein vereinfachtes Entscheidungsdiagramm für
unterstützend, essentiell oder sogar verpflichtend. Datenpersistenz, in dem z.B. unscharfe Begriffe wie „aufwendig“,
„komplex“ und „häufig“ abhängig von der Domäne spezifiziert
Tab. 1. Persistenzgründe, nach Notwendigkeit gruppiert werden müssen. Die ersten drei Abfragen betreffen verpflichtende
Grund/Zweck Notwendigk. Gruppierung Gründe, d.h. die Daten sind – auch in IMDB-basierten EDW – zu
speichern. Bei den aus anderen Gründen gespeicherten Daten sind
Gesetze und Bestimmungen Verpflichtend - die Entscheidungsgrundlagen sehr vielfältig. Stellen die Daten
Corporate Governance Verpflichtend - eine „Single Version of Truth“ dar oder umfasst das EDW-Design
ein „Corporate Data Memory”, so sind diese Daten zu speichern.
Datenverfügbarkeit Verpflichtend - Ist hingegen eine komplexe Reproduktion oder Transformation
Veränderte Grund des Speicherns, so müssen z.B. Zugriffshäufigkeit und
Verpflichtend - Sicherstellung der Verfügbarkeit in Betracht gezogen werden, um
Transformationsregeln
entscheiden zu können.
Abhängige Transformationen Verpflichtend -
Quellsystem-Entkopplung Essentiell Aufwand
Aufwendige
Essentiell Aufwand
Datenwiederherstellung
Komplexe Transformationen Essentiell Aufwand
Konstante Datenbasis Essentiell Aufwand
“En-bloc Datenversorgung” Essentiell Vereinfachung
Komplex-abweichende Daten Essentiell Vereinfachung
Data-Lineage Essentiell Vereinfachung
Komplexe Berechtigungen Essentiell Vereinfachung
„Single Version of Truth“ Essentiell Design
„Corporate Data Memory“ Essentiell Design
„Informationsgewähr” Essentiell Sicherheit
Zugriffsgeschwindigkeit Essentiell Performanz
Subjektive Sicherheit Unterstützend -
Verpflichtend zu speichern sind Daten aufgrund von Gesetzen und
Bestimmungen sowie Regeln der Corporate Governance. Zudem
gilt dies für Daten, welche nicht wieder hergestellt werden
können, weil sie nicht mehr oder nur verändert zur Verfügung
stehen oder aufgrund geänderter Transformation nicht mehr
erstellt werden können. Auch Daten, die bei der Transformation
anderer Daten benötigt werden, sind zu speichern, wenn eine
gleichzeitige Verfügbarkeit nicht gewährleistet werden kann.
Essentielle Datenpersistenz kann in bestimmte Gruppen unterteilt
werden: Zum einen Daten, deren Wiederherstellung nur mit sehr
hohem Aufwand (an Zeit und Ressourcen) möglich ist, wie z.B.
archivierte oder komplex transformierte Daten. Hierbei ist „sehr
hoch“ allerdings subjektiv und näher zu untersuchen. Eine zweite Abb. 2. Entscheidungsdiagramm „Datenpersistenz“

100
4.2 Bewertung der Persistenz in IMDBs für die Konsistenzsicherung der abgeleiteten Verdichtungsebenen,
Alle nicht-verpflichtend gespeicherten Daten sind Gegenstand der geringer ist als der Geschwindigkeitsgewinn der Anwendung?
Betrachtung bei der Frage nach Persistenz in IMDB-basierten Und: Wie aufwendig sind diese Änderungen?
EDW. Insbesondere betrifft dies Daten, die zur Verbesserung der Untersuchungen dieser Art sind auch bei RDBMS-basierten DWS
Zugriffsperformanz oder aufgrund komplexer Transformation valide. Hierbei lässt die Leistungsfähigkeit einer IMDB jedoch als
redundant abgelegt werden. Das bedeutet aber nicht, dass allein Ergebnis erwarten, dass Transformationen eher „on-the-fly“ als
die Geschwindigkeit der Datenverarbeitung in einem solchen mit redundanter Persistenz durchgeführt werden.
System jede Art zusätzlicher Speicherung überflüssig machen Einige IMDB ermöglichen die Festlegung unterschiedlicher
wird. Dies gilt beispielsweise für die „En-bloc Datenversorgung“ Kriterien zur Dauerhaftigkeit, z.B. durch Definition temporärer
oder beim Aufbau einer konstanten Datenbasis für Planungsläufe. Tabellen [29,30]. Hierdurch können Daten, die nicht verpflichtend
IMDB-Snapshot-Mechanismen, wie in [30] erläutert, halten den zu speichern sind, nur in flüchtigem Speicher gehalten werden. Da
Datenbestand zumeist nicht über die benötigte Zeit von Stunden ein Herunterfahren oder Absturz der Datenbank relativ selten
oder Tagen konstant. Hier kommt es nicht auf eine schnelle geschieht, sind die Wartungskosten für solche Daten gering. Ein
Versorgung mit neuen Daten an, sondern auf die Herstellung eines beispielhafter Anwendungsfall hierfür ist die Ermittlung von
über einen definierten Zeitraum unveränderten Datenbestands. RFM-Attributen (Recency, Frequency, Monetary) zur
Zeitstempelverfahren in In-Memory-Konzepten [3,30] können ein Kundenkategorisierung im CRM-Umfeld [31]. Die Emittlung (s.
Lösungsszenario sein. Für die Ersetzung eines „Corporate Data Abb. 3) basiert auf Kundenstamm- und Transaktionsdaten
Memory“ jedoch sind diese Verfahren nicht geeignet, wenn Daten (Kassenbons, Aufträge, Fakturen) und umfasst Selektionen,
verschiedener Quellsysteme integriert werden, was insbesondere Kalkulationen, Währungsumrechnungen, Look-Ups zu komplexen
für ein EDW gilt. Auch werden Persistenzgründe wie komplexe Steuerungsdaten etc. Die berechneten Attribute werden zeitnah
Berechtigungen oder Data-Lineage weiterhin gültig bleiben. aktualisiert benötigt, sowohl im DWS, als auch im CRM-System.
Die Erfahrung zeigt, dass technische Beschränkungen meist früher Zu berücksichtigen ist, dass es sich hierbei um oft sehr große
als erwartet eintreten, so dass die Systemressourcen für die an sie Mengen an Daten handelt, mehrere Millionen Kunden mit jeweils
gestellten Aufgaben nicht mehr ausreichen werden. Die einer zweistelligen Anzahl Transaktionen. Diese Datenbestände
Möglichkeit, auf sehr viele Daten mit sehr hoher Performanz ändern sich häufig, so dass auch die RFM-Attribute laufend
zuzugreifen, wird neue Bedürfnisse wecken. Es werden neue aktualisiert werden müssen. Da die Ermittlung der Attribute
Anforderungen aufkommen und die Datenmengen zunehmen. reproduzierbar ist, kann das Vorhalten dieser Daten ausschließlich
Aufgrund dessen ist auch bei IMDB-basierten Systemen zu im flüchtigen Speicher einer Persistierung vorzuziehen sein.
betrachten, ob wiederholte, gleichartige Zugriffe und Bearbeitung
von Daten „on-the-fly“ nicht durch Vorhalten der Daten im
benötigten Format günstiger ist. Dies gilt insbesondere für
Datenbestände, auf die häufig zugegriffen wird und die sich nicht
oder nur wenig ändern, wie beispielsweise die geschlossenen
Jahres-, Quartals- oder Monatsabschlüsse der Finanzbuchhaltung.
Eine weitere Frage in diesem Zusammenhang ist das Datenformat,
in dem gespeichert wird, d.h. auf welcher Transformationsstufe
die Speicherung optimal ist. Hierbei ist das Format zu ermitteln,
welches eine möglichst flexible Verwendung der Daten bei einer
größtmöglichen Vermeidung wiederholter, gleichartiger
Transformationen darstellt. Dies kann durch kostenbasierte
Laufzeitmessungen geschehen, wie folgendes Beispiel erläutert:
Gegeben sei ein Rohdatenbestand (R), der über eine mehrstufige
Transformation (Tn; n={1,2,3}) für Analysen (A) abgefragt wird.
Zu vergleichen ist, ob es effizienter ist, die Daten nach den
einzelnen Transformationen persistent zu speichern (P), sie volatil
zu halten (V), oder sie jeweils „on-the-fly” neu zu ermitteln:
(1) R T1 + P T2 + P T3 + A
(2) R T1 + P T2 + V T3 + A
(3) R T1 + P T2 T3 + A
(4) R T1 + V T2 T3 + A
(5) R T1 T2 T3 + A
Weitere Indikatoren, die hier betrachtet werden müssen, sind: Abb. 3. Ermittlung von RFM-Attributen
Datenvolumen: Ist die Datenmenge so groß, dass die zur Nutzung
notwendige, oftmals sehr komplexe Aufbereitung überhaupt bzw. Festzuhalten bleibt, dass in einem IMDB-basierten EDW viele
in einer akzeptablen Zeit „on-the-fly“ durchgeführt werden kann? Daten nicht mehr gespeichert werden müssen, die in einem
Häufigkeit der Datennutzung: Wird auf die Daten so häufig RDBMS-basierten aufgrund von Performanzgewinn redundant zu
zugegriffen, dass der Nutzen einer zusätzlichen Materialisierung halten sind. Höhere Zugriffsgeschwindigkeiten werden es
deren Kosten aufwiegt? ermöglichen, Daten „on-the-fly“ für die Nutzung aufzubereiten,
Häufigkeit von Datenänderungen: Wird ein Datenbestand so oft insbesondere solche mit relativ einfacher Transformationslogik,
geändert (durch Update, Insert, Delete), dass der Aufwand, z.B. wie z.B. Aggregation, Joins etc. Eine Vielzahl materialisierter
Sichten wird zu virtuellen Sichten.

101
5. FAZIT UND AUSBLICK [9] B.A. Devlin: „Business Integrated Insight (BI²)”;
Enterprise Data Warehouses sind komplexe Systeme mit www.9sight.com/bi2_white_paper.pdf {03.05.2011}; 2009.
speziellen Anforderungen an Datenbestand und Datenhaltung, für [10] SAP: „PDEBW1 - Layered Scalable Architecture (LSA) for
die eine Architektur dedizierter, zweckbestimmter Schichten BW“; Schulungsunterlagen, SAP AG; 2009.
geeignet ist. Die Notwendigkeit von Datenpersistenz in solchen
[11] U. Leser, F. Naumann: „Informationsintegration“; dpunkt-
Systemen kann nur durch den Zweck der Daten begründet
Verlag, Heidelberg; 2007.
werden. Diese Sichtweise wird bei IMDB-basierten EDW noch
entscheidender. Wir beschreiben Gründe der Datenpersistenz und [12] Y. Cui, J. Widom: „Lineage Tracing for General Data
unterteilen sie in verpflichtende, essentielle und unterstützende. Warehouse Transformations”; in: The VLDB Journal 12(1),
Darauf aufbauend nähern wir uns der Entscheidungsfindung, ob S.41-58; 2003.
Daten in solchen Systemen gespeichert werden. [13] §§239,257 HGB (Stand: 01.03.2011); §25a KWG (Stand:
Persistente Datenhaltung wird es auch in EDW-Systemen auf 01.03.2011); §147 AO (Stand: 08.12.2010).
IMDB geben. Ein großer Anteil heutiger persistierter Daten wird [14] §13 ProdHaftG (Stand: 19.07.2002).
allerdings nur flüchtig gespeichert oder „on-the-fly“ berechnet.
Zudem wird die Frage aufkommen nach dem Format, in dem die [15] W. Lehner: „Datenbanktechnologie für Data-Warehouse-
Daten abgelegt werden. Die Antwort hierauf wird nicht einfach zu Systeme“; dpunkt-Verlag, Heidelberg; 2003.
ermitteln sein; es handelt sich hierbei vielmehr um eine [16] J. Langseth: „Real-Time Data Warehouses: Challenges and
multidimensionale Gewichtung verschiedener Faktoren, wie: Solutions“; on: www.dssresources.com {03.05.2011}; 2004.
Aufwand für Transformation, Speicherung und Updating, Anzahl [17] R. Kimball, M. Ross: „The Data Warehouse Toolkit”; Wiley
und Zeit von Datenabfrage und -aktualisierung. Publishing Inc., Indianapolis, 2.Auflage; 2002.
Zukünftige Arbeiten werden eine detaillierte Aufstellung von [18] G.P. Copeland, S.N. Khoshafian: „A Decomposition Storage
Persistenzgründen mit ausführlichen Beispielen umfassen. Model”; in: SIGMOD`85, S.268-279; 1985.
Darüber hinaus werden Indikatoren definiert und beschrieben
werden, die die Entscheidungsfindung für/gegen Datenpersistenz [19] M.J. Turner et al.: „A DBMS for large statistical databases”;
unterstützen. Dies umfasst sowohl messbare, wie beispielsweise in: 5th VLDB`79, S.319-327; 1979.
Vergleiche von Laufzeiten und Wartungsaufwänden zwischen [20] D.J. Abadi et al.: „Integrating Compression and Execution in
Datenbeständen in verschiedenen Speicherzuständen, als auch Column-Oriented Database Systems“; in: SIGMOD`06,
nicht-messbare Indikatoren. So wird ermittelt, ob Entscheidungen S.671-682; 2006.
durch Berechnungen getroffen oder hierdurch zumindest
[21] D.J. Abadi: „Query Execution in Column-Oriented Database
unterstützt werden können.
Systems”; Dissertation, MIT; 2008.
6. DANKSAGUNG [22] M. Stonebraker et al.: „C-Store: A Column-oriented DBMS”;
Diese Arbeit wird teilweise unterstützt vom Bundesministerium in: 31st VLDB`05, S.553-564; 2005.
für Bildung und Forschung (BMBF) innerhalb des ViERforES-II- [23] D. Slezak et al.: „Brighthouse: An Analytic Data Warehouse
Projekts (Nr. 01IM10002B). for Ad-hoc Queries“; in: PVLDB 1(2), S.1337-1345; 2008.
7. LITERATUR [24] T. Legler et al.: „Data Mining with the SAP NetWeaver BI
[1] R. Winter: „Why Are Data Warehouses Growing So Fast?”; Accelerator“; in: 32nd VLDB`06, S.1059-1068; 2006.
www.b-eye-network.com/print/7188 {03.05.2011}; 2008. [25] J.A. Ross: „SAP NetWeaver® BI Accelerator”; Galileo Press
[2] H. Plattner et al.: „ETL-less Zero Redundancy System and Inc., Boston; 2009.
Method for Reporting OLTP Data” (US 2009/0240663 A1); [26] ParAccel: „PARACCEL ANALYTIC DATABASETM“;
US Patent Application Publication; 2009. www.paraccel.com/wp-content/uploads/2010/07/PA_DS.pdf
[3] H. Plattner, A. Zeier: „In-Memory Data Management“; {03.05.2011}; 2011.
Springer-Verlag, Berlin; 2011. [27] H. Plattner: „A Common Database Approach for OLTP and
[4] B.A. Devlin, P.T. Murphy: „An architecture for a business OLAP Using an In-Memory Column Database”; in:
and information system”; in: IBM Systems Journal 27(1), SIGMOD`09, S. 1-2; 2009.
S.60-80; 1988. [28] IBM: IBM solidDBTM; www.ibm.com/software/data/soliddb
[5] V. Poe: „Building a data warehouse for decision support”; {03.05.2011}; 2010.
Prentice Hall PTR, Upper Saddle River; 1996. [29] Oracle: „Extreme Performance Using Oracle TimesTen In-
[6] H. Muksch, W. Behme (Hrsg.): „Das Data Warehouse- Memory Database”; www.oracle.com/technetwork/database/
Konzept“; Gabler-Verlag, Wiesbaden, 4.Auflage; 2000. timesten/overview/wp-timesten-tech-132016.pdf
{03.05.2011}; 2009.
[7] P. Gluchowski; P. Chamoni: „Entwicklungslinien und
Architekturkonzepte des On-Line Analytical Processing“; in: [30] A. Kemper, T. Neumann: „HyPer: Hybrid OLTP&OLAP
Analytische Informationssysteme, Springer-Verlag, High PERformance Database System“;
3.Auflage, S.143-176; 2006. www3.in.tum.de/research/projects/HyPer/HyperTechReport.
pdf {03.05.2011}; 2010.
[8] T. Zeh: „Referenzmodell für die Architektur von Data-
Warehouse-Systemen (Referenzarchitektur)“; [31] J. Stafford: „RFM: A Precursor of Data Mining”;
www.tzeh.de/doc/gse-ra.ppt {03.05.2011}; 2008. www.b-eye-network.com/view/10256 {03.05.2011}; 2009

102
Ein Verfahren zur automatischen Erstellung eines
visuellen Wörterbuchs für die Bildsuche

Magdalena Rischka
Institut für Informatik
Heinrich-Heine-Universität Düsseldorf
D-40225 Düsseldorf, Deutschland
rischka@cs.uni-duesseldorf.de

ZUSAMMENFASSUNG sen diese unterschiedliche Schwächen auf, z.B. die Subjek-
Das Internet bietet eine enorme Anzahl an Bildern. Bild- tivität des Beschreibenden, abstrakte Formulierungen oder
suchmaschinen stehen vor der Herausforderung Bilder effek- falsche Stichwortzuordnungen, sowie Unvollständigkeit der
tiv und effizient zu erschließen. Die klassischen Arten der Beschreibung. Aufgrund dieses Nachteils versucht man heut-
Bildsuche, die stichwort- und die inhaltsbasierte Bildsuche, zutage, fern von den Annotationen, auf das Bild selbst einzu-
haben Nachteile. Ein Retrieval-Modell, welches die Vorteile gehen und somit den Inhalt des Bildes zu erschließen. Die in-
beider Sucharten integriert und die Nachteile ausschließt, haltsbasierte Bildsuche basiert demnach auf visuellen Eigen-
ist die auf einem visuellen Wörterbuch basierende Bildsuche. schaften des Bildes, z.B. bzgl. der Farbe, der Textur, Form
Ein visuelles Wörterbuch ist dabei eine Menge von Stichwort- usw. Eine Anfrage wird mittels einem Beispielbild gestellt,
zu-visueller-Beschreibung Beziehungen. Wir präsentieren ein das Retrieval-System sucht dann nach Bildern, die dem An-
Verfahren zur automatischen Erstellung eines visuellen Wör- fragebild ähnlich sind, bezogen auf den, dem System zu-
terbuchs aus einer Trainingsmenge von annotierten Bildern. grundeliegenden Deskriptor und das Ähnlichkeitsmaß. Der
Dabei werden verschiedene Modelle von visuellen Beschrei- Nachteil dieser Suchart betrifft die Anfrageformulierung mit-
bungen untersucht und anschließend evaluiert. Wir zeigen, tels dem Anfragebild - ein Anfragebild liegt dem Benutzer
dass eine kompakte visuelle Beschreibung existiert, die ver- in der Regel nicht vor, dieses wird schließlich gesucht. Ge-
glichen mit multiple-Instanzen visuellen Beschreibungen bes- wünscht ist daher ein Retrieval-System, welches die Vorteile
sere Retrieval-Ergebnisse liefert und gleichzeitig die Anfra- beider Sucharten integriert, d.h. eine textuelle Anfragefor-
gezeit drastisch senkt. mulierung mit einer inhaltsbasierten Bildsuche kombiniert.
Eine Lösung ist das Modell des visuellen Wörterbuchs als
eine Menge von Stichwort-zu-visueller-Beschreibung Bezieh-
Schlüsselwörter ungen. Bei der Bildsuche auf der Basis des visuellen Wör-
image search, visual dictionary, visual words, visual phrases terbuchs wird nun eine Anfrage textuell gestellt, dann die
Stichwörter aus der Anfrage in dem visuellen Wörterbuch
1. EINLEITUNG nachgeschlagen und deren Übersetzung, d.h. eine visuelle
Beschreibung des Stichwortes, für die anschließende inhalts-
Das heutige World Wide Web stellt einen großen und stän-
basierte Bildsuche verwendet. Die Entwicklung eines Ver-
dig wachsenden Datenbestand von Bildern dar und bildet
fahrens zur automatischen Erstellung eines visuellen Wör-
somit eine gute Basis für die Suche nach gewünschten Bil-
terbuchs ist Gegenstand dieses Papers. Wir geben zunächst
dern. Es gibt zwei klassische Arten der Bildsuche: die stich-
einen Überblick über verwandte Arbeiten, beschreiben dann
wortbasierte und die inhaltsbasierte Bildsuche. Die stich-
das entwickelte Verfahren, evaluieren visuelle Beschreibun-
wortbasierte Bildsuche basiert auf Annotationen und Meta-
gen und schließen mit einer Schlussfolgerung und einem Aus-
daten der Bilder. Die Anfrageformulierung erfolgt textuell,
blick.
somit schnell und unkompliziert. Bei der Verarbeitung der
Anfrage sucht das System nach Bildern, die, grob gesagt, die
Stichwörter aus der Anfrage beinhalten. Einen Nachteil hat 2. VERWANDTE ARBEITEN
diese Suchart jedoch: der Erfolg der Suche hängt von der
In der Literatur existieren zwei weitverbreitete Definitio-
Qualität der Annotationen und Metadaten der Bilder ab.
nen des Begriffs visuelles Wörterbuch. Die erste Definition
Je nachdem, ob Bilder manuell vom Benutzer oder auto-
beschreibt das Konzept der Zuordnungen von Stichwort zu
matisch mit Hilfe eines Algorithmus annotiert wurden, wei-
visueller Beschreibung, die zweite betrifft die Quantisierung
des Deskriptor-Raums in Partitionen, sogenannte visuelle
Wörter. Jeder Deskriptor wird dann mit seinem zugehörigen
visuellen Wort repräsentiert. Alle Partitionen bilden das vi-
suelle Wörterbuch. Oft werden beide Konzepte kombiniert
[1, 4]. [1] verwendet eine gut vorbereitete Trainingsmenge,
SCD und HTD (MPEG-7 Standard) Deskriptoren und be-
schreibt ein Stichwort mit einer konstanten Anzahl von vi-
23rd GI-Workshop on Foundations of Databases (Grundlagen von Daten-
banken), 31.05.2011 - 03.06.2011, Obergurgl, Austria. suellen Wörtern. [4] entwickelt ein visuelles Wörterbuch auf
Copyright is held by the author/owner(s). der Grundlage von SIFT-Deskriptoren und daraus abgelei-

103
Trainingsmenge
teten visuellen Wörtern und stellt jedes Stichwort mit einer
Gaußschen Mischverteilung dar. Das Konzept der visuellen Annotierte
Bilder
Wörter wird mit der Idee der visuellen Phrase als ein Paar
adjazenter visueller Wörter erweitert. Basierend auf SIFT Annotationen Bilder

wird in [6] das Modell der visuellen Phrase untersucht und
Repräsentation Repräsentation
dabei die Verbesserung des Retrievals nachgewiesen. Wir & Ähnlichkeitsmaß & Ähnlichkeitsmaß
verwenden den Begriff des visuellen Wörterbuchs um die
erste Definition auszudrücken. Falls das Konzept der zwei- Gruppierung Gruppierung
ten Definition und ihre Erweiterung gemeint ist, sprechen
wir von visuellen Wörtern und visuellen Phrasen.
Wahl des

visuellen Wörterbuchs
Vokabulars
3. DAS VERFAHREN ZUR ERSTELLUNG

Erstellung des
EINES VISUELLEN WÖRTERBUCHS Abgleich der
Gruppierungen
In diesem Kapitel präsentieren wir das entwickelte Ver-
fahren zur automatischen Erstellung eines visuellen Wör- Visuelle
Beschreibung
terbuchs aus einer Trainingsmenge von annotierten Bildern.
Das Verfahren basiert auf der Idee, die Trainingsbilder ein-
mal bzgl. der Ähnlichkeit ihrer Annotationen und einmal
Visuelles Wörterbuch
bzgl. ihrer visuellen Ähnlichkeit zu gruppieren, dann die
Term Visuelle Beschreibung
Trainingsbilder, die bzgl. der beiden Aspekte zueinander ...
...
...
...
ähnlich sind, d.h. bzgl. beider Aspekte zusammen gruppiert
wurden, aufzusuchen und aus diesen schließlich Korrelatio-
nen zwischen Stichwörtern und visuellen Bildmerkmalen ab- Abbildung 1: Das konzeptuelle Modell des Verfah-
zuleiten. rens

3.1 Anforderungen an das visuelle
Wörterbuch len Bildmerkmale ähnlich sind. Es findet also ein Abgleich
der Gruppierungen statt. Aus den ermittelten Trainingsbil-
Das visuelle Wörterbuch kann man sich wie ein herkömm- dern eines Terms wird schließlich die visuelle Beschreibung
liches Wörterbuch vorstellen, welches aus einer Menge von des Terms gelernt und zusammen mit dem Term als ein Ein-
Einträgen besteht. In dem visuellen Wörterbuch sollen Ob- trag in dem visuellen Wörterbuch abgespeichert. Wir er-
jekte und visuelle Zusammenhänge, wie z.B. Tiere, Gegen- halten das visuelle Wörterbuch aus Stichwort-zu-visueller-
stände, Gebäude, Logos, Symbole, etc. verwaltet werden. Je- Beschreibung Einträgen.
der Eintrag ist ein Paar aus einem Stichwort, der das Objekt
benennt und einer dazugehörigen visuellen Beschreibung des
Objektes. Stichwörter sollen in der Grundform vorliegen - 3.3 Repräsentation und Ähnlichkeitsmaß
wir sprechen dann von Termen -, und es soll die Polysemie von/ für Annotationen und Bilder
der Terme unterstützt werden. Eine visuelle Beschreibung Für einen semantischen Vergleich müssen Annotationen
stellt eine Einheit dar, die für die inhaltsbasierte Bildsuche und Bilder in eine interne Darstellung überführt werden.
verwendet wird. Diese soll nur die für dieses Objekt relevan- Wir bereiten auf und bereinigen zuerst die Annotationen,
ten visuellen Charakteristika erfassen, die allen Perspektiven erstellen dann einen Index mit dem Indexvokabular und lei-
und Erscheinungsformen des Objektes gemeinsam sind. Zu- ten daraus für jede Annotation einen Annotationsvektor ge-
dem soll diese aus Effizienzgründen kompakt, sowie zu der mäß der tf-idf Gewichtung. Als Ähnlichkeitsmaß wählen wir
Repräsentation der Bilder kompatibel sein. das Kosinusmaß.
Als Grundlage für die Repräsentation von Bildern wäh-
3.2 Das konzeptuelle Modell des Verfahrens len wir Scale Invariant Feature Transform (SIFT)[2], da es
Das konzeptuelle Modell des Verfahrens ist in Abbildung 1 in der Literatur als eins der robustesten Features gilt. Ei-
dargestellt. Grundlage zum Erlernen des visuellen Wörter- ne auf rohen SIFT-Features basierende Bilddarstellung ist
buchs bildet die Trainingsmenge von annotierten Bildern, schwer zu handhaben und aus Gründen der Effizienz unge-
die beliebig und ohne zusätzliche Vorbearbeitung gewählt eignet. Um alle Bilder einheitlich zu repräsentieren wenden
werden kann. Ausgehend von dieser werden zunächst einmal wir daher die Technik der visuellen Wörter an. Mit dem
zwei Ziele verfolgt: die Gruppierung von ähnlichen Bildern Clusteringalgorithmus K-Means basierend auf der Euklidi-
auf der Basis der semantischen Ähnlichkeit ihrer Annotatio- schen Distanz wird der 128-dimensionale Deskriptor-Raum
nen und die Gruppierung von ähnlichen Bildern bezüglich der SIFT-Keypoints in 1000 Partitionen, die visuellen Wör-
ihrer visuellen Ähnlichkeit. Dazu werden die Annotationen ter, zerlegt. Jedem Deskriptor wird gemäß dem Nächsten-
sowie die Bilder unabhängig voneinander in eine interne Re- Nachbar-Prinzip das entsprechende visuelle Wort zugeord-
präsentation überführt und auf der Basis eines definierten net. Ein Bild wird schließlich mit einem Histogramm der
Ähnlichkeitsmaßes gruppiert. Aus den beiden Gruppierun- visuellen Wörter dargestellt, indem das i-te Bin die Vor-
gen wird dann das visuelle Wörterbuch erstellt. Dazu wird kommenshäufigkeit des i-ten visuellen Wortes in dem Bild
zunächst einmal das Vokabular für das visuelle Wörterbuch misst. Weiterhin verwenden wir auch das Konzept der vi-
bestimmt. Für jeden Term des Vokabulars werden Trainings- suellen Phrase für die Bilddarstellung. Eine visuelle Phrase
bilder ermittelt, die diesen Term in der Annotation enthalten vpij ist ein nichtgeordnetes Paar (Menge) von zwei visuel-
und bzgl. der Ähnlichkeit von Annotationen und der visuel- len Wörtern vwi , vwj . Für die Eigenschaft der räumlichen

104
Nähe übernehmen wir die in [5] definierte Bedingung. In ei- relevanten Objektes nicht mehr gruppiert werden. Am bes-
nem Bild liegt eine visuelle Phrase vpij vor, falls in dem ten wäre, man hätte visuelle Beschreibungen von den, in der
Bild zwei Keypoints kpa , kpb existieren und für diese fol- Trainingsmenge enthaltenen Objekten und würde diese als
gendes gilt: das visuelle Wort von kpa ist vwi und von kpb Clusterzentren nehmen, um die Trainingsbilder anhand die-
ist vwj und die Euklidische Distanz distanz zwischen den ser Clusterzentren überlappend zu gruppieren. Die visuellen
(x, y) Positionen der Keypoints erfüllt die Bedingung: Beschreibungen sind aber genau das was wir suchen. Hät-
ten wir solche Beschreibungen, dann wäre die Gruppierung
distanz(kpa , kpb ) < sa · λ oder (1)
hier überflüssig. Man kann trotzdem versuchen solche visu-
distanz(kpa , kpb ) < sb · λ ellen Beschreibungen zu simulieren, indem man das was den
wobei sa und sb die Skalierung der Keypoints und λ ein Trainingsbildern gemeinsam ist, extrahiert. Sind zwei Bilder
Parameter ist, welcher das Auftreten der visuellen Wörter bzgl. einem Objekt ähnlich und teilen damit die Charakteris-
Paare kontrolliert. Den experimentellen Ergebnissen aus [5] tika des Objektes, dann müssen die gemeinsamen Charakte-
folgend setzen wir λ = 4. Analog zu visuellen Wörtern erstel- ristika auch in der kompakten Bilddarstellung der visuellen
len wir auch für visuelle Phrasen ein Histogramm, welches Wörter und der visuellen Phrasen verankert sein, nämlich
das Vorkommen der 500.500 visuellen Phrasen in einem Bild als Durchschnitt der visuellen Wörter und visuellen Phra-
zählt. In [6] wurde gezeigt, dass Retrieval-Systeme, die auf sen Histogramme der beteiligten Bilder. Der Durchschnitt
beiden Bilddarstellungen, der visuellen Wörter und der vi- ds zweier Bilder bi , bj ist wie folgt definiert:
suellen Phrasen, basieren, die besten Ergebnisse liefern. Wir

ds(bi , bj ) = dsV W (bi , bj ), dsV P (bi , bj ) mit (5)
folgen dieser Erkenntnis und repräsentieren jedes Trainings-
bild mit zwei Histogrammen, der visuellen Wörter und der dsX (bi , bj ) = (m(1), ..., m(k)) und
visuellen Phrasen:
m(l) = min(aHistX X
i [l], aHistj [l])
b = aHistV W , aHistV P (2)
wobei bei X = V W ist k = 1000 und X = V P ist k =
Für die Bestimmung der Ähnlichkeit zweier Bilder ver- 500.500. Für die Gruppierung der Trainingsbilder berech-
wenden wir ein Ähnlichkeitsmaß, das auf dem Histogramm- nen wir die Durchschnitte der ähnlichsten Bilder, betrach-
schnitt hs zweier Histogramme basiert: ten diese als Pseudo-Objekte und damit als Centroide, und
clustern die Trainingsbilder gemäß einem Schwellwert über-
k
X lappend an diese Durchschnitte. Wir erhalten eine Menge
hs(nHistX X
i , nHistj ) = min(nHistX X
i [l], nHistj [l]) (3) von Gruppen visuell ähnlicher Bilder Gvisuell | 1 ≤ l ≤ n} .
l
l=1
X
wobei nHist die normalisierte Version des absoluten Hi- 3.5 Wahl des visuellen Wörterbuch
stogramms aHistX darstellt. Die Ähnlichkeit zweier Bilder Vokabulars
bi und bj ergibt sich dann mit: Als nächstes müssen wir klären, welche Stichwörter in das
visuelle Wörterbuch aufgenommen werden. Als Stichwörter
ähnlichkeit(bi , bj ) = (1 − α) · hs(nHistVi W , nHistVj W ) (4) kommen natürlich nur Terme aus dem Indexvokabular in
+ α · hs(nHistVi P , nHistVj P ) Frage. Die Übernahme aller Terme als Stichwörter ist je-
doch nicht sinnvoll, denn nicht alle Terme bzw. die den Ter-
Für den Wert des Gewichts α orientieren wir uns an dem Pa- men zugrundeliegenden Wörter beschreiben Objekte oder
per [6], in welchem der Einfluß unterschiedlicher Gewichts- beinhalten einen visuellen Aspekt. Wir betrachten daher die
werte auf die Retrieval-Resultate untersucht wird. Es zeigt Gruppen, die wir durch das Clustering von Annotationen
sich, dass das Optimum bei dem Wert α = 0.75 liegt. erhalten haben. Wir nehmen an, dass innerhalb einer Anno-
3.4 Gruppierung von Annotationen tationsgruppe die Terme, die in den meisten Annotationen
vorkommen, etwas mit dem visuellen Inhalt der zugehörigen
und von Bildern Bilder zu tun haben müssen. Für jede Annotationsgruppe
Für die Gruppierung der Annotationen wenden wir den werden daher diese hochfrequenten Terme bestimmt. Dazu
in [3] vorgeschlagenen Clusteringalgorithmus Clustering by wird zunächst der Term mit der höchsten Annotationshäu-
Committee (CBC) an. figkeit ermittelt und dann noch weitere, deren Annotations-
Die Gruppierung von ähnlichen Bildern bedeutet, Bilder, häufigkeit größer ist als 0.7 mal die maximale Häufigkeit.
die dasselbe Objekt beinhalten, in eine Gruppe zu fassen. Die Vereinigung der so erhaltenen Terme bildet dann das
Da wir von nicht vorbearbeiteten Trainingsbildern ausgehen, Vokabular des visuellen Wörterbuchs, also im Grunde die
liegen diese Bilder also in der Regel etwas verschmutzt“ vor, Einträge. Um die Forderung nach der Unterstützung der
”
d.h. sie beinhalten neben dem Hauptobjekt ggf. noch andere Polysemie von Termen zu realisieren, werden die betroffe-
irrelevante Objekte oder einen Hintergrund. Dadurch kann nen Terme mehrmals, nur mit unterschiedlichem Kontext,
es leicht zu dem Problem kommen, dass zwei Bilder, die wir in dem visuellen Wörterbuch aufgeführt. Der jeweilige Kon-
intuitiv nicht gruppiert hätten, weil diese unterschiedliche text eines Terms ergibt sich aus der Gruppe, genauer aus
Hauptobjekte haben, trotzdem einen höheren Ähnlichkeits- den anderen Termen der Gruppe, zu der der Term gehört.
wert haben, als zwei Bilder, die dem menschlichen Empfin- Als Kontext wird der Centroid der Gruppe verwendet. Wir
den nach ähnlich sind. Bei der Wahl eines Gruppierungsver- erhalten somit eine Seite des visuellen Wörterbuchs, näm-
fahrens müssen wir diese Problematik einbeziehen. Cluster- lich eine Menge von Einträgen, die jeweils ein Objekt reprä-
ingverfahren, die die Trainingsbilder in Partitionen zerlegen, sentieren und aus einem Term und seinem Kontextvektor
sind nicht geeignet, es könnte nämlich passieren, dass Bil- bestehen.
der aufgrund für uns falsch erscheinenden Gemeinsamkeiten,
wie dem Hintergrund, zusammengefasst und dann bzgl. des

105
3.6 Abgleich der Gruppierungen bild der visuellen Beschreibung, also in jedem der einzelnen
Für jeden Eintrag des visuellen Wörterbuchs muss nun Ergebnisse, eine Rankingposition und einen Ähnlichkeits-
eine Menge von Trainingsbildern bestimmt werden, aus der wert zum Anfragebild. Bei der zweiten Strategie wird für je-
die visuelle Beschreibung des Terms gelernt werden soll. Das des Bild aus der Bilddatenbank der maximale Ähnlichkeits-
bedeutet, es müssen die Bilder bestimmt werden, die sowohl wert aus seinen Ähnlichkeitswerten zu allen Anfragebildern
bzgl. des Terms als auch visuell bzgl. des beinhaltenden Ob- ausgewählt, die Bilder dann entsprechend ihrem maximalen
jekts ähnlich sind. Dazu werden Bilder, die diesen Term in Ähnlichkeitswert sortiert und als Endergebnis ausgegeben
der Annotation enthalten, aus der Annotationsgruppe des (AlleBilder-MaxÄhnlichkeit).
Terms genommen und es wird daraus eine Gruppe Geintrag Eine dritte Lösung zur Bestimmung des Endergebnisses
gebildet. Diese Gruppe wird dann mit jeder Gruppe Gvisuell
l
ist, für jedes Bild aus der Bilddatenbank das arithmetische
visuell ähnlicher Bilder abgeglichen. Beim Abgleich wird der Mittel ihrer Rankingpositionen aus den einzelnen Ranking-
Mengendurchschnitt jeweils zweier Gruppen gebildet, indem Ergebnissen zu berechnen, dann die Bilder bezüglich diesem
die Bilder übernommen werden, die in der Gruppe Geintrag arithmetischen Mittel aufsteigend zu sortieren und dieses
und in der Gruppe Gvisuell
l vorkommen. Der resultierende Ranking als Endergebnis auszugeben.
Mengendurchschnitt zweier Gruppen muss mindestens zwei (AlleBilder-DurchschnittsRank )
Bilder beinhalten, sonst können keine gemeinsamen Charak-
teristika gelernt werden. Als Resultat des Abgleichs erhalten 3.7.2 Durchschnitte
wir wiederum, ggf. überlappende, Gruppen von Bildern. Die Bei der letzten visuellen Beschreibung werden nicht wirk-
Bilder innerhalb einer solchen Gruppe sind nun visuell als lich Charakteristika des Objektes gelernt, diese stellt also
auch bzgl. des Terms und seinem Kontext ähnlich. Jeder Ein- keine visuelle Beschreibung in unserem gewünschten Sinne
trag des visuellen Wörterbuchs besteht nun aus einem Term, dar. Wir gehen davon aus, dass die Ähnlichkeit zweier ähn-
seinem Kontextvektor und der Menge der Bildgruppen aus licher Bilder auf einer gemeinsamen Teilmenge der visuel-
welcher eine visuelle Beschreibung im nächsten Schritt her- len Wörter und visuellen Phrasen basiert. Wir extrahieren
geleitet wird. daher die Gemeinsamkeiten zweier ähnlicher Bilder, indem
wir den Durchschnitt ihrer Histogramme gemäß der Formel
3.7 Visuelle Beschreibungen 5 bilden. Für jede Bildgruppe aus der Menge der Bildgrup-
Als nächstes muss die rechte Seite des visuellen Wörter- pen werden paarweise Durchschnitte der Trainingsbilder aus
buchs, die Seite der visuellen Beschreibungen, bestimmt wer- der Bildgruppe berechnet. Die visuelle Beschreibung besteht
den. Wir betrachten einen Eintrag, also einen Term, des vi- dann aus allen gebildeten Durchschnitten, d.h. jeder Durch-
suellen Wörterbuchs und die ihm zugehörige, im letzten Ab- schnitt dient bei der inhaltsbasierten Bildsuche als ein An-
schnitt bestimmte Menge von Bildgruppen. Es gibt mehrere fragebild und es finden mehrere Anfragen statt.
Möglichkeiten aus der Menge der Bildgruppen eine visuel- Wie bei der ersten visuellen Beschreibung, erhalten wir
le Beschreibung abzuleiten. Im Folgenden stellen wir einige auch hier eine Menge von einzelnen Ergebnissen und müssen
Arten von visuellen Beschreibungen in der Reihenfolge der diese zu einem Endergebnis berechnen. Wir wenden dazu die
eigenen Entwicklung und Untersuchung vor. drei beschriebenen Strategien an (Durchschnitte-BesterScore,
Durchschnitte-MaxÄhnlichkeit, Durchschnitte-Durchschnitts-
3.7.1 Alle Bilder Rank ).
Die erste und einfachste Methode eine visuelle Beschrei-
bung anzugeben ist, die Bildgruppen zu vereinigen und die 3.7.3 Bestes Bild
so erhaltene Menge an Trainingsbildern als Repräsentation Die bisher vorgestellten visuellen Beschreibungen sind pro-
des Terms zu verwenden. Bei der Bildsuche zu diesem Term blematisch: sie bestehen aus mehreren Anfrageinstanzen und
finden dann mehrere inhaltsbasierte Bildsuchen statt, indem weisen daher eine zeitaufwändige Anfrageverarbeitung auf.
jedes dieser Trainingsbilder als Anfragebild verwendet wird. Eine kompakte Darstellung der visuellen Beschreibung, d.h.
Bei dieser multiple-Instanzen visuellen Beschreibung erhal- eine Darstellung, die aus nur einer Anfrageinstanz besteht,
ten wir jedoch zunächst für jedes Anfragebild ein Ranking wäre von Vorteil. Eine einfache Lösung wiederum ist, das
von Bildern als Ergebnis. Es stellt sich also die Frage, wie beste Trainingsbild aus den Trainingsbildern eines Eintrags
das Endergebnis aus den Ergebnissen der einzelnen Anfragen als visuelle Beschreibung zu wählen. Um das beste Trai-
berechnet werden soll. Für die Angabe des Endergebnisses ningsbild zu bestimmen, vereinigen wir die Bildgruppen und
werden drei Strategien untersucht. stellen mit jedem Bild aus der Vereinigung eine Anfrage an
Bei der ersten Strategie wird das beste Resultat als End- die ganze Trainingsmenge. Mit einem Qualitätsmaß wird je-
ergebnis ausgegeben. Dazu wird die Güte der einzelnen Er- des Anfrageergebnis bewertet und das Anfragebild mit der
gebnisse mittels einem Qualitätsmaß berechnet. Eine sol- besten Güte, d.h. mit dem höchsten Score des Ergebnisses
che Berechnung erfordert allerdings zu wissen, welche Bil- für die visuelle Beschreibung übernommen (BestesBild ). Das
der des Ergebnisrankings für den Anfrageterm relevant und gewählte Trainingsbild kann jedoch ein lokales Optimum
welche irrelevant sind. Dafür müssten die Bilder in der Bild- darstellen und in der Suche auf der Bilddatenbank versa-
datenbank kategorisiert oder mit Termen versehen sein. Von gen. Weiterhin zeigt sich auch hier das Problem, dass keine
diesem Fall kann man in der Realität jedoch nicht ausge- Charakteristika von Objekten aus den ähnlichen Trainings-
hen. Diese Strategie ist auf einer Bilddatenbank also prak- bildern gelernt werden.
tisch nicht anwendbar, lediglich auf einer vorbereiteten Test-
menge. Aus Gründen des Performance Vergleichs wird diese 3.7.4 Durchschnitte kompakt - Anzahl
trotzdem aufgeführt und untersucht. Um eine kompakte Darstellung der visuellen Beschreibung
(AlleBilder-BesterScore) zu erhalten, die die gemeinsamen Charakteristika des Ob-
Jedes Bild aus der Bilddatenbank hat für jedes Anfrage- jektes ausdrückt, kommen wir auf das Konzept der Durch-

106
schnitte zurück. Wie in der zweiten visuellen Beschreibung wichten multipliziert: jedes Bin zu einem visuellem Wort vw
beschrieben, bilden wir zunächst Durchschnitte der paar- mit g IDF (vw) und jedes Bin zu einer visuelle Phrase vp mit
weisen Trainingsbilder pro jede Bildgruppe. Wir nehmen an, g IDF (vp). (DurchschnitteKompakt-TFIDF )
dass visuelle Wörter und visuelle Phrasen, die in den meisten
Durchschnitten auftreten, für das Objekt relevanter sind, als 3.7.8 Durchschnitte kompakt - Gewichtetes TFIDF
die, die seltener vorkommen. Wir erstellen daher eine visuel- Die Gewichte aus den beiden letzten visuellen Beschrei-
le Beschreibung aus zwei Histogrammen, der visuellen Wör- bungen werden im Folgenden kombiniert. Wir erstellen wie-
ter und der visuellen Phrasen, und zählen für jedes visuelle der die Summe aller Durchschnitte und gewichten dann je-
Wort und jede visuelle Phrase, in wievielen Durchschnitten den Häufigkeitswert des jeweiligen visuellen Wortes vw mit
es vorkommt. Diese absolute Durchschnitts-Frequenz bildet g IDF (vw), und jeden Häufigkeitswert einer visuellen Phrase
dann den Wert des jeweiligen visuellen Wortes oder der visu- vp mit dem kombinierten Gewicht:
ellen Phrase in den Histogrammen (DurchschnitteKompakt-
#B(t, vp) #B
Anzahl ). g V P −IDF (t, vp) := · log (8)
#B(vp) #B(vp)
3.7.5 Durchschnitte kompakt - Summe (DurchschnitteKompakt-GewichtetesTFIDF )
Um die Wichtigkeit jedes visuellen Wortes und jeder vi-
suellen Phrase innerhalb eines Durchschnitts zu betonen, 4. EVALUATION
wird anstatt der Anzahl der Durchschnitte eine Summe der
Durchschnitte gebildet. Genaugenommen werden wieder zwei 4.1 Trainings- und Testmenge
Histogramme der visuellen Wörter und visuellen Phrasen
erstellt und jedes Bin des Histogramms ist die Summe der Für die Test- und Trainingsmenge werden Bilder und An-
entsprechenden Bins der Histogramme aller Durchschnitte. notationen zu 50 Objekten aus dem World Wide Web gesam-
(DurchschnitteKompakt-Summe) melt. Für jedes der 50 Terme werden jeweils 10 Trainings-
bilder und ca. 30 Testbilder heruntergeladen. Als Objekte
3.7.6 Durchschnitte kompakt - Gewichtete Summe werden Tiere, Früchte, Gegenstände, Gebäude und Symbole
Der nächsten visuellen Beschreibung liegt die folgende Fra- gewählt. Fast alle Bilder liegen in einer Auflösung von ca.
ge zugrunde: gibt es visuelle Phrasen, die für ein Objekt 400×400 Pixel vor.
spezifisch sind, d.h. ist der Anteil der Bilder zu einem Term 4.2 Testdurchführung
und einer visuellen Phrase an allen Bildern, die diese visuelle
Phrase beinhalten, besonders hoch? Wir berechnen für jede Die vorgestellten visuellen Beschreibungen werden hin-
visuelle Phrase vp und dem zugrundeliegenden Term t des sichtlich der Qualität des Retrievals und der Anfrageeffizi-
Eintrags das Gewicht: enz analysiert, um so aus den daraus gewonnenen Ergebnis-
sen und Erkenntnissen die beste für das visuelle Wörterbuch
#B(t, vp) auswählen zu können. Dazu wird für jede visuelle Beschrei-
g V P (t, vp) := (6)
#B(vp) bung zuerst ein visuelles Wörterbuch aus der Trainingsmen-
ge gelernt und dieses dann in der Anwendung der Bildsuche
mit B(t, vp) stellt die Menge aller Trainingsbilder zu dem eingelesen. Für jeden Eintrag des visuellen Wörterbuchs, al-
Term t, d.h. die Vereinigung der Bilder aus den Bildgruppen so jeden Term (im jeweiligen Kontext), wird eine Anfrage auf
zu t, die die visuelle Phrase vp beinhalten, dar. Wir überneh- der Testmenge durchgeführt, dabei die Anfragezeit gemes-
men die zuvor definierte visuelle Beschreibung Durchschnitte- sen und schließlich aus dem erhaltenen Ranking-Ergebnis die
Kompakt-Summe und gewichten den Häufigkeitswert jeder Güte des Ergebnisses mit dem Maß Score, der im Folgenden
visuellen Phrase vp mit g V P (t, vp). (DurchschnitteKompakt- erläutert wird, berechnet. Um die visuellen Beschreibungen
GewichteteSumme) letztlich miteinander vergleichen zu können, wird für jede
3.7.7 Durchschnitte kompakt - TFIDF visuelle Beschreibung, also jedes Wörterbuch, das arithme-
tische Mittel der Anfragezeiten und der Scores über allen
Für die folgende visuelle Beschreibung übernehmen wir Einträgen gebildet.
die Idee der tf-idf Gewichtung für Dokumentvektoren. Mit
Hilfe der inversen Dokumenthäufigkeit eines Terms, hier in- 4.3 Bewertungsmaß
verse Bildhäufigkeit eines visuellen Wortes oder einer visu- In [6] wird für die Evaluation des Retrieval-Systems ein
ellen Phrase, wollen wir die Häufigkeiten der visuellen Wör- Maß Score benutzt. Score bewertet die Top-20 zurückgege-
ter und visuellen Phrasen, die in sehr vielen Trainingsbil- benen Bilder, indem jedes relevante Bild entsprechend des
dern vorkommen, schwächer, und die die seltener vorkom- Intervalls, in dem seine Rankingposition liegt, gewichtet wird,
men, stärker gewichten. Analog zum Text-Retrieval bilden die Gewichte aller relevanten Bilder summiert und schließ-
wir also eine Summe aller Durchschnitte, wie in der visu- lich auf den Bereich [0, 1] normalisiert werden. Die Auto-
ellen Beschreibung DurchschnitteKompakt-Summe beschrie- ren des Papers begründen, dass die meisten Benutzer nur
ben, berechnen dann für jedes visuelle Wort vw und jede die ersten beiden Ergebnisseiten, mit jeweils 10 Bildern pro
visuelle Phrase vp das idf Gewicht: Seite, betrachten und daher nur die Top-20 der zurückge-
#B gebenen Bilder zu einer Anfrage die relevantesten für den
g IDF (vw) := log (7) Benutzer sind. Wir stimmen mit der Argumentation über-
#B(vw)
ein und übernehmen dieses Maß für die Qualitätsbewertung
wobei B ist die Menge aller Trainingsbilder und B(vw) die der visuellen Beschreibungen.
Menge der Trainingsbilder, die das visuelle Wort vw bein-
halten. Analog für vp. Die aus der Summe der Durchschnit-
te entstandenen Histogramme werden dann mit diesen Ge-

107
4.4 Testergebnisse 0,70

0,60 0,59
0,57
Als Testergebnis erhalten wir die zwei Diagramme in Ab- 0,55 0,55

durchschnittlicher Score
0,53 0,54
0,53

bildung 2. Das obere Diagramm stellt den durchschnittli- 0,50 0,48 0,47
0,42

chen Score und das untere die durchschnittliche Anfrage- 0,40
0,36
0,38

zeit für jede visuelle Beschreibung dar. Die besten durch- 0,30

schnittlichen Scores erreichen die visuellen Beschreibungen 0,20

AlleBilder-BesterScore, Durchschnitte-BesterScore, die aus 0,10

multiplen Instanzen und der Endergebnis-Strategie Bester- 0,00

Score bestehen. Dabei sieht man, dass die auf Durchschnit- visuelle Beschreibung
ten basierende visuelle Beschreibung ein besseres Retrieval- 250,0

Ergebnis liefert, die durchschnittliche Anfragezeit sich gleich-

durchschnittliche Zeit (Sek)
200,0 191,4 191,4 191,4
zeitig aber verdoppelt. Wie bereits erwähnt ist diese End-
ergebnis-Strategie nur ein theoretisches Modell. Die zwei 150,0

praktisch realisierbaren Endergebnis-Strategien verhalten 101,0 101,0 101,0

sich je nach visueller Beschreibung unterschiedlich: Max- 100,0

Ähnlichkeit schneidet bei AlleBilder besser und bei Durch- 50,0

schnitte schlechter ab als DurchschnittsRank. Diese multiple- 9,0 8,3 8,3 11,8 8,2 11,7

Instanzen visuellen Beschreibungen mit den Strategien Ma- 0,0

visuelle Beschreibung
xÄhnlichkeit und DurchschnittsRank werden jedoch von den
AlleBilder-BesterScore
eine-Instanz, auf Durchschnitten basierenden visuellen Be- AlleBilder-MaxÄhnlichkeit
AlleBilder-DurchschnittsRank
schreibungen bzgl. dem durchschnittlichen Score deutlich Durchschnitte-BesterScore
übertroffen. Von den besten multiple-Instanzen visuellen Be- Durchschnitte-MaxÄhnlichkeit
Durchschnitte-DurchschnittsRank
schreibung AlleBilder-MaxÄhnlichkeit, Durchschnitte-Durch- BestesBild
schnittsRank zu den besten eine-Instanz, DurchschnitteKom- DurchschnitteKompakt-Anzahl
DurchschnitteKompakt-Summe
pakt-GewichteteSumme und DurchschnitteKompakt-TFIDF DurchschnitteKompakt-GewichteteSumme
haben wir einen Zuwachs des durchschnittlichen Scores von DurchschnitteKompakt-TFIDF
DurchschnitteKompakt-GewichtetesTFIDF
0.07 und die Anfragezeit sinkt dabei drastisch um das 9-
bzw. 17-fache. Die eine-Instanz, auf Durchschnitten basie-
renden visuellen Beschreibungen weisen einen deutlich bes- Abbildung 2: Durchschnittlicher Score und durch-
seren, um ca. 0.12 höheren, durchschnittlichen Score gegen- schnittliche Anfragezeit der visuellen Beschreibun-
über BestesBild auf, sind untereinander mit Unterschieden gen
von bis 0.02 aber relativ ähnlich. Die besten unter ihnen,
DurchschnitteKompakt-GewichteteSumme und Durchschnit-
teKompakt-TFIDF liefern zudem den besten durchschnitt- 6. LITERATUR
lichen Score unter allen praktisch realisierbaren visuellen [1] C. Hentschel, S. Stober, A. Nürnberger, and
Beschreibungen. DurchschnitteKompakt-TFIDF maximiert M. Detyniecki. Adaptive multimedial retrieval:
den durchschnittlichen Score und minimiert gleichzeitig die Retrieval, user, and semantics. chapter Automatic
Anfragezeit, ist daher am besten für das visuelle Wörterbuch Image Annotation Using a Visual Dictionary Based on
geeignet. Reliable Image Segmentation, pages 45–56.
Springer-Verlag, Berlin, Heidelberg, 2008.
5. SCHLUSSFOLGERUNG UND [2] D. G. Lowe. Distinctive image features from
scale-invariant keypoints. Int. J. Comput. Vision,
AUSBLICK 60:91–110, November 2004.
Von den gestellten Anforderungen an das visuelle Wörter- [3] P. A. Pantel. Clustering by Committee. PhD thesis,
buch werden die Grundform der Terme mit dem Stemming- University of Alberta, 2003.
Schritt in der Aufbereitungsphase und die Polysemie mit [4] M. Wang, K. Yang, X.-S. Hua, and H.-J. Zhang. Visual
dem CBC Clustering, dem Kontextvektor und den damit tag dictionary: interpreting tags with visual words. In
verbundenen Mehreinträgen eines Terms, realisiert. Mit der Proceedings of the 1st workshop on Web-scale
erwähnten besten visuellen Beschreibung ist das Erfassen multimedia corpus, WSMC ’09, pages 1–8, New York,
der Charakteristika des Objektes mit dem Konzept der NY, USA, 2009. ACM.
Durchschnitte, die Kompaktheit und Effizienz mit der eine- [5] S. Zhang, Q. Tian, G. Hua, Q. Huang, and S. Li.
Instanz Darstellung und die Kompatibilität zu der Bildda- Descriptive visual words and visual phrases for image
tenbank mit den Histogrammen der visuellen Wörter und applications. In Proceedings of the seventeen ACM
Phrasen erfüllt. Zukünftig, um die Anfragezeiten der eine- international conference on Multimedia, MM ’09, pages
Instanz visuellen Beschreibungen von ca. 12 Sekunden wei- 75–84, New York, NY, USA, 2009. ACM.
ter zu reduzieren, kann man geeignete effiziente Indexstruk-
[6] Q.-F. Zheng and W. Gao. Constructing visual phrases
turen und Algorithmen für die Bildsuche untersuchen und
for effective and efficient object-based image retrieval.
einsetzen. Um die Qualität des Retrievals weiter zu verbes-
ACM Trans. Multimedia Comput. Commun. Appl.,
sern, könnte man versuchen auch Farbeigenschaften und ih-
5:7:1–7:19, October 2008.
re Relevanz für Objekte miteinzubeziehen, d.h. diese für die
visuelle Beschreibung zu lernen und in der Bildsuche einzu-
setzen.

108
A feedback guided interface for
elastic computing

Sebastian Schönherr1,2,∗ , Lukas Forer1,2,∗ , Hansi Weißensteiner1,2 ,
Florian Kronenberg2 , Günther Specht1 , Anita Kloss-Brandstätter2
∗
contributed equally
1
Databases and Information Systems
Institute of Computer Science
University of Innsbruck, Austria
sebastian.schoenherr@uibk.ac.at
2
Division of Genetic Epidemiology
Department of Medical Genetics, Molecular and Clinical Pharmacology
Innsbruck Medical University, Austria
lukas.forer@i-med.ac.at

ABSTRACT 1. INTRODUCTION
Computer Science plays an important role in today’s Genet- In recent years Computer Science became an essential
ics. New sequencing methods produce an enormous amount part in the field of Genetics. Especially through the advent
of data, pushing genetic laboratories to storage and com- of Next Generation Sequencing (NGS), whereby a human
putational limits. New approaches are needed to eliminate genome (3 billion base pairs/chromosome set) can be se-
these shortcomings and provide possibilities to reproduce quenced in acceptable time, the amount of data is growing
current solutions and algorithms in the area of Bioinformat- significantly, exceeding all known dimensions in Genetics.
ics. In this paper a system is proposed which simplifies the Figure 1 shows a comparison between the reducing DNA se-
access to computational resources and associated compu- quencing costs and Moore’s law. Moore’s law is used as a
tational models of cluster architectures, assists end users in reference to show that computer hardware can currently not
executing and monitoring developed algorithms via a web in- keeping pace with the progress in DNA sequencing. Further-
terface and provides an interface to add future developments more, the amount of complete sequenced individuals is grow-
or any kind of programs. We demonstrate on existing algo- ing exponentially from year to year [11], making new models
rithms how an integretation can be done with little effort, necessary. For instance, to store the data of one complete
making it especially useful for the evaluation and simplified human DNA (Deoxyribonucleic acid) in raw format with 30-
usage of current algorithms. times coverage, 30 terabytes of data is produced.
In the area of Copy Number Variations, a possible cause
Categories and Subject Descriptors for many complex genetic disorders, high throughput algo-
rithms are needed to process and analyze several hundred
H.4 [Information Systems Applications]: Miscellaneous gigabytes of raw input data [16] [6], yielding to a wall time
of up to one week for a typical study size [18]. This remark-
General Terms able increase of data and time causes genetic departments
to consider new ways of importing and storing data as well
Distributed System, Experimentation, Application
as improving performance of current algorithms.
Cluster architectures in connection with associated mod-
Keywords els have the potential to solve this issue, but especially for
Bioinformatics, Hadoop, MapReduce, Cloud computing small departments often gainless and unaffordable. Using
clusters on demand, also referred to Infrastructure as a Ser-
vice (IaaS), builds therefore a good opportunity to circle
these issues. To capitalize the full potential of IaaS, a com-
bination with distribution models like MapReduce [5] is for
specific applications both possible and obvious. Several iso-
lated applications [9], [10], [14] already exist using a dis-
tributed approach for storing data and processing algorithms.
But since no general system is given to execute those solu-
tions, an evaluation and reproducibility is often not feasible.
Scientists need to setup a cluster on their own or using a
provided remote cluster architecture to evaluate a published
23rd GI-Workshop on Foundations of Databases (Grundlagen von Daten- algorithm, being both time wasting and insecure for sensi-
banken), 31.05.2011 - 03.06.2011, Obergurgl, Austria. tive data.
Copyright is held by the author/owner(s).

109
95.263.072 $ Moore’s law
Cost per Genome
100.000.000 $

13.801.124 $

10.000.000 $
Cost per Genome in $ (log scale)

advent of NGS

11.732.535 $

3.063.820 $
1.000.000 $

154.714 $
100.000 $

29.092 $

10.000 $
Sept01 Sept02 Oct03 Apr04 Oct04 Apr05 Oct05 Apr06 Okt06 Apr07 Oct07 Apr08 Oct08 Apr09 Oct09 Apr10 Oct10
Mar02 Mar03 Jan04 Jul04 Jan05 Jul05 Jan06 Jul06 Jan07 Jul07 Jan08 Jul08 Jan09 Jul09 Jan10 Jul10

Date

Figure 1: Comparision of DNA sequencing cost with Moore’s law; Data from [17]

In this paper we present the idea to build an integrated by step and distributes only whole jobs among the cluster.
system for scientists in the area of Bioinformatics to (1) get
access to distributed cluster architectures and execute ex-
isting algorithms, (2) build maintainable and reproducible
3. ARCHITECTURE
workflows and (3) provide an interface to add future de- A modular architecture is suggested in Figure 2, separat-
velopments or any kind of programs to the system without ing the process of instantiate and set up a cluster (Cloud-
detailed IT knowledge. The reminder of this paper is struc- gene) from the process of monitor and run a program (EMI ).
tured as follows: Section 2 gives an overview of the related Based on open source frameworks like Apache Hadoop [2]
work. In section 3 the architecture of our suggested system and Apache Whirr [3], we implemented a prototype to ver-
is explained in more detail with potential case studies in sec- ify our approach. The user utilizes Cloudgene to set up a
tion 4. Section 5 shows necessary future work and the paper cluster architecture to his needs through XML configuration
ends with a conclusion in section 6. files. This allows adding new algorithms dynamically with-
out digging into Cloudgene to deep. A fully operable and
customized cluster is then provided, including all necessary
2. RELATED WORK user data. In a subsequent step EMI (Elastic MapReduce
Cluster solutions guided by a web-interface to execute dis- Interface) is launched on the master node of the cluster.
tributed algorithms like Myrna [9], CrossBow [10] or Cloud- EMI can be seen as an abstraction of the underlying system
Burst [13] already exist. Unfortunately, the user must login architecture from the end user, lies on top of the integrated
to the Amazon Web Services (AWS) console to monitor the programs and allows the user to communicate and interact
progress of executed jobs or to shutdown the cluster after with the cluster as well as receive feedback of currently exe-
execution. Additionaly, a data storage in S3 buckets is of- cuted workflows (see Figure 3). EMI can be disabled in case
ten required and a custom web interface needs to be imple- a program already includes an interface by its own, yield-
mented for every single approach. ing to the most general approach to execute any kind of
Galaxy [7] is a software system which facilitates the creation, developed solution. Both parts can be operated separately
execution and maintainability of pipelines in a fast and user via configuration files with clear defined input and output
friendly way. The platform itself executes the scripts and the variables.
user has the possibility to monitor the progress. Galaxy’s ex-
tension CloudMan [1] provides the possibility to install and 3.1 Cloudgene
execute Galaxy on Amazon EC2 (Elastic Compute Cloud). Amazon provides with its EC2 the currently most devel-
However, the user needs to start the master node manually oped service for public clouds in the area of IaaS. Cloudgene
by using the AWS console and Galaxy does not provide a supports besides EC2 also Rackspace [12] to provide access
native support of Hadoop programs, executes modules step to cluster infrastructure. As mentioned in the introduction

110
a combination with MapReduce is useful: In this paradigm,
the master node chops up data into chunks and distributes
it over all active worker nodes (map step). Subsequently,
the master node reassigns coherent map results to worker
nodes (sort and shuffle) to calculate the final result (reduce
Custom Programs
step). For this project Apache Hadoop’s implementation of
Hadoop EMI CloudBurst ... MapReduce and its distributed file system (HDFS) are used.
Using Whirr as a connector, Cloudgene is able to instance
a full working EC2 or Rackspace cluster for end users with
various defined properties and copies the necessary program
data and configuration files to the cluster. Examples for de-
fined variables could be the desired image, amount and kind
of instances, HDFS options, MapReduce properties and the
user’s SSH public key. Amazon already provides several pre-
Web Container
Cloudgene

defined images for all sorts of use cases, which can be be
Whirr
used with Cloudgene (e.g. http://www.cloudbiolinux.com).
Restlet ExtJS Cloudgene takes over the customization of predefined images
and installs services like MapReduce, in our case included in
Cloudera’s distribution of Apache Hadoop [4]. The cluster
configuration is defined in an XML-based file format, includ-
ing all necessary information for a successful cluster boot.
Cloudgene routinely checks if new configurations are added
XML Access and offers the possibility to execute newly defined programs.
Config Manager Since EC2 is using a pay-per-use model, end users must
provide their Amazon Access ID and Secret Key, which is
transferred via Cloudgene to Amazon in a secure way. Alter-
natively, Cloudgene can also be launched on every machine
Figure 2: Architecture of the suggested system in-
having Java installed, eliminating the transfer via our server.
cluding Cloudgene and EMI
Cloudgene solves one important issue and gives genetic de-
partments access to computational power and storage. A
still unresolved problem is the lack of a graphical user inter-
face to control jobs deriving from command line based ap-
plications. Especially the need of putting enormous amount
of local data into HDFS has to be considered. To overcome
these shortcomings, a user interface (EMI) was designed.

3.2 Efficient MapReduce Interface (EMI)
Running Hadoop MapReduce programs on a cluster re-
quires the execution of several non-trivial steps: First, the
user must upload all input data to the master node, copy the
data into the proprietary HDFS, run the Hadoop MapRe-
duce job, export the results from the filesystem and finally
download them to the local workstation. For researchers
without expertise in Computer Science these tasks turns out
to be very challenging. For this purpose we developed EMI
which facilitates the execution, monitoring and evaluation
of MapReduce jobs. A web interface, which runs on the
master node of the cluster, enables the execution of jobs
through well-structured wizards and setting all required pa-
rameters step by step. As several studies have shown, repro-
ducibility of data analysis is one of the greatest problems in
biomedical publications [15]. For this purpose the execution
of a MapReduce job with its parameters and input data is
logged, thus a fast comparison of experiments with differ-
ent settings is possible. Moreover, the user always has the
full control over an execution of each job and can monitor
Figure 3: Workflow of the system including Cloud- its current progress and status. All running jobs are listed
gene and EMI whereby the progress of the map and reduce phase are dis-
played separately. Since using resources from Amazon costs
money, EMI informs the user about the uptime of the clus-
ter and the number of rented instances (Figure 4).
The modular architecture enables a fast integration of any
Hadoop job which could be normally executed through the

111
command line. A simple and clear XML configuration file
describes the input and output parameters of the program
and contains other relevant information that are necessary CloudBurst
to start the job (see Section 4). In addition to this file, a zip
archive file exists which contains all software relevant data hadoop jar emi/cloudburst/CloudBurst.jar \
(e.g. jar file, meta data, configuration files). With those $input1 $input2 $output1 36 36 3 0 1 240 \
files, EMI automatically generates a web interface in which 48 24 24 128 16
the possibility to set each defined parameter through wiz-
ards and to run the defined job by a single click is provided.
As mentioned earlier, all input data must be put into the ro-
bust and fault-tolerant HDFS. As this process is very time- Reference Genome
intensive an error prone, EMI supports the user by provid- data/cloudburst/s_suis.br
ing a wizard which enables the import of data from different
sources (FTP, HTTP, Amazon S3 buckets or local file up-
loads). In addition, files defined as output parameters can
be exported and downloaded as a zip archive or can be up-
loaded to Amazon S3 or FTP servers. EMI supports a multi- Reads
user mode whereby all data by a certain user are password data/cloudburst/100k.br
protected and executed jobs are scheduled through a queue
system. Overall, EMI is fully independent from Cloudgene
and can be installed on a local Hadoop cluster too.

4. CASE STUDIES Results
data/cloudburst/results
In this section we explain how new programs can be in-

tegrated into Cloudgene and EMI. Based on two different

biomedical software solutions we demonstrate the diversity

and simplicity of our approach.

4.1 CloudBurst After the XML file is uploaded to the Cloudgene server,
CloudBurst is a parallel read-mapping algorithm to map the user starts a web browser to (1) login to Cloudgene, (2)
NGS data to the human genome and other reference genomes start up a cluster preconfigured with CloudBurst and (3)
[13]. It is implemented as a MapReduce program using run and monitor jobs with EMI (Figure 4).
Hadoop and can be executed with the following command: Compared to a standard manual approach, this eliminates
error-prone and time-consuming tasks such as (1) setting up
hadoop jar emi/cloudburst/CloudBurst.jar \ a cluster and connecting via the command line onto the mas-
reference_genome reads results 36 36 3 0 1 240 \ ter node, (2) uploading and importing data into HDFS, (3)
48 24 24 128 16 exporting final results from HDFS and downloading them
and (4) executing and reproducing MapReduce jobs with
In order to execute CloudBurst we create a configuration
different configurations via a web interface. This shows,
file for Cloudgene which starts a Hadoop cluster on Amazon
that an easy integration can be done using a simple XML
EC2 with a standard Ubuntu Linux with open Hadoop ports
configuration, supporting and guiding researchers as far as
50030 and 50070. The corresponding XML has the following
possible.
structure:

4.2 HaploGrep
CloudBurst HaploGrep is a reliable algorithm implemented in a web
application to determine the haplogroup affiliation of thou-
the ports 80 (http) and 443 (https), therefore this ports are
marked as open. The configuration file for Cloudgene with
all requirements looks as follows:
As CloudBurst has no graphical user interface, we install
EMI on the Amazon EC2 cluster and use it for user inter-
actions. For this purpose the command above with its ar- Haplogrep
guments must be translated into the following configuration
file: system. Its modular architecture enables a fast integration
of any Hadoop job which could be only executed through
the command line. By hiding the low-level informatics, it is
After the cluster setup is finalized, Cloudgene returns a the ideal system for researchers without deeper knowledge in
web address which points to the installed instance of Hap- Computer Science. Moreover, our system is not constricted
loGrep. to the life sciences and can be used in nearly every applica-
tion range. Overall, it is a first approach in order to narrow
5. FUTURE WORK the gap between cloud-computing and usability.
One of the biggest advantages of IaaS is the changable
amount of needed datanodes on demand. Thus, the next 7. ACKNOWLEDGMENTS
version of Cloudgene is conceived to provide functions for
Sebastian Schönherr was supported by a scholarship from
adding and removing instances during runtime. Currently,
the University of Innsbruck (Doktoratsstipendium aus der
clusters started with Cloudgene are not data persistent which
Nachwuchsförderung, MIP10/2009/3). Hansi Weißensteiner
yields to a data loss after a shutdown is fulfilled. For this
was supported by a scholarship from the Autonomous Pro-
purpose we plan to store all results on persistent Amazon
vince of Bozen/Bolzano (South Tyrol). The project was
EBS volumes. Furthermore, a simple user interface for Ha-
supported by the Amazon Research Grant. We thank the
doop is not only useful for the end user but also for devel-
Whirr Mailinglist especially Tom White and Andrei Savu
opers. It supports them during the whole prototyping and
for their assistance.
testing process of novel MapReduce algorithms by highlight-
ing performance bottlenecks. Thus, we plan to implement
time measurements of the map, reduce and shuffle phase 8. REFERENCES
and to visualize them in an intuitive chart. Additionally, [1] E. Afgan, D. Baker, N. Coraor, B. Chapman,
Hadoop plans in its next generation approach to support al- A. Nekrutenko, and J. Taylor. Galaxy CloudMan:
ternate programming paradigms to MapReduce, what is par- delivering cloud compute clusters. BMC
ticularly important for applications (e.g. K-Means) where Bioinformatics, 11 Suppl 12:S4, 2010.
custom frameworks out-perform MapReduce by an order of [2] Apache Hadoop. http://hadoop.apache.org.
magnitude. [3] Apache Whirr. http://incubator.apache.org/whirr/.
[4] Cloudera. http://www.cloudera.com/.
6. CONCLUSION [5] J. Dean and S. Ghemawat. MapReduce: simplified
We presented a software system for running and maintain- data processing on large clusters. In OSDI’04:
ing elastic computer clusters. Our approach combines the Proceedings of the 6th conference on Symposium on
individual steps of setting up a cluster into a user-friendly Opearting Systems Design & Implementation, pages

113
10–10, Berkeley, CA, USA, 2004. USENIX
Association.
[6] L. Forer, S. Schönherr, H. Weißensteiner, F. Haider,
T. Kluckner, C. Gieger, H. E. Wichmann, G. Specht,
F. Kronenberg, and A. Kloss-Brandstätter. CONAN:
copy number variation analysis software for
genome-wide association studies. BMC
Bioinformatics, 11:318, 2010.
[7] J. Goecks, A. Nekrutenko, J. Taylor, E. Afgan,
G. Ananda, D. Baker, D. Blankenberg,
R. Chakrabarty, N. Coraor, J. Goecks, G. Von Kuster,
R. Lazarus, K. Li, A. Nekrutenko, J. Taylor, and
K. Vincent. Galaxy: a comprehensive approach for
supporting accessible, reproducible, and transparent
computational research in the life sciences. Genome
Biol., 11:R86, 2010.
[8] A. Kloss-Brandstättter, D. Pacher, S. Schönherr,
H. Weißensteiner, R. Binna, G. Specht, and
F. Kronenberg. HaploGrep: a fast and reliable
algorithm for automatic classification of mitochondrial
DNA haplogroups. Hum. Mutat., 32:25–32, Jan 2011.
[9] B. Langmead, K. D. Hansen, and J. T. Leek.
Cloud-scale RNA-sequencing differential expression
analysis with Myrna. Genome Biol., 11:R83, 2010.
[10] B. Langmead, M. C. Schatz, J. Lin, M. Pop, and S. L.
Salzberg. Searching for SNPs with cloud computing.
Genome Biol., 10:R134, 2009.
[11] R. E. Mills et al. Mapping copy number variation by
population-scale genome sequencing. Nature,
470:59–65, Feb 2011.
[12] Rackspace. http://www.rackspace.com.
[13] M. C. Schatz. CloudBurst: highly sensitive read
mapping with MapReduce. Bioinformatics,
25:1363–1369, Jun 2009.
[14] M. C. Schatz. The missing graphical user interface for
genomics. Genome Biol., 11:128, 2010.
[15] L. Shi et al. The balance of reproducibility, sensitivity,
and specificity of lists of differentially expressed genes
in microarray studies. BMC Bioinformatics, 9 Suppl
9:S10, 2008.
[16] K. Wang, M. Li, D. Hadley, R. Liu, J. Glessner,
S. F. A. Grant, H. Hakonarson, and M. Bucan.
PennCNV: An integrated hidden Markov model
designed for high-resolution copy number variation
detection in whole-genome SNP genotyping data.
Genome Research, 17(11):1665–1674, Nov. 2007.
[17] Wetterstrand, K. A. DNA Sequencing Costs: Data
from the NHGRI Large-Scale Genome Sequencing
Program Available:
http://www.genome.gov/sequencingcosts; Accessed
04/11/11.
[18] H. E. Wichmann, C. Gieger, and T. Illig.
KORA-gen–resource for population genetics, controls
and a broad spectrum of disease phenotypes.
Gesundheitswesen, 67 Suppl 1:26–30, Aug 2005.

114