Das PArADISE-Projekt
                Big-Data-Analysen für die Entwicklung von Assistenzsystemen
                                                       ∗
                                   (Extended Abstract)
                           Andreas Heuer                                                     Holger Meyer
               Lehrstuhl DBIS, Institut für Informatik                           Lehrstuhl DBIS, Institut für Informatik
                       Universität Rostock                                               Universität Rostock
                  18051 Rostock, Deutschland                                        18051 Rostock, Deutschland
              heuer@informatik.uni-rostock.de                                    hme@informatik.uni-rostock.de

ZUSAMMENFASSUNG                                                             rung von Situationen, Handlungen und Intentionen der Per-
Bei der Erforschung und systematischen Entwicklung von                      sonen aus großen Datenmengen mittels Machine-Learning-
Assistenzsystemen fallen eine große Menge von Sensorda-                     Methoden entsprechende Modelle abgeleitet werden: ein Per-
ten an, aus denen Situationen, Handlungen und Intentio-                     formance-Problem bei einer Big-Data-Analytics-Fragestel-
nen der vom Assistenzsystem unterstützten Personen ab-                     lung.
geschätzt (modelliert) werden müssen. Neben Privatheitsa-                    Da Personen beobachtet werden, müssen auch Privatheits-
spekten, die bereits während der Phase der Modellbildung                   aspekte bereits während der Phase der Modellbildung be-
berücksichtigt werden müssen, sind die Performance des                    rücksichtigt werden, um diese bei der konkreten Konstrukti-
Analysesystems sowie die Provenance (Rückverfolgbarkeit                    on des Assistenzsystems automatisch in den Systementwurf
von Modellierungsentscheidungen) und die Preservation (die                  zu integrieren. Somit gibt es für die Datenbankforscher unter
langfristige Aufbewahrung der Forschungsdaten) Ziele un-                    anderem die Teilprobleme der performanten Berechnung der
serer Projekte in diesem Bereich. Speziell sollen im Pro-                   Modelle als auch der Wahrung der Privatheitsansprüche des
jekt PArADISE die Privatheitsaspekte und die Performan-                     Nutzers, die zu lösen sind und die in einer langfristigen Pro-
ce des Systems berücksichtigt werden. In einem studenti-                   jektgruppe des Datenbanklehrstuhls angegangen werden: im
schen Projekt wurde innerhalb einer neuen experimentellen                   Projekt PArADISE (Privacy AwaRe Assistive Distributed
Lehrveranstaltung im reformierten Bachelor- und Master-                     Information System Environment) werden effiiziente Tech-
Studiengang Informatik an der Universität Rostock eine Sy-                 niken zur Auswertung von großen Mengen von Sensordaten
stemplattform für eigene Entwicklungen geschaffen, die auf                 entwickelt, die definierte Privatheitsansprüche der späteren
Basis von klassischen zeilenorientierten Datenbanksystemen,                 Nutzer per Systemkonstruktion erfüllen.
aber auch spaltenorientierten und hauptspeicheroptimierten                     Während wir in [Heu15] ausführlicher auf die Verknüpfung
Systemen die Analyse der Sensordaten vornimmt und für                      der Aspekte Privatheit (Projekt PArADISE) und Prove-
eine effiziente, parallelisierte Verarbeitung vorbereitet. Ziel             nance (Projekt METIS) eingegangen sind, werden wir uns in
dieses Beitrages ist es, die Ergebnisse dieser studentischen                diesem Beitrag auf die beiden Schwerpunkte des PArADISE-
Projektgruppe vorzustellen, insbesondere die Erfahrungen                    Projektes konzentrieren, das ist neben der Privatheit die
mit den gewählten Plattformen PostgreSQL, DB2 BLU, Mo-                     Performance durch Parallelität und Verteilung.
netDB sowie R (als Analysesystem) zu präsentieren.
                                                                            2.   ASSISTENZSYSTEM-ENTWICKLUNG
1.   EINLEITUNG                                                                  ALS BIG-DATA-PROBLEM
   Ein Forschungsschwerpunkt am Institut für Informatik                       Um seine Assistenzaufgaben zu erfüllen, besteht ein As-
der Universität Rostock ist die Erforschung und systema-                   sistenzsystem üblicherweise aus fünf Schichten [Heu15]. In
tische Entwicklung von Assistenzsystemen, etwa im DFG-                      der untersten Schicht werden ständig viele Daten (etwa von
Graduiertenkolleg MuSAMA. Da in Assistenzsystemen un-                       Sensoren) erzeugt, in der obersten Schicht wird aber nur im
terstützte Personen durch eine Vielzahl von Sensoren beob-                 Bedarfsfall (also eher selten) ein akustischer oder optischer
achtet werden, müssen bei der datengetriebenen Modellie-                   Hinweis, also eine geringe Datenmenge, ausgegeben.
∗Eine Langfassung dieses Artikels ist erhältlich als [HM15]                   In der mittleren der fünf Schichten müssen Sensordaten
unter http://www.ls-dbis.de/digbib/dbis-tr-cs-04-15.pdf                     gefiltert, erfasst, ausgewertet, verdichtet und teilweise lang-
                                                                            fristig verwaltet werden. Aufgrund der extrem großen Da-
                                                                            tenmenge (Big Data) muss die Verarbeitung verteilt er-
                                                                            folgen: teilweise eine Filterung und Verdichtung schon im
                                                                            Sensor, im nächsterreichbaren Prozessor (etwa im Fernseher
                                                                            oder im Smart Meter in der Wohnung) und im Notfall über
                                                                            das Internet in der Cloud. Neben Daten des Assistenzsys-
                                                                            tems müssen auch fremde Daten etwa über das Internet be-
                                                                            rücksichtigt werden, beispielsweise Wartungspläne beim Au-
27th GI-Workshop on Foundations of Databases (Grundlagen von Daten-
banken), 26.05.2015 - 29.05.2015, Magdeburg, Germany.                       to oder die elektronische Patientenakte beim Patienten. All-
Copyright is held by the author/owner(s).                                   gemein können hier natürlich auch die Daten sozialer Netz-

                                                                      102
werke, Kalenderdaten der Nutzer oder Wettervorhersage-                    Während die grundlegenden Forschungsarbeiten zu PArA-
Daten ausgewertet werden, falls sie für das Assistenzziel eine        DISE durch zwei Stipendiaten des Graduiertenkollegs Mu-
Rolle spielen.                                                         SAMA (Hannes Grunert und Dennis Marten) in 2013 und
   Eine Kernaufgabe bei der Erforschung und Entwicklung                2014 starteten, wurden die ersten softwaretechnischen Um-
ist die datengetriebene Modellierung von Situationen, Hand-            setzungen des Projektes durch eine studentische Projekt-
lungen und Intentionen, die eine Fragestellung im Forschungs-          gruppe im Wintersemester 2014/2015 vorgenommen. Hier
gebiet Big Data Analytics sind. Big Data [Mar15] ist ein               wurden dann verschiedene SQL-Anfragen und R-Programme
derzeitiges Hype-Thema nicht nur in der Informatik, das in             zur Lösung der grundlegenden Regressions- und Korrelati-
seiner technischen Ausprägung auf vielfältige Forschungs-            onsprobleme entwickelt, wobei als Vorgabe (zum Vergleich)
probleme führt. Technisch gesehen sind Big-Data-Probleme              folgende fünf Stufen realisiert werden sollten:
mit den vier V (Volume, Velocity, Variety, Veracity) charak-
                                                                            1. Umsetzung von Regression und Korrelation in Standard-
terisiert. Big Data Analytics ist nun das Problem komplexer
                                                                               SQL-92 (also per Hand, da keine Analysefunktionen
Analysen auf diesen Daten. In Datenbankbegriffen sind diese
                                                                               außer den klassischen Aggregatfunktionen wie COUNT,
komplexen Analysen iterative Anfrageprozesse.
                                                                               SUM und AVG vorhanden).

3.   DIE VIER P ZU DEN VIER V                                               2. Umsetzung in SQL:2003 mit den entsprechenden OLAP-
                                                                               Funktionen.
   Die Forschungsschwerpunkte der Rostocker Datenbank-
gruppe lassen sich in diesem Zusammenhang mit vier P                        3. Umsetzung mit rekursivem oder iterativem SQL, so-
charakterisieren, die im Folgenden näher erläutert werden                    fern in den Systemen möglich.
sollen.
   Forschung und Entwicklung: In der Forschungs- und                        4. Eine Integration der SQL-Anfrage mit R-Auswertungen.
Entwicklungsphase eines Assistenzsystems ist das vorrangi-                  5. Eine R-Auswertung pur ohne Kopplung an SQL.
ge Ziel, eine effiziente Modellbildung auf großen Datenmen-
gen zu unterstützen. Dabei sollte möglichst automatisch eine           Die in MuSAMA bisher verwendete Lösung mit Plain R
Selektion der Daten (Filterung wichtiger Sensordaten nach              wies dabei die schlechteste Effizienz auf, auch wenn man den
einfachen Merkmalen) und eine Projektion der Daten (die                Prozess des initialen Ladens der Daten in den Hauptspeicher
Beschränkung der großen Sensormenge auf wenige, beson-                herausrechnet. Unter den Varianten mit einer Analyse in rei-
ders aussagekräftige Sensoren) vorgenommen werden. Die                nem SQL-92 (Regression per Hand mit Aggregatfunktionen
nötige Effizienz in dieser Phase führt auf unser Forschungs-         umgesetzt) war die MonetDB-Lösung etwas besser als die
thema P3: Performance. Da während der Entwicklung bei                 DB2-Variante, PostgreSQL fiel stärker ab. Die SQL:2003-
fehlerhafter Erkennung von Handlungen und Intentionen die              Lösung konnte in MonetDB mangels vorhandener OLAP-
dafür zuständigen Versuchsdaten ermittelt werden müssen,            und Rekursions-Fähigkeiten nicht umgesetzt werden, DB2
führt die Rückverfolgbarkeit der Analyseprozesse in der Ent-         war hier wiederum deutlich besser als PostgreSQL. Weiter-
wicklung auf unsere Forschungsthemen P2: Provenance                    hin bemerkt man im Vergleich von SQL-92 und SQL:2003,
Management und P4: Preservation (Langfristarchivie-                    dass der Optimierer von DB2 als auch PostgreSQL die di-
rung von Forschungsdaten).                                             rekte Verwendung der OLAP-Funktionen belohnt. Die beste
   Einsatz: In der Einsatzphase eines Assistenzsystems sind            Performance aller Varianten erreichte jedoch MonetDB mit
dagegen Privatheitsansprüche vorherrschend, die im Gesamt-            integrierten R-Funktionen.
system durch stufenweise Datensparsamkeit erreicht werden
können (unser Forschungsthema P1: Privatheit). Eine wei-              5.     DANKSAGUNGEN
tere Verdichtung (auch Reduktion und Aggregation) der live               Wir danken der studentischen Projektgruppe PArADISE
ausgewerteten Daten unterstützen aber nicht nur die Privat-           im Wintersemester 2014/2015, die im Rahmen einer experi-
heit, sondern auch die Performance.                                    mentellen Projekt-Lehrveranstaltung die Basis für die soft-
   Die vier P behandeln wir in drei langfristigen Forschungs-          waretechnische Umsetzung des PArADISE-Projektes gelegt
projekten (METIS, PArADISE, HyDRA), in diesem Beitrag                  hat: Pia Wilsdorf, Felix Köppl, Stefan Lüdtke, Steffen Sach-
konzentrieren wir uns auf den Aspekt P3 (Performance)                  se, Jan Svacina, Dennis Weu.
des PArADISE-Projektes.
                                                                       6.     LITERATUR
4.   DAS PARADISE-PROJEKT                                              [Heu15] Heuer, A.: METIS in PArADISE: Provenance
   Im Projekt PArADISE (Privacy AwaRe Assistive Distri-                        Management bei der Auswertung von
buted Information System Environment) arbeiten wir der-                        Sensordatenmengen für die Entwicklung von
zeit an Techniken zur Auswertung von großen Mengen von                         Assistenzsystemen. In: Lecture Notes in
Sensordaten, die definierte Privatheitsansprüche der späte-                  Informatics, Band 242, BTW 2015
ren Nutzer per Systemkonstruktion erfüllen.                                   Workshop-Band, 131 – 135, 2015.
   Ein erster Prototyp ist von einer studentischen Arbeits-            [HM15] Heuer, A.; Meyer, H.: Das PArADISE-Projekt:
gruppe erstellt worden. Derzeit können Analysen zur Mo-                       Big-Data-Analysen für die Entwicklung von
dellbildung auf Sensordaten in SQL-92, SQL:2003 oder ite-                      Assistenzsystemen. Technischer Bericht CS-04-15,
rativen Ansätzen über SQL-Anweisungen realisiert und auf                     Institut für Informatik, Universität Rostock, 2015.
die Basissysteme DB2 (zeilenorientiert oder spaltenorien-              [Mar15] Markl, V.: Gesprengte Ketten - Smart Data,
tiert: DB2 BLU), PostgreSQL (zeilenorientiert) sowie Mo-                       deklarative Datenanalyse, Apache Flink.
netDB (spaltenorientiert und hauptspeicheroptimiert) abge-                     Informatik Spektrum, Band 38, Nr. 1, S. 10–15,
bildet werden.                                                                 2015.

                                                                 103