Das PArADISE-Projekt Big-Data-Analysen für die Entwicklung von Assistenzsystemen ∗ (Extended Abstract) Andreas Heuer Holger Meyer Lehrstuhl DBIS, Institut für Informatik Lehrstuhl DBIS, Institut für Informatik Universität Rostock Universität Rostock 18051 Rostock, Deutschland 18051 Rostock, Deutschland heuer@informatik.uni-rostock.de hme@informatik.uni-rostock.de ZUSAMMENFASSUNG rung von Situationen, Handlungen und Intentionen der Per- Bei der Erforschung und systematischen Entwicklung von sonen aus großen Datenmengen mittels Machine-Learning- Assistenzsystemen fallen eine große Menge von Sensorda- Methoden entsprechende Modelle abgeleitet werden: ein Per- ten an, aus denen Situationen, Handlungen und Intentio- formance-Problem bei einer Big-Data-Analytics-Fragestel- nen der vom Assistenzsystem unterstützten Personen ab- lung. geschätzt (modelliert) werden müssen. Neben Privatheitsa- Da Personen beobachtet werden, müssen auch Privatheits- spekten, die bereits während der Phase der Modellbildung aspekte bereits während der Phase der Modellbildung be- berücksichtigt werden müssen, sind die Performance des rücksichtigt werden, um diese bei der konkreten Konstrukti- Analysesystems sowie die Provenance (Rückverfolgbarkeit on des Assistenzsystems automatisch in den Systementwurf von Modellierungsentscheidungen) und die Preservation (die zu integrieren. Somit gibt es für die Datenbankforscher unter langfristige Aufbewahrung der Forschungsdaten) Ziele un- anderem die Teilprobleme der performanten Berechnung der serer Projekte in diesem Bereich. Speziell sollen im Pro- Modelle als auch der Wahrung der Privatheitsansprüche des jekt PArADISE die Privatheitsaspekte und die Performan- Nutzers, die zu lösen sind und die in einer langfristigen Pro- ce des Systems berücksichtigt werden. In einem studenti- jektgruppe des Datenbanklehrstuhls angegangen werden: im schen Projekt wurde innerhalb einer neuen experimentellen Projekt PArADISE (Privacy AwaRe Assistive Distributed Lehrveranstaltung im reformierten Bachelor- und Master- Information System Environment) werden effiiziente Tech- Studiengang Informatik an der Universität Rostock eine Sy- niken zur Auswertung von großen Mengen von Sensordaten stemplattform für eigene Entwicklungen geschaffen, die auf entwickelt, die definierte Privatheitsansprüche der späteren Basis von klassischen zeilenorientierten Datenbanksystemen, Nutzer per Systemkonstruktion erfüllen. aber auch spaltenorientierten und hauptspeicheroptimierten Während wir in [Heu15] ausführlicher auf die Verknüpfung Systemen die Analyse der Sensordaten vornimmt und für der Aspekte Privatheit (Projekt PArADISE) und Prove- eine effiziente, parallelisierte Verarbeitung vorbereitet. Ziel nance (Projekt METIS) eingegangen sind, werden wir uns in dieses Beitrages ist es, die Ergebnisse dieser studentischen diesem Beitrag auf die beiden Schwerpunkte des PArADISE- Projektgruppe vorzustellen, insbesondere die Erfahrungen Projektes konzentrieren, das ist neben der Privatheit die mit den gewählten Plattformen PostgreSQL, DB2 BLU, Mo- Performance durch Parallelität und Verteilung. netDB sowie R (als Analysesystem) zu präsentieren. 2. ASSISTENZSYSTEM-ENTWICKLUNG 1. EINLEITUNG ALS BIG-DATA-PROBLEM Ein Forschungsschwerpunkt am Institut für Informatik Um seine Assistenzaufgaben zu erfüllen, besteht ein As- der Universität Rostock ist die Erforschung und systema- sistenzsystem üblicherweise aus fünf Schichten [Heu15]. In tische Entwicklung von Assistenzsystemen, etwa im DFG- der untersten Schicht werden ständig viele Daten (etwa von Graduiertenkolleg MuSAMA. Da in Assistenzsystemen un- Sensoren) erzeugt, in der obersten Schicht wird aber nur im terstützte Personen durch eine Vielzahl von Sensoren beob- Bedarfsfall (also eher selten) ein akustischer oder optischer achtet werden, müssen bei der datengetriebenen Modellie- Hinweis, also eine geringe Datenmenge, ausgegeben. ∗Eine Langfassung dieses Artikels ist erhältlich als [HM15] In der mittleren der fünf Schichten müssen Sensordaten unter http://www.ls-dbis.de/digbib/dbis-tr-cs-04-15.pdf gefiltert, erfasst, ausgewertet, verdichtet und teilweise lang- fristig verwaltet werden. Aufgrund der extrem großen Da- tenmenge (Big Data) muss die Verarbeitung verteilt er- folgen: teilweise eine Filterung und Verdichtung schon im Sensor, im nächsterreichbaren Prozessor (etwa im Fernseher oder im Smart Meter in der Wohnung) und im Notfall über das Internet in der Cloud. Neben Daten des Assistenzsys- tems müssen auch fremde Daten etwa über das Internet be- rücksichtigt werden, beispielsweise Wartungspläne beim Au- 27th GI-Workshop on Foundations of Databases (Grundlagen von Daten- banken), 26.05.2015 - 29.05.2015, Magdeburg, Germany. to oder die elektronische Patientenakte beim Patienten. All- Copyright is held by the author/owner(s). gemein können hier natürlich auch die Daten sozialer Netz- 102 werke, Kalenderdaten der Nutzer oder Wettervorhersage- Während die grundlegenden Forschungsarbeiten zu PArA- Daten ausgewertet werden, falls sie für das Assistenzziel eine DISE durch zwei Stipendiaten des Graduiertenkollegs Mu- Rolle spielen. SAMA (Hannes Grunert und Dennis Marten) in 2013 und Eine Kernaufgabe bei der Erforschung und Entwicklung 2014 starteten, wurden die ersten softwaretechnischen Um- ist die datengetriebene Modellierung von Situationen, Hand- setzungen des Projektes durch eine studentische Projekt- lungen und Intentionen, die eine Fragestellung im Forschungs- gruppe im Wintersemester 2014/2015 vorgenommen. Hier gebiet Big Data Analytics sind. Big Data [Mar15] ist ein wurden dann verschiedene SQL-Anfragen und R-Programme derzeitiges Hype-Thema nicht nur in der Informatik, das in zur Lösung der grundlegenden Regressions- und Korrelati- seiner technischen Ausprägung auf vielfältige Forschungs- onsprobleme entwickelt, wobei als Vorgabe (zum Vergleich) probleme führt. Technisch gesehen sind Big-Data-Probleme folgende fünf Stufen realisiert werden sollten: mit den vier V (Volume, Velocity, Variety, Veracity) charak- 1. Umsetzung von Regression und Korrelation in Standard- terisiert. Big Data Analytics ist nun das Problem komplexer SQL-92 (also per Hand, da keine Analysefunktionen Analysen auf diesen Daten. In Datenbankbegriffen sind diese außer den klassischen Aggregatfunktionen wie COUNT, komplexen Analysen iterative Anfrageprozesse. SUM und AVG vorhanden). 3. DIE VIER P ZU DEN VIER V 2. Umsetzung in SQL:2003 mit den entsprechenden OLAP- Funktionen. Die Forschungsschwerpunkte der Rostocker Datenbank- gruppe lassen sich in diesem Zusammenhang mit vier P 3. Umsetzung mit rekursivem oder iterativem SQL, so- charakterisieren, die im Folgenden näher erläutert werden fern in den Systemen möglich. sollen. Forschung und Entwicklung: In der Forschungs- und 4. Eine Integration der SQL-Anfrage mit R-Auswertungen. Entwicklungsphase eines Assistenzsystems ist das vorrangi- 5. Eine R-Auswertung pur ohne Kopplung an SQL. ge Ziel, eine effiziente Modellbildung auf großen Datenmen- gen zu unterstützen. Dabei sollte möglichst automatisch eine Die in MuSAMA bisher verwendete Lösung mit Plain R Selektion der Daten (Filterung wichtiger Sensordaten nach wies dabei die schlechteste Effizienz auf, auch wenn man den einfachen Merkmalen) und eine Projektion der Daten (die Prozess des initialen Ladens der Daten in den Hauptspeicher Beschränkung der großen Sensormenge auf wenige, beson- herausrechnet. Unter den Varianten mit einer Analyse in rei- ders aussagekräftige Sensoren) vorgenommen werden. Die nem SQL-92 (Regression per Hand mit Aggregatfunktionen nötige Effizienz in dieser Phase führt auf unser Forschungs- umgesetzt) war die MonetDB-Lösung etwas besser als die thema P3: Performance. Da während der Entwicklung bei DB2-Variante, PostgreSQL fiel stärker ab. Die SQL:2003- fehlerhafter Erkennung von Handlungen und Intentionen die Lösung konnte in MonetDB mangels vorhandener OLAP- dafür zuständigen Versuchsdaten ermittelt werden müssen, und Rekursions-Fähigkeiten nicht umgesetzt werden, DB2 führt die Rückverfolgbarkeit der Analyseprozesse in der Ent- war hier wiederum deutlich besser als PostgreSQL. Weiter- wicklung auf unsere Forschungsthemen P2: Provenance hin bemerkt man im Vergleich von SQL-92 und SQL:2003, Management und P4: Preservation (Langfristarchivie- dass der Optimierer von DB2 als auch PostgreSQL die di- rung von Forschungsdaten). rekte Verwendung der OLAP-Funktionen belohnt. Die beste Einsatz: In der Einsatzphase eines Assistenzsystems sind Performance aller Varianten erreichte jedoch MonetDB mit dagegen Privatheitsansprüche vorherrschend, die im Gesamt- integrierten R-Funktionen. system durch stufenweise Datensparsamkeit erreicht werden können (unser Forschungsthema P1: Privatheit). Eine wei- 5. DANKSAGUNGEN tere Verdichtung (auch Reduktion und Aggregation) der live Wir danken der studentischen Projektgruppe PArADISE ausgewerteten Daten unterstützen aber nicht nur die Privat- im Wintersemester 2014/2015, die im Rahmen einer experi- heit, sondern auch die Performance. mentellen Projekt-Lehrveranstaltung die Basis für die soft- Die vier P behandeln wir in drei langfristigen Forschungs- waretechnische Umsetzung des PArADISE-Projektes gelegt projekten (METIS, PArADISE, HyDRA), in diesem Beitrag hat: Pia Wilsdorf, Felix Köppl, Stefan Lüdtke, Steffen Sach- konzentrieren wir uns auf den Aspekt P3 (Performance) se, Jan Svacina, Dennis Weu. des PArADISE-Projektes. 6. LITERATUR 4. DAS PARADISE-PROJEKT [Heu15] Heuer, A.: METIS in PArADISE: Provenance Im Projekt PArADISE (Privacy AwaRe Assistive Distri- Management bei der Auswertung von buted Information System Environment) arbeiten wir der- Sensordatenmengen für die Entwicklung von zeit an Techniken zur Auswertung von großen Mengen von Assistenzsystemen. In: Lecture Notes in Sensordaten, die definierte Privatheitsansprüche der späte- Informatics, Band 242, BTW 2015 ren Nutzer per Systemkonstruktion erfüllen. Workshop-Band, 131 – 135, 2015. Ein erster Prototyp ist von einer studentischen Arbeits- [HM15] Heuer, A.; Meyer, H.: Das PArADISE-Projekt: gruppe erstellt worden. Derzeit können Analysen zur Mo- Big-Data-Analysen für die Entwicklung von dellbildung auf Sensordaten in SQL-92, SQL:2003 oder ite- Assistenzsystemen. Technischer Bericht CS-04-15, rativen Ansätzen über SQL-Anweisungen realisiert und auf Institut für Informatik, Universität Rostock, 2015. die Basissysteme DB2 (zeilenorientiert oder spaltenorien- [Mar15] Markl, V.: Gesprengte Ketten - Smart Data, tiert: DB2 BLU), PostgreSQL (zeilenorientiert) sowie Mo- deklarative Datenanalyse, Apache Flink. netDB (spaltenorientiert und hauptspeicheroptimiert) abge- Informatik Spektrum, Band 38, Nr. 1, S. 10–15, bildet werden. 2015. 103