-

Die Apache Flink Plattform zur parallelen Analyse von Datenstromen und Stapeldaten

Jonas Traub

jonas.traub@tu-berlin.de 0 1

Tilmann Rabl

rabl@tu-berlin.de 0 1

Fabian Hueskey

fabian@data-artisans.com 0

Till Rohrmanny und Volker Markl

till@data-artisans.com volker.markl@tu-berlin.de 0 1 0 Stichworter: Big-Data , Datenstromverarbeitung, Stapelverarbeitung, Datenanalyse, Datenbanken, Datenanalyseablaufe 1 Technische Universitat Berlin, FG DIMA , Einsteinufer 17, 10587 Berlin

403 408

Die Menge an analysierbaren Daten steigt aufgrund fallender Preise fur Speicherlosungen und der Erschlie ung neuer Datenquellen rasant. Da klassische Datenbanksysteme nicht ausreichend parallelisierbar sind, konnen sie die heute anfallenden Datenmengen hau g nicht mehr verarbeiten. Hierdurch ist es notwendig spezielle Programme zur parallelen Datenanalyse zu verwenden. Die Entwicklung solcher Programme fur Computercluster ist selbst fur erfahrene Systemprogrammierer eine komplexe Herausforderung. Frameworks wie Apache Hadoop MapReduce sind zwar skalierbar, aber im Vergleich zu SQL schwer zu programmieren. Die Open-Source Plattform Apache Flink schlie t die Lucke zwischen herkommlichen Datenbanksystemen und Big-Data Analyseframeworks. Das Top Level Projekt der Apache Software Foundation basiert auf einer fehlertoleranten Laufzeitumgebung zur Datenstromverarbeitung, welche die Datenverteilung und Kommunikation im Cluster ubernimmt. Verschiedene Schnittstellen erlauben die Implementierung von Datenanalyseablaufen fur unterschiedlichste Anwendungsfalle. Die Plattform wird von einer aktiven Community kontinuierlich weiter entwickelt. Sie ist gleichzeitig Produkt und Basis vieler Forschungsarbeiten im Bereich Datenbanken und Informationsmanagement.

gro e Herausforderung dar. Konventionelle Datenbanksysteme sind nicht langer in der Lage mit den enormen Datenmengen und der dynamischen oder fehlenden Struktur der Daten umzugehen.

Das Forschungsprojekt Stratosphere[ 1 ] verfolgt das Ziel die Big-Data Analyseplattform der nachsten Generation zu entwickeln und damit die Analyse sehr gro er Datenmengen handhabbar zu machen. Im Jahr 2014 wurde das im Stratosphere Projekt entwickelte System unter dem Namen Flink1 zunachst ein Apache Incubator Projekt und spater ein Apache Top Level Projekt.

Im Vergleich zu anderen verteilten Datenanalyseplattformen, reduziert Flink die Komplexitat fur Anwender durch die Integration von traditionellen Datenbanksystemkonzepten, wie deklarativen Abfragesprachen und automatischer Abfrageoptimierung. Gleichzeitig erlaubt Flink schema-on-read 2, ermoglicht die Verwendung von benutzerde nierten Funktionen und ist kompatibel mit dem Apache Hadoop MapReduce Framework3. Die Plattform hat eine sehr gute Skalierbarkeit und wurde auf Clustern mit hunderten Maschinen, in Amazons EC2 und auf Googles Compute Engine erprobt.

Im Folgenden stellen wir in Abschnitt 2 die Architektur der Flink Plattform naher vor und zeigen Bibliotheken, Schnittstellen und ein Programmbeispiel in Abschnitt 3. Abschnitt 4 beschreibt Besonderheiten in der Datenstromanalyse von Apache Flink im Vergleich zu anderen Plattformen. Abschlie end stellen wir in Abschnitt 5 weiterfuhrende Publikationen vor. 2

Architektur

Abbildung 1 zeigt eine Ubersicht der Architektur der Apache Flink Plattform. Die Basis von Flink ist eine einheitliche Laufzeitumgebung in der alle Programme ausgefuhrt werden. Programme in Flink sind strukturiert als gerichtete Graphen aus parallelisierbaren Operatoren, welche auch Iterationen beinhalten konnen [ 6 ]. Bei der Ausfuhrung eines Programms in Flink werden Operatoren zu mehreren parallelen Instanzen segmentiert, welche jeweils einen Teil der Datentupel verarbeiten (Datenparallelitat). Im Gegensatz zu Hadoop MapReduce, werden Programme in Flink nicht in nacheinander auszufuhrende Phasen (Map und Reduce) geteilt. Alle Operatoren werden nebenlau g ausgefuhrt, sodass die Ergebnisse eines Operators direkt zu folgenden Operatoren weitergeleitet und dort verarbeitet werden konnen (Pipelineparallelitat). Neben der verteilten Laufzeitumgebung fur Cluster, stellt Flink auch eine lokale Laufzeitumgebung bereit. Diese ermoglicht es Programme direkt in der Entwicklungsumgebung auszufuhren und zu debuggen. Flink ist kompatibel mit einer Vielzahl von Clustermanagement1http://flink.apache.org 2Bei schema-on-read werden Daten in ihrer ursprunglichen Form gespeichert, ohne ein Datenbankschema festzulegen. Erst beim Lesen der Daten werden diese in ein abfragespezi sches Schema uberfuhrt, was eine gro e Flexibilitat bedeutet. 3http://hadoop.apache.org

Abb. 1. Architektur- und Komponentenubersicht der Apache Flink Plattform. und Speicherlosungen, wie Apache Tez4, Apache Kafka5 [ 9 ], Apache HDFS3 [ 10 ] und Apache Hadoop YARN3 [ 12 ].

Zwischen der Laufzeitumgebung und den Programmierschnittstellen (API), sorgen Stream Builder und Common API fur die Ubersetzung von gerichteten Graphen aus logischen Operatoren in generische Datenstromprogramme, welche in der Laufzeitumgebung ausgefuhrt werden. In diesem Schritt erfolgt auch die automatische Optimierung des Daten ussprogramms. Wahrend der Anwender beispielsweise lediglich einen Join spezi ziert, wahlt der integrierte Optimierer den fur den jeweiligen Anwendungsfall besten konkreten Join-Algorithmus aus.

Der folgende Abschnitt gibt eine Ubersicht uber die oberste Schicht der Flink Architektur, welche aus einem breiten Spektrum von Bibliotheken und Programmierschnittstellen besteht. 3

Bibliotheken und Schnittstellen

Nutzer von Apache Flink konnen Abfragen in verschiedenen Programmiersprachen spezi zieren. Zur Analyse von Datenstromen und zur Stapelverarbeitung stehen jeweils eine Scala und eine Java API zur Verfugung. Stapeldaten konnen au erdem mit einer Python API verarbeitet werden. Alle APIs stellen dem Programmierer generischen Operatoren wie Join, Cross, Map, Reduce und Filter zur Verfugung. Dies steht im Gegensatz zu Hadoop Map Reduce wo komplexe Operatoren als Folge von Map- und Reducephasen implementiert werden mussen. Listing 1 zeigt eine Wordcount-Implementierung in der Scala Stream Processing API. Eine Implementierung zur Stapelverarbeitung ist analog zu diesem Beispiel unter Auslassung der Window-Spezi kation moglich.

4http://tez.apache.org 5http://kafka.apache.org 1 case class Word (word: String, frequency: Int) 2 val lines: DataStream[String] = env.fromSocketStream(...) 3 lines.flatMap{line => line.split(" ")} 4 .map(word => Word(word,1))} 5 .window(Time.of(5,SECONDS)).every(Time.of(1,SECONDS)) 6 .groupBy("word").sum("frequency").print() Listing 1. Eine Wordcount-Implementierung unter Verwendung der Scala Stream Processing API von Apache Flink.

In der ersten Zeile wird ein Tupel bestehend aus einem String und einer Ganzzahl de niert. Programmzeile 2 gibt einen Socketstream an von dem ein Textdatenstrom zeilenweise eingelesen wird. In Zeile 3 wird ein FlatMap-Operator angewendet, welcher Zeilen als Eingabe erhalt, diese an Leerzeichen trennt und die resultierenden Einzelworter in das zuvor de nierte Tupelformat mit dem Wort als String und 1 als Zahlenwert konvertiert. Da es sich um eine Datenstromabfrage handelt, wird ein Fenster spezi ziert, hier ein gleitendes Fenster mit einer Lange von funf Sekunden und einer Schrittweite von einer Sekunde. Abschlie end erfolgt eine Gruppierung nach Wortern und die Zahlenwerte werden innerhalb der Gruppen aufsummiert. Die Printmethode sorgt fur die Ergebnisausgabe auf der Konsole.

Zusatzlich zu den klassischen Programmierschnittstellen, bietet die Flink ML Bibliothek eine Vielzahl an Algorithmen des maschinellen Lernens. Gelly ermoglicht die Graphenanalyse mit Flink. Die Table API bietet die Moglichkeit der deklarativen Spezi kation von Abfragen ahnlich zu SQL und steht als Javaund Scalaversion zur Verfugung. Listing 2 zeigt eine Wordcount-Implementierung mit der Java Table API zur Stapelverarbeitung. 1 DataSet<WC> input = env.fromElements(new WC("Hello",1),new WC("Bye",1),new WC("Hello",1)); 2 Table table=tableEnv.fromDataSet(input).groupBy("word").select("word.count as count, word"); 3 tableEnv.toDataSet(table, WC.class).print(); Listing 2. Eine Wordcount-Implementierung unter Verwendung der Java Table API zur Stapelverarbeitung von Apache Flink.

In Zeile 1 werden Eingabeworter explizit angegeben. Zeile 2 konvertiert das DataSet zunachst zu einer Tabelle, die anhand des Attributs word gruppiert wird. Die Selectanweisung wahlt wie in SQL das Wort sowie die Summe der Zahler aus. Abschlie en wird die Ergebnistabelle zuruck zu einem DataSet konvertiert und ausgegeben. 4

Datenstromverarbeitung

Die Datenstromverarbeitung unterscheidet sich signi kant von der Stapelverarbeitung: Programme haben lange (theoretisch unendliche) Laufzeiten, konsumieren Daten kontinuierlich von Eingabestromen und produzieren im Gegenzug Ausgabestrome. Aggregationen konnen jedoch nur fur abgeschlossene Datenblocke berechnet werden. Sie folgen in Datenstromprogrammen daher auf eine Diskretisierung, die einen Datenstrom in abgeschlossene, potentiell uberlappende Fenster unterteilt. Eine Aggregation erfolgt dann fortlaufend per Fenster.

Im Gegensatz zu vielen anderen Datenanalyseplattformen ist Flink durch seine Laufzeitumgebung nicht an Limitationen gebunden, die aus Micro-Batching Techniken [ 14 ] entstehen. Beim Micro-Batching wird ein Datenstrom als Serie von Datenblocken fester Gro e interpretiert, die separat als Stapel verarbeitet werden. Die Gro en aller Fenster mussen Vielfache der Blockgro e sein, sodass ein Gesamtergebnis aus den Blockergebnissen berechnet werden kann. Flink stellt weitaus exiblere Diskretisierungsoptionen bereit, welche eine Generalisierung von IBM SPLs Trigger und Eviction Policies [ 7 ] sind. Eine Trigger Policy gibt an, wann ein Fenster endet und die Aggregation fur dieses Fenster ausgefuhrt wird. Die Eviction Policy gibt an, wann Tupel aus dem Fernsterpu er entfernt werden und spezi ziert so die gro e von Fenstern. Anwender konnen aus einer Vielzahl von vorde nierten Policies wahlen (z.B. basierend auf Zeit, Zahlern oder Deltafunktionen) oder benutzerde nierte Policies implementieren. Flink erreicht damit bei geringeren Latenzen eine gro ere Expressivitat als micro-batchabhangige Systeme und vermeidet die Komplexitat von Lambda-Architekturen.

Operatoren in Flink konnen statusbehaftet sein. Ein Schnappschussalgorithmus stellt sicher, dass jedes Tupel auch im Fehlerfall exakt einmal im Operatorstatus reprasentiert ist und verarbeitet wird.

Flink bietet somit eine bei Open-Source-Systemen einmalige Kombination aus Stapelverarbeitung, nativer Datenstromverarbeitung ohne Beschrankungen durch Micro-Batching, statusbehafteten Operatoren, ausdrucksstarken APIs und exactly-once Garantien. 5

Weiterfuhrende Publikationen

Flink ist sowohl Produkt als auch Basis vieler Forschungsarbeiten. Im Folgenden werden die wichtigsten Publikationen genannt. Warnecke et al. stellen die Nephele Laufzeitumgebung vor [ 13 ], auf der Flinks Laufzeit ursprunglich basierte. Battre et al. erganzen sie mit dem PACT Modell [ 3 ], einer Erweiterung von MapReduce [ 4 ]. Alexandrov et al. geben eine detaillierte Beschreibung der Stratosphere Plattform [ 1 ]. Hueske et al. befassen sich mit der Optimierung von Programmen mit benutzerde nierten Funktionen [ 8 ]. Ewen et al. fuhren die native Unterstutzung von Iterationen ein [ 6 ]. Aktuelle Arbeiten befassen sich mit Fehlertoleranz [ 5 ] und implizitem Parallelismus mittels eingebetteter Sprachen [ 2 ]. Spangenberg et al. vergleichen die Performance von Flink und Spark fur unterschiedliche Algorithmen [ 11 ]. 6

Resume

Flink vereinfacht die parallele Analyse gro er Datenmengen durch die Anwendung klassischer Datenbanktechniken wie automatischer Optimierung und deklarativen Abfragesprachen. Ausdrucksstarke, intuitive APIs ermoglichen sowohl Stapel- als auch Datenstromverarbeitung. Flink ist skalierbar und durch seine gro e Kompatibilitat vielseitig einsetzbar. Operatoren werden nebenlau g, frei von Limitierungen durch Micro-Batching-Techniken, in einer Pipeline ausgefuhrt.

Danksagung

Fur die Entwicklung der Plattform gilt unser besonderer Dank der gesamten Flink Community. Dieses Forschungsprojekt wird unterstutzt durch Mittel des BMBF fur das Berlin Big Data Center (BBDC) unter der Forderungsnummer 01IS14013 sowie der DFG Forschergruppe Stratosphere (FOR 1306).

1. Alexandrov , A. , Bergmann , R. , Ewen , S. , Freytag , J. C. , Hueske , F. , Heise , A. , ... & Warneke , D. ( 2014 ). The Stratosphere platform for big data analytics . The VLDB Journal|The International Journal on Very Large Data Bases , 23 ( 6 ), 939 - 964 .

2. Alexandrov , A. , Kunft , A. , Katsifodimos , A. , Schuler, F. , Thamsen , L. , Kao , O. , ... & Markl , V. ( 2015 , May). Implicit Parallelism through Deep Language Embedding . In Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data (pp. 47 - 61 ). ACM.

3. Battre , D. , Ewen , S. , Hueske , F. , Kao , O. , Markl , V. , & Warneke , D. ( 2010 , June). Nephele/PACTs: a programming model and execution framework for web-scale analytical processing . In Proceedings of the 1st ACM symposium on Cloud computing (pp. 119 - 130 ). ACM.

4. Dean , J. , & Ghemawat , S. ( 2008 ). MapReduce: simpli ed data processing on large clusters . Communications of the ACM , 51 ( 1 ), 107 - 113 .

5. Dudoladov , S. , Xu , C. , Schelter , S. , Katsifodimos , A. , Ewen , S. , Tzoumas , K. , & Markl , V. ( 2015 , May). Optimistic Recovery for Iterative Data ows in Action . In Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data (pp. 1439 - 1443 ). ACM.

6. Ewen , S. , Tzoumas , K. , Kaufmann , M. , & Markl , V. ( 2012 ). Spinning fast iterative data ows . Proceedings of the VLDB Endowment , 5 ( 11 ), 1268 - 1279 .

7. Gedik , B. ( 2014 ). Generic windowing support for extensible stream processing systems . Software: Practice and Experience , 44 ( 9 ), 1105 - 1128 .

8. Hueske , F. , Peters , M. , Sax , M. J. , Rheinlander, A. , Bergmann , R. , Krettek , A. , & Tzoumas , K. ( 2012 ). Opening the black boxes in data ow optimization . Proceedings of the VLDB Endowment , 5 ( 11 ), 1256 - 1267 .

9. Kreps , J. , Narkhede , N. , & Rao , J. ( 2011 , June). Kafka: A distributed messaging system for log processing . In Proceedings of the NetDB (pp. 1 - 7 ).

10. Shvachko , K. , Kuang , H. , Radia , S. , & Chansler , R. ( 2010 , May). The hadoop distributed le system . In Mass Storage Systems and Technologies (MSST) , 2010 IEEE 26th Symposium on (pp. 1 - 10 ). IEEE.

11. Spangenberg , N. , Roth , M. , & Franczyk , B. ( 2015 , June). Evaluating New Approaches of Big Data Analytics Frameworks. In Business Information Systems (pp. 28 - 37 ). Springer International Publishing.

12. Vavilapalli , V. K. , Murthy , A. C. , Douglas , C. , Agarwal , S. , Konar , M. , Evans , R. , ... & Baldeschwieler , E. ( 2013 , October) . Apache hadoop yarn: Yet another resource negotiator . In Proceedings of the 4th annual Symposium on Cloud Computing (p. 5 ) . ACM.

13. Warneke , D. , & Kao , O. ( 2009 , November). Nephele: e cient parallel data processing in the cloud . In Proceedings of the 2nd workshop on many-task computing on grids and supercomputers (p. 8 ) . ACM.

14. Zaharia , M. , Das , T. , Li , H. , Shenker , S. , & Stoica , I. ( 2012 , June). Discretized streams: an e cient and fault-tolerant model for stream processing on large clusters . In Proceedings of the 4th USENIX conference on Hot Topics in Cloud Ccomputing (pp. 10 - 10 ). USENIX Association.