Visualisierung von Daten aus Online-Partizipationsverfahren Philipp Grawe Institut für Informatik Heinrich-Heine-Universität Düsseldorf Universitätsstr. 1 40225 Düsseldorf philipp.grawe@hhu.de ABSTRACT Verwendung des Tempelhoferfelds in Berlin. Online-Partizipation nutzt das Internet, um Menschen über Da die Verfahren oft einem großen Personenkreis offenstehen Entscheidungen diskutieren zu lassen und ihnen die Mög- und nicht selten auf viel Engagement stoßen, kann so eine lichkeit der Teilhabe an Prozessen zu gewähren. In dieser erhebliche Anzahl von Vorschlägen und Textbeiträgen ent- Arbeit sollen verschiedene Methoden zur Visualisierung sol- stehen. Eine manuelle Auswertung all dieser Beiträge ist mit cher Online-Partizipationsverfahren vorgestellt werden, die einem nicht zu unterschätzenden Ressourcenaufwand ver- dabei helfen sollen Verfahren zu überblicken und mit ihrem bunden. Deshalb bietet sich hier eine maschinell unterstütze Ergebnis zu arbeiten. Dabei können sowohl extrahierte The- Analyse an. men als auch Metadaten visualisiert werden. Weitere Hintergründe und eine gute ÃIJbersicht zum Ein- satz von maschinellen Analyseverfahren bei Online-Partizi- pationsverfahren bieten Liebeck et al. [11]. 1. EINLEITUNG Diese Thematik wird viel diskutiert und erforscht, z.B. durch Um Menschen an Entscheidungen oder Prozessen teilha- das NRW-Forschungskolleg Online-Partizipation 1 welches ben zu lassen, bietet sich die Möglichkeit online Plattformen auch Veranstaltungen abhält die den Austausch von For- anzubieten, auf denen Diskussionen stattfinden, Vorschläge schung und Praxis fördern soll. Jährlich findet dazu das Pra- eingereicht und über eben diese abgestimmt werden können. xissymposium âĂd̄Online-Partizipation in KommunenâĂIJ Genutzt werden diese Möglichkeiten am prominentesten in statt. Außerdem bietet der Monitor Online-Partizipation 2 der Kommunalpolitik, wo Bürgerinnen und Bürger online an eine ÃIJbersicht über Verfahren in NRW der letzten Jahre. Debatten wie z.B. Bürgerhaushalten teilhaben können. Aber In dieser Arbeit wird die Visualisierung extrahierter The- auch Institutionen und Firmen setzen Online-Partizipation men und anderer Analysedaten von Online-Partizipations- ein, um Menschen zu beteiligen. Die Teilhabe von Betrof- verfahren betrachtet und dabei auf die Besonderheiten von fenen oder Bürgern an Entscheidungen schafft, auch durch Online-Partizipationsverfahren eingegangen. Zum Extrahie- die Bereitstellung im Internet, Transparenz und Vertrauen. ren dieser Themen wird Topic Modeling eingesetzt, dessen Vorschläge können neue, bisher nicht bedachte, Sichtweisen Modelle dann als Grundlage zur Visualisierung dienen kön- offenbaren und Abstimmungen dieser Vorschläge ein unver- nen. Als Datengrundlage werden in dieser Arbeit oft Online- bindliches Stimmungsbild liefern. Durch die so entstandene Partizipationsverfahrenherangezogen, welche sich mit der Ver- Partizipation wird erhofft, mehr Blickwinkel der Betroffenen besserung des Radverkehrs beschäftigt. Diese wurden paral- bei der Problemlösung einzubeziehen und eine höhere Ak- lel in drei Gebieten durchgeführt und dabei wissenschaftlich zeptanz der Entscheidungen zu erzielen. begleitet [4]. Konkret heißt dies meist, dass Teilnehmer Vorschläge erstel- Ein Projekt mit Webcrawlern von kommunalen Online-Par- len, kommentieren und zustimmend bzw. ablehnend bewer- tizipationsverfahren aus NRW ist öffentlich auf GitHub 3 ten können. Außerdem gibt es Verfahren bei denen Bürgerin- verfügbar und kann dazu verwendet werden Daten von lau- nen und Bürger über Vorschläge der Verwaltung diskutieren fenden, als auch abgeschlossenen Verfahren zu erlangen. Da- und abstimmen können. Insgesamt gibt es sowohl auf einen ten dieser Verfahren wurden als Grundlage für diese Arbeit Zeitraum begrenzte Verfahren wie z.B. Bürgerhaushalte, als verwendet. auch dauerhafte Plattformen,wie z.B. Mängelmelder für den kommunalen Raum. Meistens haben die Online-Partizipati- 1.1 Problematiken bei Online-Partizipations- onsverfahren konkrete Themen als Bezug, beispielsweise die verfahren Generell ist es sinnvoll vor dem Einsatz solcher Verfahren die Datengrundlage zu begutachten. Online-Partizipations- verfahren können, wie beispielsweise die Raddialoge, sehr zielgerichtet sein. Dies macht es notwendig zu hinterfragen, ob die Themen in den Dokumenten gut genug trennbar sind. 1 https://www.fortschrittskolleg.de 2 st 31 GI-Workshop on Foundations of Databases (Grundlagen von Daten- http://www.monitor-online-partizipation.de 3 banken), 11.06.2019 - 14.06.2019, Saarburg, Germany. https://github.com/Liebeck/ Copyright is held by the author/owner(s). OnlineParticipationDatasets Es ist schwierig semantische Strukturen in Dokumenten zu läufe und Suchanfragen visualisiert werden. finden, wenn diese wenig verschiedene semantische Struktu- Im folgenden werden verschiedene Techniken vorgestellt und ren aufweisen. diskutiert, auf welchen Ebenen diese im Bezug auf Online- Ein weiter zu bedenkender Aspekt liegt in der Form der Partizipationsverfahren verwendet werden können. Online-Partizipationsverfahren. Mitunter sind Vorschläge, und damit die Dokumente, sehr kurz und beinhalten nur weni- 2.1 Histogramme ge Wörter. Damit diesem Dokument die richtigen Themen Histogramme bilden eine recht einfache, aber übersicht- zugewiesen werden können, muss das eingesetzte Verfahren liche Visualisierung. Dabei werden Datenpunkte eines kon- sehr präzise arbeiten. Das Problem Topic Modeling auf kur- tinuierlichen Wertebereiches in Intervalle unterteilt, dessen zen Texten zu verwenden wird unter anderem von Jin et al. Wahrscheinlichkeitsverteilungen über eine Variable darge- [7] oder Yan et al. [26] behandelt. stellt werden Vellemann und Hoaglin [25]. Diese Intervalle, Auf der anderen Seite stehen lange Vorschläge mit vielen Klassen genannt, werden über den gesamten Wertebereich Kommentaren. Diese können gleich mehrere Themen behan- der Datenpunkte gebildet. Die Addition der Häufigkeiten er- deln. Oder aber der Diskurs in den Kommentaren wird nur gibt dann die Gesamtanzahl aller Datenpunkte. Dabei kön- über einen Aspekt geführt, was ebenfalls die Themen dieses nen entweder die absoluten oder die relativen Häufigkeiten Dokuments verfälscht. betrachtet werden. Die üblichen in der Forschung eingesetzten Datensätze zum Im Zusammenhang mit Online-Partizipation können Histo- Topic Modeling entstammen Zeitungen oder Wikipedia. Meis- gramme eine ÃIJbersicht über numerische Werte bieten. Et- tens sind Dokumente aus diesen beiden Spektren nicht nur wa Abstimmungsdaten von Vorschlägen, Anzahl an Kom- länger, sondern viel themenbezogener als bei Online-Partizi- mentaren der Vorschläge, Anzahl der Wörter in einem Do- pationsverfahren. Neben der Tatsache, dass diese Dokumen- kument oder auch Nutzungsdaten von Benutzern, falls diese te formaler geschrieben sind, unterliegen sie in der Regel erhoben werden. Ein Beispiel solcher Histogramme zeigt Ab- einer Systematik der Kategorisierung. So steht schon das bildung 1. Mit Hilfe dieser Abbildung kann beurteilt werden, Erstellen im Zusammenhang mit beispielsweise einer Kate- wie die Anzahlen der Zustimmungen und Kommentare bei gorie bei Wikipedia oder Rubrik einer Zeitung. Zusätzlich den einzelnen Vorschlägen verteilt ist, was Aufschluss über unterliegen diese Texte einer strengen Qualitätskontrolle, die Beteiligung gibt. anders als Vorschläge oder Kommentare bei Online-Parti- zipationsverfahren, die diese Kategorisierung einigermaßen 2.2 Word Clouds sicherstellt. Eine relativ neue Visualisierung sind Word Clouds [5], die Wörter in einer Art Wolke darstellen. Die Größe der Worte wird durch ein Gewicht bestimmt. Dies kann die Häufig- 2. VISUALISIERUNG keit eines Wortes sein. Es bietet sich etwa tf idf an, oder tf unter Verwendung des Logarithmus, damit häufige Wör- Daten wurden schon visualisiert, als es noch keine Compu- ter nicht zu stark dominieren. Außerdem können die Worte ter gab. Eine Visualisierung kann zum einen eine ÃIJbersicht auch verschiedene Farben haben, welche hauptsächlich der über große Datenmengen schaffen, zum anderen können ge- einfacheren Unterscheidung dienen. fundene Strukturen dargestellt werden. Auch kann eine Vi- Wesentlich ist die Anordnung der Worte innerhalb der Wol- sualisierung Menschen ermöglichen, Strukturen oder Beson- ke, da dies die Wahrnehmung der Wolke beeinflusst. Loh- derheiten der Daten zu erkennen. Die Arten der Visuali- mann et al. [12] haben verschiedene Ansätze evaluiert und sierung und deren Möglichkeiten sind vielfältig und richten kommen zu dem Ergebnis, dass die Anordnung in einer Word sich nach Art und Struktur der Daten, Anforderungen der Cloud von ihrem Verwendungszweck abhängt. Soll diese da- Benutzer und nicht selten ÃĎsthetik. Dabei sollte die Ver- zu dienen die Suche nach einem Wort zu vereinfachen, emp- wendung durch den Menschen im Vordergrund stehen und fehlen sie eine sequentielle, alphabetisch geordnete Anord- zu dessen Verständnis beitragen. nung. Wird eine Word Cloud hingegen verwendet, um die Visualisierungen können interdisziplinär unter verschiedens- häufigsten Begriffe zu visualisieren, sei eine zirkuläre Aus- ten Aspekten betrachtet werden, wobei diese Arbeit nur richtung mit den häufigsten Begriffen im Zentrum zu be- einen kleinen Ausschnitt über die Möglichkeiten bieten kann. vorzugen. Schließlich zeigen Lohmann et al. [12] auch die Der Hauptfokus der zu visualisierenden Daten liegt auf Tex- Möglichkeit auf, Word Clouds nach Themen zu strukturie- ten, aber auch statistische Daten sind verwendbar. Kuscher ren. und Kerren [10] bieten eine interessante ÃIJbersicht über Für Online-Partizipationsverfahren können Word Clouds Techniken, die zur Visualisierung von Text verwendet wer- die Häufigkeit von Wörtern auf verschiedenen Ebenen visua- den können und stellen ein Online-Tool dafür bereit4 . lisieren. Word Clouds können das gesamte Verfahren oder Die Daten die bei Online-Partizipation anfallen, sind haupt- Beiträge, aber auch gefundene Themen darstellen. Denkbar sächlich Textbeiträge, aber etwa auch Abstimmungsdaten. ist auch die Darstellung von Suchergebnissen, die aber wenig Dazu gibt es auch erhobene Zeitpunkte, etwa wann ein Bei- sinnvoll erscheint da der Suchende an konkreten Ergebnis- trag erstellt wurde. Je nachdem wie viel Einsicht in ein Sys- sen interessiert ist. Bei dem Einsatz von Word Clouds sollte tem vorliegt, können auch Zeitpunkte von Abstimmungen die Zweckmäßigkeit im Auge behalten werden. Abbildung 2 erhoben oder das Suchverhalten protokolliert werden. Ana- zeigt ein Beispiel einer Word Cloud, deren enthaltenen Wör- log zu Cao und Cui. [1] können so folgende Ebenen der Vi- ter zufällig angeordnet sind. sualisierung bei der Online-Partizipation identifiziert wer- den: Gesamtheit aller Dokumente, Dokumentebene, Wor- 2.3 Visualisierungen mittels nicht-linearer Di- tebene und Themenebene. Außerdem können zeitliche Ver- mensionsreduzierung 4 http://textvis.lnu.se/ Der nächste Teilbereich von Visualisierungen ist vergleichs- Abbildung 1: Histogramme über die 2331 Vorschläge des Bonner Rad-Dialoges. dung erscheint dabei deutlich sinnvoller, vor allem wegen der hohen Laufzeit der Reduzierung. Da die zweidimensionale Reduzierung die Dokumente als kleine Punkte visualisiert, kann dies die intuitive Verwendung durch den Benutzer be- einträchtigen. Dabei können unübersichtliche Graphen entstehen, die we- nig Erkenntnisgewinn bringen. Der Graph ist interaktiv, so- dass Daten über jedes Dokument angezeigt werden, wenn die Maus über den entsprechenden Punkt bewegt wird. Jedoch ist diese Graphik zu irritierend, um bei Online-Partizipati- onsverfahren sinnvoll verwendet werden zu können. 2.4 Streudiagramm Neben der Darstellung von dimensionsreduzierten Daten kann ein Streudiagramm eine Vielzahl von zweidimensio- Abbildung 2: Word Cloud des Bonner Rad-Dialoges nalen Daten visualisieren. Dabei wird jedes Dokument als mit logarithmischer Gewichtung. Punkt in einem Graphen dargestellt. So können zwei Fea- tures gegeneinander aufgetragen und so Korrelationen er- kannt werden. Abgesehen von der Position der einzelnen weise komplex und viel beschrieben. Da Daten nur in zwei Datenpunkte, können die Datenpunkte für verschiedene Ei- Dimensionen verständlich dargestellt werden können, ver- genschaften unterschiedliche Farben erhalten. wenden viele nicht-lineare Ansätze eine Dimensionsreduzie- Neben den bereits angesprochenen Daten bspw. zur Zustim- rung, um mehrdimensionale Daten in einem zweidimensio- mung, können damit auch zwei Textkorpora verglichen wer- nalen Raum darzustellen. Dafür werden die Daten zuerst den, wie [8] aufzeigt. Die entwickelte Software trägt den Na- auf zwei Dimensionen reduziert und dann mit einem Streu- men Scatteretext 5 Die Hauptidee ist, dass jedem Korpus ei- diagramm dargestellt. Es gibt einige Verfahren, wie das von ne Achse zugewiesen wird, die die relative Häufigkeit eines Sammon [19], Silva und Tenenbaum [22] oder Roweis und Terms beschreibt. So bestimmt sich die Position eines Terms Saul [18]. Als state of the art wird t-SNE von Maaten und durch die relative Häufigkeit in beiden Korpora, wodurch Hilton [14] angesehen. Ein relativ neues Verfahren, UMAP sich ebenfalls das Verhältnis der beiden Häufigkeiten erken- von McInnes und Healy [15], verspricht eine bessere Perfor- nen lässt. In den beiden Ecken oben links bzw. unten rechts, mance als t-SNE bei geringerer Laufzeit. All diese Verfahren sind die Terme verzeichnet, die die Korpora vom jeweils an- nehmen an, dass Datenpunkte eine Mannigfaltigkeit teilen deren unterscheiden. Die Farbe ändert sich in Abhängigkeit und verwenden mathematische Verfahren, um diese abzu- zur Distanz zu einer der Ecken. Außerdem wird an jedem schätzen. UMAP beispielsweise verwendet die Riemannsche Punkt der Term notiert, was erheblich zur Verständlichkeit Geometrie zusammen mit Fuzzy-Sets [9]. beiträgt. Ein Beispiel ist in Abbildung 3 zu sehen. Für Online-Partizipationsverfahren sind theoretisch mehre- Scattertext macht vor allem Sinn, wenn zwei Online-Par- re Möglichkeiten des Einsatzes möglich, wobei alle mit la- tizipationsverfahren , etwa aus verschiedenen Jahren oder tenten Themen innerhalb der Beiträge arbeiten. So könn- Städten, verglichen werden sollen. So kann beurteilt werden ten nicht-lineare Dimensionsreduzierung verwendet werden, durch welche Begriffe sich Verfahren unterscheiden, was wie- um Themen zu finden (analog zum linearen Topic-Modeling) derum eine Aussagekraft über das Verfahren selbst liefert, und gegebenenfalls darzustellen. Außerdem könnten bereits da die Häufigkeit der Wörter in den Kontext eines ande- reduzierte Vektoren und somit gefundene Themen im zwei- 5 dimensionalen Raum dargestellt werden. Die zweite Verwen- https://github.com/JasonKessler/scattertext ren Verfahrens gesetzt werden. Denkbar ist auch, dass zwei ne davon ist, die Themen anhand ihrer ÃĎhnlichkeit im Korpora vergleichen werden die jeweils mehrere Online-Par- zweidimensionalen Raum darzustellen. Dazu wird eine Di- tizipationsverfahren zusammenfassen. stanzmatrix der Dokumente mit einem dimensionsreduzie- Neben der Visualisierung von nicht-linearer Dimensionsre- renden Verfahren, z.B. PCA, auf zwei Dimensionen redu- duktion, werden Streudiagramme eingesetzt, um Korrelatio- ziert [3]. Dargestellt wird jedes Thema in diesen zwei Dimen- nen zwischen zwei numerischen Features zu visualisieren. sionen als Kreis, dessen Fläche sich nach dem Einfluss des Themas auf den Korpus bezieht. Kreise können sich über- 2.5 Netzdiagramm lappen und auch komplett in anderen Kreisen liegen, wobei Netzdiagramme stellen die Ausprägungen verschiedener kein Zusammenhang zwischen Einfluss des Themas und der Dimensionen in einer runden Form da. Dabei wird jede Di- Lage erkennbar ist. Themen können so andere überlagern, mension auf einer eigenen Achse um den Mittelpunkt eines auch wenn sie sich wenig ähneln, nur falls eines einen großen Kreises herum aufgetragen [24]. Zwar werden die Punkte auf Einfluss hat. Dieses ÃIJberlagern kann Hierarchie vortäu- den einzelnen Achsen verbunden, jedoch stehen die benach- schen, die so nicht aus der Berechnung abgeleitet werden barten Achsen nicht beabsichtigt nebeneinander. Sollen in kann. Grundsätzlich ist LDAvis auch für Online-Partizipati- einem Diagramm mehrere Objekte dargestellt werden, soll- onsverfahren geeignet, jedoch sollte die Art der Verwendung ten diese visuell unterscheidbar sein, etwa durch verschiede- auch unerfahrene Benutzer nicht überfordern. In Abbildung ne Farben [13]. Allerdings sollten damit nicht zu viele Objek- 5 ist ein Beispiel von LDAvis zu sehen. te vergleichen werden, weshalb häufig auch Diagramme für Die Autoren schlagen ebenfalls Clustering innerhalb dieses verschiedene Objekte nebeneinander gezeigt werden, wobei zweidimensionalen Raums vor. die Position der Achsen in jedem Diagramm gleich sein soll- Die andere Darstellungsform zeigt ein Balkendiagramm der te. Top-Words eines ausgewählten Themas an. Jedes Wort hat Daten von Online-Partizipationensverfahren können damit zwei Balken, einen der den Anteil am Thema und einen der in vielfältiger Hinsicht verglichen werden. So können Netz- die Häufigkeit im Korpus wiedergibt. Bewegt man die Maus diagramme dazu genutzt werden einzelne Aspekte des Ver- über einen Begriff, wird im Graph der Einfluss auf die The- fahrens zu visualisieren, beispielsweise die Verteilung von men durch Veränderung der Fläche der Kreise angezeigt. Vorschlägen oder Kommentaren auf die einzelnen Wochen- Ein Verfahren Begriffe innerhalb eines Themas zu visualisie- tage (siehe Abbildungen 4). Die Information wann sich be- ren, haben Smith et al. [23] vorgestellt. Dazu werden kräf- teiligt wird, kann etwa für sozialwissenschaftliche Auswer- tebasierte Zeichenverfahren [6] unter Einbeziehung von sta- tungen interessant sein. tistischen Daten und Daten der Themen verwendet. Jedes Diese zu vergleichenden Aspekte, also Dimensionen, werden Thema wird als eigener Graph dargestellt, wo eine ausge- anders als bei Histogrammen jedoch vorher ausgewählt. Ver- wählte Anzahl von Begriffen die Knoten darstellen. Kanten wendet werden Netzdiagramme auch, um die Themenvertei- verbinden zwei Knoten nur, wenn der Kookorenzwert der lung eines Dokuments oder einer Suchanfrage zu visualisie- dazugehörigen Begriffe hoch genug ist, sie also häufig ge- ren [20]. Dabei wird an jede Achse ein für das Thema aussa- nug zusammen auftreten. Zusätzlich beschreibt die Fläche gekräftiger Begriff vermerkt. Diese aussagekräftigen Begriffe der Knoten den Zugehörigkeitswert eines Begriffs zu einem können auch mit Topic Labeling [16] gefunden werden. Thema. Die Graphen der Themen werden dann nach Kova- Schließlich können mit Netzdiagrammen auch verschiede- rianz zwischen den Themen angeordnet. ne Dokumente, Dokumentenmengen oder gesamte Online- Diese Art der Visualisierung ist nur begrenzt sinnvoll, da sie Partizipationen visuell vergleichen werden. schon bei einer begrenzten Anzahl an Themen und kräfteba- sierten Graphen mit vielen Kanten unübersichtlich werden 2.6 Visualisierung von extrahierten Themen können. Extrahierte Themen zu visualisieren hat vor dem Hinter- grund dieser Arbeit einen besonderen Stellenwert. Es gibt 2.7 Simple Formen der Visualisierung auch Arbeiten, die sich hauptsächlich damit beschäftigen Sinnvoll sein kann der Einsatz von simplen Formen der Themen in unterschiedlicher Weise visualisieren, visualisie- Visualisierung. Diese sind nicht selten intuitiver oder wer- rend vergleichen oder damit Interaktion visualisierend zu den auch ohne viel Vorwissen verstanden. Unterstützen. Davon werden hier einige vorgestellt. Balkendiagramme sind nicht die schlichteste Visualisierungs- Murdock und Allen [17] stellen eine Visualisierung von ÃĎhn- form, jedoch lassen sie sich analog zu Netzdiagrammen ver- lichkeitssuchen unter Verwendung eines Topic Models vor. wenden, so dass sich ähnliche ÃIJberlegungen ergeben. An- Dies ermöglicht dem Benutzer ähnliche Dokumente zu ei- ders als Histogramme, visualisieren Balkendiagramme feste nem von ihm ausgewählten zu finden. Visualisiert werden Variablen, dessen Ausprägungen dargestellt werden. Auch die ähnlichsten Dokumente mit einem nach ÃĎhnlichkeit müssen Balkendiagramme nicht die Häufigkeit darstellen. sortierten Balkendiagramm. Der Charakter dieser Visuali- Wie bereits erörtert, können Balkendiagramme auch hori- sierung ist mehr von unterstützender Natur und eher für zontal angewendet werden und die Balken aus mehreren Seg- Korpora geeignet, wo Dokumente leicht anhand ihres Titels menten bestehen. identifiziert werden können. Somit erscheint eine Verwen- Eine viel verwendete und leicht zugängliche Methode ex- dung der Visualisierung sinnvoll, die dem Benutzer ähnliche trahierte Themen zu visualisieren, sind die jeweiligen Top- Dokumente zu dem aktuell betrachtetem aufzeigt und da- Wörter als Liste darzustellen, absteigend nach Zugehörigkeit bei gefundene Themen mit darstellt. Denkbar ist auch die zum Thema. Solche Wortlisten müssen nicht weiter erklärt ÃĎhnlichkeit einer Anfrage zu Dokumenten in dieser Weise werden. zu visualisieren. LDAvis, welches von Sievert und Shirley [21] entwickelt wur- 2.8 Schlussfolgerung de, kombiniert im wesentlichen zwei Darstellungformen. Ei- Betrachtet man die vorhandenen Methoden zur Visuali- Abbildung 3: Screenshot von Scattertext: Vergleich der Online-Partizipationsverfahren der Raddialoge in Bonn und Köln-Ehrenfeld. Abbildung 4: Relative Häufigkeiten der Vorschläge und Kommentare des Raddialog Bonn und des Bonner Bürgerhaushalt 2011 an den Wochentagen. sierung fällt ins Auge, dass vor allem Metadaten visualisiert werden können. Numerische Daten wie Abstimmungszahlen, Anzahl an Kommentaren oder zeitliche Daten können mit gängigen Methoden visualisiert werden. Dazu gehören Gra- phen, Diagramme und Histogramme. Texte zu visualisieren ist dagegen eine Herausforderung. Ei- nerseits können simple Wortlisten oder Wortwolken verwen- det werden, andererseits können Methoden angewendet wer- den, um extrahierte Themen zu visualisieren. Diese Visua- lisierungen sind oft komplex oder bieten wenig Vorteile ge- genüber einer textbasierten Darstellung. Schließlich kann eine gute Visualisierung auch bedeuten, Su- chergebnisse oder Beiträge verständlich und übersichtlich darzustellen. 3. FAZIT UND AUSBLICK Online-Partizipationsverfahren maschinell zu analysieren, kann Teilnehmenden und Betreuenden einen Einblick in und Abbildung 5: Screenshot einer 2D-Darstellung des eine ÃIJbersicht über das Verfahren geben. Beides kann hel- Modells von extrahierten Themen fen Verfahren so zu gestalten, dass sich mehr Menschen be- teiligen und diese Beitilgung besser ausgewertet wird. Eine zentraler Wunsch bei Online-Partizipation ist, die Akzep- tanz von Entscheidungen bei den Betroffenen zu steigern. Zur Themenextraktion bieten sich neben der state-of-the-art [12] S. Lohmann, J. Ziegler, and L. Tetzlaff. Comparison of Methode LDA ebenfalls NMF und LSI an. Diese extrahie- tag cloud layouts: Task-related performance and visual ren Themen werden mit einer sortierten Menge von Wörtern exploration. In IFIP Conference on Human-Computer assoziiert. Damit kann eine ÃIJbersicht über die Beiträge Interaction, pages 392–404. Springer, 2009. gegeben werden. Die Ergebnisse, also gefundenen Themen [13] R. B. Lydiard, K. Rickels, B. Herman, and D. E. sind jedoch stark subjektiv [2]. Da Wortlisten extrahierter Feltner. Comparative efficacy of pregabalin and Themen nicht alle Aspekte eines Online-Partizipationsver- benzodiazepines in treating the psychic and somatic fahrens abdecken können, wurden Visualisierungen vorge- symptoms of generalized anxiety disorder. stellt. Neben Darstellungen für Metadaten, gibt es auch Vi- International Journal of Neuropsychopharmacology, sualisierungen für extrahierte Themen oder Modelle. Diese 13(2):229–241, 2010. sind leider oft kompliziert oder zeigen selten neue Aspekte [14] L. v. d. Maaten and G. Hinton. Visualizing data using auf. Weiterhin ist die Beurteilung einer Visualisierung stark t-sne. Journal of machine learning research, subjektiv. Visualisierungen sollten intuitiv, informativ und 9(Nov):2579–2605, 2008. leicht zugänglich sein. [15] L. McInnes and J. Healy. UMAP: Uniform Manifold In Zukunft bietet sich weitere Forschung an, um extrahier- Approximation and Projection for Dimension te Themen intuitiv und interaktiv darzustellen. Außerdem Reduction. ArXiv e-prints, Feb. 2018. können diese Visualisierungen in Studien evaluiert werden, [16] Q. Mei, X. Shen, and C. Zhai. Automatic labeling of um die Verständlichkeit zu beurteilen. multinomial topic models. In Proceedings of the 13th ACM SIGKDD international conference on Knowledge 4. REFERENCES discovery and data mining, pages 490–499. ACM, 2007. [1] N. Cao and W. Cui. Introduction to text visualization. [17] J. Murdock and C. Allen. Visualization techniques for In Atlantis Briefs in Artificial Intelligence, 2016. topic model checking. In AAAI, pages 4284–4285, [2] J. Chang, J. L. Boyd-Graber, S. Gerrish, C. Wang, 2015. and D. M. Blei. Reading tea leaves: How humans [18] S. T. Roweis and L. K. Saul. Nonlinear dimensionality interpret topic models. In Advances in Neural reduction by locally linear embedding. science, Information Processing Systems 22: 23rd Annual 290(5500):2323–2326, 2000. Conference on Neural Information Processing Systems [19] J. W. Sammon. A nonlinear mapping for data 2009. Proceedings of a meeting held 7-10 December structure analysis. IEEE Transactions on Computers, 2009, Vancouver, British Columbia, Canada., pages C-18:401–409, 1969. 288–296, 2009. [20] S. Sasaki, K. Yoshii, T. Nakano, M. Goto, and [3] J. Chuang, D. Ramage, C. D. Manning, and J. Heer. S. Morishima. Lyricsradar: A lyrics retrieval system Interpretation and trust: designing model-driven based on latent topics of lyrics. In Ismir, pages visualizations for text analysis. In CHI, 2012. 585–590, 2014. [4] T. Escher and B. Rottinghaus. Local government [21] C. Sievert and K. Shirley. Ldavis: A method for platforms for citizen participation and their effects on visualizing and interpreting topics. In Proceedings of legitimacy. 2018. the workshop on interactive language learning, [5] J. Feinberg. Wordle. In J. Steele and N. Iliinsky, visualization, and interfaces, pages 63–70, 2014. editors, Beautiful visualization: looking at data through [22] V. D. Silva and J. B. Tenenbaum. Global versus local the eyes of experts, chapter 3. Ö’Reilly Media, Inc.”, methods in nonlinear dimensionality reduction. In 2010. Advances in neural information processing systems, [6] T. M. Fruchterman and E. M. Reingold. Graph pages 721–728, 2003. drawing by force-directed placement. Software: [23] A. Smith, J. Chuang, Y. Hu, J. L. Boyd-Graber, and Practice and experience, 21(11):1129–1164, 1991. L. Findlater. Concurrent visualization of relationships [7] O. Jin, N. N. Liu, K. Zhao, Y. Yu, and Q. Yang. between words and topics in topic models. 2014. Transferring topical knowledge from auxiliary long [24] N. R. Tague et al. The quality toolbox, volume 600. texts for short text clustering. In Proceedings of the ASQ Quality Press Milwaukee, WI, 2005. 20th ACM international conference on Information [25] P. F. Velleman and D. C. Hoaglin. Applications, and knowledge management, pages 775–784. ACM, basics, and computing of exploratory data analysis. 2011. Duxbury Press, 1981. [8] J. S. Kessler. Scattertext: a browser-based tool for [26] X. Yan, J. Guo, Y. Lan, and X. Cheng. A biterm topic visualizing how corpora differ. CoRR, abs/1703.00565, model for short texts. In Proceedings of the 22nd 2017. international conference on World Wide Web, pages [9] G. Klir and B. Yuan. Fuzzy sets and fuzzy logic, 1445–1456. ACM, 2013. volume 4. Prentice hall New Jersey, 1995. [10] K. Kucher and A. Kerren. Text visualization techniques: Taxonomy, visual survey, and community insights. In 2015 IEEE Pacific Visualization Symposium (PacificVis), pages 117–121, 2015. [11] M. Liebeck, K. Esau, and S. Conrad. Text Mining für Online-Partizipationsverfahren: Die Notwendigkeit einer maschinell unterstützten Auswertung. HMD Praxis der Wirtschaftsinformatik, 54(4):544–562, 2017.