Visualisierung von Daten aus
                                Online-Partizipationsverfahren

                                                          Philipp Grawe
                                                     Institut für Informatik
                                             Heinrich-Heine-Universität Düsseldorf
                                                       Universitätsstr. 1
                                                       40225 Düsseldorf
                                                    philipp.grawe@hhu.de

ABSTRACT                                                            Verwendung des Tempelhoferfelds in Berlin.
Online-Partizipation nutzt das Internet, um Menschen über          Da die Verfahren oft einem großen Personenkreis offenstehen
Entscheidungen diskutieren zu lassen und ihnen die Mög-            und nicht selten auf viel Engagement stoßen, kann so eine
lichkeit der Teilhabe an Prozessen zu gewähren. In dieser          erhebliche Anzahl von Vorschlägen und Textbeiträgen ent-
Arbeit sollen verschiedene Methoden zur Visualisierung sol-         stehen. Eine manuelle Auswertung all dieser Beiträge ist mit
cher Online-Partizipationsverfahren vorgestellt werden, die         einem nicht zu unterschätzenden Ressourcenaufwand ver-
dabei helfen sollen Verfahren zu überblicken und mit ihrem         bunden. Deshalb bietet sich hier eine maschinell unterstütze
Ergebnis zu arbeiten. Dabei können sowohl extrahierte The-         Analyse an.
men als auch Metadaten visualisiert werden.                         Weitere Hintergründe und eine gute ÃIJbersicht zum Ein-
                                                                    satz von maschinellen Analyseverfahren bei Online-Partizi-
                                                                    pationsverfahren bieten Liebeck et al. [11].
1.     EINLEITUNG                                                   Diese Thematik wird viel diskutiert und erforscht, z.B. durch
   Um Menschen an Entscheidungen oder Prozessen teilha-             das NRW-Forschungskolleg Online-Partizipation 1 welches
ben zu lassen, bietet sich die Möglichkeit online Plattformen      auch Veranstaltungen abhält die den Austausch von For-
anzubieten, auf denen Diskussionen stattfinden, Vorschläge         schung und Praxis fördern soll. Jährlich findet dazu das Pra-
eingereicht und über eben diese abgestimmt werden können.         xissymposium âĂd̄Online-Partizipation in KommunenâĂIJ
Genutzt werden diese Möglichkeiten am prominentesten in            statt. Außerdem bietet der Monitor Online-Partizipation 2
der Kommunalpolitik, wo Bürgerinnen und Bürger online an          eine ÃIJbersicht über Verfahren in NRW der letzten Jahre.
Debatten wie z.B. Bürgerhaushalten teilhaben können. Aber         In dieser Arbeit wird die Visualisierung extrahierter The-
auch Institutionen und Firmen setzen Online-Partizipation           men und anderer Analysedaten von Online-Partizipations-
ein, um Menschen zu beteiligen. Die Teilhabe von Betrof-            verfahren betrachtet und dabei auf die Besonderheiten von
fenen oder Bürgern an Entscheidungen schafft, auch durch           Online-Partizipationsverfahren eingegangen. Zum Extrahie-
die Bereitstellung im Internet, Transparenz und Vertrauen.          ren dieser Themen wird Topic Modeling eingesetzt, dessen
Vorschläge können neue, bisher nicht bedachte, Sichtweisen        Modelle dann als Grundlage zur Visualisierung dienen kön-
offenbaren und Abstimmungen dieser Vorschläge ein unver-           nen. Als Datengrundlage werden in dieser Arbeit oft Online-
bindliches Stimmungsbild liefern. Durch die so entstandene          Partizipationsverfahrenherangezogen, welche sich mit der Ver-
Partizipation wird erhofft, mehr Blickwinkel der Betroffenen        besserung des Radverkehrs beschäftigt. Diese wurden paral-
bei der Problemlösung einzubeziehen und eine höhere Ak-           lel in drei Gebieten durchgeführt und dabei wissenschaftlich
zeptanz der Entscheidungen zu erzielen.                             begleitet [4].
Konkret heißt dies meist, dass Teilnehmer Vorschläge erstel-       Ein Projekt mit Webcrawlern von kommunalen Online-Par-
len, kommentieren und zustimmend bzw. ablehnend bewer-              tizipationsverfahren aus NRW ist öffentlich auf GitHub 3
ten können. Außerdem gibt es Verfahren bei denen Bürgerin-        verfügbar und kann dazu verwendet werden Daten von lau-
nen und Bürger über Vorschläge der Verwaltung diskutieren        fenden, als auch abgeschlossenen Verfahren zu erlangen. Da-
und abstimmen können. Insgesamt gibt es sowohl auf einen           ten dieser Verfahren wurden als Grundlage für diese Arbeit
Zeitraum begrenzte Verfahren wie z.B. Bürgerhaushalte, als         verwendet.
auch dauerhafte Plattformen,wie z.B. Mängelmelder für den
kommunalen Raum. Meistens haben die Online-Partizipati-             1.1   Problematiken bei Online-Partizipations-
onsverfahren konkrete Themen als Bezug, beispielsweise die                verfahren
                                                                       Generell ist es sinnvoll vor dem Einsatz solcher Verfahren
                                                                    die Datengrundlage zu begutachten. Online-Partizipations-
                                                                    verfahren können, wie beispielsweise die Raddialoge, sehr
                                                                    zielgerichtet sein. Dies macht es notwendig zu hinterfragen,
                                                                    ob die Themen in den Dokumenten gut genug trennbar sind.
                                                                    1
                                                                      https://www.fortschrittskolleg.de
                                                                    2
  st
31 GI-Workshop on Foundations of Databases (Grundlagen von Daten-     http://www.monitor-online-partizipation.de
                                                                    3
banken), 11.06.2019 - 14.06.2019, Saarburg, Germany.                  https://github.com/Liebeck/
Copyright is held by the author/owner(s).                           OnlineParticipationDatasets
Es ist schwierig semantische Strukturen in Dokumenten zu         läufe und Suchanfragen visualisiert werden.
finden, wenn diese wenig verschiedene semantische Struktu-       Im folgenden werden verschiedene Techniken vorgestellt und
ren aufweisen.                                                   diskutiert, auf welchen Ebenen diese im Bezug auf Online-
Ein weiter zu bedenkender Aspekt liegt in der Form der           Partizipationsverfahren verwendet werden können.
Online-Partizipationsverfahren. Mitunter sind Vorschläge, und
damit die Dokumente, sehr kurz und beinhalten nur weni-          2.1    Histogramme
ge Wörter. Damit diesem Dokument die richtigen Themen              Histogramme bilden eine recht einfache, aber übersicht-
zugewiesen werden können, muss das eingesetzte Verfahren        liche Visualisierung. Dabei werden Datenpunkte eines kon-
sehr präzise arbeiten. Das Problem Topic Modeling auf kur-      tinuierlichen Wertebereiches in Intervalle unterteilt, dessen
zen Texten zu verwenden wird unter anderem von Jin et al.        Wahrscheinlichkeitsverteilungen über eine Variable darge-
[7] oder Yan et al. [26] behandelt.                              stellt werden Vellemann und Hoaglin [25]. Diese Intervalle,
Auf der anderen Seite stehen lange Vorschläge mit vielen        Klassen genannt, werden über den gesamten Wertebereich
Kommentaren. Diese können gleich mehrere Themen behan-          der Datenpunkte gebildet. Die Addition der Häufigkeiten er-
deln. Oder aber der Diskurs in den Kommentaren wird nur          gibt dann die Gesamtanzahl aller Datenpunkte. Dabei kön-
über einen Aspekt geführt, was ebenfalls die Themen dieses     nen entweder die absoluten oder die relativen Häufigkeiten
Dokuments verfälscht.                                           betrachtet werden.
Die üblichen in der Forschung eingesetzten Datensätze zum      Im Zusammenhang mit Online-Partizipation können Histo-
Topic Modeling entstammen Zeitungen oder Wikipedia. Meis-        gramme eine ÃIJbersicht über numerische Werte bieten. Et-
tens sind Dokumente aus diesen beiden Spektren nicht nur         wa Abstimmungsdaten von Vorschlägen, Anzahl an Kom-
länger, sondern viel themenbezogener als bei Online-Partizi-    mentaren der Vorschläge, Anzahl der Wörter in einem Do-
pationsverfahren. Neben der Tatsache, dass diese Dokumen-        kument oder auch Nutzungsdaten von Benutzern, falls diese
te formaler geschrieben sind, unterliegen sie in der Regel       erhoben werden. Ein Beispiel solcher Histogramme zeigt Ab-
einer Systematik der Kategorisierung. So steht schon das         bildung 1. Mit Hilfe dieser Abbildung kann beurteilt werden,
Erstellen im Zusammenhang mit beispielsweise einer Kate-         wie die Anzahlen der Zustimmungen und Kommentare bei
gorie bei Wikipedia oder Rubrik einer Zeitung. Zusätzlich       den einzelnen Vorschlägen verteilt ist, was Aufschluss über
unterliegen diese Texte einer strengen Qualitätskontrolle,      die Beteiligung gibt.
anders als Vorschläge oder Kommentare bei Online-Parti-
zipationsverfahren, die diese Kategorisierung einigermaßen       2.2    Word Clouds
sicherstellt.                                                       Eine relativ neue Visualisierung sind Word Clouds [5], die
                                                                 Wörter in einer Art Wolke darstellen. Die Größe der Worte
                                                                 wird durch ein Gewicht bestimmt. Dies kann die Häufig-
2.     VISUALISIERUNG                                            keit eines Wortes sein. Es bietet sich etwa tf idf an, oder
                                                                 tf unter Verwendung des Logarithmus, damit häufige Wör-
   Daten wurden schon visualisiert, als es noch keine Compu-
                                                                 ter nicht zu stark dominieren. Außerdem können die Worte
ter gab. Eine Visualisierung kann zum einen eine ÃIJbersicht
                                                                 auch verschiedene Farben haben, welche hauptsächlich der
über große Datenmengen schaffen, zum anderen können ge-
                                                                 einfacheren Unterscheidung dienen.
fundene Strukturen dargestellt werden. Auch kann eine Vi-
                                                                 Wesentlich ist die Anordnung der Worte innerhalb der Wol-
sualisierung Menschen ermöglichen, Strukturen oder Beson-
                                                                 ke, da dies die Wahrnehmung der Wolke beeinflusst. Loh-
derheiten der Daten zu erkennen. Die Arten der Visuali-
                                                                 mann et al. [12] haben verschiedene Ansätze evaluiert und
sierung und deren Möglichkeiten sind vielfältig und richten
                                                                 kommen zu dem Ergebnis, dass die Anordnung in einer Word
sich nach Art und Struktur der Daten, Anforderungen der
                                                                 Cloud von ihrem Verwendungszweck abhängt. Soll diese da-
Benutzer und nicht selten ÃĎsthetik. Dabei sollte die Ver-
                                                                 zu dienen die Suche nach einem Wort zu vereinfachen, emp-
wendung durch den Menschen im Vordergrund stehen und
                                                                 fehlen sie eine sequentielle, alphabetisch geordnete Anord-
zu dessen Verständnis beitragen.
                                                                 nung. Wird eine Word Cloud hingegen verwendet, um die
Visualisierungen können interdisziplinär unter verschiedens-
                                                                 häufigsten Begriffe zu visualisieren, sei eine zirkuläre Aus-
ten Aspekten betrachtet werden, wobei diese Arbeit nur
                                                                 richtung mit den häufigsten Begriffen im Zentrum zu be-
einen kleinen Ausschnitt über die Möglichkeiten bieten kann.
                                                                 vorzugen. Schließlich zeigen Lohmann et al. [12] auch die
Der Hauptfokus der zu visualisierenden Daten liegt auf Tex-
                                                                 Möglichkeit auf, Word Clouds nach Themen zu strukturie-
ten, aber auch statistische Daten sind verwendbar. Kuscher
                                                                 ren.
und Kerren [10] bieten eine interessante ÃIJbersicht über
                                                                 Für Online-Partizipationsverfahren können Word Clouds
Techniken, die zur Visualisierung von Text verwendet wer-
                                                                 die Häufigkeit von Wörtern auf verschiedenen Ebenen visua-
den können und stellen ein Online-Tool dafür bereit4 .
                                                                 lisieren. Word Clouds können das gesamte Verfahren oder
Die Daten die bei Online-Partizipation anfallen, sind haupt-
                                                                 Beiträge, aber auch gefundene Themen darstellen. Denkbar
sächlich Textbeiträge, aber etwa auch Abstimmungsdaten.
                                                                 ist auch die Darstellung von Suchergebnissen, die aber wenig
Dazu gibt es auch erhobene Zeitpunkte, etwa wann ein Bei-
                                                                 sinnvoll erscheint da der Suchende an konkreten Ergebnis-
trag erstellt wurde. Je nachdem wie viel Einsicht in ein Sys-
                                                                 sen interessiert ist. Bei dem Einsatz von Word Clouds sollte
tem vorliegt, können auch Zeitpunkte von Abstimmungen
                                                                 die Zweckmäßigkeit im Auge behalten werden. Abbildung 2
erhoben oder das Suchverhalten protokolliert werden. Ana-
                                                                 zeigt ein Beispiel einer Word Cloud, deren enthaltenen Wör-
log zu Cao und Cui. [1] können so folgende Ebenen der Vi-
                                                                 ter zufällig angeordnet sind.
sualisierung bei der Online-Partizipation identifiziert wer-
den: Gesamtheit aller Dokumente, Dokumentebene, Wor-             2.3    Visualisierungen mittels nicht-linearer Di-
tebene und Themenebene. Außerdem können zeitliche Ver-
                                                                        mensionsreduzierung
4
    http://textvis.lnu.se/                                         Der nächste Teilbereich von Visualisierungen ist vergleichs-
                Abbildung 1: Histogramme über die 2331 Vorschläge des Bonner Rad-Dialoges.


                                                               dung erscheint dabei deutlich sinnvoller, vor allem wegen der
                                                               hohen Laufzeit der Reduzierung. Da die zweidimensionale
                                                               Reduzierung die Dokumente als kleine Punkte visualisiert,
                                                               kann dies die intuitive Verwendung durch den Benutzer be-
                                                               einträchtigen.
                                                               Dabei können unübersichtliche Graphen entstehen, die we-
                                                               nig Erkenntnisgewinn bringen. Der Graph ist interaktiv, so-
                                                               dass Daten über jedes Dokument angezeigt werden, wenn die
                                                               Maus über den entsprechenden Punkt bewegt wird. Jedoch
                                                               ist diese Graphik zu irritierend, um bei Online-Partizipati-
                                                               onsverfahren sinnvoll verwendet werden zu können.

                                                               2.4     Streudiagramm
                                                                  Neben der Darstellung von dimensionsreduzierten Daten
                                                               kann ein Streudiagramm eine Vielzahl von zweidimensio-
Abbildung 2: Word Cloud des Bonner Rad-Dialoges                nalen Daten visualisieren. Dabei wird jedes Dokument als
mit logarithmischer Gewichtung.                                Punkt in einem Graphen dargestellt. So können zwei Fea-
                                                               tures gegeneinander aufgetragen und so Korrelationen er-
                                                               kannt werden. Abgesehen von der Position der einzelnen
weise komplex und viel beschrieben. Da Daten nur in zwei       Datenpunkte, können die Datenpunkte für verschiedene Ei-
Dimensionen verständlich dargestellt werden können, ver-     genschaften unterschiedliche Farben erhalten.
wenden viele nicht-lineare Ansätze eine Dimensionsreduzie-    Neben den bereits angesprochenen Daten bspw. zur Zustim-
rung, um mehrdimensionale Daten in einem zweidimensio-         mung, können damit auch zwei Textkorpora verglichen wer-
nalen Raum darzustellen. Dafür werden die Daten zuerst        den, wie [8] aufzeigt. Die entwickelte Software trägt den Na-
auf zwei Dimensionen reduziert und dann mit einem Streu-       men Scatteretext 5 Die Hauptidee ist, dass jedem Korpus ei-
diagramm dargestellt. Es gibt einige Verfahren, wie das von    ne Achse zugewiesen wird, die die relative Häufigkeit eines
Sammon [19], Silva und Tenenbaum [22] oder Roweis und          Terms beschreibt. So bestimmt sich die Position eines Terms
Saul [18]. Als state of the art wird t-SNE von Maaten und      durch die relative Häufigkeit in beiden Korpora, wodurch
Hilton [14] angesehen. Ein relativ neues Verfahren, UMAP       sich ebenfalls das Verhältnis der beiden Häufigkeiten erken-
von McInnes und Healy [15], verspricht eine bessere Perfor-    nen lässt. In den beiden Ecken oben links bzw. unten rechts,
mance als t-SNE bei geringerer Laufzeit. All diese Verfahren   sind die Terme verzeichnet, die die Korpora vom jeweils an-
nehmen an, dass Datenpunkte eine Mannigfaltigkeit teilen       deren unterscheiden. Die Farbe ändert sich in Abhängigkeit
und verwenden mathematische Verfahren, um diese abzu-          zur Distanz zu einer der Ecken. Außerdem wird an jedem
schätzen. UMAP beispielsweise verwendet die Riemannsche       Punkt der Term notiert, was erheblich zur Verständlichkeit
Geometrie zusammen mit Fuzzy-Sets [9].                         beiträgt. Ein Beispiel ist in Abbildung 3 zu sehen.
Für Online-Partizipationsverfahren sind theoretisch mehre-    Scattertext macht vor allem Sinn, wenn zwei Online-Par-
re Möglichkeiten des Einsatzes möglich, wobei alle mit la-   tizipationsverfahren , etwa aus verschiedenen Jahren oder
tenten Themen innerhalb der Beiträge arbeiten. So könn-      Städten, verglichen werden sollen. So kann beurteilt werden
ten nicht-lineare Dimensionsreduzierung verwendet werden,      durch welche Begriffe sich Verfahren unterscheiden, was wie-
um Themen zu finden (analog zum linearen Topic-Modeling)       derum eine Aussagekraft über das Verfahren selbst liefert,
und gegebenenfalls darzustellen. Außerdem könnten bereits     da die Häufigkeit der Wörter in den Kontext eines ande-
reduzierte Vektoren und somit gefundene Themen im zwei-
                                                               5
dimensionalen Raum dargestellt werden. Die zweite Verwen-          https://github.com/JasonKessler/scattertext
ren Verfahrens gesetzt werden. Denkbar ist auch, dass zwei        ne davon ist, die Themen anhand ihrer ÃĎhnlichkeit im
Korpora vergleichen werden die jeweils mehrere Online-Par-        zweidimensionalen Raum darzustellen. Dazu wird eine Di-
tizipationsverfahren zusammenfassen.                              stanzmatrix der Dokumente mit einem dimensionsreduzie-
Neben der Visualisierung von nicht-linearer Dimensionsre-         renden Verfahren, z.B. PCA, auf zwei Dimensionen redu-
duktion, werden Streudiagramme eingesetzt, um Korrelatio-         ziert [3]. Dargestellt wird jedes Thema in diesen zwei Dimen-
nen zwischen zwei numerischen Features zu visualisieren.          sionen als Kreis, dessen Fläche sich nach dem Einfluss des
                                                                  Themas auf den Korpus bezieht. Kreise können sich über-
2.5    Netzdiagramm                                               lappen und auch komplett in anderen Kreisen liegen, wobei
   Netzdiagramme stellen die Ausprägungen verschiedener          kein Zusammenhang zwischen Einfluss des Themas und der
Dimensionen in einer runden Form da. Dabei wird jede Di-          Lage erkennbar ist. Themen können so andere überlagern,
mension auf einer eigenen Achse um den Mittelpunkt eines          auch wenn sie sich wenig ähneln, nur falls eines einen großen
Kreises herum aufgetragen [24]. Zwar werden die Punkte auf        Einfluss hat. Dieses ÃIJberlagern kann Hierarchie vortäu-
den einzelnen Achsen verbunden, jedoch stehen die benach-         schen, die so nicht aus der Berechnung abgeleitet werden
barten Achsen nicht beabsichtigt nebeneinander. Sollen in         kann. Grundsätzlich ist LDAvis auch für Online-Partizipati-
einem Diagramm mehrere Objekte dargestellt werden, soll-          onsverfahren geeignet, jedoch sollte die Art der Verwendung
ten diese visuell unterscheidbar sein, etwa durch verschiede-     auch unerfahrene Benutzer nicht überfordern. In Abbildung
ne Farben [13]. Allerdings sollten damit nicht zu viele Objek-    5 ist ein Beispiel von LDAvis zu sehen.
te vergleichen werden, weshalb häufig auch Diagramme für         Die Autoren schlagen ebenfalls Clustering innerhalb dieses
verschiedene Objekte nebeneinander gezeigt werden, wobei          zweidimensionalen Raums vor.
die Position der Achsen in jedem Diagramm gleich sein soll-       Die andere Darstellungsform zeigt ein Balkendiagramm der
te.                                                               Top-Words eines ausgewählten Themas an. Jedes Wort hat
Daten von Online-Partizipationensverfahren können damit          zwei Balken, einen der den Anteil am Thema und einen der
in vielfältiger Hinsicht verglichen werden. So können Netz-     die Häufigkeit im Korpus wiedergibt. Bewegt man die Maus
diagramme dazu genutzt werden einzelne Aspekte des Ver-           über einen Begriff, wird im Graph der Einfluss auf die The-
fahrens zu visualisieren, beispielsweise die Verteilung von       men durch Veränderung der Fläche der Kreise angezeigt.
Vorschlägen oder Kommentaren auf die einzelnen Wochen-           Ein Verfahren Begriffe innerhalb eines Themas zu visualisie-
tage (siehe Abbildungen 4). Die Information wann sich be-         ren, haben Smith et al. [23] vorgestellt. Dazu werden kräf-
teiligt wird, kann etwa für sozialwissenschaftliche Auswer-      tebasierte Zeichenverfahren [6] unter Einbeziehung von sta-
tungen interessant sein.                                          tistischen Daten und Daten der Themen verwendet. Jedes
Diese zu vergleichenden Aspekte, also Dimensionen, werden         Thema wird als eigener Graph dargestellt, wo eine ausge-
anders als bei Histogrammen jedoch vorher ausgewählt. Ver-       wählte Anzahl von Begriffen die Knoten darstellen. Kanten
wendet werden Netzdiagramme auch, um die Themenvertei-            verbinden zwei Knoten nur, wenn der Kookorenzwert der
lung eines Dokuments oder einer Suchanfrage zu visualisie-        dazugehörigen Begriffe hoch genug ist, sie also häufig ge-
ren [20]. Dabei wird an jede Achse ein für das Thema aussa-      nug zusammen auftreten. Zusätzlich beschreibt die Fläche
gekräftiger Begriff vermerkt. Diese aussagekräftigen Begriffe   der Knoten den Zugehörigkeitswert eines Begriffs zu einem
können auch mit Topic Labeling [16] gefunden werden.             Thema. Die Graphen der Themen werden dann nach Kova-
Schließlich können mit Netzdiagrammen auch verschiede-           rianz zwischen den Themen angeordnet.
ne Dokumente, Dokumentenmengen oder gesamte Online-               Diese Art der Visualisierung ist nur begrenzt sinnvoll, da sie
Partizipationen visuell vergleichen werden.                       schon bei einer begrenzten Anzahl an Themen und kräfteba-
                                                                  sierten Graphen mit vielen Kanten unübersichtlich werden
2.6    Visualisierung von extrahierten Themen                     können.
   Extrahierte Themen zu visualisieren hat vor dem Hinter-
grund dieser Arbeit einen besonderen Stellenwert. Es gibt
                                                                  2.7   Simple Formen der Visualisierung
auch Arbeiten, die sich hauptsächlich damit beschäftigen          Sinnvoll sein kann der Einsatz von simplen Formen der
Themen in unterschiedlicher Weise visualisieren, visualisie-      Visualisierung. Diese sind nicht selten intuitiver oder wer-
rend vergleichen oder damit Interaktion visualisierend zu         den auch ohne viel Vorwissen verstanden.
Unterstützen. Davon werden hier einige vorgestellt.              Balkendiagramme sind nicht die schlichteste Visualisierungs-
Murdock und Allen [17] stellen eine Visualisierung von ÃĎhn-    form, jedoch lassen sie sich analog zu Netzdiagrammen ver-
lichkeitssuchen unter Verwendung eines Topic Models vor.          wenden, so dass sich ähnliche ÃIJberlegungen ergeben. An-
Dies ermöglicht dem Benutzer ähnliche Dokumente zu ei-          ders als Histogramme, visualisieren Balkendiagramme feste
nem von ihm ausgewählten zu finden. Visualisiert werden          Variablen, dessen Ausprägungen dargestellt werden. Auch
die ähnlichsten Dokumente mit einem nach ÃĎhnlichkeit          müssen Balkendiagramme nicht die Häufigkeit darstellen.
sortierten Balkendiagramm. Der Charakter dieser Visuali-          Wie bereits erörtert, können Balkendiagramme auch hori-
sierung ist mehr von unterstützender Natur und eher für         zontal angewendet werden und die Balken aus mehreren Seg-
Korpora geeignet, wo Dokumente leicht anhand ihres Titels         menten bestehen.
identifiziert werden können. Somit erscheint eine Verwen-        Eine viel verwendete und leicht zugängliche Methode ex-
dung der Visualisierung sinnvoll, die dem Benutzer ähnliche      trahierte Themen zu visualisieren, sind die jeweiligen Top-
Dokumente zu dem aktuell betrachtetem aufzeigt und da-            Wörter als Liste darzustellen, absteigend nach Zugehörigkeit
bei gefundene Themen mit darstellt. Denkbar ist auch die          zum Thema. Solche Wortlisten müssen nicht weiter erklärt
ÃĎhnlichkeit einer Anfrage zu Dokumenten in dieser Weise        werden.
zu visualisieren.
LDAvis, welches von Sievert und Shirley [21] entwickelt wur-      2.8   Schlussfolgerung
de, kombiniert im wesentlichen zwei Darstellungformen. Ei-          Betrachtet man die vorhandenen Methoden zur Visuali-
Abbildung 3: Screenshot von Scattertext: Vergleich der Online-Partizipationsverfahren         der Raddialoge in
Bonn und Köln-Ehrenfeld.


Abbildung 4: Relative Häufigkeiten der Vorschläge und Kommentare des Raddialog Bonn und des Bonner
Bürgerhaushalt 2011 an den Wochentagen.


                                                      sierung fällt ins Auge, dass vor allem Metadaten visualisiert
                                                      werden können. Numerische Daten wie Abstimmungszahlen,
                                                      Anzahl an Kommentaren oder zeitliche Daten können mit
                                                      gängigen Methoden visualisiert werden. Dazu gehören Gra-
                                                      phen, Diagramme und Histogramme.
                                                      Texte zu visualisieren ist dagegen eine Herausforderung. Ei-
                                                      nerseits können simple Wortlisten oder Wortwolken verwen-
                                                      det werden, andererseits können Methoden angewendet wer-
                                                      den, um extrahierte Themen zu visualisieren. Diese Visua-
                                                      lisierungen sind oft komplex oder bieten wenig Vorteile ge-
                                                      genüber einer textbasierten Darstellung.
                                                      Schließlich kann eine gute Visualisierung auch bedeuten, Su-
                                                      chergebnisse oder Beiträge verständlich und übersichtlich
                                                      darzustellen.

                                                      3.   FAZIT UND AUSBLICK
                                                         Online-Partizipationsverfahren maschinell zu analysieren,
                                                      kann Teilnehmenden und Betreuenden einen Einblick in und
Abbildung 5: Screenshot einer 2D-Darstellung des      eine ÃIJbersicht über das Verfahren geben. Beides kann hel-
Modells von extrahierten Themen                       fen Verfahren so zu gestalten, dass sich mehr Menschen be-
                                                      teiligen und diese Beitilgung besser ausgewertet wird. Eine
                                                      zentraler Wunsch bei Online-Partizipation ist, die Akzep-
                                                      tanz von Entscheidungen bei den Betroffenen zu steigern.
Zur Themenextraktion bieten sich neben der state-of-the-art      [12] S. Lohmann, J. Ziegler, and L. Tetzlaff. Comparison of
Methode LDA ebenfalls NMF und LSI an. Diese extrahie-                 tag cloud layouts: Task-related performance and visual
ren Themen werden mit einer sortierten Menge von Wörtern             exploration. In IFIP Conference on Human-Computer
assoziiert. Damit kann eine ÃIJbersicht über die Beiträge          Interaction, pages 392–404. Springer, 2009.
gegeben werden. Die Ergebnisse, also gefundenen Themen           [13] R. B. Lydiard, K. Rickels, B. Herman, and D. E.
sind jedoch stark subjektiv [2]. Da Wortlisten extrahierter           Feltner. Comparative efficacy of pregabalin and
Themen nicht alle Aspekte eines Online-Partizipationsver-             benzodiazepines in treating the psychic and somatic
fahrens abdecken können, wurden Visualisierungen vorge-              symptoms of generalized anxiety disorder.
stellt. Neben Darstellungen für Metadaten, gibt es auch Vi-          International Journal of Neuropsychopharmacology,
sualisierungen für extrahierte Themen oder Modelle. Diese            13(2):229–241, 2010.
sind leider oft kompliziert oder zeigen selten neue Aspekte      [14] L. v. d. Maaten and G. Hinton. Visualizing data using
auf. Weiterhin ist die Beurteilung einer Visualisierung stark         t-sne. Journal of machine learning research,
subjektiv. Visualisierungen sollten intuitiv, informativ und          9(Nov):2579–2605, 2008.
leicht zugänglich sein.                                         [15] L. McInnes and J. Healy. UMAP: Uniform Manifold
In Zukunft bietet sich weitere Forschung an, um extrahier-            Approximation and Projection for Dimension
te Themen intuitiv und interaktiv darzustellen. Außerdem              Reduction. ArXiv e-prints, Feb. 2018.
können diese Visualisierungen in Studien evaluiert werden,      [16] Q. Mei, X. Shen, and C. Zhai. Automatic labeling of
um die Verständlichkeit zu beurteilen.                               multinomial topic models. In Proceedings of the 13th
                                                                      ACM SIGKDD international conference on Knowledge
4.   REFERENCES                                                       discovery and data mining, pages 490–499. ACM, 2007.
 [1] N. Cao and W. Cui. Introduction to text visualization.      [17] J. Murdock and C. Allen. Visualization techniques for
     In Atlantis Briefs in Artificial Intelligence, 2016.             topic model checking. In AAAI, pages 4284–4285,
 [2] J. Chang, J. L. Boyd-Graber, S. Gerrish, C. Wang,                2015.
     and D. M. Blei. Reading tea leaves: How humans              [18] S. T. Roweis and L. K. Saul. Nonlinear dimensionality
     interpret topic models. In Advances in Neural                    reduction by locally linear embedding. science,
     Information Processing Systems 22: 23rd Annual                   290(5500):2323–2326, 2000.
     Conference on Neural Information Processing Systems         [19] J. W. Sammon. A nonlinear mapping for data
     2009. Proceedings of a meeting held 7-10 December                structure analysis. IEEE Transactions on Computers,
     2009, Vancouver, British Columbia, Canada., pages                C-18:401–409, 1969.
     288–296, 2009.                                              [20] S. Sasaki, K. Yoshii, T. Nakano, M. Goto, and
 [3] J. Chuang, D. Ramage, C. D. Manning, and J. Heer.                S. Morishima. Lyricsradar: A lyrics retrieval system
     Interpretation and trust: designing model-driven                 based on latent topics of lyrics. In Ismir, pages
     visualizations for text analysis. In CHI, 2012.                  585–590, 2014.
 [4] T. Escher and B. Rottinghaus. Local government              [21] C. Sievert and K. Shirley. Ldavis: A method for
     platforms for citizen participation and their effects on         visualizing and interpreting topics. In Proceedings of
     legitimacy. 2018.                                                the workshop on interactive language learning,
 [5] J. Feinberg. Wordle. In J. Steele and N. Iliinsky,               visualization, and interfaces, pages 63–70, 2014.
     editors, Beautiful visualization: looking at data through   [22] V. D. Silva and J. B. Tenenbaum. Global versus local
     the eyes of experts, chapter 3. Ö’Reilly Media, Inc.”,          methods in nonlinear dimensionality reduction. In
     2010.                                                            Advances in neural information processing systems,
 [6] T. M. Fruchterman and E. M. Reingold. Graph                      pages 721–728, 2003.
     drawing by force-directed placement. Software:              [23] A. Smith, J. Chuang, Y. Hu, J. L. Boyd-Graber, and
     Practice and experience, 21(11):1129–1164, 1991.                 L. Findlater. Concurrent visualization of relationships
 [7] O. Jin, N. N. Liu, K. Zhao, Y. Yu, and Q. Yang.                  between words and topics in topic models. 2014.
     Transferring topical knowledge from auxiliary long          [24] N. R. Tague et al. The quality toolbox, volume 600.
     texts for short text clustering. In Proceedings of the           ASQ Quality Press Milwaukee, WI, 2005.
     20th ACM international conference on Information            [25] P. F. Velleman and D. C. Hoaglin. Applications,
     and knowledge management, pages 775–784. ACM,                    basics, and computing of exploratory data analysis.
     2011.                                                            Duxbury Press, 1981.
 [8] J. S. Kessler. Scattertext: a browser-based tool for        [26] X. Yan, J. Guo, Y. Lan, and X. Cheng. A biterm topic
     visualizing how corpora differ. CoRR, abs/1703.00565,            model for short texts. In Proceedings of the 22nd
     2017.                                                            international conference on World Wide Web, pages
 [9] G. Klir and B. Yuan. Fuzzy sets and fuzzy logic,                 1445–1456. ACM, 2013.
     volume 4. Prentice hall New Jersey, 1995.
[10] K. Kucher and A. Kerren. Text visualization
     techniques: Taxonomy, visual survey, and community
     insights. In 2015 IEEE Pacific Visualization
     Symposium (PacificVis), pages 117–121, 2015.
[11] M. Liebeck, K. Esau, and S. Conrad. Text Mining für
     Online-Partizipationsverfahren: Die Notwendigkeit
     einer maschinell unterstützten Auswertung. HMD
     Praxis der Wirtschaftsinformatik, 54(4):544–562, 2017.