Zusammenfassung

Ansätze zur Erkennung von Kommunikationsmodi in Online-Diskussionen

Matthias Liebeck

liebeck@cs.uni-duesseldorf.de 0 1 0 Heinrich-Heine-Universität Düsseldorf Institut für Informatik Universitätsstr. 1 D-40225 Düsseldorf , Deutschland 1 Natural Language Processing, Text Mining, Text Analysis, Sentiment Analysis , Opinion Mining, Emotion Recognition, Satire Detection, Postillon

2015

42 47

Bei der automatisierten Analyse von Textbeitra¨gen aus Online-Plattformen erfolgt oft eine Einteilung in positive und negative Aussagen. Bei der Analyse von Textbeitra¨gen eines kommunalen Online-Partizipationsverfahrens ist eine Aufteilung der gea¨ußerten Meinungen in Kommunikationsmodi sinnvoll, um eine Filterung nach Argumenten und Emotionsa¨ußerungen fu¨r nachfolgende Verarbeitungsschritte zu ermo¨glichen. In dieser Arbeit werden zwei Ansa¨tze zur Erkennung von Kommunikationsmodi vorgestellt. Das erste Verfahren unterscheidet verschiedene Kommunikationsmodi anhand von Wortlisten. Die zweite Methode beru¨cksichtigt Wortarten und extrahiert weitere sprachliche Eigenschaften. Zur Evaluation der Ansa¨tze wird ein Datensatz aus Schlagzeilen von Nachrichtenartikeln der Internetseite ZEIT ONLINE und der Satire-Website Postillon erstellt. Die Ansa¨tze werden zur Erkennung des Kommunikationsmodus Satire eingesetzt. Das beste Ergebnis mit einem durchschnittlichen F1 von 75,5 % wird durch den zweiten Ansatz mit einer Support Vector Machine erreicht.

Zusammenfassung Kategorien

I.2.7 [Natural Language Processing]: Text Analysis; H.3.1 [Information stogare and retrieval]: Text Mining

EINLEITUNG

1.1

Analyse von Online-Diskussionen

Von besonderem Interesse ist die automatisierte Analyse von Online-Partizipationsverfahren, bei denen Bu¨rger die Mo¨glichkeit nutzen, ihre Meinung zu lokalkommunalen Themen zu a¨ußern. Bei einer oft erwu¨nschten, hohen Teilnehmerzahl an Bu¨rgern kann schnell das Problem auftreten, dass die beteiligten Bu¨rger viele Textbeitra¨ge erstellen und dadurch ein hoher Aufwand fu¨r eine manuelle Auswertung entsteht. Dieser nicht unerhebliche Arbeitsaufwand kann fu¨r Kommunen mit geringem Budget zu dem Problem fu¨hren, dass fu¨r die Analyse nicht genu¨gend personelle Ressourcen zu Verfu¨gung stehen und eine Analyse durch einen externen Dienstleister finanziell ebenfalls nicht mo¨glich ist.

Eine weitere Schwierigkeit entsteht, wenn in einer Kommune erstmalig ein Online-Beteiligungsverfahren eingesetzt wird und die beteiligten Bu¨rger vermehrt Inhalte a¨ußern, die nicht zu dessen Thema passen. Werden in einem Verfahren beispielsweise gemeinsam Sparmaßnahmen diskutiert, so sind Beitra¨ge, in denen Bu¨rger kostenintensive Baumaßnahmen an der sta¨dtischen Infrastruktur vorschlagen, nicht konstruktiv und sollten herausgefiltert werden ko¨nnen.

Um diese Probleme zu reduzieren, sind mehrere automatisierte Schritte denkbar, die zu einer Arbeitsreduktion bei einer qualitativen Analyse fu¨hren. Durch diese Arbeitsreduktion kann eine Verwaltung umfassender mit den beteiligten Bu¨rgern u¨ber eingereichte Verbesserungsvorschla¨ge diskutieren. Zu diesen automatisierten Schritten geho¨ren die thematische Gruppierung von Textbeitra¨gen und die themenspezifische Bestimmung einer Tonalita¨t t ∈ {positiv, negativ, neutral}, um ein Stimmungsbild abscha¨tzen zu ko¨nnen. Dadurch kann beispielsweise ermittelt werden, dass sich viele Bu¨rger u¨ber eine Parkplatzsituation in einem Stadtteil beschweren und Anpflanzungen neuer Ba¨ume in einem Park befu¨rworten.

Ein u¨blicher Ansatz zur Bestimmung von Tonalita¨ten ist der Einsatz eines Tonalita¨tslexikons, in dem fu¨r einzelne Wo¨rter jeweils ein numerischer Tonalita¨tswert angegeben ist. In [ 10 ] wurde gezeigt, dass fu¨r das deutsche Tonalita¨tslexikon SentiWS [ 14 ] nur eine geringe Abdeckung fu¨r die untersuchten Kommentare aus einem kleineren OnlinePartizipationsverfahren und einem Nachrichtenportal erreicht wurde und daher weitergehende Ansa¨tze zur Bestimmung von positiven und negativen Aussagen no¨tig sind. In dieser Publikation werden daher zwei Ansa¨tze vorgestellt, die eine differenziertere Analyse von Meinungsa¨ußerungen ermo¨glichen sollen, indem genauer auf Kommunikationsmodi und gea¨ußerte Emotionen eingegangen wird. 1.2

Kommunikationsmodi

In Online-Diskussionen verwenden die Teilnehmer verschiedene Kommunikationsmodi. Die einzelnen Beteiligten ko¨nnen beispielsweise Aussagen ta¨tigen (1), Argumente fu¨r oder gegen einen Standpunkt formulieren (2) oder Emotionsa¨ußerungen zum Ausdruck bringen (3).

(1) Ich bin fu¨r den Bau eines Schwimmbads. (2) Es sollte kein Geld fu¨r die Oper ausgegeben werden, da unsere Schulen das Geld dringender beno¨tigen. (3) Die steigende Kriminalita¨tsrate macht mir Angst.

Die Emotionsa¨ußerungen ko¨nnen wiederum in verschiedene Emotionen differenziert werden. Bei der Untersuchung von Textbeitra¨gen aus Online-Partizipationsverfahren sind zuna¨chst die Emotionen E := {Freude, Hoffnung, Empo¨rung, Entta¨uschung, Angst} fu¨r ein Stimmungsbild der Bu¨rgermeinungen interessant. Eine fundiertere Einteilung wird in zuku¨nftigen Arbeiten durch Experten erfolgen. Die folgenden Beispiele aus einem fiktiven Online-Partizipationsverfahren veranschaulichen die unterschiedenen Emotionen.

(4) Freude: Das wa¨re wirklich scho¨n. (5) Hoffnung: Ich hoffe, dass an der Hauptstraße neue

Ba¨ume gepflanzt werden ko¨nnen. (6) Empo¨rung: Das geho¨rt doch verboten! (7) Entta¨uschung: Die zur letzten Wahlperiode versprochene A¨nderung konnte meine Erwartungen nicht erfu¨llen. (8) Angst: Ich befu¨rchte, dass meine Buslinie durch diese

A¨nderung eingestellt wird.

Bei der automatisierten Erkennung von Emotionen variiert die Einteilung der Emotionen je nach Textmaterial. [ 17 ] unterscheidet in die sechs Emotionen anger, disgust, fear, joy, sadness und surprise, wohingegen [ 8 ] nur die vier Emotionen anger, fear, joy und sadness betrachtet.

Der Grund fu¨r die Untersuchung von Kommunikationsmodi ist die Arbeitshypothese, dass durch eine automatische Erkennung der Emotionen E ein detaillierteres, themenspezifisches Stimmungsbild angegeben werden kann, als es ein Mittelwert u¨ber numerische Tonalita¨tsangaben ermo¨glicht. Dazu muss ein Klassifikator K erstellt werden, der jedem Satz eines Textbeitrags individuell eine Emotion oder die Klasse neutral zuordnet. Erschwerend bei der Klassifikation ist die subjektive und kontextabha¨ngige Wahrnehmung von Emotionen.

Der Rest dieser Arbeit ist wie folgt aufgebaut: Im na¨chsten Kapitel werden verwandte Arbeiten vorgestellt. Nachdem in Kapitel 3 zwei Ansa¨tze zur Erkennung von Kommunikationsmodi pra¨sentiert werden, erfolgt in Kapitel 4 eine Evaluation beider Ansa¨tze am Beispiel des Kommunikationsmodus Satire. Anschließend wird in Kapitel 5 ein Fazit gezogen und Ideen fu¨r zuku¨nftige Arbeiten angegeben.

VERWANDTE ARBEITEN

Der Bereich Sentiment Analysis bescha¨ftigt sich mit der automatisierten Bestimmung von Tonalita¨ten in Textdokumenten. U¨ bliche Anwendungsgebiete sind die Analyse von Produktrezensionen [ 7 ] und Filmrezensionen [ 12 ], die in positive und negative A¨ ußerungen kategorisiert werden. Die automatisierte Extraktion von Tonalita¨ten, bei der einer Aussage eine Tonalita¨t t ∈ {positiv, negativ, neutral} zugeordnet wird, hat sich fu¨r die Analyse von Zeitungsartikeln im Rahmen einer Medienresonanzanalyse [ 16 ] bewa¨hrt.

Die Erkennung von Emotionen in Texten ist bereits mehrfach [ 1, 8, 17 ] untersucht worden. Das Ziel von [ 1 ] ist die Erkennung von Emotionen in Ma¨rchentexten. Die Autoren fokussieren sich dabei auf die bina¨re Klassifikation von englischsprachigen Sa¨tzen und untersuchen, ob in einem Satz Emotionen auftreten. Dafu¨r annotieren sie einen Datensatz von 1580 Sa¨tzen aus 22 Geschichten der Gebru¨der Grimm, auf dem ein linearer Klassifikator trainiert und evaluiert wird. Zur vektoriellen Repra¨sentation der einzelnen Sa¨tze verwendet [ 1 ] mehrere sprachliche Eigenschaften wie die Verteilung von POS-Tags, Satzla¨ngen, Interpunktionszeichen und mehrere Listen von Wo¨rtern, die auf Emotionen hindeuten.

Eine automatisierte Erkennung von sechs verschiedenen Emotionen erfolgt in [ 17 ]. Die Autoren untersuchen mehrere Techniken auf einem Datensatz aus 1000 Schlagzeilen von Nachrichtenartikeln. Fu¨r ein Baseline-Verfahren erstellen die Autoren sechs Wortlisten aus WordNet-Affect [ 18 ], einer um Emotionen annotierte Erweiterung von WordNet [ 11 ]. In dem Baseline-Verfahren erfolgt die Klassifikation eines Satzes s zu Emotionen durch das Auftreten der einzelnen Wo¨rter aus s in den Wortlisten. In einem fortgeschrittenen Verfahren, das aus einer Kombination aus Latent Semantic Analysis [ 9 ] und Synonymen aus WordNet und WordNetAffect besteht, erreicht [ 17 ] einen durchschnittlichen F1 Wert von 17,57 % als bestes Ergebnis fu¨r die Erkennung der sechs Emotionen.

In [ 3 ] wird ebenfalls das bina¨re Klassifikationsproblem der Satire-Erkennung in Zeitungsartikeln behandelt. Dabei beru¨cksichtigen die Autoren zusa¨tzlich den Inhalt der Nachrichtenartikel. Als Datensatz untersucht [ 3 ] dabei insgesamt 4000 englischsprachige Zeitungsartikel, von denen 233 Satire beinhalten. Als Basismodell wa¨hlen die Autoren ein Bagof-Words-Modell mit bina¨rer Gewichtung. Eine deutliche Steigerung der Ergebnisse kann mit Bi-Normal Separation (BNS) [ 6 ] als Gewichtung, dem Nachschlagen von Wo¨rtern in einem Lexikon und einer Google-Suche nach auftretenden Personen und Organisationsnamen erreicht werden. Zur Klassifikation setzt [ 3 ] eine lineare Support Vector Machine ein.

ANSÄTZE

Im Folgenden werden zwei Ansa¨tze vorgestellt, die fu¨r die Erkennung von Kommunikationsmodi in Textbeitra¨gen aus Online-Partizipationsverfahren naheliegend sind. Beide Ansa¨tze versuchen, die menschliche Erkennung von Emotionen nachzuahmen, indem sie auf die in den Textbeitra¨gen vorhandenen Wo¨rter, in Form von Signalwo¨rtern und bestimmten sprachlichen Konstruktionen, achten.

Dazu mu¨ssen die zu untersuchenden Texte satzweise analysiert werden. Die Eingabetexte werden zuna¨chst durch eine Natural Language Processing Pipeline aufbereitet. Die Anzahl an Verarbeitungsschritten der Pipeline ist von der konkreten Aufgabenstellung abha¨ngig. Fu¨r die vorgestellten Ansa¨tze werden insgesamt vier Schritte in der NLP-Pipeline durchgefu¨hrt: Mittels eines Tokenizers wird ein Eingabetext in einzelne Wo¨rter zerlegt. Durch einen Sentence Splitter werden die Wo¨rter in Sa¨tze gruppiert. Anschließend werden fu¨r jedes Wort ein Part-of-Speech Tag (POS-Tag) bzw. eine Wortart bestimmt und eine Lemmatisierung durchgefu¨hrt, durch die fu¨r jedes Wort zusa¨tzlich eine Grundform (z. B. Schwimmba¨der → Schwimmbad) angegeben wird.

Der erste Ansatz untersucht, inwiefern bestimmte Schlu¨sselwo¨rter auf einzelne Kommunikationsmodi oder Emotionen hinweisen. Der zweite Ansatz arbeitet unter der Hypothese, dass eine Korrelation bestimmter sprachlicher Eigenschaften zu einzelnen Kommunikationsmodi auftritt. Dabei werden die verwendeten Wortarten untersucht. Motiviert wird dieser Ansatz dadurch, dass eine positive Emotion beispielsweise mit einer u¨berdurchschnittlichen Anzahl an Adjektiven korrelieren ko¨nnte.

In beiden Ansa¨tzen wird jedem Satz mittels eines Klassifikators ein Kommunikationsmodus bzw. eine Emotion oder die Klasse neutral zugeordnet. Um beide Ansa¨tze evaluieren zu ko¨nnen, muss ein annotierter Datensatz bzw. ein Korpus als Trainingsmenge verwendet werden, in dem auf Satzebene alle Sa¨tze mit entsprechenden Kommunikationsmodi annotiert sind. Der Korpus wird in eine Trainings- und eine Testmenge aufgeteilt, anhand derer ein Klassifikator trainiert bzw. bewertet werden kann. 3.1

Wortlisten

Der erste Ansatz basiert auf der Annahme, dass das Auftreten bestimmter Wo¨rter mit einem Kommunikationsmodus bzw. einer Emotion korreliert. Das Ziel des Ansatzes ist die Verwendung von Wortlisten, die eine Klassifikation eines Satzes, basierend auf den in ihm enthaltenen Wo¨rtern, ermo¨glichen. Fu¨r den nachfolgenden Satz ko¨nnen die Wo¨rter Angst und verliere auf die Emotion Angst hinweisen: (9) Ich habe Angst, dass ich verliere.

Um diese Erkennung zu automatisieren, ko¨nnen fu¨r jede Emotion charakteristische Wo¨rter aus einer Trainingsmenge extrahiert werden. Dazu werden in der Trainingsmenge auftretende Wo¨rter untersucht und in disjunkte Wortlisten eingeteilt. Bei der Konstruktion dieser Wortlisten ko¨nnten fu¨r Beispiel (9) die Wo¨rter Angst und verliere als charakteristisch identifiziert werden, falls sie auch in anderen Sa¨tzen der Trainingsmenge auftreten, die ebenfalls mit der Emotion Angst annotiert sind. Die gro¨ßte Schwierigkeit bei diesem Ansatz ist die passende Auswahl der Wo¨rter fu¨r die Wortlisten. So muss darauf geachtet werden, keine Wo¨rter zu verwenden, die in allen Klassen ha¨ufig vorkommen. Daher bietet es sich an, nur Wo¨rter zu betrachten, die u¨berwiegend in einer Klasse (relative Ha¨ufigkeit gro¨ßer als ein Schwellwert τ ) und damit nur selten in anderen Klassen vorkommen.

Wird allein auf den Schwellwert τ geachtet, so entsteht das Problem, dass auch Wo¨rter in die Wortlisten aufgenommen werden, die insgesamt nur selten auftreten. Tritt beispielsweise das Wort Glu¨ck nur einmal in der Trainingsmenge auf, und zwar in einem mit der Emotion Empo¨rung annotierten Satz, so wu¨rde das Wort Glu¨ck in die Wortliste fu¨r die Emotion Empo¨rung aufgenommen werden, anstatt in die Wortliste der Emotion Freude. Um diese Problematik zu vermeiden, bietet sich ein Parameter supp an, der angibt, wie ha¨ufig ein Wort insgesamt in der Trainingsmenge auftreten muss, bevor es in eine Wortliste eingefu¨gt werden darf.

Durch diese beiden Parameter werden ha¨ufig in allen Emotionen auftretende Wo¨rter, wie Artikel und Pronomen, herausgefiltert. Die konkrete Wahl der beiden Parameter kann durch ein Experiment gescha¨tzt werden.

Um einen neuen Satz einer Emotion zuzuordnen, kann jedes Wort w des Satzes in den Wortlisten nachgeschlagen werden. Dem Satz wird diejenige Emotion zugeordnet, fu¨r die am meisten Wo¨rter in der jeweiligen Wortliste gefunden werden.

In einer Modifikation dieses Ansatzes werden nicht die Wo¨rter, sondern deren, durch eine Lemmatisierung bestimmte, Grundformen in Wortlisten gefu¨hrt bzw. nachgeschlagen. 3.2

Sprachliche Eigenschaften

Der zweite Ansatz basiert auf der Hypothese, dass die verschiedenen Kommunikationsmodi bzw. Emotionen im Text charakteristische sprachliche Merkmale besitzen. Um diese Vermutung auf einem Datensatz zu u¨berpru¨fen, ist eine Methode M notwendig, die sprachliche Eigenschaften eines Satzes in eine vektorielle Darstellung u¨berfu¨hrt. Dazu werden aus allen Sa¨tzen einer Trainingsmenge sprachliche Eigenschaften durch M extrahiert. Fu¨r einen zu klassifizierenden Satz einer Testmenge werden ebenfalls sprachliche Eigenschaften mittels M extrahiert, die anschließend mit einem Klassifikationsverfahren und einer Distanzfunktion zu einem Kommunikationsmodus zugeordnet werden ko¨nnen.

Eine einfache Annahme ist, dass bestimmte Kommunikationsmodi bzw. Emotionen mit einer bestimmten Verteilung von POS-Tags korrelieren. Als erste vektorielle Modellierung eines Satzes s wird daher fu¨r jeden POS-Tag p eines Tagsets die Ha¨ufigkeit von p in s angegeben.

Diese vektorielle Darstellung kann um weitere sprachliche Eigenschaften erga¨nzt werden, die eventuell charakteristisch fu¨r eine Emotion sein ko¨nnen, beispielsweise welche Wortart am Satzanfang und am Satzende steht oder welches Interpunktionszeichen (Punkt, Fragezeichen oder Ausrufezeichen) einen Satz beendet. Ferner kann das Auftreten von Negationen oder von verschachtelten Nebensa¨tzen beru¨cksichtigt werden. 4.

KOMMUNIKATIONSMODUS SATIRE

Da zum aktuellen Zeitpunkt noch keine ausreichende Datenmenge an Diskussionensbeitra¨gen aus Online-Partizipationsverfahren vorliegt, werden die in Kapitel 3 beschriebenen Ansa¨tze zur Erkennung von Kommunikationsmodi konkret auf den Kommunikationsmodus Satire angewendet, indem die Erkennung von Satire in Nachrichtenartikeln evaluiert wird. In zuku¨nftigen Arbeiten werden diese Techniken ebenfalls fu¨r die Erkennung von Emotionsa¨ußerungen in OnlinePartizipationsverfahren erprobt und evaluiert.

Zur Evaluation wird ein Datensatz aus Nachrichtenartikeln zusammengestellt. Basierend auf den U¨ berschriften der Nachrichtenartikel soll das bina¨re Klassifikationsproblem gelo¨st werden, ob ein Nachrichtenartikel von der SatireWebseite Postillon1 stammt oder auf ZEIT ONLINE2 ver¨offentlicht wurde. 4.1

Datensatz

Der zur Satire-Erkennung verwendete Datensatz setzt sich aus den beiden Nachrichtenquellen Postillon und ZEIT ONLINE zusammen. Die Schlagzeilen der Artikel beider Webseiten wurden jeweils u¨ber einen JSON-Webservice heruntergeladen. Fu¨r den Postillon werden 3650 Artikel aus dem Zeitraum Oktober 2008 bis Ma¨rz 2015 betrachtet. Die beiden nachfolgenden Schlagzeilen sind Beispiele fu¨r Satire-Artikel aus dem Postillon: 1http://www.der-postillon.com 2http://www.zeit.de (10) Sensation! Autobahn-Fahrer entdeckt weitere Fahrbahn rechts neben der Mittelspur (11) Ko¨lner Dom von Unbekannten u¨ber Nacht um 360

Grad gedreht

Eine genauere Betrachtung der Satire-Artikel hat ergeben, dass bestimmte Artikelformate in regelma¨ßigen Absta¨nden vorkommen, wie z. B. Sonntagsfragen oder Newsticker. Diese wurden fu¨r die weitere Betrachtung entfernt, um das Klassifikationsproblem zu erschweren. Da einige Artikel mehrfach vero¨ffentlicht wurden, wird von allen Artikeln mit demselben Namen jeweils nur die chronologisch erste Vero¨ffentlichung verwendet. Durch diese Filterungsschritte reduziert sich die Anzahl der zur Verfu¨gung stehenden Postillon-Artikel auf 2260.

Die zweite Klasse des Datensatzes setzt sich aus klassischen Zeitungsartikeln zusammen, die auf ZEIT ONLINE vero¨ffentlicht wurden. Aus den Kategorien Wirtschaft, Gesellschaft, Sport, Wissen und Digital wurden jeweils die 2000 aktuellsten Artikel vor dem Stichtag 1.4.2015 mittels ZeitOnlineAPISharp3 heruntergeladen. Fu¨r die weitere Verarbeitung wurden aus diesen 10000 Artikeln insgesamt 2260 Artikel zufa¨llig ausgewa¨hlt, um einen balancierten Datensatz betrachten zu ko¨nnen. Die beiden folgenden Schlagzeilen stammen aus Artikeln von ZEIT ONLINE: (12) Lehrerverband warnt vor Risiken fu¨r Bildung (13) Energiekonzern verzichtet auf Atomenergie, Kohle und Gas

Zur nachfolgenden Evaluation werden die Artikel in eine Trainings- und eine Testmenge aufgeteilt. Zum Training werden pro Klasse 1000 Artikel zufa¨llig ausgewa¨hlt, sodass das Training auf insgesamt 2000 Artikeln stattfindet. Die Evaluation erfolgt auf der Grundlage der verbleibenden 2520 Artikel. 4.2

Evaluation

Der zusammengestellte Datensatz wird zuna¨chst durch eine NLP-Pipeline aufbereitet: Fu¨r jede Schlagzeile erfolgt durch OpenNLP4 eine Zerlegung in einzelne Wo¨rter, eine Trennung in Sa¨tze und eine Bestimmung von Wortarten fu¨r jedes einzelne Wort. Die ermittelten Wortarten stammen aus dem Stuttgart-Tu¨bingen-Tagset (STTS) [ 15 ], welches aus 54 verschiedenen Wortarten besteht. Die Lemmatisierung von Wo¨rtern erfolgt durch Mate Tools [ 2 ]. 4.2.1

Wortlisten

Fu¨r die Satire-Erkennung u¨ber Wortlisten mu¨ssen zwei disjunkte Wortlisten WP und WZ erstellt werden, in denen jeweils Wo¨rter vertreten sind, die u¨berwiegend nur in den Schlagzeilen des Postillons bzw. in den Schlagzeilen von ZEIT ONLINE auftreten. Zur Erstellung dieser Wortlisten werden zuna¨chst die einzelnen Wo¨rter als Datengrundlage verwendet. Im Postillon treten 4025 (3583 Lemmata) und in ZEIT ONLINE 3050 (2696 Lemmata) verschiedene Wo¨rter auf. Fu¨r die Erstellung der Wortlisten wird zuna¨chst pro Wort bestimmt, wie ha¨ufig es in der Trainingsmenge auftritt. Wo¨rter, die weniger als supp mal auftreten, werden ignoriert. Anschließend wird fu¨r jedes Wort w berechnet, wie groß die relative Ha¨ufigkeit p von w in den Schlagzeilen des Postillons bzw. in den Schlagzeilen aus ZEIT ONLINE ist. Falls p ≥ τ ist, so wird w in die entsprechende Wortliste eingefu¨gt. In einer zweiten Variante werden anstelle der 3https://github.com/Liebeck/ZeitOnlineAPISharp 4https://opennlp.apache.org/ 0,55 0,6 0,65 0,7 0,75 0,8 0,85 0,9 0,95 1 Tabelle 1: Satire-Erkennung mit Wortlisten τ + DefauWlt ort + DefaLuletmma 59,24 % 56,84 % 62,88 % 61,51 % 57,74 % 64,21 % 59,23 % 55,73 % 57,59 % 58,87 % 52,11 % 53,75 % 52,36 % 46,11 % 50,90 % 49,02 % 41,52 % 48,13 % 43,41 % 33,58 % 43,81 % 42,42 % 30,76 % 42,96 % 41,39 % 28,77 % 42,04 % 41,39 % 28,77 % 42,04 % Wo¨rter die durch die Lemmatisierung bestimmten Lemmata der Wo¨rter untersucht.

Da bisher noch keine Erfahrungswerte fu¨r die Parameterwahl vorliegen, werden die Auswirkungen verschiedener Parameter experimentell bestimmt, indem eine Gittersuche mit τ ∈ {0.55, 0.6, . . . , 1} und supp ∈ {3, 4, . . . , 10} durchgefu¨hrt wird.

Die Ergebnisse der Satire-Erkennung durch Wortlisten sind in Tabelle 1 als durchschnittlicher F1 Wert u¨ber beide Klassen angegeben, wobei fu¨r jeden Wert von τ das jeweils beste Ergebnis angegeben ist, welches durchgehend mit supp = 3 erreicht wird. Bei dem Mehrheitsentscheid des Ansatzes ist es mo¨glich, dass ein Unentschieden vorliegt. Dies bedeutet, dass keines der Wo¨rter einer zu klassifizierenden Schlagzeile in WP oder WZ auftritt oder dass ein Gleichstand vorliegt. Fu¨r jede Parameterbelegung von τ und supp werden zwei Evaluationen mit einem unterschiedlichen Standardwert d ∈ {Postillon, ZEIT ONLINE} zur Auflo¨sung eines Gleichstands durchgefu¨hrt, von denen in Tabelle 1 jeweils das schlechtere der beiden Ergebnisse aufgefu¨hrt ist. Um die Auswirkungen eines Standardwerts beurteilen zu ko¨nnen, sind in Tabelle 1 ebenfalls die Ergebnisse einer Klassifikation aufgefu¨hrt, bei der ein Unentschieden bei einem Mehrheitsentscheid als falsche Klassifikation behandelt wird.

Fu¨r die Satire-Erkennung erreicht der erste Ansatz mit den auftretenden Wo¨rtern als Datengrundlage als bestes Ergebnis den Wert 61,51 % fu¨r τ = 0, 6 und supp = 3. Durch eine Lemmatisierung kann das Ergebnis auf 64,21 % gesteigert werden. Bei einem fixierten Wert fu¨r τ und einem steigenden Wert fu¨r supp werden die Klassifikationsergebnisse schlechter, da die Gro¨ßen der Wortlisten entsprechend abnehmen. Fu¨r den untersuchten Datensatz verschlechtern sich die Ergebnisse bei einem steigenden τ aus demselben Grund. 4.2.2

Sprachliche Features

In einem ersten vektoriellen Modell wird jede Schlagzeile durch die absoluten Ha¨ufigkeiten der auftretenden POSTags aus dem STTS-Tagset repra¨sentiert. Zum Vergleich wird ein zweites Modell untersucht, in dem die Auswirkungen einer Reduktion der 54 POS-Tags auf die 12 POSTags des UTS-Tagsets [ 13 ] beobachtet werden. Beide Modelle werden mit den drei Klassifikationsverfahren k-Nearest Neighbors (kNN), Support Vector Machine (SVM) und outof-place measure [ 4 ] evaluiert.

Als SVM-Implementierung wird LIBSVM [ 5 ] verwendet. Eingesetzt wird eine soft-margin SVM mit einem RBFKernel K(x, y) = exp(−γ||x − y||2). Die fu¨r das Training der Tabelle 2: Satire-Erkennung mit sprachlichen Eigenschaften kNN Modell SVM

+ Default STTS 73,65 % 71,77 % 71,04 % 67,13 % STTS, Variante B 75,50 % 73,13 % 72,94 % — UTS 71,51 % 74,75 % 74,48 % 60,74 % UTS, Variante B 73,55 % 75,25 % 75,05 % — Out-of-place SVM beno¨tigten Werte fu¨r den Strafterm C und fu¨r γ werden pro Modell jeweils u¨ber eine Gittersuche mittels einer Kreuzvalidierung u¨ber die Trainingsmenge bestimmt. Als Konvergenzkriterium der SVM wird = 10−3 gesetzt.

Fu¨r den kNN-Algorithmus werden verschiedene Werte fu¨r k ∈ {1, . . . , 12} erprobt. Bei der Bestimmung der na¨chsten Nachbarn werden jeweils die k na¨chsten Nachbarn per euklidischer Distanz ermittelt. Sollten mehrere Kandidaten fu¨r die Auswahl des k-na¨chsten Nachbarn p vorhanden sein, so wird die Liste der na¨chsten Nachbarn um alle Nachbarn erweitert, die zum Anfrageobjekt o denselben Abstand haben wie o zu p. Die Klassenzugeho¨rigkeit erfolgt u¨ber einen Mehrheitsentscheid der Klassen aller gefundenen na¨chsten Nachbarn. Tritt dabei ein Gleichstand auf, so wird ebenfalls ein Standardwert verwendet.

Das out-of-place measure wird gewo¨hnlich fu¨r die Spracherkennung durch N-Gramme eingesetzt. Fu¨r die Evaluation wird es fu¨r den Vergleich von Verteilungen von POS-Tags verwendet, indem fu¨r beide Nachrichtenquellen sogenannte Kategorienprofile bestimmt werden. Ein Kategorienprofil besteht dabei jeweils aus einer nach absoluten Ha¨ufigkeiten absteigend sortierten Liste von POS-Tags der jeweiligen Trainingsmenge. Zur Klassifikation einer Schlagzeile wird ein Anfrageprofil mittels derselben Methode berechnet. Die Indexpositionen des Anfrageprofils werden mit den Indexpositionen der Kategorienprofile verglichen. Einer Schlagzeile wird dann diejenige Nachrichtenquelle zugeordnet, zu deren Kategorienprofil der kleinste Abstand zum Anfrageprofil besteht.

Die Modellierung wird in einer Variante B erga¨nzt, in der weitere sprachliche Eigenschaften als bina¨re Dimension hinzugefu¨gt werden. Dabei wird beru¨cksichtigt, ob in der U¨ berschrift das erste Wort ein Nomen ist, ob das erste Wort ein Verb ist, ob das letzte Wort ein Verb ist, ob in der U¨ berschrift ein Anfu¨hrungszeichen vorhanden ist und ob ein Fragezeichen, ein Ausrufezeichen oder ein Komma (jeweils bina¨r) auftritt.

Die Ergebnisse der drei Klassifikationsverfahren sind in Tabelle 2 mit durchschnittlichen F1 Werten u¨ber beide Klassen dargestellt. Das insgesamt beste Ergebnis von 75,5 % erreicht eine SVM mit STTS POS-Tags und Variante B. Das beste Ergebnis des kNN-Algorithmus ist minimal schlechter mit 75,25 %. Die Klassenzugeho¨rigkeit beim kNN-Algorithmus kann in fast allen Fa¨llen per Mehrheitsentscheid bestimmt werden. Interessant zu beobachten sind die Auswirkungen der Reduktion des STTS-Tagsets auf das UTS-Tagset, die je nach Klassifikationsverfahren unterschiedlich sind. Fu¨r den kNN-Algorithmus konnte eine Verbesserung der Ergebnisse erzielt werden. Bei den anderen Verfahren verschlechtert sich das Ergebnis im Vergleich zu den STTS-Tags.

FAZIT UND AUSBLICK

In dieser Arbeit wurden zwei Ansa¨tze zur Erkennung von Kommunikationsmodi pra¨sentiert. Fu¨r die nahe Zukunft ist geplant, beide Ansa¨tze auf Textbeitra¨ge eines OnlinePartizipationsverfahrens anzuwenden. Dazu wird ein Codebuch entwickelt werden, mit dem der Datensatz in Bezug auf Kommunikationsmodi annotiert wird. Beide Ansa¨tze werden dann auf das Multiklassenproblem der Erkennung von Emotionsa¨ußerungen transferiert und evaluiert.

Bei der Untersuchung des Kommunikationsmodus Satire wurde gezeigt, dass die beiden Ansa¨tze gute Ergebnisse von bereits 75,5 % erreicht haben. Bei der Evaluation ist aufgefallen, dass das Festlegen eines Standardwerts bei einem Gleichstand fu¨r den mit Wortlisten arbeitenden Ansatz eine gro¨ßere Auswirkung auf die Klassifikationsergebnisse hat, als beim kNN-Algorithmus fu¨r die sprachlichen Eigenschaften. Fu¨r das bina¨re Klassifikationsproblem der Satire-Erkennung sind ein Reihe von weitergehenden Untersuchen mo¨glich. Es ko¨nnte untersucht werden, welche Auswirkungen durch die Filterung von Stoppwo¨rtern, durch den Vergleich unterschiedlicher Distanzfunktionen fu¨r den kNN-Algorithmus und durch die Verwendung weiterer sprachlicher Eigenschaften entstehen ko¨nnen und ob dadurch die Ergebnisse gegenu¨ber Variante B noch gesteigert werden ko¨nnen.

Die gro¨ßte Schwierigkeit des ersten Ansatzes ist die Auswahl charakteristischer Wo¨rter. Bei einem Transfer des Ansatzes auf andere Datenquellen werden die Auswirkungen von manuell vorgegebenen Wortlisten untersucht. Insbesondere ist geplant, die Auswirkungen einer Erweiterung der Listen durch Synonyme aus einem Thesaurus zu beobachten. Bei der Generierung der Wortlisten konnten die Ergebnisse durch eine Lemmatisierung verbessert werden. In zuku¨nftigen Arbeiten wird untersucht werden, inwiefern Wiktionary5 zur Grundformreduktion eingesetzt werden kann. Außerdem wird der Ansatz fu¨r den Umgang mit Negationen erweitert werden.

Fu¨r den zweiten Ansatz sind weitere sprachliche Eigenschaften in einer vektoriellen Darstellung vorstellbar, wie beispielsweise das Auftreten von POS-Tag-Bigrammen. Um bei einer Klassifikation gute Ergebnisse erzielen zu ko¨nnen, ist eine Filterung nach sprachlichen Eigenschaften notwendig, die besonders gut mit den einzelnen Klassen korrelieren. Daru¨ber hinaus wird in zuku¨nftigen Arbeiten untersucht werden, inwiefern beide Ansa¨tze kombinierbar sind. Anstelle eines Mehrheitsentscheids des ersten Ansatzes kann die vektorielle Darstellung fu¨r jeden Eintrag einer Wortliste um bina¨re Dimensionen erweitert werden, die jeweils angeben, ob in dem zu klassifizierenden Satz das entsprechende Wort einer Wortliste auftritt. In nachfolgenden Arbeiten wird untersucht werden, welchen Einfluss eine Verkleinerung des STTS-Tagsets auf das UTS-Tagset auf anderen Datensa¨tzen hat.

LITERATUR

[1]

C. O.

Alm ,

Roth , and

Sproat . Emotions from Text: Machine Learning for Text-based Emotion Prediction . In Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing, HLT '05 , pages 579 - 586 . Association for Computational Linguistics, 2005 .

[2]

Bjo ¨rkelund,

Bohnet ,

Hafdell , and

Nugues . A High-Performance Syntactic and Semantic Dependency Parser . In Proceedings of the 23rd International Conference on Computational Linguistics: Demonstrations, COLING '10 , pages 33 - 36 . Association for Computational Linguistics, 2010 .

[3]

Burfoot and

Baldwin . Automatic Satire Detection: Are You Having a Laugh? In Proceedings of the ACL-IJCNLP 2009 Conference Short Papers, ACLShort '09 , pages 161 - 164 . Association for Computational Linguistics, 2009 .

[4]

W. B.

Cavnar and

J. M.

Trenkle . N-Gram-Based Text Categorization . In Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval , pages 161 - 175 , 1994 .

[5]

C.-C.

Chang and

C.-J.

Lin . LIBSVM: A library for support vector machines . ACM Transactions on Intelligent Systems and Technology , 2 : 27 : 1 - 27 : 27 , 2011 .

[6]

Forman. BNS Feature Scaling: An Improved Representation over TF-IDF for SVM Text Classification . In Proceedings of the 17th ACM Conference on Information and Knowledge Management , CIKM '08 , pages 263 - 270 . ACM, 2008 .

[7]

Hu and

Liu . Mining and Summarizing Customer Reviews . In Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD '04 , pages 168 - 177 . ACM, 2004 .

[8]

S. M.

Kim ,

Valitutti , and

R. A.

Calvo . Evaluation of Unsupervised Emotion Models to Textual Affect Recognition . In Proceedings of the NAACL HLT 2010 Workshop on Computational Approaches to Analysis and Generation of Emotion in Text, CAAGET '10 , pages 62 - 70 . Association for Computational Linguistics, 2010 .

[9]

Landauer ,

Foltz , and

Laham . An introduction to latent semantic analysis . Discourse processes , 25 : 259 - 284 , 1998 .

[10]

Liebeck . Aspekte einer automatischen Meinungsbildungsanalyse von Online-Diskussionen . In Proceedings BTW 2015 - Workshops und Studierendenprogramm , pages 203 - 212 , 2015 .

[11]

G. A.

Miller . WordNet: A Lexical Database for English . Communications of the ACM , 38 ( 11 ): 39 - 41 , 1995 .

[12]

Pang ,

Lee , and

Vaithyanathan . Thumbs Up? : Sentiment Classification Using Machine Learning Techniques . In Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing - Volume 10 , EMNLP ' 02 , pages 79 - 86 . Association for Computational Linguistics, 2002 .

[13]

Petrov , D. Das , and R. McDonald . A Universal Part-of-Speech Tagset . In Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12) . European Language Resources Association , 2012 .

[14]

Remus ,

Quasthoff , and

Heyer. SentiWS - a Publicly Available German-language Resource for Sentiment Analysis . In Proceedings of the 7th International Language Resources and Evaluation (LREC'10) , pages 1168 - 1171 , 2010 .

[15]

Schiller ,

Teufel , C. Sto¨ckert, and

Thielen . Guidelines fu¨r das Tagging deutscher Textcorpora mit STTS (kleines und großes Tagset) . Technical report , Universita¨t Stuttgart, Universita¨t Tu¨bingen, 1999 .

[16]

Scholz and

Conrad . Opinion Mining in Newspaper Articles by Entropy-Based Word Connections . In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing , pages 1828 - 1839 . Association for Computational Linguistics, 2013 .

[17]

Strapparava and

Mihalcea . Learning to Identify Emotions in Text . In Proceedings of the 2008 ACM Symposium on Applied Computing, SAC '08 , pages 1556 - 1560 . ACM, 2008 .

[18]

Strapparava and

Valitutti. WordNet-Affect : An affective extension of WordNet . In Proceedings of the 4th International Conference on Language Resources and Evaluation , pages 1083 - 1086 . European Language Resources Association, 2004 .