<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Ansätze zur Erkennung von Kommunikationsmodi in Online-Diskussionen</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Matthias Liebeck</string-name>
          <email>liebeck@cs.uni-duesseldorf.de</email>
          <xref ref-type="aff" rid="aff0">0</xref>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Heinrich-Heine-Universität Düsseldorf Institut für Informatik Universitätsstr.</institution>
          <addr-line>1 D-40225 Düsseldorf</addr-line>
          ,
          <country country="DE">Deutschland</country>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>Natural Language Processing, Text Mining, Text Analysis, Sentiment Analysis</institution>
          ,
          <addr-line>Opinion Mining, Emotion Recognition, Satire Detection, Postillon</addr-line>
        </aff>
      </contrib-group>
      <pub-date>
        <year>2015</year>
      </pub-date>
      <fpage>42</fpage>
      <lpage>47</lpage>
      <abstract>
        <p>Bei der automatisierten Analyse von Textbeitra¨gen aus Online-Plattformen erfolgt oft eine Einteilung in positive und negative Aussagen. Bei der Analyse von Textbeitra¨gen eines kommunalen Online-Partizipationsverfahrens ist eine Aufteilung der gea¨ußerten Meinungen in Kommunikationsmodi sinnvoll, um eine Filterung nach Argumenten und Emotionsa¨ußerungen fu¨r nachfolgende Verarbeitungsschritte zu ermo¨glichen. In dieser Arbeit werden zwei Ansa¨tze zur Erkennung von Kommunikationsmodi vorgestellt. Das erste Verfahren unterscheidet verschiedene Kommunikationsmodi anhand von Wortlisten. Die zweite Methode beru¨cksichtigt Wortarten und extrahiert weitere sprachliche Eigenschaften. Zur Evaluation der Ansa¨tze wird ein Datensatz aus Schlagzeilen von Nachrichtenartikeln der Internetseite ZEIT ONLINE und der Satire-Website Postillon erstellt. Die Ansa¨tze werden zur Erkennung des Kommunikationsmodus Satire eingesetzt. Das beste Ergebnis mit einem durchschnittlichen F1 von 75,5 % wird durch den zweiten Ansatz mit einer Support Vector Machine erreicht.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>Zusammenfassung</title>
    </sec>
    <sec id="sec-2">
      <title>Kategorien</title>
      <p>I.2.7 [Natural Language Processing]: Text Analysis;
H.3.1 [Information stogare and retrieval]: Text Mining</p>
    </sec>
    <sec id="sec-3">
      <title>EINLEITUNG</title>
      <p>1.1</p>
    </sec>
    <sec id="sec-4">
      <title>Analyse von Online-Diskussionen</title>
      <p>Von besonderem Interesse ist die automatisierte
Analyse von Online-Partizipationsverfahren, bei denen Bu¨rger die
Mo¨glichkeit nutzen, ihre Meinung zu lokalkommunalen
Themen zu a¨ußern. Bei einer oft erwu¨nschten, hohen
Teilnehmerzahl an Bu¨rgern kann schnell das Problem auftreten,
dass die beteiligten Bu¨rger viele Textbeitra¨ge erstellen und
dadurch ein hoher Aufwand fu¨r eine manuelle Auswertung
entsteht. Dieser nicht unerhebliche Arbeitsaufwand kann fu¨r
Kommunen mit geringem Budget zu dem Problem fu¨hren,
dass fu¨r die Analyse nicht genu¨gend personelle Ressourcen
zu Verfu¨gung stehen und eine Analyse durch einen externen
Dienstleister finanziell ebenfalls nicht mo¨glich ist.</p>
      <p>Eine weitere Schwierigkeit entsteht, wenn in einer
Kommune erstmalig ein Online-Beteiligungsverfahren eingesetzt
wird und die beteiligten Bu¨rger vermehrt Inhalte a¨ußern,
die nicht zu dessen Thema passen. Werden in einem
Verfahren beispielsweise gemeinsam Sparmaßnahmen diskutiert, so
sind Beitra¨ge, in denen Bu¨rger kostenintensive
Baumaßnahmen an der sta¨dtischen Infrastruktur vorschlagen, nicht
konstruktiv und sollten herausgefiltert werden ko¨nnen.</p>
      <p>Um diese Probleme zu reduzieren, sind mehrere
automatisierte Schritte denkbar, die zu einer
Arbeitsreduktion bei einer qualitativen Analyse fu¨hren. Durch diese
Arbeitsreduktion kann eine Verwaltung umfassender mit
den beteiligten Bu¨rgern u¨ber eingereichte
Verbesserungsvorschla¨ge diskutieren. Zu diesen automatisierten
Schritten geho¨ren die thematische Gruppierung von
Textbeitra¨gen und die themenspezifische Bestimmung einer Tonalita¨t
t ∈ {positiv, negativ, neutral}, um ein Stimmungsbild
abscha¨tzen zu ko¨nnen. Dadurch kann beispielsweise ermittelt
werden, dass sich viele Bu¨rger u¨ber eine
Parkplatzsituation in einem Stadtteil beschweren und Anpflanzungen neuer
Ba¨ume in einem Park befu¨rworten.</p>
      <p>
        Ein u¨blicher Ansatz zur Bestimmung von Tonalita¨ten ist
der Einsatz eines Tonalita¨tslexikons, in dem fu¨r einzelne
Wo¨rter jeweils ein numerischer Tonalita¨tswert angegeben
ist. In [
        <xref ref-type="bibr" rid="ref10">10</xref>
        ] wurde gezeigt, dass fu¨r das deutsche
Tonalita¨tslexikon SentiWS [
        <xref ref-type="bibr" rid="ref14">14</xref>
        ] nur eine geringe Abdeckung fu¨r
die untersuchten Kommentare aus einem kleineren
OnlinePartizipationsverfahren und einem Nachrichtenportal
erreicht wurde und daher weitergehende Ansa¨tze zur
Bestimmung von positiven und negativen Aussagen no¨tig sind. In
dieser Publikation werden daher zwei Ansa¨tze vorgestellt,
die eine differenziertere Analyse von Meinungsa¨ußerungen
ermo¨glichen sollen, indem genauer auf
Kommunikationsmodi und gea¨ußerte Emotionen eingegangen wird.
1.2
      </p>
    </sec>
    <sec id="sec-5">
      <title>Kommunikationsmodi</title>
      <p>In Online-Diskussionen verwenden die Teilnehmer
verschiedene Kommunikationsmodi. Die einzelnen Beteiligten
ko¨nnen beispielsweise Aussagen ta¨tigen (1), Argumente fu¨r
oder gegen einen Standpunkt formulieren (2) oder
Emotionsa¨ußerungen zum Ausdruck bringen (3).</p>
      <p>(1) Ich bin fu¨r den Bau eines Schwimmbads.
(2) Es sollte kein Geld fu¨r die Oper ausgegeben werden,
da unsere Schulen das Geld dringender beno¨tigen.
(3) Die steigende Kriminalita¨tsrate macht mir Angst.</p>
      <p>Die Emotionsa¨ußerungen ko¨nnen wiederum in
verschiedene Emotionen differenziert werden. Bei der
Untersuchung von Textbeitra¨gen aus
Online-Partizipationsverfahren sind zuna¨chst die Emotionen
E := {Freude, Hoffnung, Empo¨rung, Entta¨uschung, Angst}
fu¨r ein Stimmungsbild der Bu¨rgermeinungen interessant.
Eine fundiertere Einteilung wird in zuku¨nftigen Arbeiten
durch Experten erfolgen. Die folgenden Beispiele aus einem
fiktiven Online-Partizipationsverfahren veranschaulichen
die unterschiedenen Emotionen.</p>
      <p>(4) Freude: Das wa¨re wirklich scho¨n.
(5) Hoffnung: Ich hoffe, dass an der Hauptstraße neue</p>
      <p>Ba¨ume gepflanzt werden ko¨nnen.
(6) Empo¨rung: Das geho¨rt doch verboten!
(7) Entta¨uschung: Die zur letzten Wahlperiode
versprochene A¨nderung konnte meine Erwartungen nicht
erfu¨llen.
(8) Angst: Ich befu¨rchte, dass meine Buslinie durch diese</p>
      <p>A¨nderung eingestellt wird.</p>
      <p>
        Bei der automatisierten Erkennung von Emotionen
variiert die Einteilung der Emotionen je nach Textmaterial. [
        <xref ref-type="bibr" rid="ref17">17</xref>
        ]
unterscheidet in die sechs Emotionen anger, disgust, fear,
joy, sadness und surprise, wohingegen [
        <xref ref-type="bibr" rid="ref8">8</xref>
        ] nur die vier
Emotionen anger, fear, joy und sadness betrachtet.
      </p>
      <p>Der Grund fu¨r die Untersuchung von
Kommunikationsmodi ist die Arbeitshypothese, dass durch eine automatische
Erkennung der Emotionen E ein detaillierteres,
themenspezifisches Stimmungsbild angegeben werden kann, als es ein
Mittelwert u¨ber numerische Tonalita¨tsangaben ermo¨glicht.
Dazu muss ein Klassifikator K erstellt werden, der jedem
Satz eines Textbeitrags individuell eine Emotion oder die
Klasse neutral zuordnet. Erschwerend bei der Klassifikation
ist die subjektive und kontextabha¨ngige Wahrnehmung von
Emotionen.</p>
      <p>Der Rest dieser Arbeit ist wie folgt aufgebaut: Im
na¨chsten Kapitel werden verwandte Arbeiten vorgestellt.
Nachdem in Kapitel 3 zwei Ansa¨tze zur Erkennung von
Kommunikationsmodi pra¨sentiert werden, erfolgt in Kapitel 4 eine
Evaluation beider Ansa¨tze am Beispiel des
Kommunikationsmodus Satire. Anschließend wird in Kapitel 5 ein Fazit
gezogen und Ideen fu¨r zuku¨nftige Arbeiten angegeben.</p>
    </sec>
    <sec id="sec-6">
      <title>VERWANDTE ARBEITEN</title>
      <p>
        Der Bereich Sentiment Analysis bescha¨ftigt sich mit der
automatisierten Bestimmung von Tonalita¨ten in
Textdokumenten. U¨ bliche Anwendungsgebiete sind die Analyse von
Produktrezensionen [
        <xref ref-type="bibr" rid="ref7">7</xref>
        ] und Filmrezensionen [
        <xref ref-type="bibr" rid="ref12">12</xref>
        ], die in
positive und negative A¨ ußerungen kategorisiert werden. Die
automatisierte Extraktion von Tonalita¨ten, bei der einer
Aussage eine Tonalita¨t t ∈ {positiv, negativ, neutral}
zugeordnet wird, hat sich fu¨r die Analyse von Zeitungsartikeln
im Rahmen einer Medienresonanzanalyse [
        <xref ref-type="bibr" rid="ref16">16</xref>
        ] bewa¨hrt.
      </p>
      <p>
        Die Erkennung von Emotionen in Texten ist bereits
mehrfach [
        <xref ref-type="bibr" rid="ref1 ref17 ref8">1, 8, 17</xref>
        ] untersucht worden. Das Ziel von [
        <xref ref-type="bibr" rid="ref1">1</xref>
        ] ist die
Erkennung von Emotionen in Ma¨rchentexten. Die Autoren
fokussieren sich dabei auf die bina¨re Klassifikation von
englischsprachigen Sa¨tzen und untersuchen, ob in einem Satz
Emotionen auftreten. Dafu¨r annotieren sie einen Datensatz
von 1580 Sa¨tzen aus 22 Geschichten der Gebru¨der Grimm,
auf dem ein linearer Klassifikator trainiert und evaluiert
wird. Zur vektoriellen Repra¨sentation der einzelnen Sa¨tze
verwendet [
        <xref ref-type="bibr" rid="ref1">1</xref>
        ] mehrere sprachliche Eigenschaften wie die
Verteilung von POS-Tags, Satzla¨ngen, Interpunktionszeichen
und mehrere Listen von Wo¨rtern, die auf Emotionen
hindeuten.
      </p>
      <p>
        Eine automatisierte Erkennung von sechs verschiedenen
Emotionen erfolgt in [
        <xref ref-type="bibr" rid="ref17">17</xref>
        ]. Die Autoren untersuchen
mehrere Techniken auf einem Datensatz aus 1000 Schlagzeilen
von Nachrichtenartikeln. Fu¨r ein Baseline-Verfahren
erstellen die Autoren sechs Wortlisten aus WordNet-Affect [
        <xref ref-type="bibr" rid="ref18">18</xref>
        ],
einer um Emotionen annotierte Erweiterung von WordNet
[
        <xref ref-type="bibr" rid="ref11">11</xref>
        ]. In dem Baseline-Verfahren erfolgt die Klassifikation
eines Satzes s zu Emotionen durch das Auftreten der einzelnen
Wo¨rter aus s in den Wortlisten. In einem fortgeschrittenen
Verfahren, das aus einer Kombination aus Latent Semantic
Analysis [
        <xref ref-type="bibr" rid="ref9">9</xref>
        ] und Synonymen aus WordNet und
WordNetAffect besteht, erreicht [
        <xref ref-type="bibr" rid="ref17">17</xref>
        ] einen durchschnittlichen F1 Wert
von 17,57 % als bestes Ergebnis fu¨r die Erkennung der sechs
Emotionen.
      </p>
      <p>
        In [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ] wird ebenfalls das bina¨re Klassifikationsproblem der
Satire-Erkennung in Zeitungsartikeln behandelt. Dabei
beru¨cksichtigen die Autoren zusa¨tzlich den Inhalt der
Nachrichtenartikel. Als Datensatz untersucht [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ] dabei insgesamt
4000 englischsprachige Zeitungsartikel, von denen 233 Satire
beinhalten. Als Basismodell wa¨hlen die Autoren ein
Bagof-Words-Modell mit bina¨rer Gewichtung. Eine deutliche
Steigerung der Ergebnisse kann mit Bi-Normal Separation
(BNS) [
        <xref ref-type="bibr" rid="ref6">6</xref>
        ] als Gewichtung, dem Nachschlagen von Wo¨rtern
in einem Lexikon und einer Google-Suche nach
auftretenden Personen und Organisationsnamen erreicht werden. Zur
Klassifikation setzt [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ] eine lineare Support Vector Machine
ein.
      </p>
      <p>ANSÄTZE</p>
      <p>Im Folgenden werden zwei Ansa¨tze vorgestellt, die fu¨r die
Erkennung von Kommunikationsmodi in Textbeitra¨gen aus
Online-Partizipationsverfahren naheliegend sind. Beide
Ansa¨tze versuchen, die menschliche Erkennung von Emotionen
nachzuahmen, indem sie auf die in den Textbeitra¨gen
vorhandenen Wo¨rter, in Form von Signalwo¨rtern und
bestimmten sprachlichen Konstruktionen, achten.</p>
      <p>Dazu mu¨ssen die zu untersuchenden Texte satzweise
analysiert werden. Die Eingabetexte werden zuna¨chst durch
eine Natural Language Processing Pipeline aufbereitet. Die
Anzahl an Verarbeitungsschritten der Pipeline ist von der
konkreten Aufgabenstellung abha¨ngig. Fu¨r die vorgestellten
Ansa¨tze werden insgesamt vier Schritte in der NLP-Pipeline
durchgefu¨hrt: Mittels eines Tokenizers wird ein Eingabetext
in einzelne Wo¨rter zerlegt. Durch einen Sentence Splitter
werden die Wo¨rter in Sa¨tze gruppiert. Anschließend werden
fu¨r jedes Wort ein Part-of-Speech Tag (POS-Tag) bzw. eine
Wortart bestimmt und eine Lemmatisierung durchgefu¨hrt,
durch die fu¨r jedes Wort zusa¨tzlich eine Grundform (z. B.
Schwimmba¨der → Schwimmbad) angegeben wird.</p>
      <p>Der erste Ansatz untersucht, inwiefern bestimmte
Schlu¨sselwo¨rter auf einzelne Kommunikationsmodi oder
Emotionen hinweisen. Der zweite Ansatz arbeitet unter der
Hypothese, dass eine Korrelation bestimmter sprachlicher
Eigenschaften zu einzelnen Kommunikationsmodi auftritt.
Dabei werden die verwendeten Wortarten untersucht. Motiviert
wird dieser Ansatz dadurch, dass eine positive Emotion
beispielsweise mit einer u¨berdurchschnittlichen Anzahl an
Adjektiven korrelieren ko¨nnte.</p>
      <p>In beiden Ansa¨tzen wird jedem Satz mittels eines
Klassifikators ein Kommunikationsmodus bzw. eine Emotion oder
die Klasse neutral zugeordnet. Um beide Ansa¨tze evaluieren
zu ko¨nnen, muss ein annotierter Datensatz bzw. ein Korpus
als Trainingsmenge verwendet werden, in dem auf
Satzebene alle Sa¨tze mit entsprechenden Kommunikationsmodi
annotiert sind. Der Korpus wird in eine Trainings- und eine
Testmenge aufgeteilt, anhand derer ein Klassifikator
trainiert bzw. bewertet werden kann.
3.1</p>
    </sec>
    <sec id="sec-7">
      <title>Wortlisten</title>
      <p>Der erste Ansatz basiert auf der Annahme, dass das
Auftreten bestimmter Wo¨rter mit einem
Kommunikationsmodus bzw. einer Emotion korreliert. Das Ziel des Ansatzes ist
die Verwendung von Wortlisten, die eine Klassifikation eines
Satzes, basierend auf den in ihm enthaltenen Wo¨rtern,
ermo¨glichen. Fu¨r den nachfolgenden Satz ko¨nnen die Wo¨rter
Angst und verliere auf die Emotion Angst hinweisen:
(9) Ich habe Angst, dass ich verliere.</p>
      <p>Um diese Erkennung zu automatisieren, ko¨nnen fu¨r jede
Emotion charakteristische Wo¨rter aus einer
Trainingsmenge extrahiert werden. Dazu werden in der Trainingsmenge
auftretende Wo¨rter untersucht und in disjunkte Wortlisten
eingeteilt. Bei der Konstruktion dieser Wortlisten ko¨nnten
fu¨r Beispiel (9) die Wo¨rter Angst und verliere als
charakteristisch identifiziert werden, falls sie auch in anderen Sa¨tzen
der Trainingsmenge auftreten, die ebenfalls mit der
Emotion Angst annotiert sind. Die gro¨ßte Schwierigkeit bei diesem
Ansatz ist die passende Auswahl der Wo¨rter fu¨r die
Wortlisten. So muss darauf geachtet werden, keine Wo¨rter zu
verwenden, die in allen Klassen ha¨ufig vorkommen. Daher
bietet es sich an, nur Wo¨rter zu betrachten, die u¨berwiegend in
einer Klasse (relative Ha¨ufigkeit gro¨ßer als ein Schwellwert
τ ) und damit nur selten in anderen Klassen vorkommen.</p>
      <p>Wird allein auf den Schwellwert τ geachtet, so entsteht das
Problem, dass auch Wo¨rter in die Wortlisten aufgenommen
werden, die insgesamt nur selten auftreten. Tritt
beispielsweise das Wort Glu¨ck nur einmal in der Trainingsmenge
auf, und zwar in einem mit der Emotion Empo¨rung
annotierten Satz, so wu¨rde das Wort Glu¨ck in die Wortliste fu¨r
die Emotion Empo¨rung aufgenommen werden, anstatt in die
Wortliste der Emotion Freude. Um diese Problematik zu
vermeiden, bietet sich ein Parameter supp an, der angibt, wie
ha¨ufig ein Wort insgesamt in der Trainingsmenge auftreten
muss, bevor es in eine Wortliste eingefu¨gt werden darf.</p>
      <p>Durch diese beiden Parameter werden ha¨ufig in allen
Emotionen auftretende Wo¨rter, wie Artikel und Pronomen,
herausgefiltert. Die konkrete Wahl der beiden Parameter kann
durch ein Experiment gescha¨tzt werden.</p>
      <p>Um einen neuen Satz einer Emotion zuzuordnen, kann
jedes Wort w des Satzes in den Wortlisten nachgeschlagen
werden. Dem Satz wird diejenige Emotion zugeordnet, fu¨r
die am meisten Wo¨rter in der jeweiligen Wortliste gefunden
werden.</p>
      <p>In einer Modifikation dieses Ansatzes werden nicht die
Wo¨rter, sondern deren, durch eine Lemmatisierung
bestimmte, Grundformen in Wortlisten gefu¨hrt bzw.
nachgeschlagen.
3.2</p>
    </sec>
    <sec id="sec-8">
      <title>Sprachliche Eigenschaften</title>
      <p>Der zweite Ansatz basiert auf der Hypothese, dass die
verschiedenen Kommunikationsmodi bzw. Emotionen im Text
charakteristische sprachliche Merkmale besitzen. Um
diese Vermutung auf einem Datensatz zu u¨berpru¨fen, ist
eine Methode M notwendig, die sprachliche Eigenschaften
eines Satzes in eine vektorielle Darstellung u¨berfu¨hrt. Dazu
werden aus allen Sa¨tzen einer Trainingsmenge sprachliche
Eigenschaften durch M extrahiert. Fu¨r einen zu
klassifizierenden Satz einer Testmenge werden ebenfalls sprachliche
Eigenschaften mittels M extrahiert, die anschließend mit
einem Klassifikationsverfahren und einer Distanzfunktion zu
einem Kommunikationsmodus zugeordnet werden ko¨nnen.</p>
      <p>Eine einfache Annahme ist, dass bestimmte
Kommunikationsmodi bzw. Emotionen mit einer bestimmten Verteilung
von POS-Tags korrelieren. Als erste vektorielle Modellierung
eines Satzes s wird daher fu¨r jeden POS-Tag p eines Tagsets
die Ha¨ufigkeit von p in s angegeben.</p>
      <p>Diese vektorielle Darstellung kann um weitere sprachliche
Eigenschaften erga¨nzt werden, die eventuell charakteristisch
fu¨r eine Emotion sein ko¨nnen, beispielsweise welche
Wortart am Satzanfang und am Satzende steht oder welches
Interpunktionszeichen (Punkt, Fragezeichen oder
Ausrufezeichen) einen Satz beendet. Ferner kann das Auftreten von
Negationen oder von verschachtelten Nebensa¨tzen
beru¨cksichtigt werden.
4.</p>
    </sec>
    <sec id="sec-9">
      <title>KOMMUNIKATIONSMODUS SATIRE</title>
      <p>Da zum aktuellen Zeitpunkt noch keine ausreichende
Datenmenge an Diskussionensbeitra¨gen aus
Online-Partizipationsverfahren vorliegt, werden die in Kapitel 3 beschriebenen
Ansa¨tze zur Erkennung von Kommunikationsmodi konkret
auf den Kommunikationsmodus Satire angewendet, indem
die Erkennung von Satire in Nachrichtenartikeln evaluiert
wird. In zuku¨nftigen Arbeiten werden diese Techniken
ebenfalls fu¨r die Erkennung von Emotionsa¨ußerungen in
OnlinePartizipationsverfahren erprobt und evaluiert.</p>
      <p>Zur Evaluation wird ein Datensatz aus
Nachrichtenartikeln zusammengestellt. Basierend auf den U¨ berschriften
der Nachrichtenartikel soll das bina¨re Klassifikationsproblem
gelo¨st werden, ob ein Nachrichtenartikel von der
SatireWebseite Postillon1 stammt oder auf ZEIT ONLINE2
ver¨offentlicht wurde.
4.1</p>
    </sec>
    <sec id="sec-10">
      <title>Datensatz</title>
      <p>Der zur Satire-Erkennung verwendete Datensatz setzt sich
aus den beiden Nachrichtenquellen Postillon und ZEIT
ONLINE zusammen. Die Schlagzeilen der Artikel beider
Webseiten wurden jeweils u¨ber einen JSON-Webservice
heruntergeladen. Fu¨r den Postillon werden 3650 Artikel aus dem
Zeitraum Oktober 2008 bis Ma¨rz 2015 betrachtet. Die beiden
nachfolgenden Schlagzeilen sind Beispiele fu¨r Satire-Artikel
aus dem Postillon:
1http://www.der-postillon.com
2http://www.zeit.de
(10) Sensation! Autobahn-Fahrer entdeckt weitere
Fahrbahn rechts neben der Mittelspur
(11) Ko¨lner Dom von Unbekannten u¨ber Nacht um 360</p>
      <p>Grad gedreht</p>
      <p>Eine genauere Betrachtung der Satire-Artikel hat ergeben,
dass bestimmte Artikelformate in regelma¨ßigen Absta¨nden
vorkommen, wie z. B. Sonntagsfragen oder Newsticker. Diese
wurden fu¨r die weitere Betrachtung entfernt, um das
Klassifikationsproblem zu erschweren. Da einige Artikel mehrfach
vero¨ffentlicht wurden, wird von allen Artikeln mit demselben
Namen jeweils nur die chronologisch erste Vero¨ffentlichung
verwendet. Durch diese Filterungsschritte reduziert sich die
Anzahl der zur Verfu¨gung stehenden Postillon-Artikel auf
2260.</p>
      <p>Die zweite Klasse des Datensatzes setzt sich aus
klassischen Zeitungsartikeln zusammen, die auf ZEIT
ONLINE vero¨ffentlicht wurden. Aus den Kategorien Wirtschaft,
Gesellschaft, Sport, Wissen und Digital wurden jeweils die
2000 aktuellsten Artikel vor dem Stichtag 1.4.2015 mittels
ZeitOnlineAPISharp3 heruntergeladen. Fu¨r die weitere
Verarbeitung wurden aus diesen 10000 Artikeln insgesamt 2260
Artikel zufa¨llig ausgewa¨hlt, um einen balancierten
Datensatz betrachten zu ko¨nnen. Die beiden folgenden
Schlagzeilen stammen aus Artikeln von ZEIT ONLINE:
(12) Lehrerverband warnt vor Risiken fu¨r Bildung
(13) Energiekonzern verzichtet auf Atomenergie, Kohle
und Gas</p>
      <p>Zur nachfolgenden Evaluation werden die Artikel in eine
Trainings- und eine Testmenge aufgeteilt. Zum Training
werden pro Klasse 1000 Artikel zufa¨llig ausgewa¨hlt, sodass das
Training auf insgesamt 2000 Artikeln stattfindet. Die
Evaluation erfolgt auf der Grundlage der verbleibenden 2520
Artikel.
4.2</p>
    </sec>
    <sec id="sec-11">
      <title>Evaluation</title>
      <p>
        Der zusammengestellte Datensatz wird zuna¨chst durch
eine NLP-Pipeline aufbereitet: Fu¨r jede Schlagzeile erfolgt
durch OpenNLP4 eine Zerlegung in einzelne Wo¨rter, eine
Trennung in Sa¨tze und eine Bestimmung von Wortarten fu¨r
jedes einzelne Wort. Die ermittelten Wortarten stammen aus
dem Stuttgart-Tu¨bingen-Tagset (STTS) [
        <xref ref-type="bibr" rid="ref15">15</xref>
        ], welches aus 54
verschiedenen Wortarten besteht. Die Lemmatisierung von
Wo¨rtern erfolgt durch Mate Tools [
        <xref ref-type="bibr" rid="ref2">2</xref>
        ].
4.2.1
      </p>
      <sec id="sec-11-1">
        <title>Wortlisten</title>
        <p>Fu¨r die Satire-Erkennung u¨ber Wortlisten mu¨ssen zwei
disjunkte Wortlisten WP und WZ erstellt werden, in
denen jeweils Wo¨rter vertreten sind, die u¨berwiegend nur in
den Schlagzeilen des Postillons bzw. in den Schlagzeilen von
ZEIT ONLINE auftreten. Zur Erstellung dieser Wortlisten
werden zuna¨chst die einzelnen Wo¨rter als Datengrundlage
verwendet. Im Postillon treten 4025 (3583 Lemmata) und
in ZEIT ONLINE 3050 (2696 Lemmata) verschiedene
Wo¨rter auf. Fu¨r die Erstellung der Wortlisten wird zuna¨chst pro
Wort bestimmt, wie ha¨ufig es in der Trainingsmenge
auftritt. Wo¨rter, die weniger als supp mal auftreten, werden
ignoriert. Anschließend wird fu¨r jedes Wort w berechnet,
wie groß die relative Ha¨ufigkeit p von w in den Schlagzeilen
des Postillons bzw. in den Schlagzeilen aus ZEIT ONLINE
ist. Falls p ≥ τ ist, so wird w in die entsprechende
Wortliste eingefu¨gt. In einer zweiten Variante werden anstelle der
3https://github.com/Liebeck/ZeitOnlineAPISharp
4https://opennlp.apache.org/
0,55
0,6
0,65
0,7
0,75
0,8
0,85
0,9
0,95
1
Tabelle 1: Satire-Erkennung mit Wortlisten
τ + DefauWlt ort + DefaLuletmma
59,24 % 56,84 % 62,88 %
61,51 % 57,74 % 64,21 %
59,23 % 55,73 % 57,59 %
58,87 % 52,11 % 53,75 %
52,36 % 46,11 % 50,90 %
49,02 % 41,52 % 48,13 %
43,41 % 33,58 % 43,81 %
42,42 % 30,76 % 42,96 %
41,39 % 28,77 % 42,04 %
41,39 % 28,77 % 42,04 %
Wo¨rter die durch die Lemmatisierung bestimmten Lemmata
der Wo¨rter untersucht.</p>
        <p>Da bisher noch keine Erfahrungswerte fu¨r die
Parameterwahl vorliegen, werden die Auswirkungen verschiedener
Parameter experimentell bestimmt, indem eine Gittersuche
mit τ ∈ {0.55, 0.6, . . . , 1} und supp ∈ {3, 4, . . . , 10}
durchgefu¨hrt wird.</p>
        <p>Die Ergebnisse der Satire-Erkennung durch Wortlisten
sind in Tabelle 1 als durchschnittlicher F1 Wert u¨ber
beide Klassen angegeben, wobei fu¨r jeden Wert von τ das
jeweils beste Ergebnis angegeben ist, welches durchgehend mit
supp = 3 erreicht wird. Bei dem Mehrheitsentscheid des
Ansatzes ist es mo¨glich, dass ein Unentschieden vorliegt. Dies
bedeutet, dass keines der Wo¨rter einer zu klassifizierenden
Schlagzeile in WP oder WZ auftritt oder dass ein
Gleichstand vorliegt. Fu¨r jede Parameterbelegung von τ und supp
werden zwei Evaluationen mit einem unterschiedlichen
Standardwert d ∈ {Postillon, ZEIT ONLINE} zur Auflo¨sung
eines Gleichstands durchgefu¨hrt, von denen in Tabelle 1
jeweils das schlechtere der beiden Ergebnisse aufgefu¨hrt ist.
Um die Auswirkungen eines Standardwerts beurteilen zu
ko¨nnen, sind in Tabelle 1 ebenfalls die Ergebnisse einer
Klassifikation aufgefu¨hrt, bei der ein Unentschieden bei einem
Mehrheitsentscheid als falsche Klassifikation behandelt wird.</p>
        <p>Fu¨r die Satire-Erkennung erreicht der erste Ansatz mit
den auftretenden Wo¨rtern als Datengrundlage als bestes
Ergebnis den Wert 61,51 % fu¨r τ = 0, 6 und supp = 3. Durch
eine Lemmatisierung kann das Ergebnis auf 64,21 %
gesteigert werden. Bei einem fixierten Wert fu¨r τ und einem
steigenden Wert fu¨r supp werden die Klassifikationsergebnisse
schlechter, da die Gro¨ßen der Wortlisten entsprechend
abnehmen. Fu¨r den untersuchten Datensatz verschlechtern sich
die Ergebnisse bei einem steigenden τ aus demselben Grund.
4.2.2</p>
      </sec>
      <sec id="sec-11-2">
        <title>Sprachliche Features</title>
        <p>
          In einem ersten vektoriellen Modell wird jede
Schlagzeile durch die absoluten Ha¨ufigkeiten der auftretenden
POSTags aus dem STTS-Tagset repra¨sentiert. Zum Vergleich
wird ein zweites Modell untersucht, in dem die
Auswirkungen einer Reduktion der 54 POS-Tags auf die 12
POSTags des UTS-Tagsets [
          <xref ref-type="bibr" rid="ref13">13</xref>
          ] beobachtet werden. Beide
Modelle werden mit den drei Klassifikationsverfahren k-Nearest
Neighbors (kNN), Support Vector Machine (SVM) und
outof-place measure [
          <xref ref-type="bibr" rid="ref4">4</xref>
          ] evaluiert.
        </p>
        <p>
          Als SVM-Implementierung wird LIBSVM [
          <xref ref-type="bibr" rid="ref5">5</xref>
          ] verwendet.
Eingesetzt wird eine soft-margin SVM mit einem
RBFKernel K(x, y) = exp(−γ||x − y||2). Die fu¨r das Training der
Tabelle 2: Satire-Erkennung mit sprachlichen Eigenschaften
kNN
Modell SVM
        </p>
        <p>+ Default
STTS 73,65 % 71,77 % 71,04 % 67,13 %
STTS, Variante B 75,50 % 73,13 % 72,94 % —
UTS 71,51 % 74,75 % 74,48 % 60,74 %
UTS, Variante B 73,55 % 75,25 % 75,05 % —
Out-of-place
SVM beno¨tigten Werte fu¨r den Strafterm C und fu¨r γ
werden pro Modell jeweils u¨ber eine Gittersuche mittels einer
Kreuzvalidierung u¨ber die Trainingsmenge bestimmt. Als
Konvergenzkriterium der SVM wird = 10−3 gesetzt.</p>
        <p>Fu¨r den kNN-Algorithmus werden verschiedene Werte fu¨r
k ∈ {1, . . . , 12} erprobt. Bei der Bestimmung der
na¨chsten Nachbarn werden jeweils die k na¨chsten Nachbarn per
euklidischer Distanz ermittelt. Sollten mehrere Kandidaten
fu¨r die Auswahl des k-na¨chsten Nachbarn p vorhanden sein,
so wird die Liste der na¨chsten Nachbarn um alle Nachbarn
erweitert, die zum Anfrageobjekt o denselben Abstand
haben wie o zu p. Die Klassenzugeho¨rigkeit erfolgt u¨ber einen
Mehrheitsentscheid der Klassen aller gefundenen na¨chsten
Nachbarn. Tritt dabei ein Gleichstand auf, so wird ebenfalls
ein Standardwert verwendet.</p>
        <p>Das out-of-place measure wird gewo¨hnlich fu¨r die
Spracherkennung durch N-Gramme eingesetzt. Fu¨r die Evaluation
wird es fu¨r den Vergleich von Verteilungen von POS-Tags
verwendet, indem fu¨r beide Nachrichtenquellen
sogenannte Kategorienprofile bestimmt werden. Ein Kategorienprofil
besteht dabei jeweils aus einer nach absoluten
Ha¨ufigkeiten absteigend sortierten Liste von POS-Tags der jeweiligen
Trainingsmenge. Zur Klassifikation einer Schlagzeile wird ein
Anfrageprofil mittels derselben Methode berechnet. Die
Indexpositionen des Anfrageprofils werden mit den
Indexpositionen der Kategorienprofile verglichen. Einer Schlagzeile
wird dann diejenige Nachrichtenquelle zugeordnet, zu deren
Kategorienprofil der kleinste Abstand zum Anfrageprofil
besteht.</p>
        <p>Die Modellierung wird in einer Variante B erga¨nzt, in der
weitere sprachliche Eigenschaften als bina¨re Dimension
hinzugefu¨gt werden. Dabei wird beru¨cksichtigt, ob in der U¨
berschrift das erste Wort ein Nomen ist, ob das erste Wort ein
Verb ist, ob das letzte Wort ein Verb ist, ob in der U¨
berschrift ein Anfu¨hrungszeichen vorhanden ist und ob ein
Fragezeichen, ein Ausrufezeichen oder ein Komma (jeweils
bina¨r) auftritt.</p>
        <p>Die Ergebnisse der drei Klassifikationsverfahren sind in
Tabelle 2 mit durchschnittlichen F1 Werten u¨ber
beide Klassen dargestellt. Das insgesamt beste Ergebnis von
75,5 % erreicht eine SVM mit STTS POS-Tags und
Variante B. Das beste Ergebnis des kNN-Algorithmus ist
minimal schlechter mit 75,25 %. Die Klassenzugeho¨rigkeit beim
kNN-Algorithmus kann in fast allen Fa¨llen per
Mehrheitsentscheid bestimmt werden. Interessant zu beobachten sind
die Auswirkungen der Reduktion des STTS-Tagsets auf
das UTS-Tagset, die je nach Klassifikationsverfahren
unterschiedlich sind. Fu¨r den kNN-Algorithmus konnte eine
Verbesserung der Ergebnisse erzielt werden. Bei den anderen
Verfahren verschlechtert sich das Ergebnis im Vergleich zu
den STTS-Tags.</p>
      </sec>
    </sec>
    <sec id="sec-12">
      <title>FAZIT UND AUSBLICK</title>
      <p>In dieser Arbeit wurden zwei Ansa¨tze zur Erkennung
von Kommunikationsmodi pra¨sentiert. Fu¨r die nahe Zukunft
ist geplant, beide Ansa¨tze auf Textbeitra¨ge eines
OnlinePartizipationsverfahrens anzuwenden. Dazu wird ein
Codebuch entwickelt werden, mit dem der Datensatz in Bezug auf
Kommunikationsmodi annotiert wird. Beide Ansa¨tze werden
dann auf das Multiklassenproblem der Erkennung von
Emotionsa¨ußerungen transferiert und evaluiert.</p>
      <p>Bei der Untersuchung des Kommunikationsmodus Satire
wurde gezeigt, dass die beiden Ansa¨tze gute Ergebnisse von
bereits 75,5 % erreicht haben. Bei der Evaluation ist
aufgefallen, dass das Festlegen eines Standardwerts bei einem
Gleichstand fu¨r den mit Wortlisten arbeitenden Ansatz eine
gro¨ßere Auswirkung auf die Klassifikationsergebnisse hat, als
beim kNN-Algorithmus fu¨r die sprachlichen Eigenschaften.
Fu¨r das bina¨re Klassifikationsproblem der Satire-Erkennung
sind ein Reihe von weitergehenden Untersuchen mo¨glich.
Es ko¨nnte untersucht werden, welche Auswirkungen durch
die Filterung von Stoppwo¨rtern, durch den Vergleich
unterschiedlicher Distanzfunktionen fu¨r den kNN-Algorithmus
und durch die Verwendung weiterer sprachlicher
Eigenschaften entstehen ko¨nnen und ob dadurch die Ergebnisse
gegenu¨ber Variante B noch gesteigert werden ko¨nnen.</p>
      <p>Die gro¨ßte Schwierigkeit des ersten Ansatzes ist die
Auswahl charakteristischer Wo¨rter. Bei einem Transfer des
Ansatzes auf andere Datenquellen werden die Auswirkungen
von manuell vorgegebenen Wortlisten untersucht.
Insbesondere ist geplant, die Auswirkungen einer Erweiterung der
Listen durch Synonyme aus einem Thesaurus zu beobachten.
Bei der Generierung der Wortlisten konnten die Ergebnisse
durch eine Lemmatisierung verbessert werden. In
zuku¨nftigen Arbeiten wird untersucht werden, inwiefern Wiktionary5
zur Grundformreduktion eingesetzt werden kann. Außerdem
wird der Ansatz fu¨r den Umgang mit Negationen erweitert
werden.</p>
      <p>Fu¨r den zweiten Ansatz sind weitere sprachliche
Eigenschaften in einer vektoriellen Darstellung vorstellbar, wie
beispielsweise das Auftreten von POS-Tag-Bigrammen. Um
bei einer Klassifikation gute Ergebnisse erzielen zu ko¨nnen,
ist eine Filterung nach sprachlichen Eigenschaften
notwendig, die besonders gut mit den einzelnen Klassen
korrelieren. Daru¨ber hinaus wird in zuku¨nftigen Arbeiten
untersucht werden, inwiefern beide Ansa¨tze kombinierbar sind.
Anstelle eines Mehrheitsentscheids des ersten Ansatzes kann
die vektorielle Darstellung fu¨r jeden Eintrag einer Wortliste
um bina¨re Dimensionen erweitert werden, die jeweils
angeben, ob in dem zu klassifizierenden Satz das
entsprechende Wort einer Wortliste auftritt. In nachfolgenden Arbeiten
wird untersucht werden, welchen Einfluss eine Verkleinerung
des STTS-Tagsets auf das UTS-Tagset auf anderen
Datensa¨tzen hat.</p>
    </sec>
    <sec id="sec-13">
      <title>LITERATUR</title>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          [1]
          <string-name>
            <given-names>C. O.</given-names>
            <surname>Alm</surname>
          </string-name>
          ,
          <string-name>
            <given-names>D.</given-names>
            <surname>Roth</surname>
          </string-name>
          , and
          <string-name>
            <given-names>R.</given-names>
            <surname>Sproat</surname>
          </string-name>
          .
          <article-title>Emotions from Text: Machine Learning for Text-based Emotion Prediction</article-title>
          .
          <source>In Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing, HLT '05</source>
          , pages
          <fpage>579</fpage>
          -
          <lpage>586</lpage>
          . Association for Computational Linguistics,
          <year>2005</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          [2]
          <string-name>
            <given-names>A.</given-names>
            <surname>Bjo</surname>
          </string-name>
          ¨rkelund,
          <string-name>
            <given-names>B.</given-names>
            <surname>Bohnet</surname>
          </string-name>
          ,
          <string-name>
            <given-names>L.</given-names>
            <surname>Hafdell</surname>
          </string-name>
          , and
          <string-name>
            <given-names>P.</given-names>
            <surname>Nugues</surname>
          </string-name>
          .
          <article-title>A High-Performance Syntactic and Semantic Dependency Parser</article-title>
          .
          <source>In Proceedings of the 23rd International Conference on Computational Linguistics: Demonstrations, COLING '10</source>
          , pages
          <fpage>33</fpage>
          -
          <lpage>36</lpage>
          . Association for Computational Linguistics,
          <year>2010</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          [3]
          <string-name>
            <given-names>C.</given-names>
            <surname>Burfoot</surname>
          </string-name>
          and
          <string-name>
            <given-names>T.</given-names>
            <surname>Baldwin</surname>
          </string-name>
          .
          <source>Automatic Satire Detection: Are You Having a Laugh? In Proceedings of the ACL-IJCNLP 2009 Conference Short Papers, ACLShort '09</source>
          , pages
          <fpage>161</fpage>
          -
          <lpage>164</lpage>
          . Association for Computational Linguistics,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          [4]
          <string-name>
            <given-names>W. B.</given-names>
            <surname>Cavnar</surname>
          </string-name>
          and
          <string-name>
            <given-names>J. M.</given-names>
            <surname>Trenkle</surname>
          </string-name>
          .
          <article-title>N-Gram-Based Text Categorization</article-title>
          .
          <source>In Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval</source>
          , pages
          <fpage>161</fpage>
          -
          <lpage>175</lpage>
          ,
          <year>1994</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          [5]
          <string-name>
            <given-names>C.-C.</given-names>
            <surname>Chang</surname>
          </string-name>
          and
          <string-name>
            <given-names>C.-J.</given-names>
            <surname>Lin</surname>
          </string-name>
          .
          <article-title>LIBSVM: A library for support vector machines</article-title>
          .
          <source>ACM Transactions on Intelligent Systems and Technology</source>
          ,
          <volume>2</volume>
          :
          <issue>27</issue>
          :
          <fpage>1</fpage>
          -
          <lpage>27</lpage>
          :
          <fpage>27</fpage>
          ,
          <year>2011</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          [6]
          <string-name>
            <given-names>G.</given-names>
            <surname>Forman. BNS Feature</surname>
          </string-name>
          <article-title>Scaling: An Improved Representation over TF-IDF for SVM Text Classification</article-title>
          .
          <source>In Proceedings of the 17th ACM Conference on Information and Knowledge Management</source>
          ,
          <source>CIKM '08</source>
          , pages
          <fpage>263</fpage>
          -
          <lpage>270</lpage>
          . ACM,
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          [7]
          <string-name>
            <given-names>M.</given-names>
            <surname>Hu</surname>
          </string-name>
          and
          <string-name>
            <given-names>B.</given-names>
            <surname>Liu</surname>
          </string-name>
          .
          <article-title>Mining and Summarizing Customer Reviews</article-title>
          .
          <source>In Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD '04</source>
          , pages
          <fpage>168</fpage>
          -
          <lpage>177</lpage>
          . ACM,
          <year>2004</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          [8]
          <string-name>
            <given-names>S. M.</given-names>
            <surname>Kim</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A.</given-names>
            <surname>Valitutti</surname>
          </string-name>
          , and
          <string-name>
            <given-names>R. A.</given-names>
            <surname>Calvo</surname>
          </string-name>
          .
          <article-title>Evaluation of Unsupervised Emotion Models to Textual Affect Recognition</article-title>
          .
          <source>In Proceedings of the NAACL HLT 2010 Workshop on Computational Approaches to Analysis and Generation of Emotion in Text, CAAGET '10</source>
          , pages
          <fpage>62</fpage>
          -
          <lpage>70</lpage>
          . Association for Computational Linguistics,
          <year>2010</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          [9]
          <string-name>
            <given-names>T.</given-names>
            <surname>Landauer</surname>
          </string-name>
          ,
          <string-name>
            <given-names>P.</given-names>
            <surname>Foltz</surname>
          </string-name>
          , and
          <string-name>
            <given-names>D.</given-names>
            <surname>Laham</surname>
          </string-name>
          .
          <article-title>An introduction to latent semantic analysis</article-title>
          .
          <source>Discourse processes</source>
          ,
          <volume>25</volume>
          :
          <fpage>259</fpage>
          -
          <lpage>284</lpage>
          ,
          <year>1998</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          [10]
          <string-name>
            <given-names>M.</given-names>
            <surname>Liebeck</surname>
          </string-name>
          .
          <article-title>Aspekte einer automatischen Meinungsbildungsanalyse von Online-Diskussionen</article-title>
          .
          <source>In Proceedings BTW 2015 - Workshops und Studierendenprogramm</source>
          , pages
          <fpage>203</fpage>
          -
          <lpage>212</lpage>
          ,
          <year>2015</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          [11]
          <string-name>
            <given-names>G. A.</given-names>
            <surname>Miller</surname>
          </string-name>
          .
          <article-title>WordNet: A Lexical Database for English</article-title>
          .
          <source>Communications of the ACM</source>
          ,
          <volume>38</volume>
          (
          <issue>11</issue>
          ):
          <fpage>39</fpage>
          -
          <lpage>41</lpage>
          ,
          <year>1995</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          [12]
          <string-name>
            <given-names>B.</given-names>
            <surname>Pang</surname>
          </string-name>
          ,
          <string-name>
            <given-names>L.</given-names>
            <surname>Lee</surname>
          </string-name>
          , and
          <string-name>
            <given-names>S.</given-names>
            <surname>Vaithyanathan</surname>
          </string-name>
          . Thumbs Up?
          <article-title>: Sentiment Classification Using Machine Learning Techniques</article-title>
          .
          <source>In Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing -</source>
          Volume
          <volume>10</volume>
          , EMNLP '
          <volume>02</volume>
          , pages
          <fpage>79</fpage>
          -
          <lpage>86</lpage>
          . Association for Computational Linguistics,
          <year>2002</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          [13]
          <string-name>
            <given-names>S.</given-names>
            <surname>Petrov</surname>
          </string-name>
          ,
          <string-name>
            <surname>D. Das</surname>
            , and
            <given-names>R.</given-names>
          </string-name>
          <string-name>
            <surname>McDonald</surname>
          </string-name>
          .
          <article-title>A Universal Part-of-Speech Tagset</article-title>
          .
          <source>In Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)</source>
          .
          <source>European Language Resources Association</source>
          ,
          <year>2012</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          [14]
          <string-name>
            <given-names>R.</given-names>
            <surname>Remus</surname>
          </string-name>
          ,
          <string-name>
            <given-names>U.</given-names>
            <surname>Quasthoff</surname>
          </string-name>
          , and
          <string-name>
            <given-names>G.</given-names>
            <surname>Heyer. SentiWS -</surname>
          </string-name>
          <article-title>a Publicly Available German-language Resource for Sentiment Analysis</article-title>
          .
          <source>In Proceedings of the 7th International Language Resources and Evaluation (LREC'10)</source>
          , pages
          <fpage>1168</fpage>
          -
          <lpage>1171</lpage>
          ,
          <year>2010</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          [15]
          <string-name>
            <given-names>A.</given-names>
            <surname>Schiller</surname>
          </string-name>
          ,
          <string-name>
            <given-names>S.</given-names>
            <surname>Teufel</surname>
          </string-name>
          , C. Sto¨ckert, and
          <string-name>
            <given-names>C.</given-names>
            <surname>Thielen</surname>
          </string-name>
          .
          <article-title>Guidelines fu¨r das Tagging deutscher Textcorpora mit STTS (kleines und großes Tagset)</article-title>
          .
          <source>Technical report</source>
          , Universita¨t Stuttgart, Universita¨t Tu¨bingen,
          <year>1999</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          [16]
          <string-name>
            <given-names>T.</given-names>
            <surname>Scholz</surname>
          </string-name>
          and
          <string-name>
            <given-names>S.</given-names>
            <surname>Conrad</surname>
          </string-name>
          .
          <article-title>Opinion Mining in Newspaper Articles by Entropy-Based Word Connections</article-title>
          .
          <source>In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing</source>
          , pages
          <fpage>1828</fpage>
          -
          <lpage>1839</lpage>
          . Association for Computational Linguistics,
          <year>2013</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref17">
        <mixed-citation>
          [17]
          <string-name>
            <given-names>C.</given-names>
            <surname>Strapparava</surname>
          </string-name>
          and
          <string-name>
            <given-names>R.</given-names>
            <surname>Mihalcea</surname>
          </string-name>
          .
          <article-title>Learning to Identify Emotions in Text</article-title>
          .
          <source>In Proceedings of the 2008 ACM Symposium on Applied Computing, SAC '08</source>
          , pages
          <fpage>1556</fpage>
          -
          <lpage>1560</lpage>
          . ACM,
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref18">
        <mixed-citation>
          [18]
          <string-name>
            <given-names>C.</given-names>
            <surname>Strapparava</surname>
          </string-name>
          and
          <string-name>
            <given-names>A.</given-names>
            <surname>Valitutti. WordNet-Affect</surname>
          </string-name>
          :
          <article-title>An affective extension of WordNet</article-title>
          .
          <source>In Proceedings of the 4th International Conference on Language Resources and Evaluation</source>
          , pages
          <fpage>1083</fpage>
          -
          <lpage>1086</lpage>
          . European Language Resources Association,
          <year>2004</year>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>