<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Ein Ansatz zu Opinion Mining und Themenverfolgung für eine Medienresonanzanalyse</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Thomas Scholz</string-name>
          <email>scholz@cs.uni-duesseldorf.de</email>
          <email>thomas.scholz@pressrelations.de</email>
          <xref ref-type="aff" rid="aff0">0</xref>
          <xref ref-type="aff" rid="aff1">1</xref>
          <xref ref-type="aff" rid="aff2">2</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Heinrich-Heine-Universität Düsseldorf Institut für Informatik Universitätsstr.</institution>
          <addr-line>1 D-40225 Düsseldorf</addr-line>
          ,
          <country country="DE">Deutschland</country>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>Opinion Mining</institution>
          ,
          <addr-line>Topic Tracking, Text Mining</addr-line>
        </aff>
        <aff id="aff2">
          <label>2</label>
          <institution>pressrelations GmbH Entwicklung Klosterstr.</institution>
          <addr-line>112 D-40211 Düsseldorf</addr-line>
          ,
          <country country="DE">Deutschland</country>
        </aff>
      </contrib-group>
      <pub-date>
        <year>2011</year>
      </pub-date>
      <fpage>7</fpage>
      <lpage>12</lpage>
      <abstract>
        <p>Heutzutage gibt es eine unuberschaubare Anzahl von Medien mit enorm vielen Artikeln und Beitragen. Da in ihnen neben vielen anderen potenziell nutzlichen Informationen wertvolle Meinungen zu Themen enthalten sind, ist eine automatische Beobachtung dieser Medien sehr interessant, birgt aber zwei gro e Herausforderungen: eine automatisierte Tonalitatsbestimmung (Opinion Mining) kombiniert mit einer Themenverfolgung. Diese zwei Aufgaben sind Teilgebiete des Text Minings, auch Text Data Mining oder Knowledge Discovery in Texten genannt. Diese Arbeit beschreibt einen Ansatz fur Opinion Mining und Themenverfolgung basierend auf einer Information Extraction Architektur. In der Evaluation wird gezeigt, wie dieser Ansatz fur Opinion Mining oder eine Themenverfolgung eingesetzt werden kann.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>Zusammenfassung</title>
    </sec>
    <sec id="sec-2">
      <title>Kategorie</title>
      <sec id="sec-2-1">
        <title>Data Mining and Knowledge Discovery</title>
      </sec>
    </sec>
    <sec id="sec-3">
      <title>EINLEITENDE MOTIVATION</title>
      <p>1.1</p>
    </sec>
    <sec id="sec-4">
      <title>Medienmonitoring</title>
      <p>Die riesigen Strome aus Artikeln und Beitragen enthalten
viele potenziell wertvolle Informationen zu Themen,
Personen, Firmen, Produkten, usw. Besonders die PR- und
MarketingAbteilungen von Unternehmen, Parteien und Verbanden
interessieren fur diese Daten und deren Auswertung. Dabei
interessiert man sich besonders dafur, inwiefern sich das Image
des Unternehmens oder das Image von bestimmten
Produkten, Marken und Dienstleistungen entwickelt. Aber auch
wie bestimmte Personen (Werbetrager, Vorstandsmitglieder,
etc.) in diesen Medien wahrgenommen werden. Au erdem
von Bedeutung ist die Frage, auf welche Weise bestimmte
Themen mit dem Unternehmen verknupft sind. Beim
Medienmoitoring geht es darum Artikel zu erfassen und
sammeln, die fur PR- und Marketing Abteilungen interessant
sind. Dazu werden von ihnen Themen oder Schlagworter
de niert. Dies ist auch interessant fur Verbande, Vereine,
Parteien, Stiftungen, die teilweise zu klein sind um uber
eine eigene PR-Abteilung zu verfugen.
1.2</p>
    </sec>
    <sec id="sec-5">
      <title>Medienresonanzanalyse</title>
      <p>Bei der Medienresonanz geht es darum zu bestimmten
Themen das mediale Echo zu analysieren.</p>
      <p>Dies kann z. B. auf folgende Art und Weise geschehen:
Zunachst werden Themen de niert, die es zu untersuchen
gilt. Dies konnen beispielsweise Marken von Firmen sein
oder andere Begri e wie Produktnamen, Personen oder
ahnliches. Bei einem Medienbeobachter und einem
Ausschnittdienst wurden die Kunden (meist PR-Abteilungen von
Firmen oder Organisationen wie Parteien) Themen durch
bestimmte Schlagworter festlegen. Die Schlagworter werden
dann von Crawlern in den Medien gesucht, um die
entsprechenden Artikel zu erfassen.</p>
      <p>Dann konnen diese Artikel bewertet werden, z.B. ob sie
wirklich relevant zu diesem Thema sind, wie exklusiv dieser
Beitrag ist und am wichtigsten welche Tonalitat er besitzt.
Die Tonalitat beschreibt, ob ein bestimmter Artikel
positive oder negative Meinungen zu einem Thema enthalt. Es
ist auch beides moglich. Oft wird dies mit einem negativen
Zahlenwert fur eine negative Tonalitat und einem positiven
Zahlenwert fur eine positive Tonalitat festgehalten. Diese
Bestimmung der Tonalitat wird heutzutage bei den
Medienbeobachtern noch rein manuell durch Medienanalysten
ausgefuhrt, die die Texte lesen und meinungsbeinhaltende
Passagen identi zieren und bewerten.</p>
      <p>Allerdings sto en solche Beobachtungsdienste aufgrund
der Menge der Artikel und Beitrage heute an ihre Grenzen,
was manuell noch zu bearbeiten ist. Die Nachrichtenanzahl,
die diese Dienste bearbeiten, nimmt stetig zu, aufgrund der
starkeren Digitalisierung der Medien wie auch durch
Entstehen neuer Medien im Internet wie der Bereich Social Media.
1.3</p>
    </sec>
    <sec id="sec-6">
      <title>Opinion Mining und Themenverfolgung als</title>
    </sec>
    <sec id="sec-7">
      <title>Lösung</title>
      <p>Als Losung fur eine automatische Medienresonanzanalyse
bieten sich Opinion Mining und Themenverfolgung an, um
die doch bisher meist manuell geleistete Arbeit zu
unterstutzen und perspektivisch zu ersetzen.. Mit Hilfe des
Opinion Minings soll es gelingen meinungstragende Passagen
innerhalb eines Textes zu nden und dann automatisch mit
einem Tonalitatswert zu versehen. Durch die Realisierung
einer automatischen Themenverfolgung konnte die manuell
vorgenommene Schlagwortverwaltung fur die
Themenzuordnung abgelost werden. In der Kombination hatte man dann
eine automatische Medienresonanzanalyse.</p>
      <p>Der Rest dieser Arbeit kann wie folgt zusammengefasst
werden: Zunachst werden die Ansatze aufgezeigt, die schon
zum Bereich des Opinion Minings und der
Themenverfolgung entwickelt wurden. Dann wird die Architektur
entworfen, wodurch eine automatische Medienresonanzanalyse
auf Basis von Natural Language Processing und
Information Extraction realisierbar wird. Anschlie end wird in ersten
Versuchen demonstriert, wie die Vorverarbeitung fur
Opinion Mining und Themenverfolgung eingesetzt werden
konnen. Abschlie end werden dann aufgrund dieser Ergebnisse
Schlussfolgerungen fur das weitere Vorgehen gezogen.</p>
    </sec>
    <sec id="sec-8">
      <title>VERWANDTE ARBEITEN</title>
    </sec>
    <sec id="sec-9">
      <title>Opinion Mining</title>
      <p>
        Um die Tonalitat eines Textes zu bestimmen, benutzen
viele Ansatze wie [
        <xref ref-type="bibr" rid="ref13 ref2 ref3 ref9">2, 3, 9, 13</xref>
        ] Worterbucher, in denen Worter
mit einem Tonalitatswert hinterlegt sind. Diese
Worterbucher werden meist so aufgebaut: Man beginnt mit einer
kleineren Menge von positiven und negativen Wortern. Dann
wird analysiert, ob neue Worter oft mit positiven oder
negativen Wortern auftauchen und entsprechend bekommt dann
das neue Wort einen positiven oder negativen
Tonalitatswert.
      </p>
      <p>
        Eine typische Menge von Saattonalitatswortern sieht
beispielsweise so aus [
        <xref ref-type="bibr" rid="ref16">16</xref>
        ]:
positiv: fgood, nice, excellent, positive, fortunate,
correct, superiorg
negativ: fbad, nasty, poor, negative, unfortunate, wrong,
inferiorg
      </p>
      <p>
        Diesen Aufbau durch einen Bootstrapping Algorithmus
benutzt auch das bekannteste Worterbuch: SentiWordNET
[
        <xref ref-type="bibr" rid="ref5">5</xref>
        ]. Als Quelle fur neue Worter benutzt es dazu Glossetexte
und Wortbeziehungen in WordNET, dem bekanntesten
englischen, digitalen Worterbuch. Mit diesen Wortbeziehungen
wie Synonym, Oberbegri oder Unterbegri werden neue
Worter gefunden, die dann die gleiche oder eine ahnliche
Tonalitat bekommen.
      </p>
      <p>
        Andere Ansatze benutzen nur WordNET oder ahnliche,
allgemeine Worterbucher [
        <xref ref-type="bibr" rid="ref6 ref7">6, 7</xref>
        ] oder Textsammlungen [
        <xref ref-type="bibr" rid="ref2 ref4">2, 4</xref>
        ]
oder Suchanfragen [
        <xref ref-type="bibr" rid="ref6">6</xref>
        ]. Die Vorgehensweise ahnelt dabei oft
der Vergro erung der Wortmenge durch Bootstrapping.
      </p>
      <p>
        Viele Ansatze [
        <xref ref-type="bibr" rid="ref13 ref2 ref3 ref4">2, 3, 4, 13</xref>
        ] beschranken sich auf das Gebiet
der Sentiment Analysis, also der Tonalitatsbestimmung in
Kundenrezensionen. Einige Ansatze beschranken sich dabei
nur auf Adjektive [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ].
      </p>
      <p>
        Bei Kundenrezensionen ist eine Identi kation von
Meinungsblocken nicht notig. Eine Rezension besteht nur aus
Meinungsblocken. Um generell Meinungen zu nden, auch
wenn dies in einem langen Zeitungsartikel nur ein kleiner
Absatz uber ein bestimmtes Unternehmen ist, sind zunachst
noch anderere Schritte zuvor notig. Ein satzbasierter Ansatz
[
        <xref ref-type="bibr" rid="ref7">7</xref>
        ] bestimmt fur jeden Satz einen Tonalitatswert basierend
auf den in ihm enthalten Wortern. Dafur werden in zwei
Modellen einmal alle Worter oder nur das starkste
Tonalitatswort herangezogen. U berschreitet der Wert eine gewisse
Grenze, dann enthalt der Satz eine Meinung. Fur einen
anderen Ansatz [
        <xref ref-type="bibr" rid="ref1">1</xref>
        ] enthalt ein Satz eine Meinung, wenn er ein
Adjektiv enthalt.
      </p>
      <p>Auch kann man davon ausgehen, dass bei Sentiment
Analysis Ansatzen man schon mit einem kleineren Worterbuch
mit Tonalitatswerten zurecht kommt, da man es bei den
Zielen der Rezension nur mit Produkten und ahnlichem wie
Filmen, Hotels usw. zu tun hat. Bei einer
Medienresonanzanalyse werden aber gleichzeitig Entitaten wie Personen,
Organisationen, Produkte, Events oder Aktionen im Fokus
stehen. Somit andern sich auch die tonalitatsbildenen
Worter, da nicht allein durch eine Beschreibung eines Produktes
etc. eine Tonalitat ausgedruckt wird.</p>
      <p>
        In einer Rezension will der Autor seine Meinung dem Leser
direkt vermitteln. In Zeitungsartikeln beschreibt der Autor
nicht nur direkte Meinungen, oft wird eher uber Fakten und
Handlungen gesprochen, die sich auf bestimmte Personen
oder Organisationen beziehen, die dann eine Tonalitat
entstehen lassen. Darum sollte ein solcher Ansatz auch nicht
nur Adjektive, sondern mehr Wortarten miteinbeziehen (z.
B. Verben). Die meisten Ansatze [
        <xref ref-type="bibr" rid="ref1 ref2 ref3">1, 2, 3</xref>
        ] sind auf die
englische Sprache ausgerichtet. Daruber hinaus gibt es einige
Ansatze fur die Chinesische Sprache, die allerdings nicht die
Gute der Ergebnisse der auf Englisch arbeitenden Ansatze
erreichen [
        <xref ref-type="bibr" rid="ref4 ref9">4, 9</xref>
        ].
2.2
      </p>
    </sec>
    <sec id="sec-10">
      <title>Themenverfolgung</title>
      <p>
        Wissenschaftliche Methoden [
        <xref ref-type="bibr" rid="ref10 ref14 ref17 ref18">10, 14, 17, 18</xref>
        ], die eine
Themenverfolgung realisieren, stellen ein Thema oft durch
Schlagworter dar. Diese Schlusselworter werden dadurch
extrahiert, dass die hau gsten Worter eines Themas genommen
werden [
        <xref ref-type="bibr" rid="ref14">14</xref>
        ], die TF-IDF Methode zur Gewichtung benutzt
wird [
        <xref ref-type="bibr" rid="ref10">10</xref>
        ] oder die Worter ausgewahlt werden, die am
wahrscheinlichsten in einem Thema vorkommen und am
unwahrscheinlichsten in allen anderen Themen [
        <xref ref-type="bibr" rid="ref17 ref18">17, 18</xref>
        ].
      </p>
      <p>
        Weiterhin gibt es einen Ansatz [
        <xref ref-type="bibr" rid="ref8">8</xref>
        ] einzelne Personen zu
verfolgen. In diesem Ansatz geht es dann spater um eine
Visualisierung der Daten: Wie oft wurde die Person in den
beobachteten Medienquellen in einem bestimmten
Zeitintervall (beispielsweise an einem Tag) erwahnt.
      </p>
      <p>
        Eine andere, sehr erfolgreiche Methode ist die Verfolgung
von wortlicher Rede [
        <xref ref-type="bibr" rid="ref11">11</xref>
        ] fur ein bestimmtes Thema. Die
Arbeit beabsichtigt zu erforschen, wie sich Themen zwischen
den verschieden Medien (in diesem Fall Onlinenachrichten
und Soziale Netzwerke) bewegen. Die Autoren untersuchen
nach welcher Zeit Themen in die sozialen Netzwerke
gelangen und ob es Themen gibt, die zuerst in den Sozialen Netzen
entstehen und dann erst in die herkommlichen Nachrichten
gelangen. Hier werden Zitate aus wortlicher Rede benutzt,
da diese laut den Autoren einfach zu verfolgen sind [
        <xref ref-type="bibr" rid="ref11">11</xref>
        ].
Ein Zitat steht dann fur ein Thema. Durch einen
graphbasierten Ansatz werden Zitate auch wieder erkannt, wenn sie
verkurzt oder leicht abgeandert werden.
      </p>
      <p>
        Selten werden verschiedene Merkmale kombiniert [
        <xref ref-type="bibr" rid="ref12">12</xref>
        ], um
Themen darzustellen oder zu verfolgen. Allerdings verlangt
dies auch gro eren Aufwand, da man zunachst mittels
Information Extraktion Methoden viele Informationen im Vorlauf
erfassen muss, damit man daraus entsprechende Merkmale
generieren kann. Hier sind auch begrenzte
Rechnerkapazitaten ein nicht zu vernachlassigender Aspekt.
      </p>
    </sec>
    <sec id="sec-11">
      <title>ANFORDERUNGEN FÜR DEN ANSATZ</title>
      <p>
        Die verschiedenen Arbeiten [
        <xref ref-type="bibr" rid="ref1 ref12 ref2 ref3 ref7">1, 2, 3, 7, 12</xref>
        ] zu diesen
Bereichen zeigen oft, dass es sinnvoll ist, die Texte einer
Vorverarbeitung zu unterziehen (s. Abbildung 1). Sehr vorteilhaft
erscheint der Einsatz von Natural Language Processing und
Information Extraction. Wenn ein Ansatz diese Vorgaben
fur eine Vorverarbeitung erfullt, dann entstehen neue
Moglichkeiten, die spater aufgefuhrt werden.
3.1
      </p>
    </sec>
    <sec id="sec-12">
      <title>Natural Language Processing</title>
      <p>
        Gerade Natural Language Processing (NLP) wird in
vielen anderen Ansatzen benutzt, um unter anderem Adjektive
zu identi zieren [
        <xref ref-type="bibr" rid="ref1 ref2 ref3">1, 2, 3</xref>
        ]. Beim Natural Language Processing
ist nach dem simplen Aufteilen des Textes in Satze und
Worter das sogenannte Part-Of-Speech Tagging der
wichtigste Analyseschritt. Dabei werden die Worter aufgrund von
Wahrscheinlichkeitsmodellen wie Hidden Markov Modellen
grammatikalischen Wortarten wie Nomen, Verben,
Adjektiven usw. zugeordnet. Au erdem sollte ein Stemming
durchgefuhrt werden, damit alle Worter auch in Ihrer Grundform
verfugbar sind. Mit dieser Zuruckfuhrung werden viele
Methoden vereinfacht, die auf der Identi kation von
bestimmten Wortern beruhen oder einen Text als Wortlisten mit
Hau gkeiten darstellen.
3.2
      </p>
    </sec>
    <sec id="sec-13">
      <title>Information Extraction</title>
      <p>
        Durch Information Extraction (IE) [
        <xref ref-type="bibr" rid="ref15">15</xref>
        ] ist es daruber
hinaus moglich, Entitaten im Text wie Personen,
Organisationen und Orte zu erkennen. Diese Named Entity Recognition
(NER) ist ein gutes Beispiel, wie IE auf NLP aufbaut: Zuerst
werden Nomen identi ziert und z.B. durch Listen genauer
bestimmt, ob es eine Person ist und eventuell zusatzlich, ob
es nur ein Vorname, Vor- und Nachname ist usw. Diese
Entitaten werden dann uber den Text verfolgbar, wenn weitere
Techniken wie Ortho-Matching und eine Pronomenau osung
durchgefuhrt wird. Ortho-Matching beschreibt das
Erkennen der Entitat im selben Text an mehreren Stellen, wenn
      </p>
      <p>Web</p>
      <p>Crawler
Satz Segmentierung</p>
      <p>Tokenisierung</p>
      <p>Einheitliche
Dokumentendarstellung
Part-Of-Speech</p>
      <p>Tagging</p>
      <p>Stemming</p>
      <p>Natural Language Processing
Entity Recognition</p>
      <p>Ortho-Matching</p>
      <p>Pronomenauflösung
Information Extraction
Merkmale extrahieren</p>
      <p>Lernverfahren</p>
      <p>Vorhersagemodell</p>
      <p>Abbildung 1: Ablauf der Verarbeitungsschritte
auch nicht exakt die selbe Zeichenkette verwendet wird. Im
Falle einer Person konnte z.B. erst der komplette Name und
spater im Text nur noch der Nachname benutzt werden.
Kommt eine Pronomenau osung hinzu, dann wird eine
Entitat auch dann weiterverfolgt, wenn im Text fur die Entitat
nur noch Pronomen stehen wie \sie" oder \ihn", die sich aber
auf die entsprechende Person beziehen.</p>
      <p>Daruber hinaus kann es noch sehr nutzlich sein, weitere
Informationen wie den grammatikalischen Fall oder das
Geschlecht von Wortern zu bestimmen. Auch Textpassagen mit
wortlicher Rede oder die Extraktion von Nomenphrasen sind
weitere nutzliche Informationsbausteine, die in einer
weiteren Verarbeitung aufgegri en werden konnen.
3.3</p>
    </sec>
    <sec id="sec-14">
      <title>Neue Möglichkeiten</title>
      <p>Diese Vorverarbeitung lasst sich fur das Opinion Mining
und die Themenverfolgung folgenderma en einsetzen:</p>
      <p>Durch die Bestimmung der verschiedenen Wortarten
lassen sich fur das Opinion Mining Worterbucher aus
Adjektiven, Verben und Adverben extrahieren. Hier stellt sich noch
die Frage, wie man diesen Tonalitatswert bestimmt. Viele
Ansatze bilden dazu Ma e, die auf das
Zusammenauftreten mit positiven bzw. negativen Tonalitatswortern beruhen.
Wenn man viele annotierte Meinungsblocke besitzt, kann
man auch Standardansatze aus dem Information Retrieval
wie TF-IDF darauf anwenden. Ebenso kann man
Bootstrapping einsetzen.</p>
      <p>Auch Nominalphrasen konnen in dem Worterbuch
aufgenommen werden. Diese konnen auch fur die Darstellung
eines Themas von gro em Nutzen sein.</p>
      <p>Durch die Erkennung von Personen, Organisationen usw.
kann man bei der Tonalitatsbestimmung unterscheiden, ob
nun eine Person oder ein Produkt besprochen wird. Dadurch
kann man die Bewertung des Vokabulars darauf anpassen.</p>
      <p>Bei der Themenverfolgung kann man Themen durch die
Anwesenheit von Entitaten beschreiben. Das Vorhandensein
bzw. die Abwesenheit einer Entitat kann ebenso wie
Schlagworter dazu benutzt werden ein Thema zu beschreiben und
damit auch zu verfolgen. Auch konnte man genauso wie bei
Schlagwortern das Auftreten mit TF-IDF gewichten, was
nun konkret bedeuten wurde: Die Hau gkeit einer Entitat
multipliziert mit der inversen Dokumentenfrequenz in der
sie vorkommt. Bei dieser Gewichtung ist noch zu klaren, was
den gesamten Dokumentenkorpus darstellt. Dies konnte ein
zeitlicher Ausschnitt sein (z. B. ein Monat).</p>
      <p>Zusatzlich konnte diese Gewichtung interessante
Informationen uber die Entwicklung eines Themas liefern, weil es
anzeigt welche Entitaten in welchen Themen eine starke Rolle
spielen.</p>
      <p>Dies kann man zusatzlich mit bisherigen Ansatzen fur
Themendarstellung durch Schlagworter sowie die Verfolgung
von wortlicher Rede kombinieren.</p>
      <p>Diese Vorverarbeitungsschritte benotigen naturlich auch
Rechenzeit. Da allerdings dazu auf einem riesigen Datenfeld
(den Texten) nur gelesen werden muss, ist eine
Parallelisierung der Vorverarbeitung durchfuhrbar.</p>
    </sec>
    <sec id="sec-15">
      <title>EVALUATION</title>
      <p>Um zu uberprufen, wie dieser Ansatz mit NLP und IE
fur Opinion Mining und eine Themenverfolgung eingesetzt
werden kann, wird evaluiert, wie mit bestimmten
Wortarten automatisch eine Tonalitat bestimmt werden kann und
ob mit Entitaten eine thematische Zuordnung moglich ist.
Dafur werden zuvor klassi zierte Daten benutzt.</p>
      <p>Diese Evaluation soll erste Hinweise geben, ob es
grundsatzlich mit diesen Merkmalen moglich ist, die
fundamentalen Bausteine einer Medienresonanzanalyse maschinell
durchzufuhren: Tonalitatsbestimmung und Themenzuordnung.</p>
      <p>Dabei geht es auch weniger um die Bestimmmung des
optimalen Lernverfahrens. Der Einfachheit halber wurden dazu
im ersten Schritt drei typische Klassi kationsverfahren
verwendet. Diese bieten sich an, weil die Daten schon vor der
Evaluation mit entsprechenden Klassen versehen sind.
4.1</p>
    </sec>
    <sec id="sec-16">
      <title>Tonalitätsbestimmung</title>
      <p>Fur diesen Test wurden 1600 Nachrichtenmeldungen mit
800 positiven und 800 negativen Meldungen analysiert. Um
eine Tonalitat zu erhalten, wurden mittels NLP Adjektive,
Adverbien und Verben aus dem Text extrahiert und mittels
Stemming auf ihre Stammform zuruckgefuhrt. Danach
wurden invertierte Listen von diesen Dokumenten erzeugt und
die einzelnen Terme mittels TF-IDF gewichtet.</p>
      <p>Nach der Erzeugung dieser Attribute wurden die Daten
in einer 10-fach-uber-Kreuz-Validierung durch drei Klassi
kationsverfahren getestet: Support Vector Machine (SVM),
Naive-Bayes und k-Nearest-Neigbours mit k=7.</p>
      <p>Bei den Resultaten zeigte sich, das diese doch recht naive
Methode (es wird beispielsweise nicht betrachtet, ob
irgendwelche Negationen anwesend sind) tatsachlich erste
brauchbare Hinweise geben kann.</p>
      <p>Es zeigte sich, dass die Vermutung, nur Adjektive allein
wurden die Tonalitat bestimmen, nicht zutri t. Die
Gruppe der Verben schneidet schon besser ab. Hier scheint der
Unterschied zwischen Sentiment Analysis bezogen auf
Kundenrezensionen und Opinion Mining bezogen auf
Nachrichten deutlich zu werden. Kundenrezensionen beziehen ihre
Tonalitat wohl eher durch Adjektive (\die Bildqualitat ist
super" oder \der Autofokus ist zuverlassig")1, wahrend in
Nachrichten dies nicht unbedingt der Fall ist
(\Verbraucher</p>
      <sec id="sec-16-1">
        <title>Verben Adverbien</title>
        <p>100
90
80
70
60
in%50
roe 40
c
-S 30
F
20
10
0
1Beispiele aus einer Amazon.de Kundenrezension
2Beispiele von Spiegel.de am 4.3.2011</p>
      </sec>
      <sec id="sec-16-2">
        <title>Klassi kationsverfahren</title>
      </sec>
      <sec id="sec-16-3">
        <title>Genauigkeit</title>
      </sec>
      <sec id="sec-16-4">
        <title>Support Vector Machine Naive-Bayes k-Nearst-Neighbour</title>
      </sec>
      <sec id="sec-16-5">
        <title>Support Vector Machine Naive-Bayes k-Nearst-Neighbour</title>
      </sec>
      <sec id="sec-16-6">
        <title>Support Vector Machine</title>
        <p>Naive-Bayes
k-Nearst-Neighbour
nen eine Rolle spielen bzw. die Organisationen das trennende
Kriterium sind.</p>
        <p>Auch Orte scheinen charakteristisch fur Themen zu sein
(ca. 81,37 %). Kaum uberraschend spielt der Ort \Frankfurt"
im ersten Thema eine wichtigere Rolle als im zweiten Thema
und fur \Berlin" ist es umgekehrt.</p>
        <p>Das Merkmal Person ist nicht so erfolgreich (nur ca. 68,14
%). Bei den hier vorliegenden Themen gab es hinsichtlich
der Personen auch durchaus U berschneidungen, weil
mehrere Personen in beiden Themen auftauchten. Eine
interessante Frage stellt sich nun dahingehend, ob dies bei kleineren
Themen vielleicht seltener der Fall ist.</p>
        <p>Insgesamt zeigt sich das wunschenswerte Resultat: Mit
allen Entitaten gemeinsam wird das beste Ergebnis erzielt
(ca. 85,78 %).</p>
      </sec>
    </sec>
    <sec id="sec-17">
      <title>5. SCHLUSSFOLGERUNG UND WEITER</title>
    </sec>
    <sec id="sec-18">
      <title>FÜHRENDE FRAGESTELLUNGEN</title>
      <p>Die Ergebnisse der Evaluation lassen darauf schlie en,
dass sich aufbauend auf dem beschriebenen
Anforderungspro l eine automatische Tonalitatsbestimmung und
Themenverfolgung realisieren lasst.</p>
      <p>Zu dem Aspekt des Opinion Minings fehlen noch viele
Bestandteile, die in einem Text die Tonalitat verandern
konnen. Es hat sich gezeigt, dass die Worte allein schon im
Ansatz funktionieren, aber noch gro es Verbesserungspotenzial
vorhanden ist.</p>
      <p>Dazu ist zu erarbeiten, ob es noch bessere Methoden der
Gewichtung gibt als der Standardansatz uber TF-IDF.
Auerdem muss uberlegt werden, wie man die
Tonalitatsworter beispielsweise in einem Worterbuch verwalten kann. Als
nachste Fragestellung schlie t sich dann an, wie man mit
semantischen Merkmalen wie Negation oder dem Bezug zu
Entitaten umgeht.</p>
      <p>Daruber hinaus ist ein weiteres spannendes Problem die
Identi zierung der Meinungsblocke, also der Textpassagen,
die eine Meinung beinhalten. Ein Tonalitatsgrenzwert fur
Abschnitte und Satze ist denkbar, aber auch die
Lokalisierung durch die Entitaten im Text, fur die man sich erstens
verstarkt interessiert und die sich zweitens mit ausreichend
vielen tonalitatsbildenen Wortern umgeben.</p>
      <p>Bei der Themenverfolgung haben die Experimente zunachst
nur den Wert von Entitatenerkennung in einem einfachen
Beispiel gezeigt. Hier musste die Kombination mit
klassischen Schlagwortansatzen und neueren Ansatzen, wie die
Einbeziehung von wortlicher Rede, genutzt werden, um eine
bessere Themendarstellung zu erhalten und zusatzlich
interessante Fakten uber ein Thema zu sammeln. Diese Fakten
konnen Folgendes beinhalten: Wie stark sind welche
Personen mit welchen Themen verbunden? Oder gibt es zentrale
Zitate/Aussagen, die immer wieder aufgegri en werden.</p>
      <p>Allerdings muss zunachst die Frage beantwortet werden,
wie man die Entitaten sinnvoll mit Ansatzen wie
Schlagwortern und die Verfolgung von Zitaten verbinden kann. Dies
wird Gegenstand der zukunftigen Arbeit sein, wobei auch zu
klaren ist, wie man diese Kombination fur die Verwaltung
einer Themenverfolgung sinnvoll einsetzen kann.</p>
      <p>Weiterhin ist dabei die Gro e eines Themas zu beachten
(fur die De ntion der Gro e eines Themas gibt es viele
Moglichkeiten, die Anzahl der Artikel zu einem Thema ist eine
nahe liegende Losung). Wie wirkt sich die Gro e der Themen
auf die Verwaltung aus? Und wie verhalt sich die
Themendarstellung mit Merkmalen dadurch? In der Evaluation kam
schon die Frage auf, ob Personen bei kleineren Themen nicht
eine wichtigere Rolle zur Themenbeschreibung spielen.</p>
      <p>Insgesamt zeigt sich aber, dass die Vorverarbeitung durch
Natural Language Processing und Information Extraction
von gro em Vorteil ist, da sie fur beide Aufgabenstellungen,
Opinion Mining und Themenverfolgung, viele neue
Moglichkeiten ero net und diese im Ansatz fur eine
Medienresonanzanalyse funktionieren.
6.</p>
    </sec>
    <sec id="sec-19">
      <title>LITERATUR</title>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          [1]
          <string-name>
            <given-names>L.</given-names>
            <surname>Dey and S. K. M. Haque</surname>
          </string-name>
          .
          <article-title>Opinion mining from noisy text data</article-title>
          .
          <source>In Proc. of the 2nd workshop on Analytics for noisy unstructured text data, AND '08</source>
          , pages
          <fpage>83</fpage>
          {
          <fpage>90</fpage>
          ,
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          [2]
          <string-name>
            <given-names>X.</given-names>
            <surname>Ding</surname>
          </string-name>
          ,
          <string-name>
            <given-names>B.</given-names>
            <surname>Liu</surname>
          </string-name>
          , and
          <string-name>
            <given-names>P. S.</given-names>
            <surname>Yu</surname>
          </string-name>
          .
          <article-title>A holistic lexicon-based approach to opinion mining</article-title>
          .
          <source>In Proc. of the international conference on Web search and web data mining</source>
          ,
          <source>WSDM '08</source>
          , pages
          <fpage>231</fpage>
          {
          <fpage>240</fpage>
          ,
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          [3]
          <string-name>
            <given-names>X.</given-names>
            <surname>Ding</surname>
          </string-name>
          ,
          <string-name>
            <given-names>B.</given-names>
            <surname>Liu</surname>
          </string-name>
          , and
          <string-name>
            <surname>L. Zhang.</surname>
          </string-name>
          <article-title>Entity discovery and assignment for opinion mining applications</article-title>
          .
          <source>In Proc. of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining</source>
          ,
          <source>KDD '09</source>
          , pages
          <fpage>1125</fpage>
          {
          <fpage>1134</fpage>
          ,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          [4]
          <string-name>
            <given-names>W.</given-names>
            <surname>Du</surname>
          </string-name>
          and
          <string-name>
            <given-names>S.</given-names>
            <surname>Tan</surname>
          </string-name>
          .
          <article-title>An iterative reinforcement approach for ne-grained opinion mining</article-title>
          .
          <source>In Proc. of Human Language Technologies</source>
          :
          <article-title>The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics</article-title>
          ,
          <source>NAACL '09</source>
          , pages
          <fpage>486</fpage>
          {
          <fpage>493</fpage>
          ,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          [5]
          <string-name>
            <given-names>A.</given-names>
            <surname>Esuli</surname>
          </string-name>
          and
          <string-name>
            <given-names>F.</given-names>
            <surname>Sebastiani</surname>
          </string-name>
          .
          <article-title>Determining the semantic orientation of terms through gloss classi cation</article-title>
          .
          <source>In Proc. of the 14th ACM international conference on Information and knowledge management</source>
          ,
          <source>CIKM '05</source>
          , pages
          <fpage>617</fpage>
          {
          <fpage>624</fpage>
          ,
          <year>2005</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          [6]
          <string-name>
            <given-names>X.</given-names>
            <surname>Huang</surname>
          </string-name>
          and
          <string-name>
            <given-names>W. B.</given-names>
            <surname>Croft</surname>
          </string-name>
          .
          <article-title>A uni ed relevance model for opinion retrieval</article-title>
          .
          <source>In Proc. of the 18th ACM conference on Information and knowledge management</source>
          ,
          <source>CIKM '09</source>
          , pages
          <fpage>947</fpage>
          {
          <fpage>956</fpage>
          ,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          [7]
          <string-name>
            <given-names>S.-M.</given-names>
            <surname>Kim</surname>
          </string-name>
          and
          <string-name>
            <given-names>E.</given-names>
            <surname>Hovy</surname>
          </string-name>
          .
          <article-title>Automatic detection of opinion bearing words and sentences</article-title>
          . In Companion Volume to the
          <source>Proceedings of the International Joint Conference on Natural Language Processing (IJCNLP)</source>
          ,
          <year>2005</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          [8]
          <string-name>
            <given-names>M.</given-names>
            <surname>Krstajic</surname>
          </string-name>
          ,
          <string-name>
            <given-names>F.</given-names>
            <surname>Mansmann</surname>
          </string-name>
          ,
          <string-name>
            <surname>A</surname>
          </string-name>
          . Sto el, M. Atkinson, and
          <string-name>
            <given-names>D. A.</given-names>
            <surname>Keim</surname>
          </string-name>
          .
          <article-title>Processing online news streams for large-scale semantic analysis</article-title>
          .
          <source>In ICDE Workshops</source>
          , pages
          <volume>215</volume>
          {
          <fpage>220</fpage>
          ,
          <year>2010</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          [9]
          <string-name>
            <given-names>L.-W.</given-names>
            <surname>Ku</surname>
          </string-name>
          , Y.-T. Liang, and H.
          <string-name>
            <surname>-H. Chen</surname>
          </string-name>
          .
          <article-title>Opinion extraction, summarization and tracking in news and blog corpora</article-title>
          .
          <source>In AAAI Symposium on Computational Approaches to Analysing Weblogs (AAAI-CAAW)</source>
          , pages
          <fpage>100</fpage>
          {
          <fpage>107</fpage>
          ,
          <year>2006</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          [10]
          <string-name>
            <given-names>S.</given-names>
            <surname>Lee and H.-J. Kim</surname>
          </string-name>
          .
          <article-title>News keyword extraction for topic tracking</article-title>
          .
          <source>In Proc. of the 4th International Conference on Networked Computing and Advanced Information Management -</source>
          Volume
          <volume>02</volume>
          , pages
          <fpage>554</fpage>
          {
          <fpage>559</fpage>
          ,
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          [11]
          <string-name>
            <given-names>J.</given-names>
            <surname>Leskovec</surname>
          </string-name>
          ,
          <string-name>
            <given-names>L.</given-names>
            <surname>Backstrom</surname>
          </string-name>
          , and
          <string-name>
            <given-names>J.</given-names>
            <surname>Kleinberg</surname>
          </string-name>
          .
          <article-title>Meme-tracking and the dynamics of the news cycle</article-title>
          .
          <source>In Proc. of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining</source>
          ,
          <source>KDD '09</source>
          , pages
          <fpage>497</fpage>
          {
          <fpage>506</fpage>
          ,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          [12]
          <string-name>
            <given-names>B.</given-names>
            <surname>Li</surname>
          </string-name>
          ,
          <string-name>
            <given-names>W.</given-names>
            <surname>Li</surname>
          </string-name>
          ,
          <string-name>
            <given-names>Q.</given-names>
            <surname>Lu</surname>
          </string-name>
          , and
          <string-name>
            <given-names>M.</given-names>
            <surname>Wu</surname>
          </string-name>
          .
          <article-title>Pro le-based event tracking</article-title>
          .
          <source>In Proc. of the 28th annual international ACM SIGIR conference on Research and development in information retrieval</source>
          ,
          <source>SIGIR '05</source>
          , pages
          <fpage>631</fpage>
          {
          <fpage>632</fpage>
          ,
          <year>2005</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          [13]
          <string-name>
            <surname>M. M. S. Missen</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          <string-name>
            <surname>Boughanem</surname>
            , and
            <given-names>G.</given-names>
          </string-name>
          <string-name>
            <surname>Cabanac</surname>
          </string-name>
          .
          <article-title>Comparing semantic associations in sentences and paragraphs for opinion detection in blogs</article-title>
          .
          <source>In Proc. of the International Conference on Management of Emergent Digital EcoSystems</source>
          , MEDES '
          <volume>09</volume>
          , pages
          <fpage>80</fpage>
          :
          <fpage>483</fpage>
          {
          <fpage>80</fpage>
          :
          <fpage>488</fpage>
          ,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          [14]
          <string-name>
            <given-names>X.</given-names>
            <surname>Tang</surname>
          </string-name>
          ,
          <string-name>
            <given-names>C.</given-names>
            <surname>Yang</surname>
          </string-name>
          , and
          <string-name>
            <given-names>J.</given-names>
            <surname>Zhou</surname>
          </string-name>
          .
          <article-title>Stock price forecasting by combining news mining and time series analysis</article-title>
          .
          <source>In Proc. of the 2009 IEEE/WIC/ACM International Joint Conference on Web Intelligence and Intelligent Agent Technology - Volume 01, WI-IAT '09</source>
          , pages
          <fpage>279</fpage>
          {
          <fpage>282</fpage>
          ,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          [15]
          <string-name>
            <given-names>J.</given-names>
            <surname>Turmo</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A.</given-names>
            <surname>Ageno</surname>
          </string-name>
          , and
          <string-name>
            <given-names>N.</given-names>
            <surname>Catala</surname>
          </string-name>
          .
          <article-title>Adaptive information extraction</article-title>
          .
          <source>ACM Comput. Surv.</source>
          ,
          <volume>38</volume>
          ,
          <year>July 2006</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          [16]
          <string-name>
            <given-names>P. D.</given-names>
            <surname>Turney</surname>
          </string-name>
          and
          <string-name>
            <given-names>M. L.</given-names>
            <surname>Littman</surname>
          </string-name>
          .
          <article-title>Measuring praise and criticism: Inference of semantic orientation from association</article-title>
          .
          <source>ACM Trans. Inf</source>
          . Syst.,
          <volume>21</volume>
          :
          <fpage>315</fpage>
          {
          <fpage>346</fpage>
          ,
          <year>October 2003</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref17">
        <mixed-citation>
          [17]
          <string-name>
            <given-names>X.</given-names>
            <surname>Wang</surname>
          </string-name>
          ,
          <string-name>
            <given-names>C.</given-names>
            <surname>Zhai</surname>
          </string-name>
          ,
          <string-name>
            <given-names>X.</given-names>
            <surname>Hu</surname>
          </string-name>
          , and
          <string-name>
            <given-names>R.</given-names>
            <surname>Sproat</surname>
          </string-name>
          .
          <article-title>Mining correlated bursty topic patterns from coordinated text streams</article-title>
          .
          <source>In Proc. of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining</source>
          ,
          <source>KDD '07</source>
          , pages
          <fpage>784</fpage>
          {
          <fpage>793</fpage>
          ,
          <year>2007</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref18">
        <mixed-citation>
          [18]
          <string-name>
            <given-names>J.</given-names>
            <surname>Zeng</surname>
          </string-name>
          ,
          <string-name>
            <given-names>C.</given-names>
            <surname>Wu</surname>
          </string-name>
          , and
          <string-name>
            <given-names>W.</given-names>
            <surname>Wang</surname>
          </string-name>
          <article-title>. Multi-grain hierarchical topic extraction algorithm for text mining</article-title>
          .
          <source>Expert Syst. Appl.</source>
          ,
          <volume>37</volume>
          :
          <fpage>3202</fpage>
          {
          <fpage>3208</fpage>
          ,
          <string-name>
            <surname>April</surname>
          </string-name>
          <year>2010</year>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>