=Paper=
{{Paper
|id=None
|storemode=property
|title=Ein Ansatz zu Opinion Mining und Themenverfolgung für eine Medienresonanzanalyse
|pdfUrl=https://ceur-ws.org/Vol-733/paper_scholz.pdf
|volume=Vol-733
|dblpUrl=https://dblp.org/rec/conf/gvd/Scholz11
}}
==Ein Ansatz zu Opinion Mining und Themenverfolgung für eine Medienresonanzanalyse==
<pdf width="1500px">https://ceur-ws.org/Vol-733/paper_scholz.pdf</pdf>
<pre>
     Ein Ansatz zu Opinion Mining und Themenverfolgung für
                  eine Medienresonanzanalyse

                                                          Thomas Scholz

                   Heinrich-Heine-Universität Düsseldorf                         pressrelations GmbH
                           Institut für Informatik                                   Entwicklung
                             Universitätsstr. 1                                     Klosterstr. 112
                    D-40225 Düsseldorf, Deutschland                         D-40211 Düsseldorf, Deutschland
                    scholz@cs.uni-duesseldorf.de                          thomas.scholz@pressrelations.de

Zusammenfassung                                                            und Hörfunksender an. Im Bereich Soziale Netzwerke ha-
Heutzutage gibt es eine unüberschaubare Anzahl von Me-                    ben sich Dienstleister darauf spezialisiert, die Diskussionen
dien mit enorm vielen Artikeln und Beiträgen. Da in ih-                   und Kommentare aus Netzen wie Twitter, Facebook oder
nen neben vielen anderen potenziell nützlichen Informatio-                bestimmte Foren automatisch zu erfassen und als Daten an-
nen wertvolle Meinungen zu Themen enthalten sind, ist eine                 zubieten.
automatische Beobachtung dieser Medien sehr interessant,                     Die Auswertung von einer großen Menge dieser Artikel
birgt aber zwei große Herausforderungen: eine automatisier-                und Beiträge ist hingegen schwierig. Eine manuelle Auswer-
te Tonalitätsbestimmung (Opinion Mining) kombiniert mit                   tung ist nur mit erheblichen Aufwand möglich und für eine
einer Themenverfolgung. Diese zwei Aufgaben sind Teilge-                   automatische Auswertung gibt es erste Ansätze, aber längst
biete des Text Minings, auch Text Data Mining oder Know-                   noch keine allumfassende Lösung. Mit der Aufgabe diese Da-
ledge Discovery in Texten genannt. Diese Arbeit beschreibt                 ten zu erfassen und auszuwerten beschäftigt man sich beim
einen Ansatz für Opinion Mining und Themenverfolgung ba-                  Medienmonitoring bzw. bei der Medienresonanzanalyse. In
sierend auf einer Information Extraction Architektur. In der               diesem Bereich arbeiten Ausschnittdienste.
Evaluation wird gezeigt, wie dieser Ansatz für Opinion Mi-
ning oder eine Themenverfolgung eingesetzt werden kann.
                                                                           1.1   Medienmonitoring
                                                                              Die riesigen Ströme aus Artikeln und Beiträgen enthalten
                                                                           viele potenziell wertvolle Informationen zu Themen, Perso-
Kategorie                                                                  nen, Firmen, Produkten, usw. Besonders die PR- und Marketing-
Data Mining and Knowledge Discovery                                        Abteilungen von Unternehmen, Parteien und Verbänden in-
                                                                           teressieren für diese Daten und deren Auswertung. Dabei in-
                                                                           teressiert man sich besonders dafür, inwiefern sich das Image
Schlüsselwörter                                                            des Unternehmens oder das Image von bestimmten Pro-
Opinion Mining, Topic Tracking, Text Mining                                dukten, Marken und Dienstleistungen entwickelt. Aber auch
                                                                           wie bestimmte Personen (Werbeträger, Vorstandsmitglieder,
1.    EINLEITENDE MOTIVATION                                               etc.) in diesen Medien wahrgenommen werden. Außerdem
                                                                           von Bedeutung ist die Frage, auf welche Weise bestimmte
   Das Internet, Printmedien, TV, Hörfunk und Soziale Netz-
                                                                           Themen mit dem Unternehmen verknüpft sind. Beim Me-
werke sind eine Fundgrube von Meinungen zu bestimm-ten
                                                                           dienmoitoring geht es darum Artikel zu erfassen und sam-
Themen in Form von Artikeln oder Beiträgen. Heutzutage
                                                                           meln, die für PR- und Marketing Abteilungen interessant
ist es möglich diese in digitaler Form zu erfassen. Im Online
                                                                           sind. Dazu werden von ihnen Themen oder Schlagwörter
Bereich können beispielsweise Crawler eingesetzt werden um
                                                                           definiert. Dies ist auch interessant für Verbände, Vereine,
die Artikelseiten von Internetnachrichten zu erfassen. Durch
                                                                           Parteien, Stiftungen, die teilweise zu klein sind um über ei-
Analyse des Seitenquelltextes und den Einsatz von Heuris-
                                                                           ne eigene PR-Abteilung zu verfügen.
tiken kann der eigentliche Artikeltext gefunden werden. Ar-
tikel aus Printmedien können eingescannt und mit optischer
Zeichenerkennung (OCR) digitalisiert werden. Artikel und
                                                                           1.2   Medienresonanzanalyse
Beiträge in digitaler Textform bieten auch teilweise die TV-                 Bei der Medienresonanz geht es darum zu bestimmten
                                                                           Themen das mediale Echo zu analysieren.
                                                                              Dies kann z. B. auf folgende Art und Weise geschehen:
                                                                           Zunächst werden Themen definiert, die es zu untersuchen
                                                                           gilt. Dies können beispielsweise Marken von Firmen sein
                                                                           oder andere Begriffe wie Produktnamen, Personen oder ähn-
                                                                           liches. Bei einem Medienbeobachter und einem Ausschnitt-
                                                                           dienst würden die Kunden (meist PR-Abteilungen von Fir-
                                                                           men oder Organisationen wie Parteien) Themen durch be-
23rd GI-Workshop on Foundations of Databases (Grundlagen von Daten-
banken), 31.05.2011 - 03.06.2011, Obergurgl, Austria.                      stimmte Schlagwörter festlegen. Die Schlagwörter werden
Copyright is held by the author/owner(s).                                  dann von Crawlern in den Medien gesucht, um die entspre-


                                                                      7
chenden Artikel zu erfassen.                                               • negativ: {bad, nasty, poor, negative, unfortunate, wrong,
   Dann können diese Artikel bewertet werden, z.B. ob sie                   inferior}
wirklich relevant zu diesem Thema sind, wie exklusiv dieser
                                                                           Diesen Aufbau durch einen Bootstrapping Algorithmus
Beitrag ist und am wichtigsten welche Tonalität er besitzt.
                                                                        benutzt auch das bekannteste Wörterbuch: SentiWordNET
Die Tonalität beschreibt, ob ein bestimmter Artikel positi-
                                                                        [5]. Als Quelle für neue Wörter benutzt es dazu Glossetexte
ve oder negative Meinungen zu einem Thema enthält. Es
                                                                        und Wortbeziehungen in WordNET, dem bekanntesten eng-
ist auch beides möglich. Oft wird dies mit einem negativen
                                                                        lischen, digitalen Wörterbuch. Mit diesen Wortbeziehungen
Zahlenwert für eine negative Tonalität und einem positiven
                                                                        wie Synonym, Oberbegriff oder Unterbegriff werden neue
Zahlenwert für eine positive Tonalität festgehalten. Diese
                                                                        Wörter gefunden, die dann die gleiche oder eine ähnliche
Bestimmung der Tonalität wird heutzutage bei den Medien-
                                                                        Tonalität bekommen.
beobachtern noch rein manuell durch Medienanalysten aus-
                                                                           Andere Ansätze benutzen nur WordNET oder ähnliche,
geführt, die die Texte lesen und meinungsbeinhaltende Pas-
                                                                        allgemeine Wörterbücher [6, 7] oder Textsammlungen [2, 4]
sagen identifizieren und bewerten.
                                                                        oder Suchanfragen [6]. Die Vorgehensweise ähnelt dabei oft
   Allerdings stoßen solche Beobachtungsdienste aufgrund
                                                                        der Vergrößerung der Wortmenge durch Bootstrapping.
der Menge der Artikel und Beiträge heute an ihre Grenzen,
                                                                           Viele Ansätze [2, 3, 4, 13] beschränken sich auf das Gebiet
was manuell noch zu bearbeiten ist. Die Nachrichtenanzahl,
                                                                        der Sentiment Analysis, also der Tonalitätsbestimmung in
die diese Dienste bearbeiten, nimmt stetig zu, aufgrund der
                                                                        Kundenrezensionen. Einige Ansätze beschränken sich dabei
stärkeren Digitalisierung der Medien wie auch durch Entste-
                                                                        nur auf Adjektive [3].
hen neuer Medien im Internet wie der Bereich Social Media.
                                                                           Bei Kundenrezensionen ist eine Identifikation von Mei-
                                                                        nungsblöcken nicht nötig. Eine Rezension besteht nur aus
1.3     Opinion Mining und Themenverfolgung als                         Meinungsblöcken. Um generell Meinungen zu finden, auch
        Lösung                                                          wenn dies in einem langen Zeitungsartikel nur ein kleiner
   Als Lösung für eine automatische Medienresonanzanalyse             Absatz über ein bestimmtes Unternehmen ist, sind zunächst
bieten sich Opinion Mining und Themenverfolgung an, um                  noch anderere Schritte zuvor nötig. Ein satzbasierter Ansatz
die doch bisher meist manuell geleistete Arbeit zu unter-               [7] bestimmt für jeden Satz einen Tonalitätswert basierend
stützen und perspektivisch zu ersetzen.. Mit Hilfe des Opi-            auf den in ihm enthalten Wörtern. Dafür werden in zwei
nion Minings soll es gelingen meinungstragende Passagen                 Modellen einmal alle Wörter oder nur das stärkste Tonali-
innerhalb eines Textes zu finden und dann automatisch mit               tätswort herangezogen. Überschreitet der Wert eine gewisse
einem Tonalitätswert zu versehen. Durch die Realisierung               Grenze, dann enthält der Satz eine Meinung. Für einen an-
einer automatischen Themenverfolgung könnte die manuell                deren Ansatz [1] enthält ein Satz eine Meinung, wenn er ein
vorgenommene Schlagwortverwaltung für die Themenzuord-                 Adjektiv enthält.
nung abgelöst werden. In der Kombination hätte man dann                  Auch kann man davon ausgehen, dass bei Sentiment Ana-
eine automatische Medienresonanzanalyse.                                lysis Ansätzen man schon mit einem kleineren Wörterbuch
   Der Rest dieser Arbeit kann wie folgt zusammengefasst                mit Tonalitätswerten zurecht kommt, da man es bei den Zie-
werden: Zunächst werden die Ansätze aufgezeigt, die schon             len der Rezension nur mit Produkten und ähnlichem wie
zum Bereich des Opinion Minings und der Themenverfol-                   Filmen, Hotels usw. zu tun hat. Bei einer Medienresonan-
gung entwickelt wurden. Dann wird die Architektur ent-                  zanalyse werden aber gleichzeitig Entitäten wie Personen,
worfen, wodurch eine automatische Medienresonanzanalyse                 Organisationen, Produkte, Events oder Aktionen im Fokus
auf Basis von Natural Language Processing und Informati-                stehen. Somit ändern sich auch die tonalitätsbildenen Wör-
on Extraction realisierbar wird. Anschließend wird in ersten            ter, da nicht allein durch eine Beschreibung eines Produktes
Versuchen demonstriert, wie die Vorverarbeitung für Opi-               etc. eine Tonalität ausgedrückt wird.
nion Mining und Themenverfolgung eingesetzt werden kön-                   In einer Rezension will der Autor seine Meinung dem Leser
nen. Abschließend werden dann aufgrund dieser Ergebnisse                direkt vermitteln. In Zeitungsartikeln beschreibt der Autor
Schlussfolgerungen für das weitere Vorgehen gezogen.                   nicht nur direkte Meinungen, oft wird eher über Fakten und
                                                                        Handlungen gesprochen, die sich auf bestimmte Personen
                                                                        oder Organisationen beziehen, die dann eine Tonalität ent-
2.     VERWANDTE ARBEITEN                                               stehen lassen. Darum sollte ein solcher Ansatz auch nicht
                                                                        nur Adjektive, sondern mehr Wortarten miteinbeziehen (z.
2.1     Opinion Mining                                                  B. Verben). Die meisten Ansätze [1, 2, 3] sind auf die eng-
   Um die Tonalität eines Textes zu bestimmen, benutzen                lische Sprache ausgerichtet. Darüber hinaus gibt es einige
viele Ansätze wie [2, 3, 9, 13] Wörterbücher, in denen Wörter       Ansätze für die Chinesische Sprache, die allerdings nicht die
mit einem Tonalitätswert hinterlegt sind. Diese Wörterbü-            Güte der Ergebnisse der auf Englisch arbeitenden Ansätze
cher werden meist so aufgebaut: Man beginnt mit einer klei-             erreichen [4, 9].
neren Menge von positiven und negativen Wörtern. Dann
wird analysiert, ob neue Wörter oft mit positiven oder nega-           2.2    Themenverfolgung
tiven Wörtern auftauchen und entsprechend bekommt dann                   Wissenschaftliche Methoden [10, 14, 17, 18], die eine The-
das neue Wort einen positiven oder negativen Tonalitäts-               menverfolgung realisieren, stellen ein Thema oft durch Schlag-
wert.                                                                   wörter dar. Diese Schlüsselwörter werden dadurch extra-
   Eine typische Menge von Saattonalitätswörtern sieht bei-           hiert, dass die häufigsten Wörter eines Themas genommen
spielsweise so aus [16]:                                                werden [14], die TF-IDF Methode zur Gewichtung benutzt
                                                                        wird [10] oder die Wörter ausgewählt werden, die am wahr-
     • positiv: {good, nice, excellent, positive, fortunate, cor-       scheinlichsten in einem Thema vorkommen und am unwahr-
       rect, superior}                                                  scheinlichsten in allen anderen Themen [17, 18].


                                                                    8
   Weiterhin gibt es einen Ansatz [8] einzelne Personen zu
verfolgen. In diesem Ansatz geht es dann später um eine                          Web                  Crawler                        Einheitliche
                                                                                                                                      Dokumenten-
Visualisierung der Daten: Wie oft wurde die Person in den                                                                             darstellung
beobachteten Medienquellen in einem bestimmten Zeitinter-
vall (beispielsweise an einem Tag) erwähnt.
   Eine andere, sehr erfolgreiche Methode ist die Verfolgung                                                               Part-Of-Speech
von wörtlicher Rede [11] für ein bestimmtes Thema. Die Ar-                                                                   Tagging
                                                                                Satz Segmentierung    Tokenisierung
beit beabsichtigt zu erforschen, wie sich Themen zwischen
                                                                                                                             Stemming
den verschieden Medien (in diesem Fall Onlinenachrichten
und Soziale Netzwerke) bewegen. Die Autoren untersuchen                                                    Natural Language Processing
nach welcher Zeit Themen in die sozialen Netzwerke gelan-
gen und ob es Themen gibt, die zuerst in den Sozialen Netzen
entstehen und dann erst in die herkömmlichen Nachrichten
gelangen. Hier werden Zitate aus wörtlicher Rede benutzt,                     Entity Recognition    Ortho-Matching       Pronomenauflösung

da diese laut den Autoren einfach zu verfolgen sind [11].
Ein Zitat steht dann für ein Thema. Durch einen graphba-                                                             Information Extraction
sierten Ansatz werden Zitate auch wieder erkannt, wenn sie
verkürzt oder leicht abgeändert werden.
   Selten werden verschiedene Merkmale kombiniert [12], um                  Merkmale extrahieren
                                                                                                          Lernverfahren             Vorhersage-
Themen darzustellen oder zu verfolgen. Allerdings verlangt                                                                            modell
dies auch größeren Aufwand, da man zunächst mittels Infor-
mation Extraktion Methoden viele Informationen im Vorlauf
erfassen muss, damit man daraus entsprechende Merkmale
generieren kann. Hier sind auch begrenzte Rechnerkapazitä-             Abbildung 1: Ablauf der Verarbeitungsschritte
ten ein nicht zu vernachlässigender Aspekt.
                                                                      auch nicht exakt die selbe Zeichenkette verwendet wird. Im
3.    ANFORDERUNGEN FÜR DEN ANSATZ                                    Falle einer Person könnte z.B. erst der komplette Name und
   Die verschiedenen Arbeiten [1, 2, 3, 7, 12] zu diesen Berei-       später im Text nur noch der Nachname benutzt werden.
chen zeigen oft, dass es sinnvoll ist, die Texte einer Vorver-        Kommt eine Pronomenauflösung hinzu, dann wird eine En-
arbeitung zu unterziehen (s. Abbildung 1). Sehr vorteilhaft           tität auch dann weiterverfolgt, wenn im Text für die Entität
erscheint der Einsatz von Natural Language Processing und             nur noch Pronomen stehen wie “sie” oder “ihn”, die sich aber
Information Extraction. Wenn ein Ansatz diese Vorgaben                auf die entsprechende Person beziehen.
für eine Vorverarbeitung erfüllt, dann entstehen neue Mög-            Darüber hinaus kann es noch sehr nützlich sein, weitere
lichkeiten, die später aufgeführt werden.                           Informationen wie den grammatikalischen Fall oder das Ge-
                                                                      schlecht von Wörtern zu bestimmen. Auch Textpassagen mit
3.1    Natural Language Processing                                    wörtlicher Rede oder die Extraktion von Nomenphrasen sind
   Gerade Natural Language Processing (NLP) wird in vie-              weitere nützliche Informationsbausteine, die in einer weite-
len anderen Ansätzen benutzt, um unter anderem Adjektive             ren Verarbeitung aufgegriffen werden können.
zu identifizieren [1, 2, 3]. Beim Natural Language Processing
ist nach dem simplen Aufteilen des Textes in Sätze und Wör-         3.3      Neue Möglichkeiten
ter das sogenannte Part-Of-Speech Tagging der wichtigs-                 Diese Vorverarbeitung lässt sich für das Opinion Mining
te Analyseschritt. Dabei werden die Wörter aufgrund von              und die Themenverfolgung folgendermaßen einsetzen:
Wahrscheinlichkeitsmodellen wie Hidden Markov Modellen                  Durch die Bestimmung der verschiedenen Wortarten las-
grammatikalischen Wortarten wie Nomen, Verben, Adjekti-               sen sich für das Opinion Mining Wörterbücher aus Adjekti-
ven usw. zugeordnet. Außerdem sollte ein Stemming durch-              ven, Verben und Adverben extrahieren. Hier stellt sich noch
geführt werden, damit alle Wörter auch in Ihrer Grundform           die Frage, wie man diesen Tonalitätswert bestimmt. Viele
verfügbar sind. Mit dieser Zurückführung werden viele Me-          Ansätze bilden dazu Maße, die auf das Zusammenauftre-
thoden vereinfacht, die auf der Identifikation von bestimm-           ten mit positiven bzw. negativen Tonalitätswörtern beruhen.
ten Wörtern beruhen oder einen Text als Wortlisten mit               Wenn man viele annotierte Meinungsblöcke besitzt, kann
Häufigkeiten darstellen.                                             man auch Standardansätze aus dem Information Retrieval
                                                                      wie TF-IDF darauf anwenden. Ebenso kann man Bootstrap-
3.2    Information Extraction                                         ping einsetzen.
   Durch Information Extraction (IE) [15] ist es darüber hin-          Auch Nominalphrasen können in dem Wörterbuch auf-
aus möglich, Entitäten im Text wie Personen, Organisatio-           genommen werden. Diese können auch für die Darstellung
nen und Orte zu erkennen. Diese Named Entity Recognition              eines Themas von großem Nutzen sein.
(NER) ist ein gutes Beispiel, wie IE auf NLP aufbaut: Zuerst            Durch die Erkennung von Personen, Organisationen usw.
werden Nomen identifiziert und z.B. durch Listen genauer              kann man bei der Tonalitätsbestimmung unterscheiden, ob
bestimmt, ob es eine Person ist und eventuell zusätzlich, ob         nun eine Person oder ein Produkt besprochen wird. Dadurch
es nur ein Vorname, Vor- und Nachname ist usw. Diese En-              kann man die Bewertung des Vokabulars darauf anpassen.
titäten werden dann über den Text verfolgbar, wenn weitere            Bei der Themenverfolgung kann man Themen durch die
Techniken wie Ortho-Matching und eine Pronomenauflösung              Anwesenheit von Entitäten beschreiben. Das Vorhandensein
durchgeführt wird. Ortho-Matching beschreibt das Erken-              bzw. die Abwesenheit einer Entität kann ebenso wie Schlag-
nen der Entität im selben Text an mehreren Stellen, wenn             wörter dazu benutzt werden ein Thema zu beschreiben und


                                                                  9
damit auch zu verfolgen. Auch könnte man genauso wie bei                 Wortart                  Klassifikationsverfahren    Genauigkeit
Schlagwörtern das Auftreten mit TF-IDF gewichten, was                    Adjektive
nun konkret bedeuten würde: Die Häufigkeit einer Entität                                        Support Vector Machine          80,81 %
multipliziert mit der inversen Dokumentenfrequenz in der                                           Naive-Bayes                     68,34 %
sie vorkommt. Bei dieser Gewichtung ist noch zu klären, was                                       k-Nearst-Neighbour              53,60 %
den gesamten Dokumentenkorpus darstellt. Dies könnte ein                 Verben
zeitlicher Ausschnitt sein (z. B. ein Monat).                                                      Support Vector Machine          82,07 %
   Zusätzlich könnte diese Gewichtung interessante Informa-                                      Naive-Bayes                     72,29 %
tionen über die Entwicklung eines Themas liefern, weil es an-                                     k-Nearst-Neighbour              56,05 %
zeigt welche Entitäten in welchen Themen eine starke Rolle               Adverbien
spielen.                                                                                           Support Vector Machine          75,61 %
   Dies kann man zusätzlich mit bisherigen Ansätzen für                                         Naive-Bayes                     66,08 %
Themendarstellung durch Schlagwörter sowie die Verfolgung                                         k-Nearst-Neighbour              53,79 %
von wörtlicher Rede kombinieren.
   Diese Vorverarbeitungsschritte benötigen natürlich auch                                Abbildung 2: Tonalitätsbestimmung
Rechenzeit. Da allerdings dazu auf einem riesigen Datenfeld
(den Texten) nur gelesen werden muss, ist eine Parallelisie-
rung der Vorverarbeitung durchführbar.                                                    100
                                                                                           90
4.     EVALUATION
                                                                                           80
   Um zu überprüfen, wie dieser Ansatz mit NLP und IE
für Opinion Mining und eine Themenverfolgung eingesetzt                                   70
werden kann, wird evaluiert, wie mit bestimmten Wortar-
                                                                                           60
ten automatisch eine Tonalität bestimmt werden kann und


                                                                            F-Score in %
ob mit Entitäten eine thematische Zuordnung möglich ist.                                 50
Dafür werden zuvor klassifizierte Daten benutzt.
                                                                                           40
   Diese Evaluation soll erste Hinweise geben, ob es grund-
sätzlich mit diesen Merkmalen möglich ist, die fundamenta-                               30
len Bausteine einer Medienresonanzanalyse maschinell
                                                                                           20
durchzuführen: Tonalitätsbestimmung und Themenzuordnung.
   Dabei geht es auch weniger um die Bestimmmung des op-                                   10
timalen Lernverfahrens. Der Einfachheit halber wurden dazu
                                                                                            0
im ersten Schritt drei typische Klassifikationsverfahren ver-
wendet. Diese bieten sich an, weil die Daten schon vor der                                        Personen Organisationen   Orte      Alle
Evaluation mit entsprechenden Klassen versehen sind.

4.1      Tonalitätsbestimmung                                                                    Abbildung 3: Themenzuordnung
  Für diesen Test wurden 1600 Nachrichtenmeldungen mit
800 positiven und 800 negativen Meldungen analysiert. Um
eine Tonalität zu erhalten, wurden mittels NLP Adjektive,            schützer warnen vor der ’Umfrucht’-Falle” oder “Rekordjahr:
Adverbien und Verben aus dem Text extrahiert und mittels              Audi belohnt Mitarbeiter mit Millionen”)2 .
Stemming auf ihre Stammform zurückgeführt. Danach wur-                Das beste Klassifikationsverfahren der drei hier getesteten
den invertierte Listen von diesen Dokumenten erzeugt und              Verfahren ist eindeutig die Support Vector Machine. Darum
die einzelnen Terme mittels TF-IDF gewichtet.                         wird sie nun auch im zweiten Teil der Evaluation angewen-
  Nach der Erzeugung dieser Attribute wurden die Daten                det.
in einer 10-fach-über-Kreuz-Validierung durch drei Klassifi-
kationsverfahren getestet: Support Vector Machine (SVM),              4.2                  Themenzuordnung
Naive-Bayes und k-Nearest-Neigbours mit k=7.                             Im zweiten Test wurden 204 Texte zu zwei sehr allgemei-
  Bei den Resultaten zeigte sich, das diese doch recht naive          nen Themen gesammelt. Die Themen waren “Finanzmarkt”
Methode (es wird beispielsweise nicht betrachtet, ob irgend-          und “Parteien”.
welche Negationen anwesend sind) tatsächlich erste brauch-              Dann wurden aus diesen Texten die Entitäten Personen,
bare Hinweise geben kann.                                             Organisationen und Orte extrahiert. Diese Entitäten wur-
  Es zeigte sich, dass die Vermutung, nur Adjektive allein            den dann wiederum als Terme genommen, die mittels TF-
würden die Tonalität bestimmen, nicht zutrifft. Die Grup-           IDF gewichtet wurden. Abschließend wurde eine SVM be-
pe der Verben schneidet schon besser ab. Hier scheint der             nutzt um die Daten in einer 10-fach-über-Kreuz-Validierung
Unterschied zwischen Sentiment Analysis bezogen auf Kun-              zu evaluieren.
denrezensionen und Opinion Mining bezogen auf Nachrich-                  Die Ergebnisse veranschaulicht Abbildung 3. Interessant
ten deutlich zu werden. Kundenrezensionen beziehen ihre               ist hier, dass bei den einzelnen Merkmalen die Organisatio-
Tonalität wohl eher durch Adjektive (“die Bildqualität ist          nen das beste Resultat liefern (ca. 85,29 %). Dies kann aber
super” oder “der Autofokus ist zuverlässig”)1 , während in          mit der Themenauswahl (“Finanzmarkt” und “Parteien”) zu
Nachrichten dies nicht unbedingt der Fall ist (“Verbraucher-          tun haben, in der wahrscheinlich generell mehr Organisatio-
1                                                                     2
    Beispiele aus einer Amazon.de Kundenrezension                         Beispiele von Spiegel.de am 4.3.2011


                                                                 10
nen eine Rolle spielen bzw. die Organisationen das trennende       darstellung mit Merkmalen dadurch? In der Evaluation kam
Kriterium sind.                                                    schon die Frage auf, ob Personen bei kleineren Themen nicht
   Auch Orte scheinen charakteristisch für Themen zu sein         eine wichtigere Rolle zur Themenbeschreibung spielen.
(ca. 81,37 %). Kaum überraschend spielt der Ort “Frankfurt”         Insgesamt zeigt sich aber, dass die Vorverarbeitung durch
im ersten Thema eine wichtigere Rolle als im zweiten Thema         Natural Language Processing und Information Extraction
und für “Berlin” ist es umgekehrt.                                von großem Vorteil ist, da sie für beide Aufgabenstellungen,
   Das Merkmal Person ist nicht so erfolgreich (nur ca. 68,14      Opinion Mining und Themenverfolgung, viele neue Möglich-
%). Bei den hier vorliegenden Themen gab es hinsichtlich           keiten eröffnet und diese im Ansatz für eine Medienresonan-
der Personen auch durchaus Überschneidungen, weil mehre-          zanalyse funktionieren.
re Personen in beiden Themen auftauchten. Eine interessan-
te Frage stellt sich nun dahingehend, ob dies bei kleineren        6.   LITERATUR
Themen vielleicht seltener der Fall ist.
                                                                    [1] L. Dey and S. K. M. Haque. Opinion mining from
   Insgesamt zeigt sich das wünschenswerte Resultat: Mit
                                                                        noisy text data. In Proc. of the 2nd workshop on
allen Entitäten gemeinsam wird das beste Ergebnis erzielt
                                                                        Analytics for noisy unstructured text data, AND ’08,
(ca. 85,78 %).
                                                                        pages 83–90, 2008.
                                                                    [2] X. Ding, B. Liu, and P. S. Yu. A holistic lexicon-based
5.   SCHLUSSFOLGERUNG UND WEITER-                                       approach to opinion mining. In Proc. of the
                                                                        international conference on Web search and web data
     FÜHRENDE FRAGESTELLUNGEN                                           mining, WSDM ’08, pages 231–240, 2008.
   Die Ergebnisse der Evaluation lassen darauf schließen,           [3] X. Ding, B. Liu, and L. Zhang. Entity discovery and
dass sich aufbauend auf dem beschriebenen Anforderungs-                 assignment for opinion mining applications. In Proc.
profil eine automatische Tonalitätsbestimmung und Themen-              of the 15th ACM SIGKDD international conference on
verfolgung realisieren lässt.                                          Knowledge discovery and data mining, KDD ’09, pages
   Zu dem Aspekt des Opinion Minings fehlen noch viele Be-              1125–1134, 2009.
standteile, die in einem Text die Tonalität verändern kön-       [4] W. Du and S. Tan. An iterative reinforcement
nen. Es hat sich gezeigt, dass die Worte allein schon im An-            approach for fine-grained opinion mining. In Proc. of
satz funktionieren, aber noch großes Verbesserungspotenzial             Human Language Technologies: The 2009 Annual
vorhanden ist.                                                          Conference of the North American Chapter of the
   Dazu ist zu erarbeiten, ob es noch bessere Methoden der              Association for Computational Linguistics, NAACL
Gewichtung gibt als der Standardansatz über TF-IDF. Au-                ’09, pages 486–493, 2009.
ßerdem muss überlegt werden, wie man die Tonalitätswör-
                                                                    [5] A. Esuli and F. Sebastiani. Determining the semantic
ter beispielsweise in einem Wörterbuch verwalten kann. Als
                                                                        orientation of terms through gloss classification. In
nächste Fragestellung schließt sich dann an, wie man mit
                                                                        Proc. of the 14th ACM international conference on
semantischen Merkmalen wie Negation oder dem Bezug zu
                                                                        Information and knowledge management, CIKM ’05,
Entitäten umgeht.
                                                                        pages 617–624, 2005.
   Darüber hinaus ist ein weiteres spannendes Problem die
                                                                    [6] X. Huang and W. B. Croft. A unified relevance model
Identifizierung der Meinungsblöcke, also der Textpassagen,
                                                                        for opinion retrieval. In Proc. of the 18th ACM
die eine Meinung beinhalten. Ein Tonalitätsgrenzwert für
                                                                        conference on Information and knowledge
Abschnitte und Sätze ist denkbar, aber auch die Lokalisie-
                                                                        management, CIKM ’09, pages 947–956, 2009.
rung durch die Entitäten im Text, für die man sich erstens
verstärkt interessiert und die sich zweitens mit ausreichend       [7] S.-M. Kim and E. Hovy. Automatic detection of
vielen tonalitätsbildenen Wörtern umgeben.                            opinion bearing words and sentences. In Companion
   Bei der Themenverfolgung haben die Experimente zunächst             Volume to the Proceedings of the International Joint
nur den Wert von Entitätenerkennung in einem einfachen                 Conference on Natural Language Processing
Beispiel gezeigt. Hier müsste die Kombination mit klassi-              (IJCNLP), 2005.
schen Schlagwortansätzen und neueren Ansätzen, wie die            [8] M. Krstajic, F. Mansmann, A. Stoffel, M. Atkinson,
Einbeziehung von wörtlicher Rede, genutzt werden, um eine              and D. A. Keim. Processing online news streams for
bessere Themendarstellung zu erhalten und zusätzlich inter-            large-scale semantic analysis. In ICDE Workshops,
essante Fakten über ein Thema zu sammeln. Diese Fakten                 pages 215–220, 2010.
können Folgendes beinhalten: Wie stark sind welche Perso-          [9] L.-W. Ku, Y.-T. Liang, and H.-H. Chen. Opinion
nen mit welchen Themen verbunden? Oder gibt es zentrale                 extraction, summarization and tracking in news and
Zitate/Aussagen, die immer wieder aufgegriffen werden.                  blog corpora. In AAAI Symposium on Computational
   Allerdings muss zunächst die Frage beantwortet werden,              Approaches to Analysing Weblogs (AAAI-CAAW),
wie man die Entitäten sinnvoll mit Ansätzen wie Schlagwör-           pages 100–107, 2006.
tern und die Verfolgung von Zitaten verbinden kann. Dies           [10] S. Lee and H.-J. Kim. News keyword extraction for
wird Gegenstand der zukünftigen Arbeit sein, wobei auch zu             topic tracking. In Proc. of the 4th International
klären ist, wie man diese Kombination für die Verwaltung              Conference on Networked Computing and Advanced
einer Themenverfolgung sinnvoll einsetzen kann.                         Information Management - Volume 02, pages 554–559,
   Weiterhin ist dabei die Größe eines Themas zu beachten              2008.
(für die Defintion der Größe eines Themas gibt es viele Mög-    [11] J. Leskovec, L. Backstrom, and J. Kleinberg.
lichkeiten, die Anzahl der Artikel zu einem Thema ist eine              Meme-tracking and the dynamics of the news cycle. In
nahe liegende Lösung). Wie wirkt sich die Größe der Themen            Proc. of the 15th ACM SIGKDD international
auf die Verwaltung aus? Und wie verhält sich die Themen-               conference on Knowledge discovery and data mining,


                                                              11
     KDD ’09, pages 497–506, 2009.
[12] B. Li, W. Li, Q. Lu, and M. Wu. Profile-based event
     tracking. In Proc. of the 28th annual international
     ACM SIGIR conference on Research and development
     in information retrieval, SIGIR ’05, pages 631–632,
     2005.
[13] M. M. S. Missen, M. Boughanem, and G. Cabanac.
     Comparing semantic associations in sentences and
     paragraphs for opinion detection in blogs. In Proc. of
     the International Conference on Management of
     Emergent Digital EcoSystems, MEDES ’09, pages
     80:483–80:488, 2009.
[14] X. Tang, C. Yang, and J. Zhou. Stock price
     forecasting by combining news mining and time series
     analysis. In Proc. of the 2009 IEEE/WIC/ACM
     International Joint Conference on Web Intelligence
     and Intelligent Agent Technology - Volume 01,
     WI-IAT ’09, pages 279–282, 2009.
[15] J. Turmo, A. Ageno, and N. Català. Adaptive
     information extraction. ACM Comput. Surv., 38, July
     2006.
[16] P. D. Turney and M. L. Littman. Measuring praise
     and criticism: Inference of semantic orientation from
     association. ACM Trans. Inf. Syst., 21:315–346,
     October 2003.
[17] X. Wang, C. Zhai, X. Hu, and R. Sproat. Mining
     correlated bursty topic patterns from coordinated text
     streams. In Proc. of the 13th ACM SIGKDD
     international conference on Knowledge discovery and
     data mining, KDD ’07, pages 784–793, 2007.
[18] J. Zeng, C. Wu, and W. Wang. Multi-grain
     hierarchical topic extraction algorithm for text
     mining. Expert Syst. Appl., 37:3202–3208, April 2010.


                                                              12

</pre>