=Paper= {{Paper |id=None |storemode=property |title=Ein Ansatz zu Opinion Mining und Themenverfolgung für eine Medienresonanzanalyse |pdfUrl=https://ceur-ws.org/Vol-733/paper_scholz.pdf |volume=Vol-733 |dblpUrl=https://dblp.org/rec/conf/gvd/Scholz11 }} ==Ein Ansatz zu Opinion Mining und Themenverfolgung für eine Medienresonanzanalyse== https://ceur-ws.org/Vol-733/paper_scholz.pdf
     Ein Ansatz zu Opinion Mining und Themenverfolgung für
                  eine Medienresonanzanalyse

                                                          Thomas Scholz

                   Heinrich-Heine-Universität Düsseldorf                         pressrelations GmbH
                           Institut für Informatik                                   Entwicklung
                             Universitätsstr. 1                                     Klosterstr. 112
                    D-40225 Düsseldorf, Deutschland                         D-40211 Düsseldorf, Deutschland
                    scholz@cs.uni-duesseldorf.de                          thomas.scholz@pressrelations.de

Zusammenfassung                                                            und Hörfunksender an. Im Bereich Soziale Netzwerke ha-
Heutzutage gibt es eine unüberschaubare Anzahl von Me-                    ben sich Dienstleister darauf spezialisiert, die Diskussionen
dien mit enorm vielen Artikeln und Beiträgen. Da in ih-                   und Kommentare aus Netzen wie Twitter, Facebook oder
nen neben vielen anderen potenziell nützlichen Informatio-                bestimmte Foren automatisch zu erfassen und als Daten an-
nen wertvolle Meinungen zu Themen enthalten sind, ist eine                 zubieten.
automatische Beobachtung dieser Medien sehr interessant,                     Die Auswertung von einer großen Menge dieser Artikel
birgt aber zwei große Herausforderungen: eine automatisier-                und Beiträge ist hingegen schwierig. Eine manuelle Auswer-
te Tonalitätsbestimmung (Opinion Mining) kombiniert mit                   tung ist nur mit erheblichen Aufwand möglich und für eine
einer Themenverfolgung. Diese zwei Aufgaben sind Teilge-                   automatische Auswertung gibt es erste Ansätze, aber längst
biete des Text Minings, auch Text Data Mining oder Know-                   noch keine allumfassende Lösung. Mit der Aufgabe diese Da-
ledge Discovery in Texten genannt. Diese Arbeit beschreibt                 ten zu erfassen und auszuwerten beschäftigt man sich beim
einen Ansatz für Opinion Mining und Themenverfolgung ba-                  Medienmonitoring bzw. bei der Medienresonanzanalyse. In
sierend auf einer Information Extraction Architektur. In der               diesem Bereich arbeiten Ausschnittdienste.
Evaluation wird gezeigt, wie dieser Ansatz für Opinion Mi-
ning oder eine Themenverfolgung eingesetzt werden kann.
                                                                           1.1   Medienmonitoring
                                                                              Die riesigen Ströme aus Artikeln und Beiträgen enthalten
                                                                           viele potenziell wertvolle Informationen zu Themen, Perso-
Kategorie                                                                  nen, Firmen, Produkten, usw. Besonders die PR- und Marketing-
Data Mining and Knowledge Discovery                                        Abteilungen von Unternehmen, Parteien und Verbänden in-
                                                                           teressieren für diese Daten und deren Auswertung. Dabei in-
                                                                           teressiert man sich besonders dafür, inwiefern sich das Image
Schlüsselwörter                                                            des Unternehmens oder das Image von bestimmten Pro-
Opinion Mining, Topic Tracking, Text Mining                                dukten, Marken und Dienstleistungen entwickelt. Aber auch
                                                                           wie bestimmte Personen (Werbeträger, Vorstandsmitglieder,
1.    EINLEITENDE MOTIVATION                                               etc.) in diesen Medien wahrgenommen werden. Außerdem
                                                                           von Bedeutung ist die Frage, auf welche Weise bestimmte
   Das Internet, Printmedien, TV, Hörfunk und Soziale Netz-
                                                                           Themen mit dem Unternehmen verknüpft sind. Beim Me-
werke sind eine Fundgrube von Meinungen zu bestimm-ten
                                                                           dienmoitoring geht es darum Artikel zu erfassen und sam-
Themen in Form von Artikeln oder Beiträgen. Heutzutage
                                                                           meln, die für PR- und Marketing Abteilungen interessant
ist es möglich diese in digitaler Form zu erfassen. Im Online
                                                                           sind. Dazu werden von ihnen Themen oder Schlagwörter
Bereich können beispielsweise Crawler eingesetzt werden um
                                                                           definiert. Dies ist auch interessant für Verbände, Vereine,
die Artikelseiten von Internetnachrichten zu erfassen. Durch
                                                                           Parteien, Stiftungen, die teilweise zu klein sind um über ei-
Analyse des Seitenquelltextes und den Einsatz von Heuris-
                                                                           ne eigene PR-Abteilung zu verfügen.
tiken kann der eigentliche Artikeltext gefunden werden. Ar-
tikel aus Printmedien können eingescannt und mit optischer
Zeichenerkennung (OCR) digitalisiert werden. Artikel und
                                                                           1.2   Medienresonanzanalyse
Beiträge in digitaler Textform bieten auch teilweise die TV-                 Bei der Medienresonanz geht es darum zu bestimmten
                                                                           Themen das mediale Echo zu analysieren.
                                                                              Dies kann z. B. auf folgende Art und Weise geschehen:
                                                                           Zunächst werden Themen definiert, die es zu untersuchen
                                                                           gilt. Dies können beispielsweise Marken von Firmen sein
                                                                           oder andere Begriffe wie Produktnamen, Personen oder ähn-
                                                                           liches. Bei einem Medienbeobachter und einem Ausschnitt-
                                                                           dienst würden die Kunden (meist PR-Abteilungen von Fir-
                                                                           men oder Organisationen wie Parteien) Themen durch be-
23rd GI-Workshop on Foundations of Databases (Grundlagen von Daten-
banken), 31.05.2011 - 03.06.2011, Obergurgl, Austria.                      stimmte Schlagwörter festlegen. Die Schlagwörter werden
Copyright is held by the author/owner(s).                                  dann von Crawlern in den Medien gesucht, um die entspre-




                                                                      7
chenden Artikel zu erfassen.                                               • negativ: {bad, nasty, poor, negative, unfortunate, wrong,
   Dann können diese Artikel bewertet werden, z.B. ob sie                   inferior}
wirklich relevant zu diesem Thema sind, wie exklusiv dieser
                                                                           Diesen Aufbau durch einen Bootstrapping Algorithmus
Beitrag ist und am wichtigsten welche Tonalität er besitzt.
                                                                        benutzt auch das bekannteste Wörterbuch: SentiWordNET
Die Tonalität beschreibt, ob ein bestimmter Artikel positi-
                                                                        [5]. Als Quelle für neue Wörter benutzt es dazu Glossetexte
ve oder negative Meinungen zu einem Thema enthält. Es
                                                                        und Wortbeziehungen in WordNET, dem bekanntesten eng-
ist auch beides möglich. Oft wird dies mit einem negativen
                                                                        lischen, digitalen Wörterbuch. Mit diesen Wortbeziehungen
Zahlenwert für eine negative Tonalität und einem positiven
                                                                        wie Synonym, Oberbegriff oder Unterbegriff werden neue
Zahlenwert für eine positive Tonalität festgehalten. Diese
                                                                        Wörter gefunden, die dann die gleiche oder eine ähnliche
Bestimmung der Tonalität wird heutzutage bei den Medien-
                                                                        Tonalität bekommen.
beobachtern noch rein manuell durch Medienanalysten aus-
                                                                           Andere Ansätze benutzen nur WordNET oder ähnliche,
geführt, die die Texte lesen und meinungsbeinhaltende Pas-
                                                                        allgemeine Wörterbücher [6, 7] oder Textsammlungen [2, 4]
sagen identifizieren und bewerten.
                                                                        oder Suchanfragen [6]. Die Vorgehensweise ähnelt dabei oft
   Allerdings stoßen solche Beobachtungsdienste aufgrund
                                                                        der Vergrößerung der Wortmenge durch Bootstrapping.
der Menge der Artikel und Beiträge heute an ihre Grenzen,
                                                                           Viele Ansätze [2, 3, 4, 13] beschränken sich auf das Gebiet
was manuell noch zu bearbeiten ist. Die Nachrichtenanzahl,
                                                                        der Sentiment Analysis, also der Tonalitätsbestimmung in
die diese Dienste bearbeiten, nimmt stetig zu, aufgrund der
                                                                        Kundenrezensionen. Einige Ansätze beschränken sich dabei
stärkeren Digitalisierung der Medien wie auch durch Entste-
                                                                        nur auf Adjektive [3].
hen neuer Medien im Internet wie der Bereich Social Media.
                                                                           Bei Kundenrezensionen ist eine Identifikation von Mei-
                                                                        nungsblöcken nicht nötig. Eine Rezension besteht nur aus
1.3     Opinion Mining und Themenverfolgung als                         Meinungsblöcken. Um generell Meinungen zu finden, auch
        Lösung                                                          wenn dies in einem langen Zeitungsartikel nur ein kleiner
   Als Lösung für eine automatische Medienresonanzanalyse             Absatz über ein bestimmtes Unternehmen ist, sind zunächst
bieten sich Opinion Mining und Themenverfolgung an, um                  noch anderere Schritte zuvor nötig. Ein satzbasierter Ansatz
die doch bisher meist manuell geleistete Arbeit zu unter-               [7] bestimmt für jeden Satz einen Tonalitätswert basierend
stützen und perspektivisch zu ersetzen.. Mit Hilfe des Opi-            auf den in ihm enthalten Wörtern. Dafür werden in zwei
nion Minings soll es gelingen meinungstragende Passagen                 Modellen einmal alle Wörter oder nur das stärkste Tonali-
innerhalb eines Textes zu finden und dann automatisch mit               tätswort herangezogen. Überschreitet der Wert eine gewisse
einem Tonalitätswert zu versehen. Durch die Realisierung               Grenze, dann enthält der Satz eine Meinung. Für einen an-
einer automatischen Themenverfolgung könnte die manuell                deren Ansatz [1] enthält ein Satz eine Meinung, wenn er ein
vorgenommene Schlagwortverwaltung für die Themenzuord-                 Adjektiv enthält.
nung abgelöst werden. In der Kombination hätte man dann                  Auch kann man davon ausgehen, dass bei Sentiment Ana-
eine automatische Medienresonanzanalyse.                                lysis Ansätzen man schon mit einem kleineren Wörterbuch
   Der Rest dieser Arbeit kann wie folgt zusammengefasst                mit Tonalitätswerten zurecht kommt, da man es bei den Zie-
werden: Zunächst werden die Ansätze aufgezeigt, die schon             len der Rezension nur mit Produkten und ähnlichem wie
zum Bereich des Opinion Minings und der Themenverfol-                   Filmen, Hotels usw. zu tun hat. Bei einer Medienresonan-
gung entwickelt wurden. Dann wird die Architektur ent-                  zanalyse werden aber gleichzeitig Entitäten wie Personen,
worfen, wodurch eine automatische Medienresonanzanalyse                 Organisationen, Produkte, Events oder Aktionen im Fokus
auf Basis von Natural Language Processing und Informati-                stehen. Somit ändern sich auch die tonalitätsbildenen Wör-
on Extraction realisierbar wird. Anschließend wird in ersten            ter, da nicht allein durch eine Beschreibung eines Produktes
Versuchen demonstriert, wie die Vorverarbeitung für Opi-               etc. eine Tonalität ausgedrückt wird.
nion Mining und Themenverfolgung eingesetzt werden kön-                   In einer Rezension will der Autor seine Meinung dem Leser
nen. Abschließend werden dann aufgrund dieser Ergebnisse                direkt vermitteln. In Zeitungsartikeln beschreibt der Autor
Schlussfolgerungen für das weitere Vorgehen gezogen.                   nicht nur direkte Meinungen, oft wird eher über Fakten und
                                                                        Handlungen gesprochen, die sich auf bestimmte Personen
                                                                        oder Organisationen beziehen, die dann eine Tonalität ent-
2.     VERWANDTE ARBEITEN                                               stehen lassen. Darum sollte ein solcher Ansatz auch nicht
                                                                        nur Adjektive, sondern mehr Wortarten miteinbeziehen (z.
2.1     Opinion Mining                                                  B. Verben). Die meisten Ansätze [1, 2, 3] sind auf die eng-
   Um die Tonalität eines Textes zu bestimmen, benutzen                lische Sprache ausgerichtet. Darüber hinaus gibt es einige
viele Ansätze wie [2, 3, 9, 13] Wörterbücher, in denen Wörter       Ansätze für die Chinesische Sprache, die allerdings nicht die
mit einem Tonalitätswert hinterlegt sind. Diese Wörterbü-            Güte der Ergebnisse der auf Englisch arbeitenden Ansätze
cher werden meist so aufgebaut: Man beginnt mit einer klei-             erreichen [4, 9].
neren Menge von positiven und negativen Wörtern. Dann
wird analysiert, ob neue Wörter oft mit positiven oder nega-           2.2    Themenverfolgung
tiven Wörtern auftauchen und entsprechend bekommt dann                   Wissenschaftliche Methoden [10, 14, 17, 18], die eine The-
das neue Wort einen positiven oder negativen Tonalitäts-               menverfolgung realisieren, stellen ein Thema oft durch Schlag-
wert.                                                                   wörter dar. Diese Schlüsselwörter werden dadurch extra-
   Eine typische Menge von Saattonalitätswörtern sieht bei-           hiert, dass die häufigsten Wörter eines Themas genommen
spielsweise so aus [16]:                                                werden [14], die TF-IDF Methode zur Gewichtung benutzt
                                                                        wird [10] oder die Wörter ausgewählt werden, die am wahr-
     • positiv: {good, nice, excellent, positive, fortunate, cor-       scheinlichsten in einem Thema vorkommen und am unwahr-
       rect, superior}                                                  scheinlichsten in allen anderen Themen [17, 18].




                                                                    8
   Weiterhin gibt es einen Ansatz [8] einzelne Personen zu
verfolgen. In diesem Ansatz geht es dann später um eine                          Web                  Crawler                        Einheitliche
                                                                                                                                      Dokumenten-
Visualisierung der Daten: Wie oft wurde die Person in den                                                                             darstellung
beobachteten Medienquellen in einem bestimmten Zeitinter-
vall (beispielsweise an einem Tag) erwähnt.
   Eine andere, sehr erfolgreiche Methode ist die Verfolgung                                                               Part-Of-Speech
von wörtlicher Rede [11] für ein bestimmtes Thema. Die Ar-                                                                   Tagging
                                                                                Satz Segmentierung    Tokenisierung
beit beabsichtigt zu erforschen, wie sich Themen zwischen
                                                                                                                             Stemming
den verschieden Medien (in diesem Fall Onlinenachrichten
und Soziale Netzwerke) bewegen. Die Autoren untersuchen                                                    Natural Language Processing
nach welcher Zeit Themen in die sozialen Netzwerke gelan-
gen und ob es Themen gibt, die zuerst in den Sozialen Netzen
entstehen und dann erst in die herkömmlichen Nachrichten
gelangen. Hier werden Zitate aus wörtlicher Rede benutzt,                     Entity Recognition    Ortho-Matching       Pronomenauflösung

da diese laut den Autoren einfach zu verfolgen sind [11].
Ein Zitat steht dann für ein Thema. Durch einen graphba-                                                             Information Extraction
sierten Ansatz werden Zitate auch wieder erkannt, wenn sie
verkürzt oder leicht abgeändert werden.
   Selten werden verschiedene Merkmale kombiniert [12], um                  Merkmale extrahieren
                                                                                                          Lernverfahren             Vorhersage-
Themen darzustellen oder zu verfolgen. Allerdings verlangt                                                                            modell
dies auch größeren Aufwand, da man zunächst mittels Infor-
mation Extraktion Methoden viele Informationen im Vorlauf
erfassen muss, damit man daraus entsprechende Merkmale
generieren kann. Hier sind auch begrenzte Rechnerkapazitä-             Abbildung 1: Ablauf der Verarbeitungsschritte
ten ein nicht zu vernachlässigender Aspekt.
                                                                      auch nicht exakt die selbe Zeichenkette verwendet wird. Im
3.    ANFORDERUNGEN FÜR DEN ANSATZ                                    Falle einer Person könnte z.B. erst der komplette Name und
   Die verschiedenen Arbeiten [1, 2, 3, 7, 12] zu diesen Berei-       später im Text nur noch der Nachname benutzt werden.
chen zeigen oft, dass es sinnvoll ist, die Texte einer Vorver-        Kommt eine Pronomenauflösung hinzu, dann wird eine En-
arbeitung zu unterziehen (s. Abbildung 1). Sehr vorteilhaft           tität auch dann weiterverfolgt, wenn im Text für die Entität
erscheint der Einsatz von Natural Language Processing und             nur noch Pronomen stehen wie “sie” oder “ihn”, die sich aber
Information Extraction. Wenn ein Ansatz diese Vorgaben                auf die entsprechende Person beziehen.
für eine Vorverarbeitung erfüllt, dann entstehen neue Mög-            Darüber hinaus kann es noch sehr nützlich sein, weitere
lichkeiten, die später aufgeführt werden.                           Informationen wie den grammatikalischen Fall oder das Ge-
                                                                      schlecht von Wörtern zu bestimmen. Auch Textpassagen mit
3.1    Natural Language Processing                                    wörtlicher Rede oder die Extraktion von Nomenphrasen sind
   Gerade Natural Language Processing (NLP) wird in vie-              weitere nützliche Informationsbausteine, die in einer weite-
len anderen Ansätzen benutzt, um unter anderem Adjektive             ren Verarbeitung aufgegriffen werden können.
zu identifizieren [1, 2, 3]. Beim Natural Language Processing
ist nach dem simplen Aufteilen des Textes in Sätze und Wör-         3.3      Neue Möglichkeiten
ter das sogenannte Part-Of-Speech Tagging der wichtigs-                 Diese Vorverarbeitung lässt sich für das Opinion Mining
te Analyseschritt. Dabei werden die Wörter aufgrund von              und die Themenverfolgung folgendermaßen einsetzen:
Wahrscheinlichkeitsmodellen wie Hidden Markov Modellen                  Durch die Bestimmung der verschiedenen Wortarten las-
grammatikalischen Wortarten wie Nomen, Verben, Adjekti-               sen sich für das Opinion Mining Wörterbücher aus Adjekti-
ven usw. zugeordnet. Außerdem sollte ein Stemming durch-              ven, Verben und Adverben extrahieren. Hier stellt sich noch
geführt werden, damit alle Wörter auch in Ihrer Grundform           die Frage, wie man diesen Tonalitätswert bestimmt. Viele
verfügbar sind. Mit dieser Zurückführung werden viele Me-          Ansätze bilden dazu Maße, die auf das Zusammenauftre-
thoden vereinfacht, die auf der Identifikation von bestimm-           ten mit positiven bzw. negativen Tonalitätswörtern beruhen.
ten Wörtern beruhen oder einen Text als Wortlisten mit               Wenn man viele annotierte Meinungsblöcke besitzt, kann
Häufigkeiten darstellen.                                             man auch Standardansätze aus dem Information Retrieval
                                                                      wie TF-IDF darauf anwenden. Ebenso kann man Bootstrap-
3.2    Information Extraction                                         ping einsetzen.
   Durch Information Extraction (IE) [15] ist es darüber hin-          Auch Nominalphrasen können in dem Wörterbuch auf-
aus möglich, Entitäten im Text wie Personen, Organisatio-           genommen werden. Diese können auch für die Darstellung
nen und Orte zu erkennen. Diese Named Entity Recognition              eines Themas von großem Nutzen sein.
(NER) ist ein gutes Beispiel, wie IE auf NLP aufbaut: Zuerst            Durch die Erkennung von Personen, Organisationen usw.
werden Nomen identifiziert und z.B. durch Listen genauer              kann man bei der Tonalitätsbestimmung unterscheiden, ob
bestimmt, ob es eine Person ist und eventuell zusätzlich, ob         nun eine Person oder ein Produkt besprochen wird. Dadurch
es nur ein Vorname, Vor- und Nachname ist usw. Diese En-              kann man die Bewertung des Vokabulars darauf anpassen.
titäten werden dann über den Text verfolgbar, wenn weitere            Bei der Themenverfolgung kann man Themen durch die
Techniken wie Ortho-Matching und eine Pronomenauflösung              Anwesenheit von Entitäten beschreiben. Das Vorhandensein
durchgeführt wird. Ortho-Matching beschreibt das Erken-              bzw. die Abwesenheit einer Entität kann ebenso wie Schlag-
nen der Entität im selben Text an mehreren Stellen, wenn             wörter dazu benutzt werden ein Thema zu beschreiben und




                                                                  9
damit auch zu verfolgen. Auch könnte man genauso wie bei                 Wortart                  Klassifikationsverfahren    Genauigkeit
Schlagwörtern das Auftreten mit TF-IDF gewichten, was                    Adjektive
nun konkret bedeuten würde: Die Häufigkeit einer Entität                                        Support Vector Machine          80,81 %
multipliziert mit der inversen Dokumentenfrequenz in der                                           Naive-Bayes                     68,34 %
sie vorkommt. Bei dieser Gewichtung ist noch zu klären, was                                       k-Nearst-Neighbour              53,60 %
den gesamten Dokumentenkorpus darstellt. Dies könnte ein                 Verben
zeitlicher Ausschnitt sein (z. B. ein Monat).                                                      Support Vector Machine          82,07 %
   Zusätzlich könnte diese Gewichtung interessante Informa-                                      Naive-Bayes                     72,29 %
tionen über die Entwicklung eines Themas liefern, weil es an-                                     k-Nearst-Neighbour              56,05 %
zeigt welche Entitäten in welchen Themen eine starke Rolle               Adverbien
spielen.                                                                                           Support Vector Machine          75,61 %
   Dies kann man zusätzlich mit bisherigen Ansätzen für                                         Naive-Bayes                     66,08 %
Themendarstellung durch Schlagwörter sowie die Verfolgung                                         k-Nearst-Neighbour              53,79 %
von wörtlicher Rede kombinieren.
   Diese Vorverarbeitungsschritte benötigen natürlich auch                                Abbildung 2: Tonalitätsbestimmung
Rechenzeit. Da allerdings dazu auf einem riesigen Datenfeld
(den Texten) nur gelesen werden muss, ist eine Parallelisie-
rung der Vorverarbeitung durchführbar.                                                    100
                                                                                           90
4.     EVALUATION
                                                                                           80
   Um zu überprüfen, wie dieser Ansatz mit NLP und IE
für Opinion Mining und eine Themenverfolgung eingesetzt                                   70
werden kann, wird evaluiert, wie mit bestimmten Wortar-
                                                                                           60
ten automatisch eine Tonalität bestimmt werden kann und


                                                                            F-Score in %
ob mit Entitäten eine thematische Zuordnung möglich ist.                                 50
Dafür werden zuvor klassifizierte Daten benutzt.
                                                                                           40
   Diese Evaluation soll erste Hinweise geben, ob es grund-
sätzlich mit diesen Merkmalen möglich ist, die fundamenta-                               30
len Bausteine einer Medienresonanzanalyse maschinell
                                                                                           20
durchzuführen: Tonalitätsbestimmung und Themenzuordnung.
   Dabei geht es auch weniger um die Bestimmmung des op-                                   10
timalen Lernverfahrens. Der Einfachheit halber wurden dazu
                                                                                            0
im ersten Schritt drei typische Klassifikationsverfahren ver-
wendet. Diese bieten sich an, weil die Daten schon vor der                                        Personen Organisationen   Orte      Alle
Evaluation mit entsprechenden Klassen versehen sind.

4.1      Tonalitätsbestimmung                                                                    Abbildung 3: Themenzuordnung
  Für diesen Test wurden 1600 Nachrichtenmeldungen mit
800 positiven und 800 negativen Meldungen analysiert. Um
eine Tonalität zu erhalten, wurden mittels NLP Adjektive,            schützer warnen vor der ’Umfrucht’-Falle” oder “Rekordjahr:
Adverbien und Verben aus dem Text extrahiert und mittels              Audi belohnt Mitarbeiter mit Millionen”)2 .
Stemming auf ihre Stammform zurückgeführt. Danach wur-                Das beste Klassifikationsverfahren der drei hier getesteten
den invertierte Listen von diesen Dokumenten erzeugt und              Verfahren ist eindeutig die Support Vector Machine. Darum
die einzelnen Terme mittels TF-IDF gewichtet.                         wird sie nun auch im zweiten Teil der Evaluation angewen-
  Nach der Erzeugung dieser Attribute wurden die Daten                det.
in einer 10-fach-über-Kreuz-Validierung durch drei Klassifi-
kationsverfahren getestet: Support Vector Machine (SVM),              4.2                  Themenzuordnung
Naive-Bayes und k-Nearest-Neigbours mit k=7.                             Im zweiten Test wurden 204 Texte zu zwei sehr allgemei-
  Bei den Resultaten zeigte sich, das diese doch recht naive          nen Themen gesammelt. Die Themen waren “Finanzmarkt”
Methode (es wird beispielsweise nicht betrachtet, ob irgend-          und “Parteien”.
welche Negationen anwesend sind) tatsächlich erste brauch-              Dann wurden aus diesen Texten die Entitäten Personen,
bare Hinweise geben kann.                                             Organisationen und Orte extrahiert. Diese Entitäten wur-
  Es zeigte sich, dass die Vermutung, nur Adjektive allein            den dann wiederum als Terme genommen, die mittels TF-
würden die Tonalität bestimmen, nicht zutrifft. Die Grup-           IDF gewichtet wurden. Abschließend wurde eine SVM be-
pe der Verben schneidet schon besser ab. Hier scheint der             nutzt um die Daten in einer 10-fach-über-Kreuz-Validierung
Unterschied zwischen Sentiment Analysis bezogen auf Kun-              zu evaluieren.
denrezensionen und Opinion Mining bezogen auf Nachrich-                  Die Ergebnisse veranschaulicht Abbildung 3. Interessant
ten deutlich zu werden. Kundenrezensionen beziehen ihre               ist hier, dass bei den einzelnen Merkmalen die Organisatio-
Tonalität wohl eher durch Adjektive (“die Bildqualität ist          nen das beste Resultat liefern (ca. 85,29 %). Dies kann aber
super” oder “der Autofokus ist zuverlässig”)1 , während in          mit der Themenauswahl (“Finanzmarkt” und “Parteien”) zu
Nachrichten dies nicht unbedingt der Fall ist (“Verbraucher-          tun haben, in der wahrscheinlich generell mehr Organisatio-
1                                                                     2
    Beispiele aus einer Amazon.de Kundenrezension                         Beispiele von Spiegel.de am 4.3.2011




                                                                 10
nen eine Rolle spielen bzw. die Organisationen das trennende       darstellung mit Merkmalen dadurch? In der Evaluation kam
Kriterium sind.                                                    schon die Frage auf, ob Personen bei kleineren Themen nicht
   Auch Orte scheinen charakteristisch für Themen zu sein         eine wichtigere Rolle zur Themenbeschreibung spielen.
(ca. 81,37 %). Kaum überraschend spielt der Ort “Frankfurt”         Insgesamt zeigt sich aber, dass die Vorverarbeitung durch
im ersten Thema eine wichtigere Rolle als im zweiten Thema         Natural Language Processing und Information Extraction
und für “Berlin” ist es umgekehrt.                                von großem Vorteil ist, da sie für beide Aufgabenstellungen,
   Das Merkmal Person ist nicht so erfolgreich (nur ca. 68,14      Opinion Mining und Themenverfolgung, viele neue Möglich-
%). Bei den hier vorliegenden Themen gab es hinsichtlich           keiten eröffnet und diese im Ansatz für eine Medienresonan-
der Personen auch durchaus Überschneidungen, weil mehre-          zanalyse funktionieren.
re Personen in beiden Themen auftauchten. Eine interessan-
te Frage stellt sich nun dahingehend, ob dies bei kleineren        6.   LITERATUR
Themen vielleicht seltener der Fall ist.
                                                                    [1] L. Dey and S. K. M. Haque. Opinion mining from
   Insgesamt zeigt sich das wünschenswerte Resultat: Mit
                                                                        noisy text data. In Proc. of the 2nd workshop on
allen Entitäten gemeinsam wird das beste Ergebnis erzielt
                                                                        Analytics for noisy unstructured text data, AND ’08,
(ca. 85,78 %).
                                                                        pages 83–90, 2008.
                                                                    [2] X. Ding, B. Liu, and P. S. Yu. A holistic lexicon-based
5.   SCHLUSSFOLGERUNG UND WEITER-                                       approach to opinion mining. In Proc. of the
                                                                        international conference on Web search and web data
     FÜHRENDE FRAGESTELLUNGEN                                           mining, WSDM ’08, pages 231–240, 2008.
   Die Ergebnisse der Evaluation lassen darauf schließen,           [3] X. Ding, B. Liu, and L. Zhang. Entity discovery and
dass sich aufbauend auf dem beschriebenen Anforderungs-                 assignment for opinion mining applications. In Proc.
profil eine automatische Tonalitätsbestimmung und Themen-              of the 15th ACM SIGKDD international conference on
verfolgung realisieren lässt.                                          Knowledge discovery and data mining, KDD ’09, pages
   Zu dem Aspekt des Opinion Minings fehlen noch viele Be-              1125–1134, 2009.
standteile, die in einem Text die Tonalität verändern kön-       [4] W. Du and S. Tan. An iterative reinforcement
nen. Es hat sich gezeigt, dass die Worte allein schon im An-            approach for fine-grained opinion mining. In Proc. of
satz funktionieren, aber noch großes Verbesserungspotenzial             Human Language Technologies: The 2009 Annual
vorhanden ist.                                                          Conference of the North American Chapter of the
   Dazu ist zu erarbeiten, ob es noch bessere Methoden der              Association for Computational Linguistics, NAACL
Gewichtung gibt als der Standardansatz über TF-IDF. Au-                ’09, pages 486–493, 2009.
ßerdem muss überlegt werden, wie man die Tonalitätswör-
                                                                    [5] A. Esuli and F. Sebastiani. Determining the semantic
ter beispielsweise in einem Wörterbuch verwalten kann. Als
                                                                        orientation of terms through gloss classification. In
nächste Fragestellung schließt sich dann an, wie man mit
                                                                        Proc. of the 14th ACM international conference on
semantischen Merkmalen wie Negation oder dem Bezug zu
                                                                        Information and knowledge management, CIKM ’05,
Entitäten umgeht.
                                                                        pages 617–624, 2005.
   Darüber hinaus ist ein weiteres spannendes Problem die
                                                                    [6] X. Huang and W. B. Croft. A unified relevance model
Identifizierung der Meinungsblöcke, also der Textpassagen,
                                                                        for opinion retrieval. In Proc. of the 18th ACM
die eine Meinung beinhalten. Ein Tonalitätsgrenzwert für
                                                                        conference on Information and knowledge
Abschnitte und Sätze ist denkbar, aber auch die Lokalisie-
                                                                        management, CIKM ’09, pages 947–956, 2009.
rung durch die Entitäten im Text, für die man sich erstens
verstärkt interessiert und die sich zweitens mit ausreichend       [7] S.-M. Kim and E. Hovy. Automatic detection of
vielen tonalitätsbildenen Wörtern umgeben.                            opinion bearing words and sentences. In Companion
   Bei der Themenverfolgung haben die Experimente zunächst             Volume to the Proceedings of the International Joint
nur den Wert von Entitätenerkennung in einem einfachen                 Conference on Natural Language Processing
Beispiel gezeigt. Hier müsste die Kombination mit klassi-              (IJCNLP), 2005.
schen Schlagwortansätzen und neueren Ansätzen, wie die            [8] M. Krstajic, F. Mansmann, A. Stoffel, M. Atkinson,
Einbeziehung von wörtlicher Rede, genutzt werden, um eine              and D. A. Keim. Processing online news streams for
bessere Themendarstellung zu erhalten und zusätzlich inter-            large-scale semantic analysis. In ICDE Workshops,
essante Fakten über ein Thema zu sammeln. Diese Fakten                 pages 215–220, 2010.
können Folgendes beinhalten: Wie stark sind welche Perso-          [9] L.-W. Ku, Y.-T. Liang, and H.-H. Chen. Opinion
nen mit welchen Themen verbunden? Oder gibt es zentrale                 extraction, summarization and tracking in news and
Zitate/Aussagen, die immer wieder aufgegriffen werden.                  blog corpora. In AAAI Symposium on Computational
   Allerdings muss zunächst die Frage beantwortet werden,              Approaches to Analysing Weblogs (AAAI-CAAW),
wie man die Entitäten sinnvoll mit Ansätzen wie Schlagwör-           pages 100–107, 2006.
tern und die Verfolgung von Zitaten verbinden kann. Dies           [10] S. Lee and H.-J. Kim. News keyword extraction for
wird Gegenstand der zukünftigen Arbeit sein, wobei auch zu             topic tracking. In Proc. of the 4th International
klären ist, wie man diese Kombination für die Verwaltung              Conference on Networked Computing and Advanced
einer Themenverfolgung sinnvoll einsetzen kann.                         Information Management - Volume 02, pages 554–559,
   Weiterhin ist dabei die Größe eines Themas zu beachten              2008.
(für die Defintion der Größe eines Themas gibt es viele Mög-    [11] J. Leskovec, L. Backstrom, and J. Kleinberg.
lichkeiten, die Anzahl der Artikel zu einem Thema ist eine              Meme-tracking and the dynamics of the news cycle. In
nahe liegende Lösung). Wie wirkt sich die Größe der Themen            Proc. of the 15th ACM SIGKDD international
auf die Verwaltung aus? Und wie verhält sich die Themen-               conference on Knowledge discovery and data mining,




                                                              11
     KDD ’09, pages 497–506, 2009.
[12] B. Li, W. Li, Q. Lu, and M. Wu. Profile-based event
     tracking. In Proc. of the 28th annual international
     ACM SIGIR conference on Research and development
     in information retrieval, SIGIR ’05, pages 631–632,
     2005.
[13] M. M. S. Missen, M. Boughanem, and G. Cabanac.
     Comparing semantic associations in sentences and
     paragraphs for opinion detection in blogs. In Proc. of
     the International Conference on Management of
     Emergent Digital EcoSystems, MEDES ’09, pages
     80:483–80:488, 2009.
[14] X. Tang, C. Yang, and J. Zhou. Stock price
     forecasting by combining news mining and time series
     analysis. In Proc. of the 2009 IEEE/WIC/ACM
     International Joint Conference on Web Intelligence
     and Intelligent Agent Technology - Volume 01,
     WI-IAT ’09, pages 279–282, 2009.
[15] J. Turmo, A. Ageno, and N. Català. Adaptive
     information extraction. ACM Comput. Surv., 38, July
     2006.
[16] P. D. Turney and M. L. Littman. Measuring praise
     and criticism: Inference of semantic orientation from
     association. ACM Trans. Inf. Syst., 21:315–346,
     October 2003.
[17] X. Wang, C. Zhai, X. Hu, and R. Sproat. Mining
     correlated bursty topic patterns from coordinated text
     streams. In Proc. of the 13th ACM SIGKDD
     international conference on Knowledge discovery and
     data mining, KDD ’07, pages 784–793, 2007.
[18] J. Zeng, C. Wu, and W. Wang. Multi-grain
     hierarchical topic extraction algorithm for text
     mining. Expert Syst. Appl., 37:3202–3208, April 2010.




                                                              12