=Paper=
{{Paper
|id=None
|storemode=property
|title=Ein Ansatz zu Opinion Mining und Themenverfolgung für eine Medienresonanzanalyse
|pdfUrl=https://ceur-ws.org/Vol-733/paper_scholz.pdf
|volume=Vol-733
|dblpUrl=https://dblp.org/rec/conf/gvd/Scholz11
}}
==Ein Ansatz zu Opinion Mining und Themenverfolgung für eine Medienresonanzanalyse==
Ein Ansatz zu Opinion Mining und Themenverfolgung für
eine Medienresonanzanalyse
Thomas Scholz
Heinrich-Heine-Universität Düsseldorf pressrelations GmbH
Institut für Informatik Entwicklung
Universitätsstr. 1 Klosterstr. 112
D-40225 Düsseldorf, Deutschland D-40211 Düsseldorf, Deutschland
scholz@cs.uni-duesseldorf.de thomas.scholz@pressrelations.de
Zusammenfassung und Hörfunksender an. Im Bereich Soziale Netzwerke ha-
Heutzutage gibt es eine unüberschaubare Anzahl von Me- ben sich Dienstleister darauf spezialisiert, die Diskussionen
dien mit enorm vielen Artikeln und Beiträgen. Da in ih- und Kommentare aus Netzen wie Twitter, Facebook oder
nen neben vielen anderen potenziell nützlichen Informatio- bestimmte Foren automatisch zu erfassen und als Daten an-
nen wertvolle Meinungen zu Themen enthalten sind, ist eine zubieten.
automatische Beobachtung dieser Medien sehr interessant, Die Auswertung von einer großen Menge dieser Artikel
birgt aber zwei große Herausforderungen: eine automatisier- und Beiträge ist hingegen schwierig. Eine manuelle Auswer-
te Tonalitätsbestimmung (Opinion Mining) kombiniert mit tung ist nur mit erheblichen Aufwand möglich und für eine
einer Themenverfolgung. Diese zwei Aufgaben sind Teilge- automatische Auswertung gibt es erste Ansätze, aber längst
biete des Text Minings, auch Text Data Mining oder Know- noch keine allumfassende Lösung. Mit der Aufgabe diese Da-
ledge Discovery in Texten genannt. Diese Arbeit beschreibt ten zu erfassen und auszuwerten beschäftigt man sich beim
einen Ansatz für Opinion Mining und Themenverfolgung ba- Medienmonitoring bzw. bei der Medienresonanzanalyse. In
sierend auf einer Information Extraction Architektur. In der diesem Bereich arbeiten Ausschnittdienste.
Evaluation wird gezeigt, wie dieser Ansatz für Opinion Mi-
ning oder eine Themenverfolgung eingesetzt werden kann.
1.1 Medienmonitoring
Die riesigen Ströme aus Artikeln und Beiträgen enthalten
viele potenziell wertvolle Informationen zu Themen, Perso-
Kategorie nen, Firmen, Produkten, usw. Besonders die PR- und Marketing-
Data Mining and Knowledge Discovery Abteilungen von Unternehmen, Parteien und Verbänden in-
teressieren für diese Daten und deren Auswertung. Dabei in-
teressiert man sich besonders dafür, inwiefern sich das Image
Schlüsselwörter des Unternehmens oder das Image von bestimmten Pro-
Opinion Mining, Topic Tracking, Text Mining dukten, Marken und Dienstleistungen entwickelt. Aber auch
wie bestimmte Personen (Werbeträger, Vorstandsmitglieder,
1. EINLEITENDE MOTIVATION etc.) in diesen Medien wahrgenommen werden. Außerdem
von Bedeutung ist die Frage, auf welche Weise bestimmte
Das Internet, Printmedien, TV, Hörfunk und Soziale Netz-
Themen mit dem Unternehmen verknüpft sind. Beim Me-
werke sind eine Fundgrube von Meinungen zu bestimm-ten
dienmoitoring geht es darum Artikel zu erfassen und sam-
Themen in Form von Artikeln oder Beiträgen. Heutzutage
meln, die für PR- und Marketing Abteilungen interessant
ist es möglich diese in digitaler Form zu erfassen. Im Online
sind. Dazu werden von ihnen Themen oder Schlagwörter
Bereich können beispielsweise Crawler eingesetzt werden um
definiert. Dies ist auch interessant für Verbände, Vereine,
die Artikelseiten von Internetnachrichten zu erfassen. Durch
Parteien, Stiftungen, die teilweise zu klein sind um über ei-
Analyse des Seitenquelltextes und den Einsatz von Heuris-
ne eigene PR-Abteilung zu verfügen.
tiken kann der eigentliche Artikeltext gefunden werden. Ar-
tikel aus Printmedien können eingescannt und mit optischer
Zeichenerkennung (OCR) digitalisiert werden. Artikel und
1.2 Medienresonanzanalyse
Beiträge in digitaler Textform bieten auch teilweise die TV- Bei der Medienresonanz geht es darum zu bestimmten
Themen das mediale Echo zu analysieren.
Dies kann z. B. auf folgende Art und Weise geschehen:
Zunächst werden Themen definiert, die es zu untersuchen
gilt. Dies können beispielsweise Marken von Firmen sein
oder andere Begriffe wie Produktnamen, Personen oder ähn-
liches. Bei einem Medienbeobachter und einem Ausschnitt-
dienst würden die Kunden (meist PR-Abteilungen von Fir-
men oder Organisationen wie Parteien) Themen durch be-
23rd GI-Workshop on Foundations of Databases (Grundlagen von Daten-
banken), 31.05.2011 - 03.06.2011, Obergurgl, Austria. stimmte Schlagwörter festlegen. Die Schlagwörter werden
Copyright is held by the author/owner(s). dann von Crawlern in den Medien gesucht, um die entspre-
7
chenden Artikel zu erfassen. • negativ: {bad, nasty, poor, negative, unfortunate, wrong,
Dann können diese Artikel bewertet werden, z.B. ob sie inferior}
wirklich relevant zu diesem Thema sind, wie exklusiv dieser
Diesen Aufbau durch einen Bootstrapping Algorithmus
Beitrag ist und am wichtigsten welche Tonalität er besitzt.
benutzt auch das bekannteste Wörterbuch: SentiWordNET
Die Tonalität beschreibt, ob ein bestimmter Artikel positi-
[5]. Als Quelle für neue Wörter benutzt es dazu Glossetexte
ve oder negative Meinungen zu einem Thema enthält. Es
und Wortbeziehungen in WordNET, dem bekanntesten eng-
ist auch beides möglich. Oft wird dies mit einem negativen
lischen, digitalen Wörterbuch. Mit diesen Wortbeziehungen
Zahlenwert für eine negative Tonalität und einem positiven
wie Synonym, Oberbegriff oder Unterbegriff werden neue
Zahlenwert für eine positive Tonalität festgehalten. Diese
Wörter gefunden, die dann die gleiche oder eine ähnliche
Bestimmung der Tonalität wird heutzutage bei den Medien-
Tonalität bekommen.
beobachtern noch rein manuell durch Medienanalysten aus-
Andere Ansätze benutzen nur WordNET oder ähnliche,
geführt, die die Texte lesen und meinungsbeinhaltende Pas-
allgemeine Wörterbücher [6, 7] oder Textsammlungen [2, 4]
sagen identifizieren und bewerten.
oder Suchanfragen [6]. Die Vorgehensweise ähnelt dabei oft
Allerdings stoßen solche Beobachtungsdienste aufgrund
der Vergrößerung der Wortmenge durch Bootstrapping.
der Menge der Artikel und Beiträge heute an ihre Grenzen,
Viele Ansätze [2, 3, 4, 13] beschränken sich auf das Gebiet
was manuell noch zu bearbeiten ist. Die Nachrichtenanzahl,
der Sentiment Analysis, also der Tonalitätsbestimmung in
die diese Dienste bearbeiten, nimmt stetig zu, aufgrund der
Kundenrezensionen. Einige Ansätze beschränken sich dabei
stärkeren Digitalisierung der Medien wie auch durch Entste-
nur auf Adjektive [3].
hen neuer Medien im Internet wie der Bereich Social Media.
Bei Kundenrezensionen ist eine Identifikation von Mei-
nungsblöcken nicht nötig. Eine Rezension besteht nur aus
1.3 Opinion Mining und Themenverfolgung als Meinungsblöcken. Um generell Meinungen zu finden, auch
Lösung wenn dies in einem langen Zeitungsartikel nur ein kleiner
Als Lösung für eine automatische Medienresonanzanalyse Absatz über ein bestimmtes Unternehmen ist, sind zunächst
bieten sich Opinion Mining und Themenverfolgung an, um noch anderere Schritte zuvor nötig. Ein satzbasierter Ansatz
die doch bisher meist manuell geleistete Arbeit zu unter- [7] bestimmt für jeden Satz einen Tonalitätswert basierend
stützen und perspektivisch zu ersetzen.. Mit Hilfe des Opi- auf den in ihm enthalten Wörtern. Dafür werden in zwei
nion Minings soll es gelingen meinungstragende Passagen Modellen einmal alle Wörter oder nur das stärkste Tonali-
innerhalb eines Textes zu finden und dann automatisch mit tätswort herangezogen. Überschreitet der Wert eine gewisse
einem Tonalitätswert zu versehen. Durch die Realisierung Grenze, dann enthält der Satz eine Meinung. Für einen an-
einer automatischen Themenverfolgung könnte die manuell deren Ansatz [1] enthält ein Satz eine Meinung, wenn er ein
vorgenommene Schlagwortverwaltung für die Themenzuord- Adjektiv enthält.
nung abgelöst werden. In der Kombination hätte man dann Auch kann man davon ausgehen, dass bei Sentiment Ana-
eine automatische Medienresonanzanalyse. lysis Ansätzen man schon mit einem kleineren Wörterbuch
Der Rest dieser Arbeit kann wie folgt zusammengefasst mit Tonalitätswerten zurecht kommt, da man es bei den Zie-
werden: Zunächst werden die Ansätze aufgezeigt, die schon len der Rezension nur mit Produkten und ähnlichem wie
zum Bereich des Opinion Minings und der Themenverfol- Filmen, Hotels usw. zu tun hat. Bei einer Medienresonan-
gung entwickelt wurden. Dann wird die Architektur ent- zanalyse werden aber gleichzeitig Entitäten wie Personen,
worfen, wodurch eine automatische Medienresonanzanalyse Organisationen, Produkte, Events oder Aktionen im Fokus
auf Basis von Natural Language Processing und Informati- stehen. Somit ändern sich auch die tonalitätsbildenen Wör-
on Extraction realisierbar wird. Anschließend wird in ersten ter, da nicht allein durch eine Beschreibung eines Produktes
Versuchen demonstriert, wie die Vorverarbeitung für Opi- etc. eine Tonalität ausgedrückt wird.
nion Mining und Themenverfolgung eingesetzt werden kön- In einer Rezension will der Autor seine Meinung dem Leser
nen. Abschließend werden dann aufgrund dieser Ergebnisse direkt vermitteln. In Zeitungsartikeln beschreibt der Autor
Schlussfolgerungen für das weitere Vorgehen gezogen. nicht nur direkte Meinungen, oft wird eher über Fakten und
Handlungen gesprochen, die sich auf bestimmte Personen
oder Organisationen beziehen, die dann eine Tonalität ent-
2. VERWANDTE ARBEITEN stehen lassen. Darum sollte ein solcher Ansatz auch nicht
nur Adjektive, sondern mehr Wortarten miteinbeziehen (z.
2.1 Opinion Mining B. Verben). Die meisten Ansätze [1, 2, 3] sind auf die eng-
Um die Tonalität eines Textes zu bestimmen, benutzen lische Sprache ausgerichtet. Darüber hinaus gibt es einige
viele Ansätze wie [2, 3, 9, 13] Wörterbücher, in denen Wörter Ansätze für die Chinesische Sprache, die allerdings nicht die
mit einem Tonalitätswert hinterlegt sind. Diese Wörterbü- Güte der Ergebnisse der auf Englisch arbeitenden Ansätze
cher werden meist so aufgebaut: Man beginnt mit einer klei- erreichen [4, 9].
neren Menge von positiven und negativen Wörtern. Dann
wird analysiert, ob neue Wörter oft mit positiven oder nega- 2.2 Themenverfolgung
tiven Wörtern auftauchen und entsprechend bekommt dann Wissenschaftliche Methoden [10, 14, 17, 18], die eine The-
das neue Wort einen positiven oder negativen Tonalitäts- menverfolgung realisieren, stellen ein Thema oft durch Schlag-
wert. wörter dar. Diese Schlüsselwörter werden dadurch extra-
Eine typische Menge von Saattonalitätswörtern sieht bei- hiert, dass die häufigsten Wörter eines Themas genommen
spielsweise so aus [16]: werden [14], die TF-IDF Methode zur Gewichtung benutzt
wird [10] oder die Wörter ausgewählt werden, die am wahr-
• positiv: {good, nice, excellent, positive, fortunate, cor- scheinlichsten in einem Thema vorkommen und am unwahr-
rect, superior} scheinlichsten in allen anderen Themen [17, 18].
8
Weiterhin gibt es einen Ansatz [8] einzelne Personen zu
verfolgen. In diesem Ansatz geht es dann später um eine Web Crawler Einheitliche
Dokumenten-
Visualisierung der Daten: Wie oft wurde die Person in den darstellung
beobachteten Medienquellen in einem bestimmten Zeitinter-
vall (beispielsweise an einem Tag) erwähnt.
Eine andere, sehr erfolgreiche Methode ist die Verfolgung Part-Of-Speech
von wörtlicher Rede [11] für ein bestimmtes Thema. Die Ar- Tagging
Satz Segmentierung Tokenisierung
beit beabsichtigt zu erforschen, wie sich Themen zwischen
Stemming
den verschieden Medien (in diesem Fall Onlinenachrichten
und Soziale Netzwerke) bewegen. Die Autoren untersuchen Natural Language Processing
nach welcher Zeit Themen in die sozialen Netzwerke gelan-
gen und ob es Themen gibt, die zuerst in den Sozialen Netzen
entstehen und dann erst in die herkömmlichen Nachrichten
gelangen. Hier werden Zitate aus wörtlicher Rede benutzt, Entity Recognition Ortho-Matching Pronomenauflösung
da diese laut den Autoren einfach zu verfolgen sind [11].
Ein Zitat steht dann für ein Thema. Durch einen graphba- Information Extraction
sierten Ansatz werden Zitate auch wieder erkannt, wenn sie
verkürzt oder leicht abgeändert werden.
Selten werden verschiedene Merkmale kombiniert [12], um Merkmale extrahieren
Lernverfahren Vorhersage-
Themen darzustellen oder zu verfolgen. Allerdings verlangt modell
dies auch größeren Aufwand, da man zunächst mittels Infor-
mation Extraktion Methoden viele Informationen im Vorlauf
erfassen muss, damit man daraus entsprechende Merkmale
generieren kann. Hier sind auch begrenzte Rechnerkapazitä- Abbildung 1: Ablauf der Verarbeitungsschritte
ten ein nicht zu vernachlässigender Aspekt.
auch nicht exakt die selbe Zeichenkette verwendet wird. Im
3. ANFORDERUNGEN FÜR DEN ANSATZ Falle einer Person könnte z.B. erst der komplette Name und
Die verschiedenen Arbeiten [1, 2, 3, 7, 12] zu diesen Berei- später im Text nur noch der Nachname benutzt werden.
chen zeigen oft, dass es sinnvoll ist, die Texte einer Vorver- Kommt eine Pronomenauflösung hinzu, dann wird eine En-
arbeitung zu unterziehen (s. Abbildung 1). Sehr vorteilhaft tität auch dann weiterverfolgt, wenn im Text für die Entität
erscheint der Einsatz von Natural Language Processing und nur noch Pronomen stehen wie “sie” oder “ihn”, die sich aber
Information Extraction. Wenn ein Ansatz diese Vorgaben auf die entsprechende Person beziehen.
für eine Vorverarbeitung erfüllt, dann entstehen neue Mög- Darüber hinaus kann es noch sehr nützlich sein, weitere
lichkeiten, die später aufgeführt werden. Informationen wie den grammatikalischen Fall oder das Ge-
schlecht von Wörtern zu bestimmen. Auch Textpassagen mit
3.1 Natural Language Processing wörtlicher Rede oder die Extraktion von Nomenphrasen sind
Gerade Natural Language Processing (NLP) wird in vie- weitere nützliche Informationsbausteine, die in einer weite-
len anderen Ansätzen benutzt, um unter anderem Adjektive ren Verarbeitung aufgegriffen werden können.
zu identifizieren [1, 2, 3]. Beim Natural Language Processing
ist nach dem simplen Aufteilen des Textes in Sätze und Wör- 3.3 Neue Möglichkeiten
ter das sogenannte Part-Of-Speech Tagging der wichtigs- Diese Vorverarbeitung lässt sich für das Opinion Mining
te Analyseschritt. Dabei werden die Wörter aufgrund von und die Themenverfolgung folgendermaßen einsetzen:
Wahrscheinlichkeitsmodellen wie Hidden Markov Modellen Durch die Bestimmung der verschiedenen Wortarten las-
grammatikalischen Wortarten wie Nomen, Verben, Adjekti- sen sich für das Opinion Mining Wörterbücher aus Adjekti-
ven usw. zugeordnet. Außerdem sollte ein Stemming durch- ven, Verben und Adverben extrahieren. Hier stellt sich noch
geführt werden, damit alle Wörter auch in Ihrer Grundform die Frage, wie man diesen Tonalitätswert bestimmt. Viele
verfügbar sind. Mit dieser Zurückführung werden viele Me- Ansätze bilden dazu Maße, die auf das Zusammenauftre-
thoden vereinfacht, die auf der Identifikation von bestimm- ten mit positiven bzw. negativen Tonalitätswörtern beruhen.
ten Wörtern beruhen oder einen Text als Wortlisten mit Wenn man viele annotierte Meinungsblöcke besitzt, kann
Häufigkeiten darstellen. man auch Standardansätze aus dem Information Retrieval
wie TF-IDF darauf anwenden. Ebenso kann man Bootstrap-
3.2 Information Extraction ping einsetzen.
Durch Information Extraction (IE) [15] ist es darüber hin- Auch Nominalphrasen können in dem Wörterbuch auf-
aus möglich, Entitäten im Text wie Personen, Organisatio- genommen werden. Diese können auch für die Darstellung
nen und Orte zu erkennen. Diese Named Entity Recognition eines Themas von großem Nutzen sein.
(NER) ist ein gutes Beispiel, wie IE auf NLP aufbaut: Zuerst Durch die Erkennung von Personen, Organisationen usw.
werden Nomen identifiziert und z.B. durch Listen genauer kann man bei der Tonalitätsbestimmung unterscheiden, ob
bestimmt, ob es eine Person ist und eventuell zusätzlich, ob nun eine Person oder ein Produkt besprochen wird. Dadurch
es nur ein Vorname, Vor- und Nachname ist usw. Diese En- kann man die Bewertung des Vokabulars darauf anpassen.
titäten werden dann über den Text verfolgbar, wenn weitere Bei der Themenverfolgung kann man Themen durch die
Techniken wie Ortho-Matching und eine Pronomenauflösung Anwesenheit von Entitäten beschreiben. Das Vorhandensein
durchgeführt wird. Ortho-Matching beschreibt das Erken- bzw. die Abwesenheit einer Entität kann ebenso wie Schlag-
nen der Entität im selben Text an mehreren Stellen, wenn wörter dazu benutzt werden ein Thema zu beschreiben und
9
damit auch zu verfolgen. Auch könnte man genauso wie bei Wortart Klassifikationsverfahren Genauigkeit
Schlagwörtern das Auftreten mit TF-IDF gewichten, was Adjektive
nun konkret bedeuten würde: Die Häufigkeit einer Entität Support Vector Machine 80,81 %
multipliziert mit der inversen Dokumentenfrequenz in der Naive-Bayes 68,34 %
sie vorkommt. Bei dieser Gewichtung ist noch zu klären, was k-Nearst-Neighbour 53,60 %
den gesamten Dokumentenkorpus darstellt. Dies könnte ein Verben
zeitlicher Ausschnitt sein (z. B. ein Monat). Support Vector Machine 82,07 %
Zusätzlich könnte diese Gewichtung interessante Informa- Naive-Bayes 72,29 %
tionen über die Entwicklung eines Themas liefern, weil es an- k-Nearst-Neighbour 56,05 %
zeigt welche Entitäten in welchen Themen eine starke Rolle Adverbien
spielen. Support Vector Machine 75,61 %
Dies kann man zusätzlich mit bisherigen Ansätzen für Naive-Bayes 66,08 %
Themendarstellung durch Schlagwörter sowie die Verfolgung k-Nearst-Neighbour 53,79 %
von wörtlicher Rede kombinieren.
Diese Vorverarbeitungsschritte benötigen natürlich auch Abbildung 2: Tonalitätsbestimmung
Rechenzeit. Da allerdings dazu auf einem riesigen Datenfeld
(den Texten) nur gelesen werden muss, ist eine Parallelisie-
rung der Vorverarbeitung durchführbar. 100
90
4. EVALUATION
80
Um zu überprüfen, wie dieser Ansatz mit NLP und IE
für Opinion Mining und eine Themenverfolgung eingesetzt 70
werden kann, wird evaluiert, wie mit bestimmten Wortar-
60
ten automatisch eine Tonalität bestimmt werden kann und
F-Score in %
ob mit Entitäten eine thematische Zuordnung möglich ist. 50
Dafür werden zuvor klassifizierte Daten benutzt.
40
Diese Evaluation soll erste Hinweise geben, ob es grund-
sätzlich mit diesen Merkmalen möglich ist, die fundamenta- 30
len Bausteine einer Medienresonanzanalyse maschinell
20
durchzuführen: Tonalitätsbestimmung und Themenzuordnung.
Dabei geht es auch weniger um die Bestimmmung des op- 10
timalen Lernverfahrens. Der Einfachheit halber wurden dazu
0
im ersten Schritt drei typische Klassifikationsverfahren ver-
wendet. Diese bieten sich an, weil die Daten schon vor der Personen Organisationen Orte Alle
Evaluation mit entsprechenden Klassen versehen sind.
4.1 Tonalitätsbestimmung Abbildung 3: Themenzuordnung
Für diesen Test wurden 1600 Nachrichtenmeldungen mit
800 positiven und 800 negativen Meldungen analysiert. Um
eine Tonalität zu erhalten, wurden mittels NLP Adjektive, schützer warnen vor der ’Umfrucht’-Falle” oder “Rekordjahr:
Adverbien und Verben aus dem Text extrahiert und mittels Audi belohnt Mitarbeiter mit Millionen”)2 .
Stemming auf ihre Stammform zurückgeführt. Danach wur- Das beste Klassifikationsverfahren der drei hier getesteten
den invertierte Listen von diesen Dokumenten erzeugt und Verfahren ist eindeutig die Support Vector Machine. Darum
die einzelnen Terme mittels TF-IDF gewichtet. wird sie nun auch im zweiten Teil der Evaluation angewen-
Nach der Erzeugung dieser Attribute wurden die Daten det.
in einer 10-fach-über-Kreuz-Validierung durch drei Klassifi-
kationsverfahren getestet: Support Vector Machine (SVM), 4.2 Themenzuordnung
Naive-Bayes und k-Nearest-Neigbours mit k=7. Im zweiten Test wurden 204 Texte zu zwei sehr allgemei-
Bei den Resultaten zeigte sich, das diese doch recht naive nen Themen gesammelt. Die Themen waren “Finanzmarkt”
Methode (es wird beispielsweise nicht betrachtet, ob irgend- und “Parteien”.
welche Negationen anwesend sind) tatsächlich erste brauch- Dann wurden aus diesen Texten die Entitäten Personen,
bare Hinweise geben kann. Organisationen und Orte extrahiert. Diese Entitäten wur-
Es zeigte sich, dass die Vermutung, nur Adjektive allein den dann wiederum als Terme genommen, die mittels TF-
würden die Tonalität bestimmen, nicht zutrifft. Die Grup- IDF gewichtet wurden. Abschließend wurde eine SVM be-
pe der Verben schneidet schon besser ab. Hier scheint der nutzt um die Daten in einer 10-fach-über-Kreuz-Validierung
Unterschied zwischen Sentiment Analysis bezogen auf Kun- zu evaluieren.
denrezensionen und Opinion Mining bezogen auf Nachrich- Die Ergebnisse veranschaulicht Abbildung 3. Interessant
ten deutlich zu werden. Kundenrezensionen beziehen ihre ist hier, dass bei den einzelnen Merkmalen die Organisatio-
Tonalität wohl eher durch Adjektive (“die Bildqualität ist nen das beste Resultat liefern (ca. 85,29 %). Dies kann aber
super” oder “der Autofokus ist zuverlässig”)1 , während in mit der Themenauswahl (“Finanzmarkt” und “Parteien”) zu
Nachrichten dies nicht unbedingt der Fall ist (“Verbraucher- tun haben, in der wahrscheinlich generell mehr Organisatio-
1 2
Beispiele aus einer Amazon.de Kundenrezension Beispiele von Spiegel.de am 4.3.2011
10
nen eine Rolle spielen bzw. die Organisationen das trennende darstellung mit Merkmalen dadurch? In der Evaluation kam
Kriterium sind. schon die Frage auf, ob Personen bei kleineren Themen nicht
Auch Orte scheinen charakteristisch für Themen zu sein eine wichtigere Rolle zur Themenbeschreibung spielen.
(ca. 81,37 %). Kaum überraschend spielt der Ort “Frankfurt” Insgesamt zeigt sich aber, dass die Vorverarbeitung durch
im ersten Thema eine wichtigere Rolle als im zweiten Thema Natural Language Processing und Information Extraction
und für “Berlin” ist es umgekehrt. von großem Vorteil ist, da sie für beide Aufgabenstellungen,
Das Merkmal Person ist nicht so erfolgreich (nur ca. 68,14 Opinion Mining und Themenverfolgung, viele neue Möglich-
%). Bei den hier vorliegenden Themen gab es hinsichtlich keiten eröffnet und diese im Ansatz für eine Medienresonan-
der Personen auch durchaus Überschneidungen, weil mehre- zanalyse funktionieren.
re Personen in beiden Themen auftauchten. Eine interessan-
te Frage stellt sich nun dahingehend, ob dies bei kleineren 6. LITERATUR
Themen vielleicht seltener der Fall ist.
[1] L. Dey and S. K. M. Haque. Opinion mining from
Insgesamt zeigt sich das wünschenswerte Resultat: Mit
noisy text data. In Proc. of the 2nd workshop on
allen Entitäten gemeinsam wird das beste Ergebnis erzielt
Analytics for noisy unstructured text data, AND ’08,
(ca. 85,78 %).
pages 83–90, 2008.
[2] X. Ding, B. Liu, and P. S. Yu. A holistic lexicon-based
5. SCHLUSSFOLGERUNG UND WEITER- approach to opinion mining. In Proc. of the
international conference on Web search and web data
FÜHRENDE FRAGESTELLUNGEN mining, WSDM ’08, pages 231–240, 2008.
Die Ergebnisse der Evaluation lassen darauf schließen, [3] X. Ding, B. Liu, and L. Zhang. Entity discovery and
dass sich aufbauend auf dem beschriebenen Anforderungs- assignment for opinion mining applications. In Proc.
profil eine automatische Tonalitätsbestimmung und Themen- of the 15th ACM SIGKDD international conference on
verfolgung realisieren lässt. Knowledge discovery and data mining, KDD ’09, pages
Zu dem Aspekt des Opinion Minings fehlen noch viele Be- 1125–1134, 2009.
standteile, die in einem Text die Tonalität verändern kön- [4] W. Du and S. Tan. An iterative reinforcement
nen. Es hat sich gezeigt, dass die Worte allein schon im An- approach for fine-grained opinion mining. In Proc. of
satz funktionieren, aber noch großes Verbesserungspotenzial Human Language Technologies: The 2009 Annual
vorhanden ist. Conference of the North American Chapter of the
Dazu ist zu erarbeiten, ob es noch bessere Methoden der Association for Computational Linguistics, NAACL
Gewichtung gibt als der Standardansatz über TF-IDF. Au- ’09, pages 486–493, 2009.
ßerdem muss überlegt werden, wie man die Tonalitätswör-
[5] A. Esuli and F. Sebastiani. Determining the semantic
ter beispielsweise in einem Wörterbuch verwalten kann. Als
orientation of terms through gloss classification. In
nächste Fragestellung schließt sich dann an, wie man mit
Proc. of the 14th ACM international conference on
semantischen Merkmalen wie Negation oder dem Bezug zu
Information and knowledge management, CIKM ’05,
Entitäten umgeht.
pages 617–624, 2005.
Darüber hinaus ist ein weiteres spannendes Problem die
[6] X. Huang and W. B. Croft. A unified relevance model
Identifizierung der Meinungsblöcke, also der Textpassagen,
for opinion retrieval. In Proc. of the 18th ACM
die eine Meinung beinhalten. Ein Tonalitätsgrenzwert für
conference on Information and knowledge
Abschnitte und Sätze ist denkbar, aber auch die Lokalisie-
management, CIKM ’09, pages 947–956, 2009.
rung durch die Entitäten im Text, für die man sich erstens
verstärkt interessiert und die sich zweitens mit ausreichend [7] S.-M. Kim and E. Hovy. Automatic detection of
vielen tonalitätsbildenen Wörtern umgeben. opinion bearing words and sentences. In Companion
Bei der Themenverfolgung haben die Experimente zunächst Volume to the Proceedings of the International Joint
nur den Wert von Entitätenerkennung in einem einfachen Conference on Natural Language Processing
Beispiel gezeigt. Hier müsste die Kombination mit klassi- (IJCNLP), 2005.
schen Schlagwortansätzen und neueren Ansätzen, wie die [8] M. Krstajic, F. Mansmann, A. Stoffel, M. Atkinson,
Einbeziehung von wörtlicher Rede, genutzt werden, um eine and D. A. Keim. Processing online news streams for
bessere Themendarstellung zu erhalten und zusätzlich inter- large-scale semantic analysis. In ICDE Workshops,
essante Fakten über ein Thema zu sammeln. Diese Fakten pages 215–220, 2010.
können Folgendes beinhalten: Wie stark sind welche Perso- [9] L.-W. Ku, Y.-T. Liang, and H.-H. Chen. Opinion
nen mit welchen Themen verbunden? Oder gibt es zentrale extraction, summarization and tracking in news and
Zitate/Aussagen, die immer wieder aufgegriffen werden. blog corpora. In AAAI Symposium on Computational
Allerdings muss zunächst die Frage beantwortet werden, Approaches to Analysing Weblogs (AAAI-CAAW),
wie man die Entitäten sinnvoll mit Ansätzen wie Schlagwör- pages 100–107, 2006.
tern und die Verfolgung von Zitaten verbinden kann. Dies [10] S. Lee and H.-J. Kim. News keyword extraction for
wird Gegenstand der zukünftigen Arbeit sein, wobei auch zu topic tracking. In Proc. of the 4th International
klären ist, wie man diese Kombination für die Verwaltung Conference on Networked Computing and Advanced
einer Themenverfolgung sinnvoll einsetzen kann. Information Management - Volume 02, pages 554–559,
Weiterhin ist dabei die Größe eines Themas zu beachten 2008.
(für die Defintion der Größe eines Themas gibt es viele Mög- [11] J. Leskovec, L. Backstrom, and J. Kleinberg.
lichkeiten, die Anzahl der Artikel zu einem Thema ist eine Meme-tracking and the dynamics of the news cycle. In
nahe liegende Lösung). Wie wirkt sich die Größe der Themen Proc. of the 15th ACM SIGKDD international
auf die Verwaltung aus? Und wie verhält sich die Themen- conference on Knowledge discovery and data mining,
11
KDD ’09, pages 497–506, 2009.
[12] B. Li, W. Li, Q. Lu, and M. Wu. Profile-based event
tracking. In Proc. of the 28th annual international
ACM SIGIR conference on Research and development
in information retrieval, SIGIR ’05, pages 631–632,
2005.
[13] M. M. S. Missen, M. Boughanem, and G. Cabanac.
Comparing semantic associations in sentences and
paragraphs for opinion detection in blogs. In Proc. of
the International Conference on Management of
Emergent Digital EcoSystems, MEDES ’09, pages
80:483–80:488, 2009.
[14] X. Tang, C. Yang, and J. Zhou. Stock price
forecasting by combining news mining and time series
analysis. In Proc. of the 2009 IEEE/WIC/ACM
International Joint Conference on Web Intelligence
and Intelligent Agent Technology - Volume 01,
WI-IAT ’09, pages 279–282, 2009.
[15] J. Turmo, A. Ageno, and N. Català. Adaptive
information extraction. ACM Comput. Surv., 38, July
2006.
[16] P. D. Turney and M. L. Littman. Measuring praise
and criticism: Inference of semantic orientation from
association. ACM Trans. Inf. Syst., 21:315–346,
October 2003.
[17] X. Wang, C. Zhai, X. Hu, and R. Sproat. Mining
correlated bursty topic patterns from coordinated text
streams. In Proc. of the 13th ACM SIGKDD
international conference on Knowledge discovery and
data mining, KDD ’07, pages 784–793, 2007.
[18] J. Zeng, C. Wu, and W. Wang. Multi-grain
hierarchical topic extraction algorithm for text
mining. Expert Syst. Appl., 37:3202–3208, April 2010.
12