Zusammenfassung

Ein Ansatz zu Opinion Mining und Themenverfolgung für eine Medienresonanzanalyse

Thomas Scholz

scholz@cs.uni-duesseldorf.de thomas.scholz@pressrelations.de 0 1 2 0 Heinrich-Heine-Universität Düsseldorf Institut für Informatik Universitätsstr. 1 D-40225 Düsseldorf , Deutschland 1 Opinion Mining , Topic Tracking, Text Mining 2 pressrelations GmbH Entwicklung Klosterstr. 112 D-40211 Düsseldorf , Deutschland

2011

7 12

Heutzutage gibt es eine unuberschaubare Anzahl von Medien mit enorm vielen Artikeln und Beitragen. Da in ihnen neben vielen anderen potenziell nutzlichen Informationen wertvolle Meinungen zu Themen enthalten sind, ist eine automatische Beobachtung dieser Medien sehr interessant, birgt aber zwei gro e Herausforderungen: eine automatisierte Tonalitatsbestimmung (Opinion Mining) kombiniert mit einer Themenverfolgung. Diese zwei Aufgaben sind Teilgebiete des Text Minings, auch Text Data Mining oder Knowledge Discovery in Texten genannt. Diese Arbeit beschreibt einen Ansatz fur Opinion Mining und Themenverfolgung basierend auf einer Information Extraction Architektur. In der Evaluation wird gezeigt, wie dieser Ansatz fur Opinion Mining oder eine Themenverfolgung eingesetzt werden kann.

Zusammenfassung Kategorie Data Mining and Knowledge Discovery EINLEITENDE MOTIVATION

1.1

Medienmonitoring

Die riesigen Strome aus Artikeln und Beitragen enthalten viele potenziell wertvolle Informationen zu Themen, Personen, Firmen, Produkten, usw. Besonders die PR- und MarketingAbteilungen von Unternehmen, Parteien und Verbanden interessieren fur diese Daten und deren Auswertung. Dabei interessiert man sich besonders dafur, inwiefern sich das Image des Unternehmens oder das Image von bestimmten Produkten, Marken und Dienstleistungen entwickelt. Aber auch wie bestimmte Personen (Werbetrager, Vorstandsmitglieder, etc.) in diesen Medien wahrgenommen werden. Au erdem von Bedeutung ist die Frage, auf welche Weise bestimmte Themen mit dem Unternehmen verknupft sind. Beim Medienmoitoring geht es darum Artikel zu erfassen und sammeln, die fur PR- und Marketing Abteilungen interessant sind. Dazu werden von ihnen Themen oder Schlagworter de niert. Dies ist auch interessant fur Verbande, Vereine, Parteien, Stiftungen, die teilweise zu klein sind um uber eine eigene PR-Abteilung zu verfugen. 1.2

Medienresonanzanalyse

Bei der Medienresonanz geht es darum zu bestimmten Themen das mediale Echo zu analysieren.

Dies kann z. B. auf folgende Art und Weise geschehen: Zunachst werden Themen de niert, die es zu untersuchen gilt. Dies konnen beispielsweise Marken von Firmen sein oder andere Begri e wie Produktnamen, Personen oder ahnliches. Bei einem Medienbeobachter und einem Ausschnittdienst wurden die Kunden (meist PR-Abteilungen von Firmen oder Organisationen wie Parteien) Themen durch bestimmte Schlagworter festlegen. Die Schlagworter werden dann von Crawlern in den Medien gesucht, um die entsprechenden Artikel zu erfassen.

Dann konnen diese Artikel bewertet werden, z.B. ob sie wirklich relevant zu diesem Thema sind, wie exklusiv dieser Beitrag ist und am wichtigsten welche Tonalitat er besitzt. Die Tonalitat beschreibt, ob ein bestimmter Artikel positive oder negative Meinungen zu einem Thema enthalt. Es ist auch beides moglich. Oft wird dies mit einem negativen Zahlenwert fur eine negative Tonalitat und einem positiven Zahlenwert fur eine positive Tonalitat festgehalten. Diese Bestimmung der Tonalitat wird heutzutage bei den Medienbeobachtern noch rein manuell durch Medienanalysten ausgefuhrt, die die Texte lesen und meinungsbeinhaltende Passagen identi zieren und bewerten.

Allerdings sto en solche Beobachtungsdienste aufgrund der Menge der Artikel und Beitrage heute an ihre Grenzen, was manuell noch zu bearbeiten ist. Die Nachrichtenanzahl, die diese Dienste bearbeiten, nimmt stetig zu, aufgrund der starkeren Digitalisierung der Medien wie auch durch Entstehen neuer Medien im Internet wie der Bereich Social Media. 1.3

Opinion Mining und Themenverfolgung als Lösung

Als Losung fur eine automatische Medienresonanzanalyse bieten sich Opinion Mining und Themenverfolgung an, um die doch bisher meist manuell geleistete Arbeit zu unterstutzen und perspektivisch zu ersetzen.. Mit Hilfe des Opinion Minings soll es gelingen meinungstragende Passagen innerhalb eines Textes zu nden und dann automatisch mit einem Tonalitatswert zu versehen. Durch die Realisierung einer automatischen Themenverfolgung konnte die manuell vorgenommene Schlagwortverwaltung fur die Themenzuordnung abgelost werden. In der Kombination hatte man dann eine automatische Medienresonanzanalyse.

Der Rest dieser Arbeit kann wie folgt zusammengefasst werden: Zunachst werden die Ansatze aufgezeigt, die schon zum Bereich des Opinion Minings und der Themenverfolgung entwickelt wurden. Dann wird die Architektur entworfen, wodurch eine automatische Medienresonanzanalyse auf Basis von Natural Language Processing und Information Extraction realisierbar wird. Anschlie end wird in ersten Versuchen demonstriert, wie die Vorverarbeitung fur Opinion Mining und Themenverfolgung eingesetzt werden konnen. Abschlie end werden dann aufgrund dieser Ergebnisse Schlussfolgerungen fur das weitere Vorgehen gezogen.

VERWANDTE ARBEITEN Opinion Mining

Um die Tonalitat eines Textes zu bestimmen, benutzen viele Ansatze wie [ 2, 3, 9, 13 ] Worterbucher, in denen Worter mit einem Tonalitatswert hinterlegt sind. Diese Worterbucher werden meist so aufgebaut: Man beginnt mit einer kleineren Menge von positiven und negativen Wortern. Dann wird analysiert, ob neue Worter oft mit positiven oder negativen Wortern auftauchen und entsprechend bekommt dann das neue Wort einen positiven oder negativen Tonalitatswert.

Eine typische Menge von Saattonalitatswortern sieht beispielsweise so aus [ 16 ]: positiv: fgood, nice, excellent, positive, fortunate, correct, superiorg negativ: fbad, nasty, poor, negative, unfortunate, wrong, inferiorg

Diesen Aufbau durch einen Bootstrapping Algorithmus benutzt auch das bekannteste Worterbuch: SentiWordNET [ 5 ]. Als Quelle fur neue Worter benutzt es dazu Glossetexte und Wortbeziehungen in WordNET, dem bekanntesten englischen, digitalen Worterbuch. Mit diesen Wortbeziehungen wie Synonym, Oberbegri oder Unterbegri werden neue Worter gefunden, die dann die gleiche oder eine ahnliche Tonalitat bekommen.

Andere Ansatze benutzen nur WordNET oder ahnliche, allgemeine Worterbucher [ 6, 7 ] oder Textsammlungen [ 2, 4 ] oder Suchanfragen [ 6 ]. Die Vorgehensweise ahnelt dabei oft der Vergro erung der Wortmenge durch Bootstrapping.

Viele Ansatze [ 2, 3, 4, 13 ] beschranken sich auf das Gebiet der Sentiment Analysis, also der Tonalitatsbestimmung in Kundenrezensionen. Einige Ansatze beschranken sich dabei nur auf Adjektive [ 3 ].

Bei Kundenrezensionen ist eine Identi kation von Meinungsblocken nicht notig. Eine Rezension besteht nur aus Meinungsblocken. Um generell Meinungen zu nden, auch wenn dies in einem langen Zeitungsartikel nur ein kleiner Absatz uber ein bestimmtes Unternehmen ist, sind zunachst noch anderere Schritte zuvor notig. Ein satzbasierter Ansatz [ 7 ] bestimmt fur jeden Satz einen Tonalitatswert basierend auf den in ihm enthalten Wortern. Dafur werden in zwei Modellen einmal alle Worter oder nur das starkste Tonalitatswort herangezogen. U berschreitet der Wert eine gewisse Grenze, dann enthalt der Satz eine Meinung. Fur einen anderen Ansatz [ 1 ] enthalt ein Satz eine Meinung, wenn er ein Adjektiv enthalt.

Auch kann man davon ausgehen, dass bei Sentiment Analysis Ansatzen man schon mit einem kleineren Worterbuch mit Tonalitatswerten zurecht kommt, da man es bei den Zielen der Rezension nur mit Produkten und ahnlichem wie Filmen, Hotels usw. zu tun hat. Bei einer Medienresonanzanalyse werden aber gleichzeitig Entitaten wie Personen, Organisationen, Produkte, Events oder Aktionen im Fokus stehen. Somit andern sich auch die tonalitatsbildenen Worter, da nicht allein durch eine Beschreibung eines Produktes etc. eine Tonalitat ausgedruckt wird.

In einer Rezension will der Autor seine Meinung dem Leser direkt vermitteln. In Zeitungsartikeln beschreibt der Autor nicht nur direkte Meinungen, oft wird eher uber Fakten und Handlungen gesprochen, die sich auf bestimmte Personen oder Organisationen beziehen, die dann eine Tonalitat entstehen lassen. Darum sollte ein solcher Ansatz auch nicht nur Adjektive, sondern mehr Wortarten miteinbeziehen (z. B. Verben). Die meisten Ansatze [ 1, 2, 3 ] sind auf die englische Sprache ausgerichtet. Daruber hinaus gibt es einige Ansatze fur die Chinesische Sprache, die allerdings nicht die Gute der Ergebnisse der auf Englisch arbeitenden Ansatze erreichen [ 4, 9 ]. 2.2

Themenverfolgung

Wissenschaftliche Methoden [ 10, 14, 17, 18 ], die eine Themenverfolgung realisieren, stellen ein Thema oft durch Schlagworter dar. Diese Schlusselworter werden dadurch extrahiert, dass die hau gsten Worter eines Themas genommen werden [ 14 ], die TF-IDF Methode zur Gewichtung benutzt wird [ 10 ] oder die Worter ausgewahlt werden, die am wahrscheinlichsten in einem Thema vorkommen und am unwahrscheinlichsten in allen anderen Themen [ 17, 18 ].

Weiterhin gibt es einen Ansatz [ 8 ] einzelne Personen zu verfolgen. In diesem Ansatz geht es dann spater um eine Visualisierung der Daten: Wie oft wurde die Person in den beobachteten Medienquellen in einem bestimmten Zeitintervall (beispielsweise an einem Tag) erwahnt.

Eine andere, sehr erfolgreiche Methode ist die Verfolgung von wortlicher Rede [ 11 ] fur ein bestimmtes Thema. Die Arbeit beabsichtigt zu erforschen, wie sich Themen zwischen den verschieden Medien (in diesem Fall Onlinenachrichten und Soziale Netzwerke) bewegen. Die Autoren untersuchen nach welcher Zeit Themen in die sozialen Netzwerke gelangen und ob es Themen gibt, die zuerst in den Sozialen Netzen entstehen und dann erst in die herkommlichen Nachrichten gelangen. Hier werden Zitate aus wortlicher Rede benutzt, da diese laut den Autoren einfach zu verfolgen sind [ 11 ]. Ein Zitat steht dann fur ein Thema. Durch einen graphbasierten Ansatz werden Zitate auch wieder erkannt, wenn sie verkurzt oder leicht abgeandert werden.

Selten werden verschiedene Merkmale kombiniert [ 12 ], um Themen darzustellen oder zu verfolgen. Allerdings verlangt dies auch gro eren Aufwand, da man zunachst mittels Information Extraktion Methoden viele Informationen im Vorlauf erfassen muss, damit man daraus entsprechende Merkmale generieren kann. Hier sind auch begrenzte Rechnerkapazitaten ein nicht zu vernachlassigender Aspekt.

ANFORDERUNGEN FÜR DEN ANSATZ

Die verschiedenen Arbeiten [ 1, 2, 3, 7, 12 ] zu diesen Bereichen zeigen oft, dass es sinnvoll ist, die Texte einer Vorverarbeitung zu unterziehen (s. Abbildung 1). Sehr vorteilhaft erscheint der Einsatz von Natural Language Processing und Information Extraction. Wenn ein Ansatz diese Vorgaben fur eine Vorverarbeitung erfullt, dann entstehen neue Moglichkeiten, die spater aufgefuhrt werden. 3.1

Natural Language Processing

Gerade Natural Language Processing (NLP) wird in vielen anderen Ansatzen benutzt, um unter anderem Adjektive zu identi zieren [ 1, 2, 3 ]. Beim Natural Language Processing ist nach dem simplen Aufteilen des Textes in Satze und Worter das sogenannte Part-Of-Speech Tagging der wichtigste Analyseschritt. Dabei werden die Worter aufgrund von Wahrscheinlichkeitsmodellen wie Hidden Markov Modellen grammatikalischen Wortarten wie Nomen, Verben, Adjektiven usw. zugeordnet. Au erdem sollte ein Stemming durchgefuhrt werden, damit alle Worter auch in Ihrer Grundform verfugbar sind. Mit dieser Zuruckfuhrung werden viele Methoden vereinfacht, die auf der Identi kation von bestimmten Wortern beruhen oder einen Text als Wortlisten mit Hau gkeiten darstellen. 3.2

Information Extraction

Durch Information Extraction (IE) [ 15 ] ist es daruber hinaus moglich, Entitaten im Text wie Personen, Organisationen und Orte zu erkennen. Diese Named Entity Recognition (NER) ist ein gutes Beispiel, wie IE auf NLP aufbaut: Zuerst werden Nomen identi ziert und z.B. durch Listen genauer bestimmt, ob es eine Person ist und eventuell zusatzlich, ob es nur ein Vorname, Vor- und Nachname ist usw. Diese Entitaten werden dann uber den Text verfolgbar, wenn weitere Techniken wie Ortho-Matching und eine Pronomenau osung durchgefuhrt wird. Ortho-Matching beschreibt das Erkennen der Entitat im selben Text an mehreren Stellen, wenn

Web

Crawler Satz Segmentierung

Tokenisierung

Einheitliche Dokumentendarstellung Part-Of-Speech

Tagging

Stemming

Natural Language Processing Entity Recognition

Ortho-Matching

Pronomenauflösung Information Extraction Merkmale extrahieren

Lernverfahren

Vorhersagemodell

Abbildung 1: Ablauf der Verarbeitungsschritte auch nicht exakt die selbe Zeichenkette verwendet wird. Im Falle einer Person konnte z.B. erst der komplette Name und spater im Text nur noch der Nachname benutzt werden. Kommt eine Pronomenau osung hinzu, dann wird eine Entitat auch dann weiterverfolgt, wenn im Text fur die Entitat nur noch Pronomen stehen wie \sie" oder \ihn", die sich aber auf die entsprechende Person beziehen.

Daruber hinaus kann es noch sehr nutzlich sein, weitere Informationen wie den grammatikalischen Fall oder das Geschlecht von Wortern zu bestimmen. Auch Textpassagen mit wortlicher Rede oder die Extraktion von Nomenphrasen sind weitere nutzliche Informationsbausteine, die in einer weiteren Verarbeitung aufgegri en werden konnen. 3.3

Neue Möglichkeiten

Diese Vorverarbeitung lasst sich fur das Opinion Mining und die Themenverfolgung folgenderma en einsetzen:

Durch die Bestimmung der verschiedenen Wortarten lassen sich fur das Opinion Mining Worterbucher aus Adjektiven, Verben und Adverben extrahieren. Hier stellt sich noch die Frage, wie man diesen Tonalitatswert bestimmt. Viele Ansatze bilden dazu Ma e, die auf das Zusammenauftreten mit positiven bzw. negativen Tonalitatswortern beruhen. Wenn man viele annotierte Meinungsblocke besitzt, kann man auch Standardansatze aus dem Information Retrieval wie TF-IDF darauf anwenden. Ebenso kann man Bootstrapping einsetzen.

Auch Nominalphrasen konnen in dem Worterbuch aufgenommen werden. Diese konnen auch fur die Darstellung eines Themas von gro em Nutzen sein.

Durch die Erkennung von Personen, Organisationen usw. kann man bei der Tonalitatsbestimmung unterscheiden, ob nun eine Person oder ein Produkt besprochen wird. Dadurch kann man die Bewertung des Vokabulars darauf anpassen.

Bei der Themenverfolgung kann man Themen durch die Anwesenheit von Entitaten beschreiben. Das Vorhandensein bzw. die Abwesenheit einer Entitat kann ebenso wie Schlagworter dazu benutzt werden ein Thema zu beschreiben und damit auch zu verfolgen. Auch konnte man genauso wie bei Schlagwortern das Auftreten mit TF-IDF gewichten, was nun konkret bedeuten wurde: Die Hau gkeit einer Entitat multipliziert mit der inversen Dokumentenfrequenz in der sie vorkommt. Bei dieser Gewichtung ist noch zu klaren, was den gesamten Dokumentenkorpus darstellt. Dies konnte ein zeitlicher Ausschnitt sein (z. B. ein Monat).

Zusatzlich konnte diese Gewichtung interessante Informationen uber die Entwicklung eines Themas liefern, weil es anzeigt welche Entitaten in welchen Themen eine starke Rolle spielen.

Dies kann man zusatzlich mit bisherigen Ansatzen fur Themendarstellung durch Schlagworter sowie die Verfolgung von wortlicher Rede kombinieren.

Diese Vorverarbeitungsschritte benotigen naturlich auch Rechenzeit. Da allerdings dazu auf einem riesigen Datenfeld (den Texten) nur gelesen werden muss, ist eine Parallelisierung der Vorverarbeitung durchfuhrbar.

EVALUATION

Um zu uberprufen, wie dieser Ansatz mit NLP und IE fur Opinion Mining und eine Themenverfolgung eingesetzt werden kann, wird evaluiert, wie mit bestimmten Wortarten automatisch eine Tonalitat bestimmt werden kann und ob mit Entitaten eine thematische Zuordnung moglich ist. Dafur werden zuvor klassi zierte Daten benutzt.

Diese Evaluation soll erste Hinweise geben, ob es grundsatzlich mit diesen Merkmalen moglich ist, die fundamentalen Bausteine einer Medienresonanzanalyse maschinell durchzufuhren: Tonalitatsbestimmung und Themenzuordnung.

Dabei geht es auch weniger um die Bestimmmung des optimalen Lernverfahrens. Der Einfachheit halber wurden dazu im ersten Schritt drei typische Klassi kationsverfahren verwendet. Diese bieten sich an, weil die Daten schon vor der Evaluation mit entsprechenden Klassen versehen sind. 4.1

Tonalitätsbestimmung

Fur diesen Test wurden 1600 Nachrichtenmeldungen mit 800 positiven und 800 negativen Meldungen analysiert. Um eine Tonalitat zu erhalten, wurden mittels NLP Adjektive, Adverbien und Verben aus dem Text extrahiert und mittels Stemming auf ihre Stammform zuruckgefuhrt. Danach wurden invertierte Listen von diesen Dokumenten erzeugt und die einzelnen Terme mittels TF-IDF gewichtet.

Nach der Erzeugung dieser Attribute wurden die Daten in einer 10-fach-uber-Kreuz-Validierung durch drei Klassi kationsverfahren getestet: Support Vector Machine (SVM), Naive-Bayes und k-Nearest-Neigbours mit k=7.

Bei den Resultaten zeigte sich, das diese doch recht naive Methode (es wird beispielsweise nicht betrachtet, ob irgendwelche Negationen anwesend sind) tatsachlich erste brauchbare Hinweise geben kann.

Es zeigte sich, dass die Vermutung, nur Adjektive allein wurden die Tonalitat bestimmen, nicht zutri t. Die Gruppe der Verben schneidet schon besser ab. Hier scheint der Unterschied zwischen Sentiment Analysis bezogen auf Kundenrezensionen und Opinion Mining bezogen auf Nachrichten deutlich zu werden. Kundenrezensionen beziehen ihre Tonalitat wohl eher durch Adjektive (\die Bildqualitat ist super" oder \der Autofokus ist zuverlassig")1, wahrend in Nachrichten dies nicht unbedingt der Fall ist (\Verbraucher

Verben Adverbien

100 90 80 70 60 in%50 roe 40 c -S 30 F 20 10 0 1Beispiele aus einer Amazon.de Kundenrezension 2Beispiele von Spiegel.de am 4.3.2011

Klassi kationsverfahren Genauigkeit Support Vector Machine Naive-Bayes k-Nearst-Neighbour Support Vector Machine Naive-Bayes k-Nearst-Neighbour Support Vector Machine

Naive-Bayes k-Nearst-Neighbour nen eine Rolle spielen bzw. die Organisationen das trennende Kriterium sind.

Auch Orte scheinen charakteristisch fur Themen zu sein (ca. 81,37 %). Kaum uberraschend spielt der Ort \Frankfurt" im ersten Thema eine wichtigere Rolle als im zweiten Thema und fur \Berlin" ist es umgekehrt.

Das Merkmal Person ist nicht so erfolgreich (nur ca. 68,14 %). Bei den hier vorliegenden Themen gab es hinsichtlich der Personen auch durchaus U berschneidungen, weil mehrere Personen in beiden Themen auftauchten. Eine interessante Frage stellt sich nun dahingehend, ob dies bei kleineren Themen vielleicht seltener der Fall ist.

Insgesamt zeigt sich das wunschenswerte Resultat: Mit allen Entitaten gemeinsam wird das beste Ergebnis erzielt (ca. 85,78 %).

5. SCHLUSSFOLGERUNG UND WEITER FÜHRENDE FRAGESTELLUNGEN

Die Ergebnisse der Evaluation lassen darauf schlie en, dass sich aufbauend auf dem beschriebenen Anforderungspro l eine automatische Tonalitatsbestimmung und Themenverfolgung realisieren lasst.

Zu dem Aspekt des Opinion Minings fehlen noch viele Bestandteile, die in einem Text die Tonalitat verandern konnen. Es hat sich gezeigt, dass die Worte allein schon im Ansatz funktionieren, aber noch gro es Verbesserungspotenzial vorhanden ist.

Dazu ist zu erarbeiten, ob es noch bessere Methoden der Gewichtung gibt als der Standardansatz uber TF-IDF. Auerdem muss uberlegt werden, wie man die Tonalitatsworter beispielsweise in einem Worterbuch verwalten kann. Als nachste Fragestellung schlie t sich dann an, wie man mit semantischen Merkmalen wie Negation oder dem Bezug zu Entitaten umgeht.

Daruber hinaus ist ein weiteres spannendes Problem die Identi zierung der Meinungsblocke, also der Textpassagen, die eine Meinung beinhalten. Ein Tonalitatsgrenzwert fur Abschnitte und Satze ist denkbar, aber auch die Lokalisierung durch die Entitaten im Text, fur die man sich erstens verstarkt interessiert und die sich zweitens mit ausreichend vielen tonalitatsbildenen Wortern umgeben.

Bei der Themenverfolgung haben die Experimente zunachst nur den Wert von Entitatenerkennung in einem einfachen Beispiel gezeigt. Hier musste die Kombination mit klassischen Schlagwortansatzen und neueren Ansatzen, wie die Einbeziehung von wortlicher Rede, genutzt werden, um eine bessere Themendarstellung zu erhalten und zusatzlich interessante Fakten uber ein Thema zu sammeln. Diese Fakten konnen Folgendes beinhalten: Wie stark sind welche Personen mit welchen Themen verbunden? Oder gibt es zentrale Zitate/Aussagen, die immer wieder aufgegri en werden.

Allerdings muss zunachst die Frage beantwortet werden, wie man die Entitaten sinnvoll mit Ansatzen wie Schlagwortern und die Verfolgung von Zitaten verbinden kann. Dies wird Gegenstand der zukunftigen Arbeit sein, wobei auch zu klaren ist, wie man diese Kombination fur die Verwaltung einer Themenverfolgung sinnvoll einsetzen kann.

Weiterhin ist dabei die Gro e eines Themas zu beachten (fur die De ntion der Gro e eines Themas gibt es viele Moglichkeiten, die Anzahl der Artikel zu einem Thema ist eine nahe liegende Losung). Wie wirkt sich die Gro e der Themen auf die Verwaltung aus? Und wie verhalt sich die Themendarstellung mit Merkmalen dadurch? In der Evaluation kam schon die Frage auf, ob Personen bei kleineren Themen nicht eine wichtigere Rolle zur Themenbeschreibung spielen.

Insgesamt zeigt sich aber, dass die Vorverarbeitung durch Natural Language Processing und Information Extraction von gro em Vorteil ist, da sie fur beide Aufgabenstellungen, Opinion Mining und Themenverfolgung, viele neue Moglichkeiten ero net und diese im Ansatz fur eine Medienresonanzanalyse funktionieren. 6.

LITERATUR

[1]

Dey and S. K. M. Haque . Opinion mining from noisy text data . In Proc. of the 2nd workshop on Analytics for noisy unstructured text data, AND '08 , pages 83 { 90 , 2008 .

[2]

Ding ,

Liu , and

P. S.

Yu . A holistic lexicon-based approach to opinion mining . In Proc. of the international conference on Web search and web data mining , WSDM '08 , pages 231 { 240 , 2008 .

[3]

Ding ,

Liu , and L. Zhang. Entity discovery and assignment for opinion mining applications . In Proc. of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining , KDD '09 , pages 1125 { 1134 , 2009 .

[4]

Du and

Tan . An iterative reinforcement approach for ne-grained opinion mining . In Proc. of Human Language Technologies : The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics , NAACL '09 , pages 486 { 493 , 2009 .

[5]

Esuli and

Sebastiani . Determining the semantic orientation of terms through gloss classi cation . In Proc. of the 14th ACM international conference on Information and knowledge management , CIKM '05 , pages 617 { 624 , 2005 .

[6]

Huang and

W. B.

Croft . A uni ed relevance model for opinion retrieval . In Proc. of the 18th ACM conference on Information and knowledge management , CIKM '09 , pages 947 { 956 , 2009 .

[7]

S.-M.

Kim and

Hovy . Automatic detection of opinion bearing words and sentences . In Companion Volume to the Proceedings of the International Joint Conference on Natural Language Processing (IJCNLP) , 2005 .

[8]

Krstajic ,

Mansmann , A . Sto el, M. Atkinson, and

D. A.

Keim . Processing online news streams for large-scale semantic analysis . In ICDE Workshops , pages 215 { 220 , 2010 .

[9]

L.-W.

Ku , Y.-T. Liang, and H. -H. Chen . Opinion extraction, summarization and tracking in news and blog corpora . In AAAI Symposium on Computational Approaches to Analysing Weblogs (AAAI-CAAW) , pages 100 { 107 , 2006 .

[10]

Lee and H.-J. Kim . News keyword extraction for topic tracking . In Proc. of the 4th International Conference on Networked Computing and Advanced Information Management - Volume 02 , pages 554 { 559 , 2008 .

[11]

Leskovec ,

Backstrom , and

Kleinberg . Meme-tracking and the dynamics of the news cycle . In Proc. of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining , KDD '09 , pages 497 { 506 , 2009 .

[12]

Li ,

Lu , and

Wu . Pro le-based event tracking . In Proc. of the 28th annual international ACM SIGIR conference on Research and development in information retrieval , SIGIR '05 , pages 631 { 632 , 2005 .

[13] M. M. S. Missen , M.

Boughanem , and G.

Cabanac . Comparing semantic associations in sentences and paragraphs for opinion detection in blogs . In Proc. of the International Conference on Management of Emergent Digital EcoSystems , MEDES ' 09 , pages 80 : 483 { 80 : 488 , 2009 .

[14]

Tang ,

Yang , and

Zhou . Stock price forecasting by combining news mining and time series analysis . In Proc. of the 2009 IEEE/WIC/ACM International Joint Conference on Web Intelligence and Intelligent Agent Technology - Volume 01, WI-IAT '09 , pages 279 { 282 , 2009 .

[15]

Turmo ,

Ageno , and

Catala . Adaptive information extraction . ACM Comput. Surv. , 38 , July 2006 .

[16]

P. D.

Turney and

M. L.

Littman . Measuring praise and criticism: Inference of semantic orientation from association . ACM Trans. Inf . Syst., 21 : 315 { 346 , October 2003 .

[17]

Wang ,

Zhai ,

Hu , and

Sproat . Mining correlated bursty topic patterns from coordinated text streams . In Proc. of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining , KDD '07 , pages 784 { 793 , 2007 .

[18]

Zeng ,

Wu , and

Wang . Multi-grain hierarchical topic extraction algorithm for text mining . Expert Syst. Appl. , 37 : 3202 { 3208 , April 2010 .