Extraktion und Anreicherung von Merkmalshierarchien durch Analyse unstrukturierter Produktrezensionen Robin Küppers Institut für Informatik Heinrich-Heine-Universität Universitätsstr. 1 40225 Düsseldorf, Deutschland kueppers@cs.uni-duesseldorf.de ABSTRACT tionelle Datenblätter oder Produktbeschreibungen möglich Wir präsentieren einen Algorithmus zur Extraktion bzw. wäre, da diese dazu tendieren, die Vorteile eines Produkts zu Anreicherung von hierarchischen Produktmerkmalen mittels beleuchten und die Nachteile zu verschweigen. Aus diesem einer Analyse von unstrukturierten, kundengenerierten Pro- Grund haben potentielle Kunden ein berechtigtes Interesse duktrezensionen. Unser Algorithmus benötigt eine initiale an der subjektiven Meinung anderer Käufer. Merkmalshierarchie, die in einem rekursiven Verfahren mit Zudem sind kundengenerierte Produktrezensionen auch für neuen Untermerkmalen angereichert wird, wobei die natür- Produzenten interessant, da sie wertvolle Informationen über liche Ordnung der Merkmale beibehalten wird. Die Funk- Qualität und Marktakzeptanz eines Produkts aus Kunden- tionsweise unseres Algorithmus basiert auf häufigen, gram- sicht enthalten. Diese Informationen können Produzenten matikalischen Strukturen, die in Produktrezensionen oft be- dabei helfen, die eigene Produktpalette zu optimieren und nutzt werden, um Eigenschaften eines Produkts zu beschrei- besser an Kundenbedürfnisse anzupassen. ben. Diese Strukturen beschreiben Obermerkmale im Kon- Mit wachsendem Umsatz der Web-Shops nimmt auch die text ihrer Untermerkmale und werden von unserem Algo- Anzahl der Produktrezensionen stetig zu, so dass es für Kun- rithmus ausgenutzt, um Merkmale hierarchisch zu ordnen. den (und Produzenten) immer schwieriger wird, einen um- fassenden Überblick über ein Produkt / eine Produktgrup- pe zu behalten. Deshalb ist unser Ziel eine feingranulare Kategorien Zusammenfassung von Produktrezensionen, die es erlaubt H.2.8 [Database Management]: Database Applications— Produkte dynamisch anhand von Produktmerkmalen (pro- data mining; I.2.7 [Artificial Intelligence]: Natural Lan- duct features) zu bewerten und mit ähnlichen Produkten zu guage Processing—text analysis vergleichen. Auf diese Weise wird ein Kunde in die Lage versetzt ein Produkt im Kontext seines eigenen Bedürfnis- Schlüsselwörter ses zu betrachten und zu bewerten: beispielsweise spielt das Gewicht einer Kamera keine große Rolle für einen Kunden, Text Mining, Review Analysis, Product Feature aber es wird viel Wert auf eine hohe Bildqualität gelegt. Produzenten können ihre eigene Produktpalette im Kontext 1. EINLEITUNG der Konkurrenz analysieren, um z. B. Mängel an den eige- Der Einkauf von Waren (z. B. Kameras) und Dienstleis- nen Produkten zu identifizieren. tungen (z. B. Hotels) über Web-Shops wie Amazon unter- Das Ziel unserer Forschung ist ein Gesamtsystem zur Analy- liegt seit Jahren einem stetigen Wachstum. Web-Shops ge- se und Präsentation von Produktrezensionen in zusammen- ben ihren Kunden (i. d. R.) die Möglichkeit die gekaufte Wa- gefasster Form (vgl. [3]). Dieses System besteht aus mehre- re in Form einer Rezension zu kommentieren und zu bewer- ren Komponenten, die verschiedene Aufgaben übernehmen, ten. Diese kundengenerierten Rezensionen enthalten wert- wie z.B. die Extraktion von Meinungen und die Bestimmung volle Informationen über das Produkt, die von potentiellen der Tonalität bezüglich eines Produktmerkmals (siehe dazu Kunden für ihre Kaufentscheidung herangezogen werden. Je auch Abschnitt 2). Im Rahmen dieser Arbeit beschränken positiver ein Produkt bewertet wird, desto wahrscheinlicher wir uns auf einen wichtigen Teilaspekt dieses Systems: die wird es von anderen Kunden gekauft. Extraktion und Anreicherung von hierarchisch organisierten Der Kunde kann sich so ausführlicher über die Vor- und Produktmerkmalen. Nachteile eines Produkts informieren, als dies über redak- Der Rest dieser Arbeit ist wie folgt gegliedert: zunächst geben wir in Abschnitt 2 einen Überblick über verwandte Arbeiten, die auf unsere Forschung entscheidenen Einfluss hatten. Anschließend präsentieren wir in Abschnitt 3 einen Algorithmus zur Extraktion und zur Anreicherung von hier- archisch organisierten Produktmerkmalen. Eine Bewertung des Algorithmus wird in Abschnitt 4 vorgenommen, sowie einige Ergebnisse präsentiert, die die Effektivität unseres Algorithmus demonstrieren. Die gewonnenen Erkenntnisse 25th GI-Workshop on Foundations of Databases (Grundlagen von Daten- banken), 28.05.2013 - 31.05.2013, Ilmenau, Germany. werden in Abschnitt 5 diskutiert und zusammengefasst. Des Copyright is held by the author/owner(s). Weiteren geben wir einen Ausblick auf unsere zukünftige Forschung. 2. VERWANDTE ARBEITEN Dieser Abschnitt gibt einen kurzen Überblick über ver- wandte Arbeiten, die einen Einfluss auf unsere Forschung hatten. Die Analyse von Produktrezensionen basiert auf Al- Abbildung 1: Beispielhafte Merkmalshierarchie ei- gorithmen und Methoden aus verschiedensten Disziplinen. ner Digitalkamera. Zu den Wichtigsten zählen: Feature Extraction, Opining Mi- ning und Sentiment Analysis. Ein typischer Algorithmus zur merkmalsbasierten Tonali- Wir haben hauptsächlich Arbeiten vorgestellt, die Merk- tätsanalyse von Produktrezensionen ist in 3 unterschiedliche male und Meinungen aus Produktrezensionen extrahieren, Phasen unterteilt (vgl. [3]): aber Meinungsanalysen sind auch für andere Domänen inter- essant: z. B. verwenden die Autoren von [7] einen von Exper- 1. Extraktion von Produktmerkmalen. ten annotierten Korpus mit Nachrichten, um mit Techniken des maschinellen Lernens einen Klassifikator zu trainieren, 2. Extraktion von Meinungen über Produktmerkmale. der zwischen Aussagen (Meinungen) und Nicht-Aussagen 3. Tonalitätsanalyse der Meinungen. unterscheidet. Solche Ansätze sind nicht auf die Extrakti- on von Produktmerkmalen angewiesen. Man unterscheidet zwischen impliziten und expliziten Merk- malen[3]: explizite Merkmale werden direkt im Text genannt, implizite Merkmale müssen aus dem Kontext erschlossen 3. ANREICHERUNG VON MERKMALS- werden. Wir beschränken uns im Rahmen dieser Arbeit auf die Extraktion expliziter Merkmale. HIERARCHIEN Die Autoren von [3] extrahieren häufig auftretende, explizi- Dieser Abschnitt dient der Beschreibung eines neuen Al- te Merkmale mit dem a-priori Algorithmus. Mit Hilfe dieser gorithmus zur Anreicherung einer gegebenen, unvollständi- Produktmerkmale werden Meinungen aus dem Text extra- gen Merkmalshierarchie mit zusätzlichen Merkmalen. Die- hiert, die sich auf ein Produktmerkmal beziehen. Die Tona- se Merkmale werden aus unstrukturierten kundengenerier- lität einer Meinung wird auf die Tonalität der enthaltenen ten Produktrezensionen gewonnen, wobei versucht wird die Adjektive zurückgeführt. Die extrahierten Merkmale werden natürliche Ordnung der Merkmale (Unter- bzw. Obermerk- - im Gegensatz zu unserer Arbeit - nicht hierarchisch mo- malsbeziehung) zu beachten. delliert. Die Merkmalshierarchie bildet die Basis für weitergehende Es gibt auch Ansätze, die versuchen die natürliche Hierar- Analysen, wie z.B. die gezielte Extraktion von Meinungen chie von Produktmerkmalen abzubilden. Die Autoren von [1] und Tonalitäten, die sich auf Produktmerkmale beziehen. nutzen die tabellarische Struktur von Produktbeschreibun- Diese nachfolgenden Analyseschritte sind nicht mehr Gegen- gen aus, um explizite Produktmerkmale zu extrahieren, wo- stand dieser Arbeit. Produkte (aber auch Dienstleistungen) bei die hierarchische Struktur aus der Tabellenstruktur ab- können durch eine Menge von Merkmalen (product features) geleitet wird. Einen ähnlichen Ansatz verfolgen [5] et. al.: die beschrieben werden. Produktmerkmale folgen dabei einer Autoren nutzen ebenfalls die oftmals hochgradige Struktu- natürlichen, domänenabhängigen Ordnung. Eine derartige rierung von Produktbeschreibungen aus. Die Produktmerk- natürliche Hierarchie ist exemplarisch in Abbildung 1 für male werden mit Clusteringtechniken aus einem Korpus ex- das Produkt Digitalkamera dargestellt. Offensichtlich ist trahiert, wobei die Hierarchie der Merkmale durch das Clus- Display ein Untermerkmal von Digitalkamera und besitzt tering vorgegeben wird. Die Extraktion von expliziten Merk- eigene Untermerkmale Auflösung und Farbtemperatur. malen aus strukturierten Texten ist (i. d. R.) einfacher, als Hierarchien von Produktmerkmalen können auf Basis von durch Analyse unstrukturierter Daten. strukturierten Texten erzeugt werden, wie z. B. technische Die Methode von [2] et. al. benutzt eine Taxonomie zur Ab- Datenblättern und Produktbeschreibungen (vgl. [5]). Die- bildung der Merkmalshierarchie, wobei diese von einem Ex- se Datenquellen enthalten i. d. R. die wichtigsten Produkt- perten erstellt wird. Diese Hierarchie bildet die Grundlage merkmale. Der hohe Strukturierungsgrad dieser Datenquel- für die Meinungsextraktion. Die Tonalität der Meinungen len erlaubt eine Extraktion der Merkmale mit hoher Ge- wird über ein Tonalitätswörterbuch gelöst. Für diesen An- nauigkeit (≈ 71% [5]). Allerdings tendieren Datenblätter satz wird - im Gegensatz zu unserer Methode - umfangrei- und Produktbeschreibungen dazu, ein Produkt relativ ober- ches Expertenwissen benötigt. flächlich darzustellen oder zu Gunsten des Produkts zu ver- Die Arbeit von [8] et. al. konzentriert sich auf die Extrakti- zerren. Zum Beispiel enthält die Hierarchie in Abbildung on von Meinungen und die anschließende Tonalitätsanalyse. 1 eine Reihe von Merkmalen, wie sie häufig in strukturier- Die Autoren unterscheiden zwischen subjektiven und kom- ten Datenquellen zu finden sind (helle Knoten). Allerdings parativen Sätze. Sowohl subjektive, als auch komparative sind weitere, detailliertere Merkmale denkbar, die für eine Sätze enthalten Meinungen, wobei im komparativen Fall ei- Kaufentscheidung von Interesse sein könnten. Beispielsweise ne Meinung nicht direkt gegeben wird, sondern über einen könnte das Display einer Digitalkamera zur Fleckenbildung Vergleich mit einem anderen Produkt erfolgt. Die Autoren am unteren/oberen Rand neigen. Unterer/Oberer Rand nutzen komparative Sätze, um Produktgraphen zu erzeu- wird in diesem Fall zu einem Untermerkmal von Display gen mit deren Hilfe verschiedene Produkte hinsichtlich eines und Obermerkmal von Fleckenbildung (dunkle Knoten). Merkmals geordnet werden können. Die notwendigen Tona- Eine derartige Anreicherung einer gegebenen, unvollständi- litätswerte werden einem Wörterbuch entnommen. gen Merkmalshierarchie kann durch die Verarbeitung von kundengenerierten, unstrukturierten Rezensionen erfolgen. z.B. steht DET für einen Artikel, NOUN für ein Hauptwort Wir halten einen hybriden Ansatz für durchaus sinnvoll: zu- und ADJ für ein Adjektiv. Weitere Informationen über das nächst wird eine initiale Merkmalshierarchie mit hoher Ge- Universal Tagset finden sich in [6]. nauigkeit aus strukturierten Daten gewonnen. Anschließend wird diese Hierarchie in einer zweiten Verarbeitungshase mit 3.2 Analysepipeline zusätzlichen Produktmerkmalen angereichert. Für die Verarbeitung und Untersuchung der Produktre- Für den weiteren Verlauf dieses Abschnitts beschränken wir zensionen haben wir eine für den NLP-Bereich (Natural Lan- uns auf die zweite Analysephase, d.h. wir nehmen eine in- guage Processing) typische Standardpipeline benutzt: die itiale Merkmalshierarchie als gegeben an. Für die Evaluation Volltexte der Rezensionen sind für unsere Zwecke zu grob- unseres Algorithmus (siehe Abschnitt 4) wurden die initia- granular, so dass in einer ersten Phase der Volltext in Sätze len Merkmalshierarchien manuell erzeugt. zerteilt wird. Anschließend werden die Sätze tokenisiert und Unser Algorithmus wurde auf der Basis einer Reihe von ein- die Wortarten der einzelnen Worte bestimmt. Des Weite- fachen Beobachtungen entworfen, die wir bei der Analyse ren werden Stoppworte markiert - dafür werden Standard- von unserem Rezensionskorpus gemacht haben. Stoppwortlisten benutzt. Wir beenden die Analysepipeline mit einer Stammformreduktion für jedes Wort, um die ver- 1. Ein Produktmerkmal wird häufig durch ein Hauptwort schiedenen Flexionsformen eines Wortes auf eine kanonische repräsentiert. Basis zu bringen. 2. Viele Hauptwörter können dasselbe Produktmerkmal Für die Bestimmung zusätzlicher Produktmerkmale aus Pro- beschreiben. (Synonyme) duktrezensionen, sind vor allem Hauptworte interessant, die i. d. R. keine Stoppworte sind. Allerdings ist uns aufgefal- 3. Untermerkmale werden häufig im Kontext ihrer Ober- len, dass überdurchschnittlich viele Worte fälschlicherweise merkmale genannt, wie z. B. ”das Ladegerät der Ka- als ein Hauptwort erkannt werden - viele dieser Worte sind mera”. Stoppworte. Wir nehmen an, dass die variierende, gramma- 4. Textfragmente, die von Produktmerkmalen handeln, tikalische Qualität der Produktrezensionen für die hohe An- besitzen häufig eine sehr ähnliche grammatikalische zahl falsch bestimmer Worte verantwortlich ist. Die Stopp- Struktur, wie z.B. ”die Auflösung der Anzeige” oder wortmarkierung hilft dabei, diesen Fehler etwas auszuglei- ”die Laufzeit des Akkus”, wobei Unter- und Obermerk- chen. male gemeinsam genannt werden. Die Struktur der 3.3 Der Algorithmus Fragmente lautet [DET, NOUN, DET, NOUN], wo- bei DET einen Artikel und NOUN ein Hauptwort be- In diesem Abschnitt beschreiben wir einen neuen Algorith- schreibt. mus, um eine initiale Hierarchie von Produktmerkmalen mit zusätzlichen Merkmalen anzureichern, wobei die natürliche Der Rest dieses Abschnitts gliedert sich wie folgt: zunächst Ordnung der Merkmale erhalten bleibt (siehe Algorithmus 1). werden Definitionen in Unterabschnitt 3.1 eingeführt, die Der Algorithmus erwartet 3 Parameter: eine 2-dimensionale für das weitere Verständnis notwendig sind. Anschließend Liste von Token T , die sämtliche Token für jeden Satz ent- beschreiben wir unsere Analysepipeline, die für die Vorver- hält (dabei beschreibt die erste Dimension die Sätze, die arbeitung der Produktrezensionen verwendet wurde, in Un- zweite Dimensionen die einzelnen Wörter), eine initiale Hier- terabschnitt 3.2. Darauf aufbauend wird in Unterabschnitt archie von Merkmalen f und eine Menge von POS-Mustern 3.3 unser Algorithmus im Detail besprochen. P . Da der Algorithmus rekursiv arbeitet, wird zusätzlich ein Parameter d übergeben, der die maximale Rekursionstiefe 3.1 Definitionen angibt. Der Algorithmus bricht ab, sobald die vorgegebene Für das Verständnis der nächsten Abschnitte werden eini- Tiefe erreicht wird (Zeile 1-3). ge Begriffe benötigt, die in diesem Unterabschnitt definiert werden sollen: Kandidatensuche (Zeile 4-11). Um geeignete Kandida- Token. Ein Token t ist ein Paar t = (vword , vP OS ), wobei ten für neue Produktmerkmale zu finden, werden alle Sätze vword das Wort und vpos die Wortart angibt. Im Rahmen betrachtet und jeweils entschieden, ob der Satz eine Realisie- dieser Arbeit wurde das Universal Tagset [6] benutzt. rung des aktuell betrachteten Merkmals enthält oder nicht. Wenn ein Satz eine Realisierung hat, dann wird die Funkti- Merkmal. Wir definieren ein Produktmerkmal f als ein on applyP atterns aufgerufen. Diese Funktion sucht im über- Tripel f = (S, C, p), wobei S eine Menge von Synonymen be- gebenen Satz nach gegebenen POS-Mustern und gibt – so- schreibt, die als textuelle Realisierung eines Merkmals Ver- fern mindestens ein Muster anwendbar ist – die entsprechen- wendung finden können. Die Elemente von S können Wor- den Token als Kandidat zurück, wobei die Mustersuche auf te, Produktbezeichnungen und auch Abkürzungen enthal- das unmittelbare Umfeld der gefundenen Realisierung einge- ten. Die Hierarchie wird über C und p kontrolliert, wobei schränkt wird, damit das korrekte POS-Muster zurückgelie- C eine Menge von Untermerkmalen und p das Obermerk- fert wird, da POS-Muster mehrfach innerhalb eines Satzes mal von f angibt. Das Wurzelelement einer Hierarchie be- vorkommen können. schreibt das Produkt/die Produktgruppe selbst und besitzt Im Rahmen dieser Arbeit haben wie die folgenden POS- kein Obermerkmal. Muster verwendet: • [DET, NOUN, DET, NOUN] POS-Muster. Ein POS-Muster q ist eine geordnete Sequenz von POS-Tags p = [tag1 , tag2 , . . . , tagn ], wobei n die Mus- • [DET, NOUN, VERB, DET, ADJ, NOUN] terlänge beschreibt. Ein POS-Tag beschreibt eine Wortart, Algorithm 1: refineHierarchy Synonymen. Dazu wird das Wort mit den Synonymen von f verglichen (z.B. mit der Levenshtein-Distanz) und als Syn- onym aufgenommen, falls eine ausreichende Ähnlichkeit be- Eingabe : T : Eine 2-dimensionale Liste von Token. steht. Damit soll verhindert werden, dass die falsche Schreib- Eingabe : P : Ein Array von POS-Mustern. weise eines eigentlich bekannten Merkmals dazu führt, dass Eingabe : f : Eine initiale Merkmalshierarchie. ein neuer Knoten in die Hierarchie eingefügt wird. Eingabe : d : Die maximale Rekursionstiefe. Ausgabe: Das Wurzelmerkmal der angereicherten Wenn der Token t die Heuristiken erfolgreich passiert hat, Hierarchie. dann wird t zu einem neuen Untermerkmal von f (Zeile 27). 1 if d = 0 then 2 return f Rekursiver Aufruf (Zeile 30-32). Nachdem das Merkmal 3 end f nun mit zusätzlichen Merkmalen angereichert wurde, wird 4 C ← {} ; der Algorithmus rekursiv für alle Untermerkmale von f auf- 5 for Token[] T ′ ∈ T do gerufen, um diese mit weiteren Merkmalen zu versehen. Die- 6 for Token t ∈ T ′ do ser Vorgang wiederholt sich solange, bis die maximale Re- 7 if t.word ∈Sf.S then kursionstiefe erreicht wird. 8 C ← C applyP attern(T ′ , P ) ; 9 end 10 end Nachbearbeitungsphase. Die Hierarchie, die von Algorith- 11 end mus 1 erweitert wurde, muss in einer Nachbearbeitungspha- 12 for Token[] C ′ ∈ C do se bereinigt werden, da viele Merkmale enthalten sind, die 13 for Token t ∈ C ′ do keine realen Produktmerkmale beschreiben (Rauschen). Für 14 if t.pos 6= NOUN then diese Arbeit verwenden wir die relative Häufigkeit eines Un- 15 next ; termerkmals im Kontext seines Obermerkmals, um nieder- 16 end frequente Merkmale (samt Untermerkmalen) aus der Hier- 17 if t.length ≤ 3 then archie zu entfernen. Es sind aber auch andere Methoden 18 next ; 19 end denkbar, wie z.B. eine Gewichtung nach tf-idf [4]. Dabei wird 20 if hasP arent(t.word, f ) then nicht nur die Termhäufigkeit (tf ) betrachtet, sondern auch 21 next ; die inverse Dokumenthäufigkeit (idf ) mit einbezogen. Der 22 end idf eines Terms beschreibt die Bedeutsamkeit des Terms im 23 if isSynonym(t.word, f.S) then Bezug auf die gesamte Dokumentenmenge. 24 f.S ← t.word ; 25 next ; 26 end S 4. EVALUATION 27 f.C ← f.C ({t.word}, {}, f ) ; In diesem Abschnitt diskutieren wir die Vor- und Nachteile 28 end unseres Algorithmus. Um unseren Algorithmus evaluieren zu 29 end können, haben wir einen geeigneten Korpus aus Kundenre- 30 for Feature[] f ′ ∈ f.C do zensionen zusammengestellt. Unser Korpus besteht aus 4000 31 ref ineHierarchy(T, f ′ , P, d − 1); Kundenrezensionen von amazon.de aus der Produktgruppe 32 end Digitalkamera. Wir haben unseren Algorithmus für die genannte Produkt- gruppe eine Hierarchie anreichern lassen. Die initiale Pro- dukthierarchie enthält ein Obermerkmal, welches die Pro- duktgruppe beschreibt. Zudem wurden häufig gebrauchte Validierungsphase (Zeile 12-29). Die Validierungsphase Synonyme hinzugefügt, wie z.B. Gerät. Im Weiteren prä- dient dazu die gefundenen Kandidaten zu validieren, also sentieren wir exemplarisch die angereicherte Hierarchie. Für zu entscheiden, ob ein Kandidat ein neues Merkmal enthält. dieses Experiment wurde die Rekursionstiefe auf 3 gesetzt, Man beachte, dass es sich bei diesem neuen Merkmal um niederfrequente Merkmale (relative Häufigkeit < 0, 002) wur- ein Untermerkmal des aktuellen Produktmerkmals handelt, den eliminiert. Wir haben für diese Arbeit Rezensionen in sofern es existiert. Für die Entscheidungsfindung nutzen wir Deutscher Sprache verwendet, aber der Algorithmus kann eine Reihe von einfachen Heuristiken. Ein Token t ist kein leicht auf andere Sprachen angepasst werden. Die erzeug- Produktmerkmal und wird übergangen, falls t.vword : te Hierarchie ist in Abbildung 2 dargestellt. Es zeigt sich, dass unser Algorithmus – unter Beachtung der hierarchi- 1. kein Hauptwort ist (Zeile 14-16). schen Struktur – eine Reihe wertvoller Merkmale extrahieren 2. keine ausreichende Länge besitzt (Zeile 17-19). konnte: z. B. Batterie mit seinen Untermerkmalen Halte- zeit und Verbrauch oder Akkus mit den Untermerkmalen 3. ein Synonym von f (oder eines Obermerkmals von f ) Auflad und Zukauf. Es wurden aber auch viele Merkmale ist (Zeile 20-22). aus den Rezensionen extrahiert, die entweder keine echten Produktmerkmale sind (z.B. Kompakt oder eine falsche 4. ein neues Synonym von f darstellt (Zeile 23-26). Ober-Untermerkmalsbeziehung abbilden (z. B. Haptik und Kamera). Des Weiteren sind einige Merkmale, wie z. B. Die 3. Heuristik stellt sicher, dass sich keine Kreise in der Qualität zu generisch und sollten nicht als Produktmerk- Hierarchie bilden können. Man beachte, dass Obermerkma- mal benutzt werden. le, die nicht direkt voneinander abhängen, gleiche Unter- merkmale tragen können. Die 4. Heuristik dient zum Lernen von vorher unbekannten malen anreichert. Die neuen Merkmale werden automatisch aus unstrukturierten Produktrezensionen gewonnen, wobei der Algorithmus versucht die natürliche Ordnung der Pro- duktmerkmale zu beachten. Wir konnten zeigen, dass unser Algorithmus eine initiale Merkmalshierarchie mit sinnvollen Untermerkmalen anrei- chern kann, allerdings werden auch viele falsche Merkma- le extrahiert und in fehlerhafte Merkmalsbeziehungen ge- bracht. Wir halten unseren Algorithmus dennoch für viel- versprechend. Unsere weitere Forschung wird sich auf Teila- spekte dieser Arbeit konzentrieren: • Die Merkmalsextraktion muss verbessert werden: wir haben beobachtet, dass eine Reihe extrahierter Merk- male keine echten Produktmerkmale beschreiben. Da- bei handelt es sich häufig um sehr allgemeine Wörter wie z.B. Möglichkeiten. Wir bereiten deshalb den Aufbau einer Stoppwortliste für Produktrezensionen vor. Auf diese Weise könnte diese Problematik abge- schwächt werden. • Des Weiteren enthalten die angereicherten Hierarchi- en teilweise Merkmale, die in einer falschen Beziehung zueinander stehen, z.B. induzieren die Merkmale Ak- ku und Akku-Ladegerät eine Ober-Untermerkmals- beziehung: Akku kann als Obermerkmal von Ladege- rät betrachtet werden. Außerdem konnte beobachtet werden, dass einige Merkmalsbeziehungen alternieren: z.B. existieren 2 Merkmale Taste und Druckpunkt in wechselnder Ober-Untermerkmalbeziehung. • Der Algorithmus benötigt POS-Muster, um Untermerk- male in Sätzen zu finden. Für diese Arbeit wurden die verwendeten POS-Muster manuell konstruiert, aber wir planen die Konstruktion der POS-Muster weitestge- hend zu automatisieren. Dazu ist eine umfangreiche Analyse eines großen Korpus notwendig. • Die Bereinigung der erzeugten Hierarchien ist unzurei- chend - die relative Häufigkeit eines Merkmals reicht als Gewichtung für unsere Zwecke nicht aus. Aus die- sem Grund möchten wir mit anderen Gewichtungsma- ßen experimentieren. • Die Experimente in dieser Arbeit sind sehr einfach ge- staltet. Eine sinnvolle Evaluation ist (z. Zt.) nicht mög- lich, da (unseres Wissens nach) kein geeigneter Test- korpus mit annotierten Merkmalshierarchien existiert. Die Konstruktion eines derartigen Korpus ist geplant. • Des Weiteren sind weitere Experimente geplant, um den Effekt der initialen Merkmalshierarchie auf den Algorithmus zu evaluieren. Diese Versuchsreihe um- fasst Experimente mit mehrstufigen, initialen Merk- malshierarchien, die sowohl manuell, als auch automa- tisch erzeugt wurden. Abbildung 2: Angereicherte Hierarchie für die Pro- • Abschließend planen wir die Verwendung unseres Al- duktgruppe Digitalkamera. gorithmus zur Extraktion von Produktmerkmalen in einem Gesamtsystem zur automatischen Zusammen- fassung und Analyse von Produktrezensionen einzu- setzen. 5. RESÜMEE UND AUSBLICK In dieser Arbeit wurde ein neuer Algorithmus vorgestellt, der auf Basis einer gegebenen – möglicherweise flachen – Merkmalshierarchie diese Hierarchie mit zusätzlichen Merk- 6. REFERENZEN [1] M. Acher, A. Cleve, G. Perrouin, P. Heymans, C. Vanbeneden, P. Collet, and P. Lahire. On extracting feature models from product descriptions. In Proceedings of the Sixth International Workshop on Variability Modeling of Software-Intensive Systems, VaMoS ’12, pages 45–54, New York, NY, USA, 2012. ACM. [2] F. L. Cruz, J. A. Troyano, F. Enrı́quez, F. J. Ortega, and C. G. Vallejo. A knowledge-rich approach to feature-based opinion extraction from product reviews. In Proceedings of the 2nd international workshop on Search and mining user-generated contents, SMUC ’10, pages 13–20, New York, NY, USA, 2010. ACM. [3] M. Hu and B. Liu. Mining and summarizing customer reviews. In Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD ’04, pages 168–177, New York, NY, USA, 2004. ACM. [4] K. S. Jones. A statistical interpretation of term specificity and its application in retrieval. Journal of Documentation, 28:11–21, 1972. [5] X. Meng and H. Wang. Mining user reviews: From specification to summarization. In Proceedings of the ACL-IJCNLP 2009 Conference Short Papers, ACLShort ’09, pages 177–180, Stroudsburg, PA, USA, 2009. Association for Computational Linguistics. [6] S. Petrov, D. Das, and R. McDonald. A universal part-of-speech tagset. In N. C. C. Chair), K. Choukri, T. Declerck, M. U. Doğan, B. Maegaard, J. Mariani, J. Odijk, and S. Piperidis, editors, Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC’12), Istanbul, Turkey, may 2012. European Language Resources Association (ELRA). [7] T. Scholz and S. Conrad. Extraction of statements in news for a media response analysis. In Proc. of the 18th Intl. conf. on Applications of Natural Language Processing to Information Systems 2013 (NLDB 2013), 2013. (to appear). [8] K. Zhang, R. Narayanan, and A. Choudhary. Voice of the customers: Mining online customer reviews for product feature-based ranking. In Proceedings of the 3rd conference on Online social networks, WOSN’10, pages 11–11, Berkeley, CA, USA, 2010. USENIX Association.