=Paper= {{Paper |id=None |storemode=property |title=Extraktion und Anreicherung von Merkmalshierarchien durch Analyse unstrukturierter Produktrezensionen |pdfUrl=https://ceur-ws.org/Vol-1020/paper_07.pdf |volume=Vol-1020 |dblpUrl=https://dblp.org/rec/conf/gvd/Kuppers13 }} ==Extraktion und Anreicherung von Merkmalshierarchien durch Analyse unstrukturierter Produktrezensionen== https://ceur-ws.org/Vol-1020/paper_07.pdf

Extraktion und Anreicherung von Merkmalshierarchien
durch Analyse unstrukturierter Produktrezensionen

Robin Küppers
Institut für Informatik
Heinrich-Heine-Universität
Universitätsstr. 1
40225 Düsseldorf, Deutschland
kueppers@cs.uni-duesseldorf.de

ABSTRACT tionelle Datenblätter oder Produktbeschreibungen möglich
Wir präsentieren einen Algorithmus zur Extraktion bzw. wäre, da diese dazu tendieren, die Vorteile eines Produkts zu
Anreicherung von hierarchischen Produktmerkmalen mittels beleuchten und die Nachteile zu verschweigen. Aus diesem
einer Analyse von unstrukturierten, kundengenerierten Pro- Grund haben potentielle Kunden ein berechtigtes Interesse
duktrezensionen. Unser Algorithmus benötigt eine initiale an der subjektiven Meinung anderer Käufer.
Merkmalshierarchie, die in einem rekursiven Verfahren mit Zudem sind kundengenerierte Produktrezensionen auch für
neuen Untermerkmalen angereichert wird, wobei die natür- Produzenten interessant, da sie wertvolle Informationen über
liche Ordnung der Merkmale beibehalten wird. Die Funk- Qualität und Marktakzeptanz eines Produkts aus Kunden-
tionsweise unseres Algorithmus basiert auf häufigen, gram- sicht enthalten. Diese Informationen können Produzenten
matikalischen Strukturen, die in Produktrezensionen oft be- dabei helfen, die eigene Produktpalette zu optimieren und
nutzt werden, um Eigenschaften eines Produkts zu beschrei- besser an Kundenbedürfnisse anzupassen.
ben. Diese Strukturen beschreiben Obermerkmale im Kon- Mit wachsendem Umsatz der Web-Shops nimmt auch die
text ihrer Untermerkmale und werden von unserem Algo- Anzahl der Produktrezensionen stetig zu, so dass es für Kun-
rithmus ausgenutzt, um Merkmale hierarchisch zu ordnen. den (und Produzenten) immer schwieriger wird, einen um-
fassenden Überblick über ein Produkt / eine Produktgrup-
pe zu behalten. Deshalb ist unser Ziel eine feingranulare
Kategorien Zusammenfassung von Produktrezensionen, die es erlaubt
H.2.8 [Database Management]: Database Applications— Produkte dynamisch anhand von Produktmerkmalen (pro-
data mining; I.2.7 [Artificial Intelligence]: Natural Lan- duct features) zu bewerten und mit ähnlichen Produkten zu
guage Processing—text analysis vergleichen. Auf diese Weise wird ein Kunde in die Lage
versetzt ein Produkt im Kontext seines eigenen Bedürfnis-
Schlüsselwörter ses zu betrachten und zu bewerten: beispielsweise spielt das
Gewicht einer Kamera keine große Rolle für einen Kunden,
Text Mining, Review Analysis, Product Feature aber es wird viel Wert auf eine hohe Bildqualität gelegt.
Produzenten können ihre eigene Produktpalette im Kontext
1. EINLEITUNG der Konkurrenz analysieren, um z. B. Mängel an den eige-
Der Einkauf von Waren (z. B. Kameras) und Dienstleis- nen Produkten zu identifizieren.
tungen (z. B. Hotels) über Web-Shops wie Amazon unter- Das Ziel unserer Forschung ist ein Gesamtsystem zur Analy-
liegt seit Jahren einem stetigen Wachstum. Web-Shops ge- se und Präsentation von Produktrezensionen in zusammen-
ben ihren Kunden (i. d. R.) die Möglichkeit die gekaufte Wa- gefasster Form (vgl. [3]). Dieses System besteht aus mehre-
re in Form einer Rezension zu kommentieren und zu bewer- ren Komponenten, die verschiedene Aufgaben übernehmen,
ten. Diese kundengenerierten Rezensionen enthalten wert- wie z.B. die Extraktion von Meinungen und die Bestimmung
volle Informationen über das Produkt, die von potentiellen der Tonalität bezüglich eines Produktmerkmals (siehe dazu
Kunden für ihre Kaufentscheidung herangezogen werden. Je auch Abschnitt 2). Im Rahmen dieser Arbeit beschränken
positiver ein Produkt bewertet wird, desto wahrscheinlicher wir uns auf einen wichtigen Teilaspekt dieses Systems: die
wird es von anderen Kunden gekauft. Extraktion und Anreicherung von hierarchisch organisierten
Der Kunde kann sich so ausführlicher über die Vor- und Produktmerkmalen.
Nachteile eines Produkts informieren, als dies über redak- Der Rest dieser Arbeit ist wie folgt gegliedert: zunächst
geben wir in Abschnitt 2 einen Überblick über verwandte
Arbeiten, die auf unsere Forschung entscheidenen Einfluss
hatten. Anschließend präsentieren wir in Abschnitt 3 einen
Algorithmus zur Extraktion und zur Anreicherung von hier-
archisch organisierten Produktmerkmalen. Eine Bewertung
des Algorithmus wird in Abschnitt 4 vorgenommen, sowie
einige Ergebnisse präsentiert, die die Effektivität unseres
Algorithmus demonstrieren. Die gewonnenen Erkenntnisse
25th GI-Workshop on Foundations of Databases (Grundlagen von Daten-
banken), 28.05.2013 - 31.05.2013, Ilmenau, Germany. werden in Abschnitt 5 diskutiert und zusammengefasst. Des
Copyright is held by the author/owner(s).
Weiteren geben wir einen Ausblick auf unsere zukünftige
Forschung.

2. VERWANDTE ARBEITEN
Dieser Abschnitt gibt einen kurzen Überblick über ver-
wandte Arbeiten, die einen Einfluss auf unsere Forschung
hatten. Die Analyse von Produktrezensionen basiert auf Al- Abbildung 1: Beispielhafte Merkmalshierarchie ei-
gorithmen und Methoden aus verschiedensten Disziplinen. ner Digitalkamera.
Zu den Wichtigsten zählen: Feature Extraction, Opining Mi-
ning und Sentiment Analysis.
Ein typischer Algorithmus zur merkmalsbasierten Tonali- Wir haben hauptsächlich Arbeiten vorgestellt, die Merk-
tätsanalyse von Produktrezensionen ist in 3 unterschiedliche male und Meinungen aus Produktrezensionen extrahieren,
Phasen unterteilt (vgl. [3]): aber Meinungsanalysen sind auch für andere Domänen inter-
essant: z. B. verwenden die Autoren von [7] einen von Exper-
1. Extraktion von Produktmerkmalen. ten annotierten Korpus mit Nachrichten, um mit Techniken
des maschinellen Lernens einen Klassifikator zu trainieren,
2. Extraktion von Meinungen über Produktmerkmale. der zwischen Aussagen (Meinungen) und Nicht-Aussagen
3. Tonalitätsanalyse der Meinungen. unterscheidet. Solche Ansätze sind nicht auf die Extrakti-
on von Produktmerkmalen angewiesen.
Man unterscheidet zwischen impliziten und expliziten Merk-
malen[3]: explizite Merkmale werden direkt im Text genannt,
implizite Merkmale müssen aus dem Kontext erschlossen
3. ANREICHERUNG VON MERKMALS-
werden. Wir beschränken uns im Rahmen dieser Arbeit auf
die Extraktion expliziter Merkmale. HIERARCHIEN
Die Autoren von [3] extrahieren häufig auftretende, explizi- Dieser Abschnitt dient der Beschreibung eines neuen Al-
te Merkmale mit dem a-priori Algorithmus. Mit Hilfe dieser gorithmus zur Anreicherung einer gegebenen, unvollständi-
Produktmerkmale werden Meinungen aus dem Text extra- gen Merkmalshierarchie mit zusätzlichen Merkmalen. Die-
hiert, die sich auf ein Produktmerkmal beziehen. Die Tona- se Merkmale werden aus unstrukturierten kundengenerier-
lität einer Meinung wird auf die Tonalität der enthaltenen ten Produktrezensionen gewonnen, wobei versucht wird die
Adjektive zurückgeführt. Die extrahierten Merkmale werden natürliche Ordnung der Merkmale (Unter- bzw. Obermerk-
- im Gegensatz zu unserer Arbeit - nicht hierarchisch mo- malsbeziehung) zu beachten.
delliert. Die Merkmalshierarchie bildet die Basis für weitergehende
Es gibt auch Ansätze, die versuchen die natürliche Hierar- Analysen, wie z.B. die gezielte Extraktion von Meinungen
chie von Produktmerkmalen abzubilden. Die Autoren von [1] und Tonalitäten, die sich auf Produktmerkmale beziehen.
nutzen die tabellarische Struktur von Produktbeschreibun- Diese nachfolgenden Analyseschritte sind nicht mehr Gegen-
gen aus, um explizite Produktmerkmale zu extrahieren, wo- stand dieser Arbeit. Produkte (aber auch Dienstleistungen)
bei die hierarchische Struktur aus der Tabellenstruktur ab- können durch eine Menge von Merkmalen (product features)
geleitet wird. Einen ähnlichen Ansatz verfolgen [5] et. al.: die beschrieben werden. Produktmerkmale folgen dabei einer
Autoren nutzen ebenfalls die oftmals hochgradige Struktu- natürlichen, domänenabhängigen Ordnung. Eine derartige
rierung von Produktbeschreibungen aus. Die Produktmerk- natürliche Hierarchie ist exemplarisch in Abbildung 1 für
male werden mit Clusteringtechniken aus einem Korpus ex- das Produkt Digitalkamera dargestellt. Offensichtlich ist
trahiert, wobei die Hierarchie der Merkmale durch das Clus- Display ein Untermerkmal von Digitalkamera und besitzt
tering vorgegeben wird. Die Extraktion von expliziten Merk- eigene Untermerkmale Auflösung und Farbtemperatur.
malen aus strukturierten Texten ist (i. d. R.) einfacher, als Hierarchien von Produktmerkmalen können auf Basis von
durch Analyse unstrukturierter Daten. strukturierten Texten erzeugt werden, wie z. B. technische
Die Methode von [2] et. al. benutzt eine Taxonomie zur Ab- Datenblättern und Produktbeschreibungen (vgl. [5]). Die-
bildung der Merkmalshierarchie, wobei diese von einem Ex- se Datenquellen enthalten i. d. R. die wichtigsten Produkt-
perten erstellt wird. Diese Hierarchie bildet die Grundlage merkmale. Der hohe Strukturierungsgrad dieser Datenquel-
für die Meinungsextraktion. Die Tonalität der Meinungen len erlaubt eine Extraktion der Merkmale mit hoher Ge-
wird über ein Tonalitätswörterbuch gelöst. Für diesen An- nauigkeit (≈ 71% [5]). Allerdings tendieren Datenblätter
satz wird - im Gegensatz zu unserer Methode - umfangrei- und Produktbeschreibungen dazu, ein Produkt relativ ober-
ches Expertenwissen benötigt. flächlich darzustellen oder zu Gunsten des Produkts zu ver-
Die Arbeit von [8] et. al. konzentriert sich auf die Extrakti- zerren. Zum Beispiel enthält die Hierarchie in Abbildung
on von Meinungen und die anschließende Tonalitätsanalyse. 1 eine Reihe von Merkmalen, wie sie häufig in strukturier-
Die Autoren unterscheiden zwischen subjektiven und kom- ten Datenquellen zu finden sind (helle Knoten). Allerdings
parativen Sätze. Sowohl subjektive, als auch komparative sind weitere, detailliertere Merkmale denkbar, die für eine
Sätze enthalten Meinungen, wobei im komparativen Fall ei- Kaufentscheidung von Interesse sein könnten. Beispielsweise
ne Meinung nicht direkt gegeben wird, sondern über einen könnte das Display einer Digitalkamera zur Fleckenbildung
Vergleich mit einem anderen Produkt erfolgt. Die Autoren am unteren/oberen Rand neigen. Unterer/Oberer Rand
nutzen komparative Sätze, um Produktgraphen zu erzeu- wird in diesem Fall zu einem Untermerkmal von Display
gen mit deren Hilfe verschiedene Produkte hinsichtlich eines und Obermerkmal von Fleckenbildung (dunkle Knoten).
Merkmals geordnet werden können. Die notwendigen Tona- Eine derartige Anreicherung einer gegebenen, unvollständi-
litätswerte werden einem Wörterbuch entnommen. gen Merkmalshierarchie kann durch die Verarbeitung von
kundengenerierten, unstrukturierten Rezensionen erfolgen. z.B. steht DET für einen Artikel, NOUN für ein Hauptwort
Wir halten einen hybriden Ansatz für durchaus sinnvoll: zu- und ADJ für ein Adjektiv. Weitere Informationen über das
nächst wird eine initiale Merkmalshierarchie mit hoher Ge- Universal Tagset finden sich in [6].
nauigkeit aus strukturierten Daten gewonnen. Anschließend
wird diese Hierarchie in einer zweiten Verarbeitungshase mit 3.2 Analysepipeline
zusätzlichen Produktmerkmalen angereichert. Für die Verarbeitung und Untersuchung der Produktre-
Für den weiteren Verlauf dieses Abschnitts beschränken wir zensionen haben wir eine für den NLP-Bereich (Natural Lan-
uns auf die zweite Analysephase, d.h. wir nehmen eine in- guage Processing) typische Standardpipeline benutzt: die
itiale Merkmalshierarchie als gegeben an. Für die Evaluation Volltexte der Rezensionen sind für unsere Zwecke zu grob-
unseres Algorithmus (siehe Abschnitt 4) wurden die initia- granular, so dass in einer ersten Phase der Volltext in Sätze
len Merkmalshierarchien manuell erzeugt. zerteilt wird. Anschließend werden die Sätze tokenisiert und
Unser Algorithmus wurde auf der Basis einer Reihe von ein- die Wortarten der einzelnen Worte bestimmt. Des Weite-
fachen Beobachtungen entworfen, die wir bei der Analyse ren werden Stoppworte markiert - dafür werden Standard-
von unserem Rezensionskorpus gemacht haben. Stoppwortlisten benutzt. Wir beenden die Analysepipeline
mit einer Stammformreduktion für jedes Wort, um die ver-
1. Ein Produktmerkmal wird häufig durch ein Hauptwort
schiedenen Flexionsformen eines Wortes auf eine kanonische
repräsentiert.
Basis zu bringen.
2. Viele Hauptwörter können dasselbe Produktmerkmal Für die Bestimmung zusätzlicher Produktmerkmale aus Pro-
beschreiben. (Synonyme) duktrezensionen, sind vor allem Hauptworte interessant, die
i. d. R. keine Stoppworte sind. Allerdings ist uns aufgefal-
3. Untermerkmale werden häufig im Kontext ihrer Ober- len, dass überdurchschnittlich viele Worte fälschlicherweise
merkmale genannt, wie z. B. ”das Ladegerät der Ka- als ein Hauptwort erkannt werden - viele dieser Worte sind
mera”. Stoppworte. Wir nehmen an, dass die variierende, gramma-
4. Textfragmente, die von Produktmerkmalen handeln, tikalische Qualität der Produktrezensionen für die hohe An-
besitzen häufig eine sehr ähnliche grammatikalische zahl falsch bestimmer Worte verantwortlich ist. Die Stopp-
Struktur, wie z.B. ”die Auflösung der Anzeige” oder wortmarkierung hilft dabei, diesen Fehler etwas auszuglei-
”die Laufzeit des Akkus”, wobei Unter- und Obermerk- chen.
male gemeinsam genannt werden. Die Struktur der 3.3 Der Algorithmus
Fragmente lautet [DET, NOUN, DET, NOUN], wo-
bei DET einen Artikel und NOUN ein Hauptwort be- In diesem Abschnitt beschreiben wir einen neuen Algorith-
schreibt. mus, um eine initiale Hierarchie von Produktmerkmalen mit
zusätzlichen Merkmalen anzureichern, wobei die natürliche
Der Rest dieses Abschnitts gliedert sich wie folgt: zunächst Ordnung der Merkmale erhalten bleibt (siehe Algorithmus 1).
werden Definitionen in Unterabschnitt 3.1 eingeführt, die Der Algorithmus erwartet 3 Parameter: eine 2-dimensionale
für das weitere Verständnis notwendig sind. Anschließend Liste von Token T , die sämtliche Token für jeden Satz ent-
beschreiben wir unsere Analysepipeline, die für die Vorver- hält (dabei beschreibt die erste Dimension die Sätze, die
arbeitung der Produktrezensionen verwendet wurde, in Un- zweite Dimensionen die einzelnen Wörter), eine initiale Hier-
terabschnitt 3.2. Darauf aufbauend wird in Unterabschnitt archie von Merkmalen f und eine Menge von POS-Mustern
3.3 unser Algorithmus im Detail besprochen. P . Da der Algorithmus rekursiv arbeitet, wird zusätzlich ein
Parameter d übergeben, der die maximale Rekursionstiefe
3.1 Definitionen angibt. Der Algorithmus bricht ab, sobald die vorgegebene
Für das Verständnis der nächsten Abschnitte werden eini- Tiefe erreicht wird (Zeile 1-3).
ge Begriffe benötigt, die in diesem Unterabschnitt definiert
werden sollen:
Kandidatensuche (Zeile 4-11). Um geeignete Kandida-
Token. Ein Token t ist ein Paar t = (vword , vP OS ), wobei ten für neue Produktmerkmale zu finden, werden alle Sätze
vword das Wort und vpos die Wortart angibt. Im Rahmen betrachtet und jeweils entschieden, ob der Satz eine Realisie-
dieser Arbeit wurde das Universal Tagset [6] benutzt. rung des aktuell betrachteten Merkmals enthält oder nicht.
Wenn ein Satz eine Realisierung hat, dann wird die Funkti-
Merkmal. Wir definieren ein Produktmerkmal f als ein on applyP atterns aufgerufen. Diese Funktion sucht im über-
Tripel f = (S, C, p), wobei S eine Menge von Synonymen be- gebenen Satz nach gegebenen POS-Mustern und gibt – so-
schreibt, die als textuelle Realisierung eines Merkmals Ver- fern mindestens ein Muster anwendbar ist – die entsprechen-
wendung finden können. Die Elemente von S können Wor- den Token als Kandidat zurück, wobei die Mustersuche auf
te, Produktbezeichnungen und auch Abkürzungen enthal- das unmittelbare Umfeld der gefundenen Realisierung einge-
ten. Die Hierarchie wird über C und p kontrolliert, wobei schränkt wird, damit das korrekte POS-Muster zurückgelie-
C eine Menge von Untermerkmalen und p das Obermerk- fert wird, da POS-Muster mehrfach innerhalb eines Satzes
mal von f angibt. Das Wurzelelement einer Hierarchie be- vorkommen können.
schreibt das Produkt/die Produktgruppe selbst und besitzt Im Rahmen dieser Arbeit haben wie die folgenden POS-
kein Obermerkmal. Muster verwendet:
• [DET, NOUN, DET, NOUN]
POS-Muster. Ein POS-Muster q ist eine geordnete Sequenz
von POS-Tags p = [tag1 , tag2 , . . . , tagn ], wobei n die Mus- • [DET, NOUN, VERB, DET, ADJ, NOUN]
terlänge beschreibt. Ein POS-Tag beschreibt eine Wortart,
Algorithm 1: refineHierarchy Synonymen. Dazu wird das Wort mit den Synonymen von f
verglichen (z.B. mit der Levenshtein-Distanz) und als Syn-
onym aufgenommen, falls eine ausreichende Ähnlichkeit be-
Eingabe : T : Eine 2-dimensionale Liste von Token. steht. Damit soll verhindert werden, dass die falsche Schreib-
Eingabe : P : Ein Array von POS-Mustern. weise eines eigentlich bekannten Merkmals dazu führt, dass
Eingabe : f : Eine initiale Merkmalshierarchie. ein neuer Knoten in die Hierarchie eingefügt wird.
Eingabe : d : Die maximale Rekursionstiefe.
Ausgabe: Das Wurzelmerkmal der angereicherten Wenn der Token t die Heuristiken erfolgreich passiert hat,
Hierarchie. dann wird t zu einem neuen Untermerkmal von f (Zeile 27).
1 if d = 0 then
2 return f Rekursiver Aufruf (Zeile 30-32). Nachdem das Merkmal
3 end f nun mit zusätzlichen Merkmalen angereichert wurde, wird
4 C ← {} ; der Algorithmus rekursiv für alle Untermerkmale von f auf-
5 for Token[] T ′ ∈ T do gerufen, um diese mit weiteren Merkmalen zu versehen. Die-
6 for Token t ∈ T ′ do ser Vorgang wiederholt sich solange, bis die maximale Re-
7 if t.word ∈Sf.S then kursionstiefe erreicht wird.
8 C ← C applyP attern(T ′ , P ) ;
9 end
10 end Nachbearbeitungsphase. Die Hierarchie, die von Algorith-
11 end mus 1 erweitert wurde, muss in einer Nachbearbeitungspha-
12 for Token[] C ′ ∈ C do
se bereinigt werden, da viele Merkmale enthalten sind, die
13 for Token t ∈ C ′ do keine realen Produktmerkmale beschreiben (Rauschen). Für
14 if t.pos 6= NOUN then diese Arbeit verwenden wir die relative Häufigkeit eines Un-
15 next ; termerkmals im Kontext seines Obermerkmals, um nieder-
16 end frequente Merkmale (samt Untermerkmalen) aus der Hier-
17 if t.length ≤ 3 then archie zu entfernen. Es sind aber auch andere Methoden
18 next ;
19 end
denkbar, wie z.B. eine Gewichtung nach tf-idf [4]. Dabei wird
20 if hasP arent(t.word, f ) then nicht nur die Termhäufigkeit (tf ) betrachtet, sondern auch
21 next ; die inverse Dokumenthäufigkeit (idf ) mit einbezogen. Der
22 end idf eines Terms beschreibt die Bedeutsamkeit des Terms im
23 if isSynonym(t.word, f.S) then Bezug auf die gesamte Dokumentenmenge.
24 f.S ← t.word ;
25 next ;
26 end S
4. EVALUATION
27 f.C ← f.C ({t.word}, {}, f ) ; In diesem Abschnitt diskutieren wir die Vor- und Nachteile
28 end unseres Algorithmus. Um unseren Algorithmus evaluieren zu
29 end können, haben wir einen geeigneten Korpus aus Kundenre-
30 for Feature[] f ′ ∈ f.C do zensionen zusammengestellt. Unser Korpus besteht aus 4000
31 ref ineHierarchy(T, f ′ , P, d − 1); Kundenrezensionen von amazon.de aus der Produktgruppe
32 end
Digitalkamera.
Wir haben unseren Algorithmus für die genannte Produkt-
gruppe eine Hierarchie anreichern lassen. Die initiale Pro-
dukthierarchie enthält ein Obermerkmal, welches die Pro-
duktgruppe beschreibt. Zudem wurden häufig gebrauchte
Validierungsphase (Zeile 12-29). Die Validierungsphase Synonyme hinzugefügt, wie z.B. Gerät. Im Weiteren prä-
dient dazu die gefundenen Kandidaten zu validieren, also sentieren wir exemplarisch die angereicherte Hierarchie. Für
zu entscheiden, ob ein Kandidat ein neues Merkmal enthält. dieses Experiment wurde die Rekursionstiefe auf 3 gesetzt,
Man beachte, dass es sich bei diesem neuen Merkmal um niederfrequente Merkmale (relative Häufigkeit < 0, 002) wur-
ein Untermerkmal des aktuellen Produktmerkmals handelt, den eliminiert. Wir haben für diese Arbeit Rezensionen in
sofern es existiert. Für die Entscheidungsfindung nutzen wir Deutscher Sprache verwendet, aber der Algorithmus kann
eine Reihe von einfachen Heuristiken. Ein Token t ist kein leicht auf andere Sprachen angepasst werden. Die erzeug-
Produktmerkmal und wird übergangen, falls t.vword : te Hierarchie ist in Abbildung 2 dargestellt. Es zeigt sich,
dass unser Algorithmus – unter Beachtung der hierarchi-
1. kein Hauptwort ist (Zeile 14-16). schen Struktur – eine Reihe wertvoller Merkmale extrahieren
2. keine ausreichende Länge besitzt (Zeile 17-19). konnte: z. B. Batterie mit seinen Untermerkmalen Halte-
zeit und Verbrauch oder Akkus mit den Untermerkmalen
3. ein Synonym von f (oder eines Obermerkmals von f ) Auflad und Zukauf. Es wurden aber auch viele Merkmale
ist (Zeile 20-22). aus den Rezensionen extrahiert, die entweder keine echten
Produktmerkmale sind (z.B. Kompakt oder eine falsche
4. ein neues Synonym von f darstellt (Zeile 23-26). Ober-Untermerkmalsbeziehung abbilden (z. B. Haptik und
Kamera). Des Weiteren sind einige Merkmale, wie z. B.
Die 3. Heuristik stellt sicher, dass sich keine Kreise in der Qualität zu generisch und sollten nicht als Produktmerk-
Hierarchie bilden können. Man beachte, dass Obermerkma- mal benutzt werden.
le, die nicht direkt voneinander abhängen, gleiche Unter-
merkmale tragen können.
Die 4. Heuristik dient zum Lernen von vorher unbekannten
malen anreichert. Die neuen Merkmale werden automatisch
aus unstrukturierten Produktrezensionen gewonnen, wobei
der Algorithmus versucht die natürliche Ordnung der Pro-
duktmerkmale zu beachten.
Wir konnten zeigen, dass unser Algorithmus eine initiale
Merkmalshierarchie mit sinnvollen Untermerkmalen anrei-
chern kann, allerdings werden auch viele falsche Merkma-
le extrahiert und in fehlerhafte Merkmalsbeziehungen ge-
bracht. Wir halten unseren Algorithmus dennoch für viel-
versprechend. Unsere weitere Forschung wird sich auf Teila-
spekte dieser Arbeit konzentrieren:
• Die Merkmalsextraktion muss verbessert werden: wir
haben beobachtet, dass eine Reihe extrahierter Merk-
male keine echten Produktmerkmale beschreiben. Da-
bei handelt es sich häufig um sehr allgemeine Wörter
wie z.B. Möglichkeiten. Wir bereiten deshalb den
Aufbau einer Stoppwortliste für Produktrezensionen
vor. Auf diese Weise könnte diese Problematik abge-
schwächt werden.
• Des Weiteren enthalten die angereicherten Hierarchi-
en teilweise Merkmale, die in einer falschen Beziehung
zueinander stehen, z.B. induzieren die Merkmale Ak-
ku und Akku-Ladegerät eine Ober-Untermerkmals-
beziehung: Akku kann als Obermerkmal von Ladege-
rät betrachtet werden. Außerdem konnte beobachtet
werden, dass einige Merkmalsbeziehungen alternieren:
z.B. existieren 2 Merkmale Taste und Druckpunkt
in wechselnder Ober-Untermerkmalbeziehung.
• Der Algorithmus benötigt POS-Muster, um Untermerk-
male in Sätzen zu finden. Für diese Arbeit wurden die
verwendeten POS-Muster manuell konstruiert, aber wir
planen die Konstruktion der POS-Muster weitestge-
hend zu automatisieren. Dazu ist eine umfangreiche
Analyse eines großen Korpus notwendig.
• Die Bereinigung der erzeugten Hierarchien ist unzurei-
chend - die relative Häufigkeit eines Merkmals reicht
als Gewichtung für unsere Zwecke nicht aus. Aus die-
sem Grund möchten wir mit anderen Gewichtungsma-
ßen experimentieren.
• Die Experimente in dieser Arbeit sind sehr einfach ge-
staltet. Eine sinnvolle Evaluation ist (z. Zt.) nicht mög-
lich, da (unseres Wissens nach) kein geeigneter Test-
korpus mit annotierten Merkmalshierarchien existiert.
Die Konstruktion eines derartigen Korpus ist geplant.
• Des Weiteren sind weitere Experimente geplant, um
den Effekt der initialen Merkmalshierarchie auf den
Algorithmus zu evaluieren. Diese Versuchsreihe um-
fasst Experimente mit mehrstufigen, initialen Merk-
malshierarchien, die sowohl manuell, als auch automa-
tisch erzeugt wurden.

Abbildung 2: Angereicherte Hierarchie für die Pro- • Abschließend planen wir die Verwendung unseres Al-
duktgruppe Digitalkamera. gorithmus zur Extraktion von Produktmerkmalen in
einem Gesamtsystem zur automatischen Zusammen-
fassung und Analyse von Produktrezensionen einzu-
setzen.
5. RESÜMEE UND AUSBLICK
In dieser Arbeit wurde ein neuer Algorithmus vorgestellt,
der auf Basis einer gegebenen – möglicherweise flachen –
Merkmalshierarchie diese Hierarchie mit zusätzlichen Merk-
6. REFERENZEN
[1] M. Acher, A. Cleve, G. Perrouin, P. Heymans,
C. Vanbeneden, P. Collet, and P. Lahire. On extracting
feature models from product descriptions. In
Proceedings of the Sixth International Workshop on
Variability Modeling of Software-Intensive Systems,
VaMoS ’12, pages 45–54, New York, NY, USA, 2012.
ACM.
[2] F. L. Cruz, J. A. Troyano, F. Enrı́quez, F. J. Ortega,
and C. G. Vallejo. A knowledge-rich approach to
feature-based opinion extraction from product reviews.
In Proceedings of the 2nd international workshop on
Search and mining user-generated contents, SMUC ’10,
pages 13–20, New York, NY, USA, 2010. ACM.
[3] M. Hu and B. Liu. Mining and summarizing customer
reviews. In Proceedings of the tenth ACM SIGKDD
international conference on Knowledge discovery and
data mining, KDD ’04, pages 168–177, New York, NY,
USA, 2004. ACM.
[4] K. S. Jones. A statistical interpretation of term
specificity and its application in retrieval. Journal of
Documentation, 28:11–21, 1972.
[5] X. Meng and H. Wang. Mining user reviews: From
specification to summarization. In Proceedings of the
ACL-IJCNLP 2009 Conference Short Papers,
ACLShort ’09, pages 177–180, Stroudsburg, PA, USA,
2009. Association for Computational Linguistics.
[6] S. Petrov, D. Das, and R. McDonald. A universal
part-of-speech tagset. In N. C. C. Chair), K. Choukri,
T. Declerck, M. U. Doğan, B. Maegaard, J. Mariani,
J. Odijk, and S. Piperidis, editors, Proceedings of the
Eight International Conference on Language Resources
and Evaluation (LREC’12), Istanbul, Turkey, may 2012.
European Language Resources Association (ELRA).
[7] T. Scholz and S. Conrad. Extraction of statements in
news for a media response analysis. In Proc. of the 18th
Intl. conf. on Applications of Natural Language
Processing to Information Systems 2013 (NLDB 2013),
2013. (to appear).
[8] K. Zhang, R. Narayanan, and A. Choudhary. Voice of
the customers: Mining online customer reviews for
product feature-based ranking. In Proceedings of the 3rd
conference on Online social networks, WOSN’10, pages
11–11, Berkeley, CA, USA, 2010. USENIX Association.