Extraktion und Anreicherung von Merkmalshierarchien
      durch Analyse unstrukturierter Produktrezensionen

                                                           Robin Küppers
                                                      Institut für Informatik
                                                    Heinrich-Heine-Universität
                                                        Universitätsstr. 1
                                                  40225 Düsseldorf, Deutschland
                                             kueppers@cs.uni-duesseldorf.de

ABSTRACT                                                              tionelle Datenblätter oder Produktbeschreibungen möglich
Wir präsentieren einen Algorithmus zur Extraktion bzw.               wäre, da diese dazu tendieren, die Vorteile eines Produkts zu
Anreicherung von hierarchischen Produktmerkmalen mittels              beleuchten und die Nachteile zu verschweigen. Aus diesem
einer Analyse von unstrukturierten, kundengenerierten Pro-            Grund haben potentielle Kunden ein berechtigtes Interesse
duktrezensionen. Unser Algorithmus benötigt eine initiale            an der subjektiven Meinung anderer Käufer.
Merkmalshierarchie, die in einem rekursiven Verfahren mit             Zudem sind kundengenerierte Produktrezensionen auch für
neuen Untermerkmalen angereichert wird, wobei die natür-             Produzenten interessant, da sie wertvolle Informationen über
liche Ordnung der Merkmale beibehalten wird. Die Funk-                Qualität und Marktakzeptanz eines Produkts aus Kunden-
tionsweise unseres Algorithmus basiert auf häufigen, gram-           sicht enthalten. Diese Informationen können Produzenten
matikalischen Strukturen, die in Produktrezensionen oft be-           dabei helfen, die eigene Produktpalette zu optimieren und
nutzt werden, um Eigenschaften eines Produkts zu beschrei-            besser an Kundenbedürfnisse anzupassen.
ben. Diese Strukturen beschreiben Obermerkmale im Kon-                Mit wachsendem Umsatz der Web-Shops nimmt auch die
text ihrer Untermerkmale und werden von unserem Algo-                 Anzahl der Produktrezensionen stetig zu, so dass es für Kun-
rithmus ausgenutzt, um Merkmale hierarchisch zu ordnen.               den (und Produzenten) immer schwieriger wird, einen um-
                                                                      fassenden Überblick über ein Produkt / eine Produktgrup-
                                                                      pe zu behalten. Deshalb ist unser Ziel eine feingranulare
Kategorien                                                            Zusammenfassung von Produktrezensionen, die es erlaubt
H.2.8 [Database Management]: Database Applications—                   Produkte dynamisch anhand von Produktmerkmalen (pro-
data mining; I.2.7 [Artificial Intelligence]: Natural Lan-            duct features) zu bewerten und mit ähnlichen Produkten zu
guage Processing—text analysis                                        vergleichen. Auf diese Weise wird ein Kunde in die Lage
                                                                      versetzt ein Produkt im Kontext seines eigenen Bedürfnis-
Schlüsselwörter                                                       ses zu betrachten und zu bewerten: beispielsweise spielt das
                                                                      Gewicht einer Kamera keine große Rolle für einen Kunden,
Text Mining, Review Analysis, Product Feature                         aber es wird viel Wert auf eine hohe Bildqualität gelegt.
                                                                      Produzenten können ihre eigene Produktpalette im Kontext
1.   EINLEITUNG                                                       der Konkurrenz analysieren, um z. B. Mängel an den eige-
   Der Einkauf von Waren (z. B. Kameras) und Dienstleis-              nen Produkten zu identifizieren.
tungen (z. B. Hotels) über Web-Shops wie Amazon unter-               Das Ziel unserer Forschung ist ein Gesamtsystem zur Analy-
liegt seit Jahren einem stetigen Wachstum. Web-Shops ge-              se und Präsentation von Produktrezensionen in zusammen-
ben ihren Kunden (i. d. R.) die Möglichkeit die gekaufte Wa-         gefasster Form (vgl. [3]). Dieses System besteht aus mehre-
re in Form einer Rezension zu kommentieren und zu bewer-              ren Komponenten, die verschiedene Aufgaben übernehmen,
ten. Diese kundengenerierten Rezensionen enthalten wert-              wie z.B. die Extraktion von Meinungen und die Bestimmung
volle Informationen über das Produkt, die von potentiellen           der Tonalität bezüglich eines Produktmerkmals (siehe dazu
Kunden für ihre Kaufentscheidung herangezogen werden. Je             auch Abschnitt 2). Im Rahmen dieser Arbeit beschränken
positiver ein Produkt bewertet wird, desto wahrscheinlicher           wir uns auf einen wichtigen Teilaspekt dieses Systems: die
wird es von anderen Kunden gekauft.                                   Extraktion und Anreicherung von hierarchisch organisierten
Der Kunde kann sich so ausführlicher über die Vor- und              Produktmerkmalen.
Nachteile eines Produkts informieren, als dies über redak-           Der Rest dieser Arbeit ist wie folgt gegliedert: zunächst
                                                                      geben wir in Abschnitt 2 einen Überblick über verwandte
                                                                      Arbeiten, die auf unsere Forschung entscheidenen Einfluss
                                                                      hatten. Anschließend präsentieren wir in Abschnitt 3 einen
                                                                      Algorithmus zur Extraktion und zur Anreicherung von hier-
                                                                      archisch organisierten Produktmerkmalen. Eine Bewertung
                                                                      des Algorithmus wird in Abschnitt 4 vorgenommen, sowie
                                                                      einige Ergebnisse präsentiert, die die Effektivität unseres
                                                                      Algorithmus demonstrieren. Die gewonnenen Erkenntnisse
25th GI-Workshop on Foundations of Databases (Grundlagen von Daten-
banken), 28.05.2013 - 31.05.2013, Ilmenau, Germany.                   werden in Abschnitt 5 diskutiert und zusammengefasst. Des
Copyright is held by the author/owner(s).
Weiteren geben wir einen Ausblick auf unsere zukünftige
Forschung.

2.     VERWANDTE ARBEITEN
   Dieser Abschnitt gibt einen kurzen Überblick über ver-
wandte Arbeiten, die einen Einfluss auf unsere Forschung
hatten. Die Analyse von Produktrezensionen basiert auf Al-          Abbildung 1: Beispielhafte Merkmalshierarchie ei-
gorithmen und Methoden aus verschiedensten Disziplinen.             ner Digitalkamera.
Zu den Wichtigsten zählen: Feature Extraction, Opining Mi-
ning und Sentiment Analysis.
Ein typischer Algorithmus zur merkmalsbasierten Tonali-             Wir haben hauptsächlich Arbeiten vorgestellt, die Merk-
tätsanalyse von Produktrezensionen ist in 3 unterschiedliche       male und Meinungen aus Produktrezensionen extrahieren,
Phasen unterteilt (vgl. [3]):                                       aber Meinungsanalysen sind auch für andere Domänen inter-
                                                                    essant: z. B. verwenden die Autoren von [7] einen von Exper-
     1. Extraktion von Produktmerkmalen.                            ten annotierten Korpus mit Nachrichten, um mit Techniken
                                                                    des maschinellen Lernens einen Klassifikator zu trainieren,
     2. Extraktion von Meinungen über Produktmerkmale.             der zwischen Aussagen (Meinungen) und Nicht-Aussagen
     3. Tonalitätsanalyse der Meinungen.                           unterscheidet. Solche Ansätze sind nicht auf die Extrakti-
                                                                    on von Produktmerkmalen angewiesen.
Man unterscheidet zwischen impliziten und expliziten Merk-
malen[3]: explizite Merkmale werden direkt im Text genannt,
implizite Merkmale müssen aus dem Kontext erschlossen
                                                                    3. ANREICHERUNG VON MERKMALS-
werden. Wir beschränken uns im Rahmen dieser Arbeit auf
die Extraktion expliziter Merkmale.                                    HIERARCHIEN
Die Autoren von [3] extrahieren häufig auftretende, explizi-           Dieser Abschnitt dient der Beschreibung eines neuen Al-
te Merkmale mit dem a-priori Algorithmus. Mit Hilfe dieser          gorithmus zur Anreicherung einer gegebenen, unvollständi-
Produktmerkmale werden Meinungen aus dem Text extra-                gen Merkmalshierarchie mit zusätzlichen Merkmalen. Die-
hiert, die sich auf ein Produktmerkmal beziehen. Die Tona-          se Merkmale werden aus unstrukturierten kundengenerier-
lität einer Meinung wird auf die Tonalität der enthaltenen        ten Produktrezensionen gewonnen, wobei versucht wird die
Adjektive zurückgeführt. Die extrahierten Merkmale werden         natürliche Ordnung der Merkmale (Unter- bzw. Obermerk-
- im Gegensatz zu unserer Arbeit - nicht hierarchisch mo-           malsbeziehung) zu beachten.
delliert.                                                           Die Merkmalshierarchie bildet die Basis für weitergehende
Es gibt auch Ansätze, die versuchen die natürliche Hierar-        Analysen, wie z.B. die gezielte Extraktion von Meinungen
chie von Produktmerkmalen abzubilden. Die Autoren von [1]           und Tonalitäten, die sich auf Produktmerkmale beziehen.
nutzen die tabellarische Struktur von Produktbeschreibun-           Diese nachfolgenden Analyseschritte sind nicht mehr Gegen-
gen aus, um explizite Produktmerkmale zu extrahieren, wo-           stand dieser Arbeit. Produkte (aber auch Dienstleistungen)
bei die hierarchische Struktur aus der Tabellenstruktur ab-         können durch eine Menge von Merkmalen (product features)
geleitet wird. Einen ähnlichen Ansatz verfolgen [5] et. al.: die   beschrieben werden. Produktmerkmale folgen dabei einer
Autoren nutzen ebenfalls die oftmals hochgradige Struktu-           natürlichen, domänenabhängigen Ordnung. Eine derartige
rierung von Produktbeschreibungen aus. Die Produktmerk-             natürliche Hierarchie ist exemplarisch in Abbildung 1 für
male werden mit Clusteringtechniken aus einem Korpus ex-            das Produkt Digitalkamera dargestellt. Offensichtlich ist
trahiert, wobei die Hierarchie der Merkmale durch das Clus-         Display ein Untermerkmal von Digitalkamera und besitzt
tering vorgegeben wird. Die Extraktion von expliziten Merk-         eigene Untermerkmale Auflösung und Farbtemperatur.
malen aus strukturierten Texten ist (i. d. R.) einfacher, als       Hierarchien von Produktmerkmalen können auf Basis von
durch Analyse unstrukturierter Daten.                               strukturierten Texten erzeugt werden, wie z. B. technische
Die Methode von [2] et. al. benutzt eine Taxonomie zur Ab-          Datenblättern und Produktbeschreibungen (vgl. [5]). Die-
bildung der Merkmalshierarchie, wobei diese von einem Ex-           se Datenquellen enthalten i. d. R. die wichtigsten Produkt-
perten erstellt wird. Diese Hierarchie bildet die Grundlage         merkmale. Der hohe Strukturierungsgrad dieser Datenquel-
für die Meinungsextraktion. Die Tonalität der Meinungen           len erlaubt eine Extraktion der Merkmale mit hoher Ge-
wird über ein Tonalitätswörterbuch gelöst. Für diesen An-      nauigkeit (≈ 71% [5]). Allerdings tendieren Datenblätter
satz wird - im Gegensatz zu unserer Methode - umfangrei-            und Produktbeschreibungen dazu, ein Produkt relativ ober-
ches Expertenwissen benötigt.                                      flächlich darzustellen oder zu Gunsten des Produkts zu ver-
Die Arbeit von [8] et. al. konzentriert sich auf die Extrakti-      zerren. Zum Beispiel enthält die Hierarchie in Abbildung
on von Meinungen und die anschließende Tonalitätsanalyse.          1 eine Reihe von Merkmalen, wie sie häufig in strukturier-
Die Autoren unterscheiden zwischen subjektiven und kom-             ten Datenquellen zu finden sind (helle Knoten). Allerdings
parativen Sätze. Sowohl subjektive, als auch komparative           sind weitere, detailliertere Merkmale denkbar, die für eine
Sätze enthalten Meinungen, wobei im komparativen Fall ei-          Kaufentscheidung von Interesse sein könnten. Beispielsweise
ne Meinung nicht direkt gegeben wird, sondern über einen           könnte das Display einer Digitalkamera zur Fleckenbildung
Vergleich mit einem anderen Produkt erfolgt. Die Autoren            am unteren/oberen Rand neigen. Unterer/Oberer Rand
nutzen komparative Sätze, um Produktgraphen zu erzeu-              wird in diesem Fall zu einem Untermerkmal von Display
gen mit deren Hilfe verschiedene Produkte hinsichtlich eines        und Obermerkmal von Fleckenbildung (dunkle Knoten).
Merkmals geordnet werden können. Die notwendigen Tona-             Eine derartige Anreicherung einer gegebenen, unvollständi-
litätswerte werden einem Wörterbuch entnommen.                    gen Merkmalshierarchie kann durch die Verarbeitung von
kundengenerierten, unstrukturierten Rezensionen erfolgen.          z.B. steht DET für einen Artikel, NOUN für ein Hauptwort
Wir halten einen hybriden Ansatz für durchaus sinnvoll: zu-       und ADJ für ein Adjektiv. Weitere Informationen über das
nächst wird eine initiale Merkmalshierarchie mit hoher Ge-        Universal Tagset finden sich in [6].
nauigkeit aus strukturierten Daten gewonnen. Anschließend
wird diese Hierarchie in einer zweiten Verarbeitungshase mit       3.2 Analysepipeline
zusätzlichen Produktmerkmalen angereichert.                          Für die Verarbeitung und Untersuchung der Produktre-
Für den weiteren Verlauf dieses Abschnitts beschränken wir       zensionen haben wir eine für den NLP-Bereich (Natural Lan-
uns auf die zweite Analysephase, d.h. wir nehmen eine in-          guage Processing) typische Standardpipeline benutzt: die
itiale Merkmalshierarchie als gegeben an. Für die Evaluation      Volltexte der Rezensionen sind für unsere Zwecke zu grob-
unseres Algorithmus (siehe Abschnitt 4) wurden die initia-         granular, so dass in einer ersten Phase der Volltext in Sätze
len Merkmalshierarchien manuell erzeugt.                           zerteilt wird. Anschließend werden die Sätze tokenisiert und
Unser Algorithmus wurde auf der Basis einer Reihe von ein-         die Wortarten der einzelnen Worte bestimmt. Des Weite-
fachen Beobachtungen entworfen, die wir bei der Analyse            ren werden Stoppworte markiert - dafür werden Standard-
von unserem Rezensionskorpus gemacht haben.                        Stoppwortlisten benutzt. Wir beenden die Analysepipeline
                                                                   mit einer Stammformreduktion für jedes Wort, um die ver-
  1. Ein Produktmerkmal wird häufig durch ein Hauptwort
                                                                   schiedenen Flexionsformen eines Wortes auf eine kanonische
     repräsentiert.
                                                                   Basis zu bringen.
  2. Viele Hauptwörter können dasselbe Produktmerkmal            Für die Bestimmung zusätzlicher Produktmerkmale aus Pro-
     beschreiben. (Synonyme)                                       duktrezensionen, sind vor allem Hauptworte interessant, die
                                                                   i. d. R. keine Stoppworte sind. Allerdings ist uns aufgefal-
  3. Untermerkmale werden häufig im Kontext ihrer Ober-           len, dass überdurchschnittlich viele Worte fälschlicherweise
     merkmale genannt, wie z. B. ”das Ladegerät der Ka-           als ein Hauptwort erkannt werden - viele dieser Worte sind
     mera”.                                                        Stoppworte. Wir nehmen an, dass die variierende, gramma-
  4. Textfragmente, die von Produktmerkmalen handeln,              tikalische Qualität der Produktrezensionen für die hohe An-
     besitzen häufig eine sehr ähnliche grammatikalische         zahl falsch bestimmer Worte verantwortlich ist. Die Stopp-
     Struktur, wie z.B. ”die Auflösung der Anzeige” oder          wortmarkierung hilft dabei, diesen Fehler etwas auszuglei-
     ”die Laufzeit des Akkus”, wobei Unter- und Obermerk-          chen.
     male gemeinsam genannt werden. Die Struktur der               3.3 Der Algorithmus
     Fragmente lautet [DET, NOUN, DET, NOUN], wo-
     bei DET einen Artikel und NOUN ein Hauptwort be-                 In diesem Abschnitt beschreiben wir einen neuen Algorith-
     schreibt.                                                     mus, um eine initiale Hierarchie von Produktmerkmalen mit
                                                                   zusätzlichen Merkmalen anzureichern, wobei die natürliche
Der Rest dieses Abschnitts gliedert sich wie folgt: zunächst      Ordnung der Merkmale erhalten bleibt (siehe Algorithmus 1).
werden Definitionen in Unterabschnitt 3.1 eingeführt, die         Der Algorithmus erwartet 3 Parameter: eine 2-dimensionale
für das weitere Verständnis notwendig sind. Anschließend         Liste von Token T , die sämtliche Token für jeden Satz ent-
beschreiben wir unsere Analysepipeline, die für die Vorver-       hält (dabei beschreibt die erste Dimension die Sätze, die
arbeitung der Produktrezensionen verwendet wurde, in Un-           zweite Dimensionen die einzelnen Wörter), eine initiale Hier-
terabschnitt 3.2. Darauf aufbauend wird in Unterabschnitt          archie von Merkmalen f und eine Menge von POS-Mustern
3.3 unser Algorithmus im Detail besprochen.                        P . Da der Algorithmus rekursiv arbeitet, wird zusätzlich ein
                                                                   Parameter d übergeben, der die maximale Rekursionstiefe
3.1 Definitionen                                                   angibt. Der Algorithmus bricht ab, sobald die vorgegebene
  Für das Verständnis der nächsten Abschnitte werden eini-      Tiefe erreicht wird (Zeile 1-3).
ge Begriffe benötigt, die in diesem Unterabschnitt definiert
werden sollen:
                                                                   Kandidatensuche (Zeile 4-11). Um geeignete Kandida-
Token. Ein Token t ist ein Paar t = (vword , vP OS ), wobei        ten für neue Produktmerkmale zu finden, werden alle Sätze
vword das Wort und vpos die Wortart angibt. Im Rahmen              betrachtet und jeweils entschieden, ob der Satz eine Realisie-
dieser Arbeit wurde das Universal Tagset [6] benutzt.              rung des aktuell betrachteten Merkmals enthält oder nicht.
                                                                   Wenn ein Satz eine Realisierung hat, dann wird die Funkti-
Merkmal. Wir definieren ein Produktmerkmal f als ein               on applyP atterns aufgerufen. Diese Funktion sucht im über-
Tripel f = (S, C, p), wobei S eine Menge von Synonymen be-         gebenen Satz nach gegebenen POS-Mustern und gibt – so-
schreibt, die als textuelle Realisierung eines Merkmals Ver-       fern mindestens ein Muster anwendbar ist – die entsprechen-
wendung finden können. Die Elemente von S können Wor-            den Token als Kandidat zurück, wobei die Mustersuche auf
te, Produktbezeichnungen und auch Abkürzungen enthal-             das unmittelbare Umfeld der gefundenen Realisierung einge-
ten. Die Hierarchie wird über C und p kontrolliert, wobei         schränkt wird, damit das korrekte POS-Muster zurückgelie-
C eine Menge von Untermerkmalen und p das Obermerk-                fert wird, da POS-Muster mehrfach innerhalb eines Satzes
mal von f angibt. Das Wurzelelement einer Hierarchie be-           vorkommen können.
schreibt das Produkt/die Produktgruppe selbst und besitzt          Im Rahmen dieser Arbeit haben wie die folgenden POS-
kein Obermerkmal.                                                  Muster verwendet:
                                                                      • [DET, NOUN, DET, NOUN]
POS-Muster. Ein POS-Muster q ist eine geordnete Sequenz
von POS-Tags p = [tag1 , tag2 , . . . , tagn ], wobei n die Mus-      • [DET, NOUN, VERB, DET, ADJ, NOUN]
terlänge beschreibt. Ein POS-Tag beschreibt eine Wortart,
 Algorithm 1: refineHierarchy                                      Synonymen. Dazu wird das Wort mit den Synonymen von f
                                                                   verglichen (z.B. mit der Levenshtein-Distanz) und als Syn-
                                                                   onym aufgenommen, falls eine ausreichende Ähnlichkeit be-
     Eingabe : T : Eine 2-dimensionale Liste von Token.            steht. Damit soll verhindert werden, dass die falsche Schreib-
     Eingabe : P : Ein Array von POS-Mustern.                      weise eines eigentlich bekannten Merkmals dazu führt, dass
     Eingabe : f : Eine initiale Merkmalshierarchie.               ein neuer Knoten in die Hierarchie eingefügt wird.
     Eingabe : d : Die maximale Rekursionstiefe.
     Ausgabe: Das Wurzelmerkmal der angereicherten                 Wenn der Token t die Heuristiken erfolgreich passiert hat,
               Hierarchie.                                         dann wird t zu einem neuen Untermerkmal von f (Zeile 27).
  1 if d = 0 then
  2     return f                                                   Rekursiver Aufruf (Zeile 30-32). Nachdem das Merkmal
  3 end                                                            f nun mit zusätzlichen Merkmalen angereichert wurde, wird
  4 C ← {} ;                                                       der Algorithmus rekursiv für alle Untermerkmale von f auf-
  5 for Token[] T ′ ∈ T do                                         gerufen, um diese mit weiteren Merkmalen zu versehen. Die-
  6     for Token t ∈ T ′ do                                       ser Vorgang wiederholt sich solange, bis die maximale Re-
  7         if t.word ∈Sf.S then                                   kursionstiefe erreicht wird.
  8              C ← C applyP attern(T ′ , P ) ;
  9         end
 10     end                                                        Nachbearbeitungsphase. Die Hierarchie, die von Algorith-
 11 end                                                            mus 1 erweitert wurde, muss in einer Nachbearbeitungspha-
 12 for Token[] C ′ ∈ C do
                                                                   se bereinigt werden, da viele Merkmale enthalten sind, die
 13     for Token t ∈ C ′ do                                       keine realen Produktmerkmale beschreiben (Rauschen). Für
 14         if t.pos 6= NOUN then                                  diese Arbeit verwenden wir die relative Häufigkeit eines Un-
 15              next ;                                            termerkmals im Kontext seines Obermerkmals, um nieder-
 16         end                                                    frequente Merkmale (samt Untermerkmalen) aus der Hier-
 17         if t.length ≤ 3 then                                   archie zu entfernen. Es sind aber auch andere Methoden
 18              next ;
 19         end
                                                                   denkbar, wie z.B. eine Gewichtung nach tf-idf [4]. Dabei wird
 20         if hasP arent(t.word, f ) then                         nicht nur die Termhäufigkeit (tf ) betrachtet, sondern auch
 21              next ;                                            die inverse Dokumenthäufigkeit (idf ) mit einbezogen. Der
 22         end                                                    idf eines Terms beschreibt die Bedeutsamkeit des Terms im
 23         if isSynonym(t.word, f.S) then                         Bezug auf die gesamte Dokumentenmenge.
 24              f.S ← t.word ;
 25              next ;
 26         end         S
                                                                   4. EVALUATION
 27         f.C ← f.C ({t.word}, {}, f ) ;                            In diesem Abschnitt diskutieren wir die Vor- und Nachteile
 28     end                                                        unseres Algorithmus. Um unseren Algorithmus evaluieren zu
 29 end                                                            können, haben wir einen geeigneten Korpus aus Kundenre-
 30 for Feature[] f ′ ∈ f.C do                                     zensionen zusammengestellt. Unser Korpus besteht aus 4000
 31     ref ineHierarchy(T, f ′ , P, d − 1);                       Kundenrezensionen von amazon.de aus der Produktgruppe
 32 end
                                                                   Digitalkamera.
                                                                   Wir haben unseren Algorithmus für die genannte Produkt-
                                                                   gruppe eine Hierarchie anreichern lassen. Die initiale Pro-
                                                                   dukthierarchie enthält ein Obermerkmal, welches die Pro-
                                                                   duktgruppe beschreibt. Zudem wurden häufig gebrauchte
Validierungsphase (Zeile 12-29). Die Validierungsphase             Synonyme hinzugefügt, wie z.B. Gerät. Im Weiteren prä-
dient dazu die gefundenen Kandidaten zu validieren, also           sentieren wir exemplarisch die angereicherte Hierarchie. Für
zu entscheiden, ob ein Kandidat ein neues Merkmal enthält.        dieses Experiment wurde die Rekursionstiefe auf 3 gesetzt,
Man beachte, dass es sich bei diesem neuen Merkmal um              niederfrequente Merkmale (relative Häufigkeit < 0, 002) wur-
ein Untermerkmal des aktuellen Produktmerkmals handelt,            den eliminiert. Wir haben für diese Arbeit Rezensionen in
sofern es existiert. Für die Entscheidungsfindung nutzen wir      Deutscher Sprache verwendet, aber der Algorithmus kann
eine Reihe von einfachen Heuristiken. Ein Token t ist kein         leicht auf andere Sprachen angepasst werden. Die erzeug-
Produktmerkmal und wird übergangen, falls t.vword :               te Hierarchie ist in Abbildung 2 dargestellt. Es zeigt sich,
                                                                   dass unser Algorithmus – unter Beachtung der hierarchi-
  1. kein Hauptwort ist (Zeile 14-16).                             schen Struktur – eine Reihe wertvoller Merkmale extrahieren
  2. keine ausreichende Länge besitzt (Zeile 17-19).              konnte: z. B. Batterie mit seinen Untermerkmalen Halte-
                                                                   zeit und Verbrauch oder Akkus mit den Untermerkmalen
  3. ein Synonym von f (oder eines Obermerkmals von f )            Auflad und Zukauf. Es wurden aber auch viele Merkmale
     ist (Zeile 20-22).                                            aus den Rezensionen extrahiert, die entweder keine echten
                                                                   Produktmerkmale sind (z.B. Kompakt oder eine falsche
  4. ein neues Synonym von f darstellt (Zeile 23-26).              Ober-Untermerkmalsbeziehung abbilden (z. B. Haptik und
                                                                   Kamera). Des Weiteren sind einige Merkmale, wie z. B.
   Die 3. Heuristik stellt sicher, dass sich keine Kreise in der   Qualität zu generisch und sollten nicht als Produktmerk-
Hierarchie bilden können. Man beachte, dass Obermerkma-           mal benutzt werden.
le, die nicht direkt voneinander abhängen, gleiche Unter-
merkmale tragen können.
Die 4. Heuristik dient zum Lernen von vorher unbekannten
                                                              malen anreichert. Die neuen Merkmale werden automatisch
                                                              aus unstrukturierten Produktrezensionen gewonnen, wobei
                                                              der Algorithmus versucht die natürliche Ordnung der Pro-
                                                              duktmerkmale zu beachten.
                                                              Wir konnten zeigen, dass unser Algorithmus eine initiale
                                                              Merkmalshierarchie mit sinnvollen Untermerkmalen anrei-
                                                              chern kann, allerdings werden auch viele falsche Merkma-
                                                              le extrahiert und in fehlerhafte Merkmalsbeziehungen ge-
                                                              bracht. Wir halten unseren Algorithmus dennoch für viel-
                                                              versprechend. Unsere weitere Forschung wird sich auf Teila-
                                                              spekte dieser Arbeit konzentrieren:
                                                                 • Die Merkmalsextraktion muss verbessert werden: wir
                                                                   haben beobachtet, dass eine Reihe extrahierter Merk-
                                                                   male keine echten Produktmerkmale beschreiben. Da-
                                                                   bei handelt es sich häufig um sehr allgemeine Wörter
                                                                   wie z.B. Möglichkeiten. Wir bereiten deshalb den
                                                                   Aufbau einer Stoppwortliste für Produktrezensionen
                                                                   vor. Auf diese Weise könnte diese Problematik abge-
                                                                   schwächt werden.
                                                                 • Des Weiteren enthalten die angereicherten Hierarchi-
                                                                   en teilweise Merkmale, die in einer falschen Beziehung
                                                                   zueinander stehen, z.B. induzieren die Merkmale Ak-
                                                                   ku und Akku-Ladegerät eine Ober-Untermerkmals-
                                                                   beziehung: Akku kann als Obermerkmal von Ladege-
                                                                   rät betrachtet werden. Außerdem konnte beobachtet
                                                                   werden, dass einige Merkmalsbeziehungen alternieren:
                                                                   z.B. existieren 2 Merkmale Taste und Druckpunkt
                                                                   in wechselnder Ober-Untermerkmalbeziehung.
                                                                 • Der Algorithmus benötigt POS-Muster, um Untermerk-
                                                                   male in Sätzen zu finden. Für diese Arbeit wurden die
                                                                   verwendeten POS-Muster manuell konstruiert, aber wir
                                                                   planen die Konstruktion der POS-Muster weitestge-
                                                                   hend zu automatisieren. Dazu ist eine umfangreiche
                                                                   Analyse eines großen Korpus notwendig.
                                                                 • Die Bereinigung der erzeugten Hierarchien ist unzurei-
                                                                   chend - die relative Häufigkeit eines Merkmals reicht
                                                                   als Gewichtung für unsere Zwecke nicht aus. Aus die-
                                                                   sem Grund möchten wir mit anderen Gewichtungsma-
                                                                   ßen experimentieren.
                                                                 • Die Experimente in dieser Arbeit sind sehr einfach ge-
                                                                   staltet. Eine sinnvolle Evaluation ist (z. Zt.) nicht mög-
                                                                   lich, da (unseres Wissens nach) kein geeigneter Test-
                                                                   korpus mit annotierten Merkmalshierarchien existiert.
                                                                   Die Konstruktion eines derartigen Korpus ist geplant.
                                                                 • Des Weiteren sind weitere Experimente geplant, um
                                                                   den Effekt der initialen Merkmalshierarchie auf den
                                                                   Algorithmus zu evaluieren. Diese Versuchsreihe um-
                                                                   fasst Experimente mit mehrstufigen, initialen Merk-
                                                                   malshierarchien, die sowohl manuell, als auch automa-
                                                                   tisch erzeugt wurden.

Abbildung 2: Angereicherte Hierarchie für die Pro-              • Abschließend planen wir die Verwendung unseres Al-
duktgruppe Digitalkamera.                                          gorithmus zur Extraktion von Produktmerkmalen in
                                                                   einem Gesamtsystem zur automatischen Zusammen-
                                                                   fassung und Analyse von Produktrezensionen einzu-
                                                                   setzen.
5.   RESÜMEE UND AUSBLICK
  In dieser Arbeit wurde ein neuer Algorithmus vorgestellt,
der auf Basis einer gegebenen – möglicherweise flachen –
Merkmalshierarchie diese Hierarchie mit zusätzlichen Merk-
6.   REFERENZEN
[1] M. Acher, A. Cleve, G. Perrouin, P. Heymans,
    C. Vanbeneden, P. Collet, and P. Lahire. On extracting
    feature models from product descriptions. In
    Proceedings of the Sixth International Workshop on
    Variability Modeling of Software-Intensive Systems,
    VaMoS ’12, pages 45–54, New York, NY, USA, 2012.
    ACM.
[2] F. L. Cruz, J. A. Troyano, F. Enrı́quez, F. J. Ortega,
    and C. G. Vallejo. A knowledge-rich approach to
    feature-based opinion extraction from product reviews.
    In Proceedings of the 2nd international workshop on
    Search and mining user-generated contents, SMUC ’10,
    pages 13–20, New York, NY, USA, 2010. ACM.
[3] M. Hu and B. Liu. Mining and summarizing customer
    reviews. In Proceedings of the tenth ACM SIGKDD
    international conference on Knowledge discovery and
    data mining, KDD ’04, pages 168–177, New York, NY,
    USA, 2004. ACM.
[4] K. S. Jones. A statistical interpretation of term
    specificity and its application in retrieval. Journal of
    Documentation, 28:11–21, 1972.
[5] X. Meng and H. Wang. Mining user reviews: From
    specification to summarization. In Proceedings of the
    ACL-IJCNLP 2009 Conference Short Papers,
    ACLShort ’09, pages 177–180, Stroudsburg, PA, USA,
    2009. Association for Computational Linguistics.
[6] S. Petrov, D. Das, and R. McDonald. A universal
    part-of-speech tagset. In N. C. C. Chair), K. Choukri,
    T. Declerck, M. U. Doğan, B. Maegaard, J. Mariani,
    J. Odijk, and S. Piperidis, editors, Proceedings of the
    Eight International Conference on Language Resources
    and Evaluation (LREC’12), Istanbul, Turkey, may 2012.
    European Language Resources Association (ELRA).
[7] T. Scholz and S. Conrad. Extraction of statements in
    news for a media response analysis. In Proc. of the 18th
    Intl. conf. on Applications of Natural Language
    Processing to Information Systems 2013 (NLDB 2013),
    2013. (to appear).
[8] K. Zhang, R. Narayanan, and A. Choudhary. Voice of
    the customers: Mining online customer reviews for
    product feature-based ranking. In Proceedings of the 3rd
    conference on Online social networks, WOSN’10, pages
    11–11, Berkeley, CA, USA, 2010. USENIX Association.