=Paper= {{Paper |id=None |storemode=property |title=Extraktion und Anreicherung von Merkmalshierarchien durch Analyse unstrukturierter Produktrezensionen |pdfUrl=https://ceur-ws.org/Vol-1020/paper_07.pdf |volume=Vol-1020 |dblpUrl=https://dblp.org/rec/conf/gvd/Kuppers13 }} ==Extraktion und Anreicherung von Merkmalshierarchien durch Analyse unstrukturierter Produktrezensionen== https://ceur-ws.org/Vol-1020/paper_07.pdf
     Extraktion und Anreicherung von Merkmalshierarchien
      durch Analyse unstrukturierter Produktrezensionen

                                                           Robin Küppers
                                                      Institut für Informatik
                                                    Heinrich-Heine-Universität
                                                        Universitätsstr. 1
                                                  40225 Düsseldorf, Deutschland
                                             kueppers@cs.uni-duesseldorf.de

ABSTRACT                                                              tionelle Datenblätter oder Produktbeschreibungen möglich
Wir präsentieren einen Algorithmus zur Extraktion bzw.               wäre, da diese dazu tendieren, die Vorteile eines Produkts zu
Anreicherung von hierarchischen Produktmerkmalen mittels              beleuchten und die Nachteile zu verschweigen. Aus diesem
einer Analyse von unstrukturierten, kundengenerierten Pro-            Grund haben potentielle Kunden ein berechtigtes Interesse
duktrezensionen. Unser Algorithmus benötigt eine initiale            an der subjektiven Meinung anderer Käufer.
Merkmalshierarchie, die in einem rekursiven Verfahren mit             Zudem sind kundengenerierte Produktrezensionen auch für
neuen Untermerkmalen angereichert wird, wobei die natür-             Produzenten interessant, da sie wertvolle Informationen über
liche Ordnung der Merkmale beibehalten wird. Die Funk-                Qualität und Marktakzeptanz eines Produkts aus Kunden-
tionsweise unseres Algorithmus basiert auf häufigen, gram-           sicht enthalten. Diese Informationen können Produzenten
matikalischen Strukturen, die in Produktrezensionen oft be-           dabei helfen, die eigene Produktpalette zu optimieren und
nutzt werden, um Eigenschaften eines Produkts zu beschrei-            besser an Kundenbedürfnisse anzupassen.
ben. Diese Strukturen beschreiben Obermerkmale im Kon-                Mit wachsendem Umsatz der Web-Shops nimmt auch die
text ihrer Untermerkmale und werden von unserem Algo-                 Anzahl der Produktrezensionen stetig zu, so dass es für Kun-
rithmus ausgenutzt, um Merkmale hierarchisch zu ordnen.               den (und Produzenten) immer schwieriger wird, einen um-
                                                                      fassenden Überblick über ein Produkt / eine Produktgrup-
                                                                      pe zu behalten. Deshalb ist unser Ziel eine feingranulare
Kategorien                                                            Zusammenfassung von Produktrezensionen, die es erlaubt
H.2.8 [Database Management]: Database Applications—                   Produkte dynamisch anhand von Produktmerkmalen (pro-
data mining; I.2.7 [Artificial Intelligence]: Natural Lan-            duct features) zu bewerten und mit ähnlichen Produkten zu
guage Processing—text analysis                                        vergleichen. Auf diese Weise wird ein Kunde in die Lage
                                                                      versetzt ein Produkt im Kontext seines eigenen Bedürfnis-
Schlüsselwörter                                                       ses zu betrachten und zu bewerten: beispielsweise spielt das
                                                                      Gewicht einer Kamera keine große Rolle für einen Kunden,
Text Mining, Review Analysis, Product Feature                         aber es wird viel Wert auf eine hohe Bildqualität gelegt.
                                                                      Produzenten können ihre eigene Produktpalette im Kontext
1.   EINLEITUNG                                                       der Konkurrenz analysieren, um z. B. Mängel an den eige-
   Der Einkauf von Waren (z. B. Kameras) und Dienstleis-              nen Produkten zu identifizieren.
tungen (z. B. Hotels) über Web-Shops wie Amazon unter-               Das Ziel unserer Forschung ist ein Gesamtsystem zur Analy-
liegt seit Jahren einem stetigen Wachstum. Web-Shops ge-              se und Präsentation von Produktrezensionen in zusammen-
ben ihren Kunden (i. d. R.) die Möglichkeit die gekaufte Wa-         gefasster Form (vgl. [3]). Dieses System besteht aus mehre-
re in Form einer Rezension zu kommentieren und zu bewer-              ren Komponenten, die verschiedene Aufgaben übernehmen,
ten. Diese kundengenerierten Rezensionen enthalten wert-              wie z.B. die Extraktion von Meinungen und die Bestimmung
volle Informationen über das Produkt, die von potentiellen           der Tonalität bezüglich eines Produktmerkmals (siehe dazu
Kunden für ihre Kaufentscheidung herangezogen werden. Je             auch Abschnitt 2). Im Rahmen dieser Arbeit beschränken
positiver ein Produkt bewertet wird, desto wahrscheinlicher           wir uns auf einen wichtigen Teilaspekt dieses Systems: die
wird es von anderen Kunden gekauft.                                   Extraktion und Anreicherung von hierarchisch organisierten
Der Kunde kann sich so ausführlicher über die Vor- und              Produktmerkmalen.
Nachteile eines Produkts informieren, als dies über redak-           Der Rest dieser Arbeit ist wie folgt gegliedert: zunächst
                                                                      geben wir in Abschnitt 2 einen Überblick über verwandte
                                                                      Arbeiten, die auf unsere Forschung entscheidenen Einfluss
                                                                      hatten. Anschließend präsentieren wir in Abschnitt 3 einen
                                                                      Algorithmus zur Extraktion und zur Anreicherung von hier-
                                                                      archisch organisierten Produktmerkmalen. Eine Bewertung
                                                                      des Algorithmus wird in Abschnitt 4 vorgenommen, sowie
                                                                      einige Ergebnisse präsentiert, die die Effektivität unseres
                                                                      Algorithmus demonstrieren. Die gewonnenen Erkenntnisse
25th GI-Workshop on Foundations of Databases (Grundlagen von Daten-
banken), 28.05.2013 - 31.05.2013, Ilmenau, Germany.                   werden in Abschnitt 5 diskutiert und zusammengefasst. Des
Copyright is held by the author/owner(s).
Weiteren geben wir einen Ausblick auf unsere zukünftige
Forschung.

2.     VERWANDTE ARBEITEN
   Dieser Abschnitt gibt einen kurzen Überblick über ver-
wandte Arbeiten, die einen Einfluss auf unsere Forschung
hatten. Die Analyse von Produktrezensionen basiert auf Al-          Abbildung 1: Beispielhafte Merkmalshierarchie ei-
gorithmen und Methoden aus verschiedensten Disziplinen.             ner Digitalkamera.
Zu den Wichtigsten zählen: Feature Extraction, Opining Mi-
ning und Sentiment Analysis.
Ein typischer Algorithmus zur merkmalsbasierten Tonali-             Wir haben hauptsächlich Arbeiten vorgestellt, die Merk-
tätsanalyse von Produktrezensionen ist in 3 unterschiedliche       male und Meinungen aus Produktrezensionen extrahieren,
Phasen unterteilt (vgl. [3]):                                       aber Meinungsanalysen sind auch für andere Domänen inter-
                                                                    essant: z. B. verwenden die Autoren von [7] einen von Exper-
     1. Extraktion von Produktmerkmalen.                            ten annotierten Korpus mit Nachrichten, um mit Techniken
                                                                    des maschinellen Lernens einen Klassifikator zu trainieren,
     2. Extraktion von Meinungen über Produktmerkmale.             der zwischen Aussagen (Meinungen) und Nicht-Aussagen
     3. Tonalitätsanalyse der Meinungen.                           unterscheidet. Solche Ansätze sind nicht auf die Extrakti-
                                                                    on von Produktmerkmalen angewiesen.
Man unterscheidet zwischen impliziten und expliziten Merk-
malen[3]: explizite Merkmale werden direkt im Text genannt,
implizite Merkmale müssen aus dem Kontext erschlossen
                                                                    3. ANREICHERUNG VON MERKMALS-
werden. Wir beschränken uns im Rahmen dieser Arbeit auf
die Extraktion expliziter Merkmale.                                    HIERARCHIEN
Die Autoren von [3] extrahieren häufig auftretende, explizi-           Dieser Abschnitt dient der Beschreibung eines neuen Al-
te Merkmale mit dem a-priori Algorithmus. Mit Hilfe dieser          gorithmus zur Anreicherung einer gegebenen, unvollständi-
Produktmerkmale werden Meinungen aus dem Text extra-                gen Merkmalshierarchie mit zusätzlichen Merkmalen. Die-
hiert, die sich auf ein Produktmerkmal beziehen. Die Tona-          se Merkmale werden aus unstrukturierten kundengenerier-
lität einer Meinung wird auf die Tonalität der enthaltenen        ten Produktrezensionen gewonnen, wobei versucht wird die
Adjektive zurückgeführt. Die extrahierten Merkmale werden         natürliche Ordnung der Merkmale (Unter- bzw. Obermerk-
- im Gegensatz zu unserer Arbeit - nicht hierarchisch mo-           malsbeziehung) zu beachten.
delliert.                                                           Die Merkmalshierarchie bildet die Basis für weitergehende
Es gibt auch Ansätze, die versuchen die natürliche Hierar-        Analysen, wie z.B. die gezielte Extraktion von Meinungen
chie von Produktmerkmalen abzubilden. Die Autoren von [1]           und Tonalitäten, die sich auf Produktmerkmale beziehen.
nutzen die tabellarische Struktur von Produktbeschreibun-           Diese nachfolgenden Analyseschritte sind nicht mehr Gegen-
gen aus, um explizite Produktmerkmale zu extrahieren, wo-           stand dieser Arbeit. Produkte (aber auch Dienstleistungen)
bei die hierarchische Struktur aus der Tabellenstruktur ab-         können durch eine Menge von Merkmalen (product features)
geleitet wird. Einen ähnlichen Ansatz verfolgen [5] et. al.: die   beschrieben werden. Produktmerkmale folgen dabei einer
Autoren nutzen ebenfalls die oftmals hochgradige Struktu-           natürlichen, domänenabhängigen Ordnung. Eine derartige
rierung von Produktbeschreibungen aus. Die Produktmerk-             natürliche Hierarchie ist exemplarisch in Abbildung 1 für
male werden mit Clusteringtechniken aus einem Korpus ex-            das Produkt Digitalkamera dargestellt. Offensichtlich ist
trahiert, wobei die Hierarchie der Merkmale durch das Clus-         Display ein Untermerkmal von Digitalkamera und besitzt
tering vorgegeben wird. Die Extraktion von expliziten Merk-         eigene Untermerkmale Auflösung und Farbtemperatur.
malen aus strukturierten Texten ist (i. d. R.) einfacher, als       Hierarchien von Produktmerkmalen können auf Basis von
durch Analyse unstrukturierter Daten.                               strukturierten Texten erzeugt werden, wie z. B. technische
Die Methode von [2] et. al. benutzt eine Taxonomie zur Ab-          Datenblättern und Produktbeschreibungen (vgl. [5]). Die-
bildung der Merkmalshierarchie, wobei diese von einem Ex-           se Datenquellen enthalten i. d. R. die wichtigsten Produkt-
perten erstellt wird. Diese Hierarchie bildet die Grundlage         merkmale. Der hohe Strukturierungsgrad dieser Datenquel-
für die Meinungsextraktion. Die Tonalität der Meinungen           len erlaubt eine Extraktion der Merkmale mit hoher Ge-
wird über ein Tonalitätswörterbuch gelöst. Für diesen An-      nauigkeit (≈ 71% [5]). Allerdings tendieren Datenblätter
satz wird - im Gegensatz zu unserer Methode - umfangrei-            und Produktbeschreibungen dazu, ein Produkt relativ ober-
ches Expertenwissen benötigt.                                      flächlich darzustellen oder zu Gunsten des Produkts zu ver-
Die Arbeit von [8] et. al. konzentriert sich auf die Extrakti-      zerren. Zum Beispiel enthält die Hierarchie in Abbildung
on von Meinungen und die anschließende Tonalitätsanalyse.          1 eine Reihe von Merkmalen, wie sie häufig in strukturier-
Die Autoren unterscheiden zwischen subjektiven und kom-             ten Datenquellen zu finden sind (helle Knoten). Allerdings
parativen Sätze. Sowohl subjektive, als auch komparative           sind weitere, detailliertere Merkmale denkbar, die für eine
Sätze enthalten Meinungen, wobei im komparativen Fall ei-          Kaufentscheidung von Interesse sein könnten. Beispielsweise
ne Meinung nicht direkt gegeben wird, sondern über einen           könnte das Display einer Digitalkamera zur Fleckenbildung
Vergleich mit einem anderen Produkt erfolgt. Die Autoren            am unteren/oberen Rand neigen. Unterer/Oberer Rand
nutzen komparative Sätze, um Produktgraphen zu erzeu-              wird in diesem Fall zu einem Untermerkmal von Display
gen mit deren Hilfe verschiedene Produkte hinsichtlich eines        und Obermerkmal von Fleckenbildung (dunkle Knoten).
Merkmals geordnet werden können. Die notwendigen Tona-             Eine derartige Anreicherung einer gegebenen, unvollständi-
litätswerte werden einem Wörterbuch entnommen.                    gen Merkmalshierarchie kann durch die Verarbeitung von
kundengenerierten, unstrukturierten Rezensionen erfolgen.          z.B. steht DET für einen Artikel, NOUN für ein Hauptwort
Wir halten einen hybriden Ansatz für durchaus sinnvoll: zu-       und ADJ für ein Adjektiv. Weitere Informationen über das
nächst wird eine initiale Merkmalshierarchie mit hoher Ge-        Universal Tagset finden sich in [6].
nauigkeit aus strukturierten Daten gewonnen. Anschließend
wird diese Hierarchie in einer zweiten Verarbeitungshase mit       3.2 Analysepipeline
zusätzlichen Produktmerkmalen angereichert.                          Für die Verarbeitung und Untersuchung der Produktre-
Für den weiteren Verlauf dieses Abschnitts beschränken wir       zensionen haben wir eine für den NLP-Bereich (Natural Lan-
uns auf die zweite Analysephase, d.h. wir nehmen eine in-          guage Processing) typische Standardpipeline benutzt: die
itiale Merkmalshierarchie als gegeben an. Für die Evaluation      Volltexte der Rezensionen sind für unsere Zwecke zu grob-
unseres Algorithmus (siehe Abschnitt 4) wurden die initia-         granular, so dass in einer ersten Phase der Volltext in Sätze
len Merkmalshierarchien manuell erzeugt.                           zerteilt wird. Anschließend werden die Sätze tokenisiert und
Unser Algorithmus wurde auf der Basis einer Reihe von ein-         die Wortarten der einzelnen Worte bestimmt. Des Weite-
fachen Beobachtungen entworfen, die wir bei der Analyse            ren werden Stoppworte markiert - dafür werden Standard-
von unserem Rezensionskorpus gemacht haben.                        Stoppwortlisten benutzt. Wir beenden die Analysepipeline
                                                                   mit einer Stammformreduktion für jedes Wort, um die ver-
  1. Ein Produktmerkmal wird häufig durch ein Hauptwort
                                                                   schiedenen Flexionsformen eines Wortes auf eine kanonische
     repräsentiert.
                                                                   Basis zu bringen.
  2. Viele Hauptwörter können dasselbe Produktmerkmal            Für die Bestimmung zusätzlicher Produktmerkmale aus Pro-
     beschreiben. (Synonyme)                                       duktrezensionen, sind vor allem Hauptworte interessant, die
                                                                   i. d. R. keine Stoppworte sind. Allerdings ist uns aufgefal-
  3. Untermerkmale werden häufig im Kontext ihrer Ober-           len, dass überdurchschnittlich viele Worte fälschlicherweise
     merkmale genannt, wie z. B. ”das Ladegerät der Ka-           als ein Hauptwort erkannt werden - viele dieser Worte sind
     mera”.                                                        Stoppworte. Wir nehmen an, dass die variierende, gramma-
  4. Textfragmente, die von Produktmerkmalen handeln,              tikalische Qualität der Produktrezensionen für die hohe An-
     besitzen häufig eine sehr ähnliche grammatikalische         zahl falsch bestimmer Worte verantwortlich ist. Die Stopp-
     Struktur, wie z.B. ”die Auflösung der Anzeige” oder          wortmarkierung hilft dabei, diesen Fehler etwas auszuglei-
     ”die Laufzeit des Akkus”, wobei Unter- und Obermerk-          chen.
     male gemeinsam genannt werden. Die Struktur der               3.3 Der Algorithmus
     Fragmente lautet [DET, NOUN, DET, NOUN], wo-
     bei DET einen Artikel und NOUN ein Hauptwort be-                 In diesem Abschnitt beschreiben wir einen neuen Algorith-
     schreibt.                                                     mus, um eine initiale Hierarchie von Produktmerkmalen mit
                                                                   zusätzlichen Merkmalen anzureichern, wobei die natürliche
Der Rest dieses Abschnitts gliedert sich wie folgt: zunächst      Ordnung der Merkmale erhalten bleibt (siehe Algorithmus 1).
werden Definitionen in Unterabschnitt 3.1 eingeführt, die         Der Algorithmus erwartet 3 Parameter: eine 2-dimensionale
für das weitere Verständnis notwendig sind. Anschließend         Liste von Token T , die sämtliche Token für jeden Satz ent-
beschreiben wir unsere Analysepipeline, die für die Vorver-       hält (dabei beschreibt die erste Dimension die Sätze, die
arbeitung der Produktrezensionen verwendet wurde, in Un-           zweite Dimensionen die einzelnen Wörter), eine initiale Hier-
terabschnitt 3.2. Darauf aufbauend wird in Unterabschnitt          archie von Merkmalen f und eine Menge von POS-Mustern
3.3 unser Algorithmus im Detail besprochen.                        P . Da der Algorithmus rekursiv arbeitet, wird zusätzlich ein
                                                                   Parameter d übergeben, der die maximale Rekursionstiefe
3.1 Definitionen                                                   angibt. Der Algorithmus bricht ab, sobald die vorgegebene
  Für das Verständnis der nächsten Abschnitte werden eini-      Tiefe erreicht wird (Zeile 1-3).
ge Begriffe benötigt, die in diesem Unterabschnitt definiert
werden sollen:
                                                                   Kandidatensuche (Zeile 4-11). Um geeignete Kandida-
Token. Ein Token t ist ein Paar t = (vword , vP OS ), wobei        ten für neue Produktmerkmale zu finden, werden alle Sätze
vword das Wort und vpos die Wortart angibt. Im Rahmen              betrachtet und jeweils entschieden, ob der Satz eine Realisie-
dieser Arbeit wurde das Universal Tagset [6] benutzt.              rung des aktuell betrachteten Merkmals enthält oder nicht.
                                                                   Wenn ein Satz eine Realisierung hat, dann wird die Funkti-
Merkmal. Wir definieren ein Produktmerkmal f als ein               on applyP atterns aufgerufen. Diese Funktion sucht im über-
Tripel f = (S, C, p), wobei S eine Menge von Synonymen be-         gebenen Satz nach gegebenen POS-Mustern und gibt – so-
schreibt, die als textuelle Realisierung eines Merkmals Ver-       fern mindestens ein Muster anwendbar ist – die entsprechen-
wendung finden können. Die Elemente von S können Wor-            den Token als Kandidat zurück, wobei die Mustersuche auf
te, Produktbezeichnungen und auch Abkürzungen enthal-             das unmittelbare Umfeld der gefundenen Realisierung einge-
ten. Die Hierarchie wird über C und p kontrolliert, wobei         schränkt wird, damit das korrekte POS-Muster zurückgelie-
C eine Menge von Untermerkmalen und p das Obermerk-                fert wird, da POS-Muster mehrfach innerhalb eines Satzes
mal von f angibt. Das Wurzelelement einer Hierarchie be-           vorkommen können.
schreibt das Produkt/die Produktgruppe selbst und besitzt          Im Rahmen dieser Arbeit haben wie die folgenden POS-
kein Obermerkmal.                                                  Muster verwendet:
                                                                      • [DET, NOUN, DET, NOUN]
POS-Muster. Ein POS-Muster q ist eine geordnete Sequenz
von POS-Tags p = [tag1 , tag2 , . . . , tagn ], wobei n die Mus-      • [DET, NOUN, VERB, DET, ADJ, NOUN]
terlänge beschreibt. Ein POS-Tag beschreibt eine Wortart,
 Algorithm 1: refineHierarchy                                      Synonymen. Dazu wird das Wort mit den Synonymen von f
                                                                   verglichen (z.B. mit der Levenshtein-Distanz) und als Syn-
                                                                   onym aufgenommen, falls eine ausreichende Ähnlichkeit be-
     Eingabe : T : Eine 2-dimensionale Liste von Token.            steht. Damit soll verhindert werden, dass die falsche Schreib-
     Eingabe : P : Ein Array von POS-Mustern.                      weise eines eigentlich bekannten Merkmals dazu führt, dass
     Eingabe : f : Eine initiale Merkmalshierarchie.               ein neuer Knoten in die Hierarchie eingefügt wird.
     Eingabe : d : Die maximale Rekursionstiefe.
     Ausgabe: Das Wurzelmerkmal der angereicherten                 Wenn der Token t die Heuristiken erfolgreich passiert hat,
               Hierarchie.                                         dann wird t zu einem neuen Untermerkmal von f (Zeile 27).
  1 if d = 0 then
  2     return f                                                   Rekursiver Aufruf (Zeile 30-32). Nachdem das Merkmal
  3 end                                                            f nun mit zusätzlichen Merkmalen angereichert wurde, wird
  4 C ← {} ;                                                       der Algorithmus rekursiv für alle Untermerkmale von f auf-
  5 for Token[] T ′ ∈ T do                                         gerufen, um diese mit weiteren Merkmalen zu versehen. Die-
  6     for Token t ∈ T ′ do                                       ser Vorgang wiederholt sich solange, bis die maximale Re-
  7         if t.word ∈Sf.S then                                   kursionstiefe erreicht wird.
  8              C ← C applyP attern(T ′ , P ) ;
  9         end
 10     end                                                        Nachbearbeitungsphase. Die Hierarchie, die von Algorith-
 11 end                                                            mus 1 erweitert wurde, muss in einer Nachbearbeitungspha-
 12 for Token[] C ′ ∈ C do
                                                                   se bereinigt werden, da viele Merkmale enthalten sind, die
 13     for Token t ∈ C ′ do                                       keine realen Produktmerkmale beschreiben (Rauschen). Für
 14         if t.pos 6= NOUN then                                  diese Arbeit verwenden wir die relative Häufigkeit eines Un-
 15              next ;                                            termerkmals im Kontext seines Obermerkmals, um nieder-
 16         end                                                    frequente Merkmale (samt Untermerkmalen) aus der Hier-
 17         if t.length ≤ 3 then                                   archie zu entfernen. Es sind aber auch andere Methoden
 18              next ;
 19         end
                                                                   denkbar, wie z.B. eine Gewichtung nach tf-idf [4]. Dabei wird
 20         if hasP arent(t.word, f ) then                         nicht nur die Termhäufigkeit (tf ) betrachtet, sondern auch
 21              next ;                                            die inverse Dokumenthäufigkeit (idf ) mit einbezogen. Der
 22         end                                                    idf eines Terms beschreibt die Bedeutsamkeit des Terms im
 23         if isSynonym(t.word, f.S) then                         Bezug auf die gesamte Dokumentenmenge.
 24              f.S ← t.word ;
 25              next ;
 26         end         S
                                                                   4. EVALUATION
 27         f.C ← f.C ({t.word}, {}, f ) ;                            In diesem Abschnitt diskutieren wir die Vor- und Nachteile
 28     end                                                        unseres Algorithmus. Um unseren Algorithmus evaluieren zu
 29 end                                                            können, haben wir einen geeigneten Korpus aus Kundenre-
 30 for Feature[] f ′ ∈ f.C do                                     zensionen zusammengestellt. Unser Korpus besteht aus 4000
 31     ref ineHierarchy(T, f ′ , P, d − 1);                       Kundenrezensionen von amazon.de aus der Produktgruppe
 32 end
                                                                   Digitalkamera.
                                                                   Wir haben unseren Algorithmus für die genannte Produkt-
                                                                   gruppe eine Hierarchie anreichern lassen. Die initiale Pro-
                                                                   dukthierarchie enthält ein Obermerkmal, welches die Pro-
                                                                   duktgruppe beschreibt. Zudem wurden häufig gebrauchte
Validierungsphase (Zeile 12-29). Die Validierungsphase             Synonyme hinzugefügt, wie z.B. Gerät. Im Weiteren prä-
dient dazu die gefundenen Kandidaten zu validieren, also           sentieren wir exemplarisch die angereicherte Hierarchie. Für
zu entscheiden, ob ein Kandidat ein neues Merkmal enthält.        dieses Experiment wurde die Rekursionstiefe auf 3 gesetzt,
Man beachte, dass es sich bei diesem neuen Merkmal um              niederfrequente Merkmale (relative Häufigkeit < 0, 002) wur-
ein Untermerkmal des aktuellen Produktmerkmals handelt,            den eliminiert. Wir haben für diese Arbeit Rezensionen in
sofern es existiert. Für die Entscheidungsfindung nutzen wir      Deutscher Sprache verwendet, aber der Algorithmus kann
eine Reihe von einfachen Heuristiken. Ein Token t ist kein         leicht auf andere Sprachen angepasst werden. Die erzeug-
Produktmerkmal und wird übergangen, falls t.vword :               te Hierarchie ist in Abbildung 2 dargestellt. Es zeigt sich,
                                                                   dass unser Algorithmus – unter Beachtung der hierarchi-
  1. kein Hauptwort ist (Zeile 14-16).                             schen Struktur – eine Reihe wertvoller Merkmale extrahieren
  2. keine ausreichende Länge besitzt (Zeile 17-19).              konnte: z. B. Batterie mit seinen Untermerkmalen Halte-
                                                                   zeit und Verbrauch oder Akkus mit den Untermerkmalen
  3. ein Synonym von f (oder eines Obermerkmals von f )            Auflad und Zukauf. Es wurden aber auch viele Merkmale
     ist (Zeile 20-22).                                            aus den Rezensionen extrahiert, die entweder keine echten
                                                                   Produktmerkmale sind (z.B. Kompakt oder eine falsche
  4. ein neues Synonym von f darstellt (Zeile 23-26).              Ober-Untermerkmalsbeziehung abbilden (z. B. Haptik und
                                                                   Kamera). Des Weiteren sind einige Merkmale, wie z. B.
   Die 3. Heuristik stellt sicher, dass sich keine Kreise in der   Qualität zu generisch und sollten nicht als Produktmerk-
Hierarchie bilden können. Man beachte, dass Obermerkma-           mal benutzt werden.
le, die nicht direkt voneinander abhängen, gleiche Unter-
merkmale tragen können.
Die 4. Heuristik dient zum Lernen von vorher unbekannten
                                                              malen anreichert. Die neuen Merkmale werden automatisch
                                                              aus unstrukturierten Produktrezensionen gewonnen, wobei
                                                              der Algorithmus versucht die natürliche Ordnung der Pro-
                                                              duktmerkmale zu beachten.
                                                              Wir konnten zeigen, dass unser Algorithmus eine initiale
                                                              Merkmalshierarchie mit sinnvollen Untermerkmalen anrei-
                                                              chern kann, allerdings werden auch viele falsche Merkma-
                                                              le extrahiert und in fehlerhafte Merkmalsbeziehungen ge-
                                                              bracht. Wir halten unseren Algorithmus dennoch für viel-
                                                              versprechend. Unsere weitere Forschung wird sich auf Teila-
                                                              spekte dieser Arbeit konzentrieren:
                                                                 • Die Merkmalsextraktion muss verbessert werden: wir
                                                                   haben beobachtet, dass eine Reihe extrahierter Merk-
                                                                   male keine echten Produktmerkmale beschreiben. Da-
                                                                   bei handelt es sich häufig um sehr allgemeine Wörter
                                                                   wie z.B. Möglichkeiten. Wir bereiten deshalb den
                                                                   Aufbau einer Stoppwortliste für Produktrezensionen
                                                                   vor. Auf diese Weise könnte diese Problematik abge-
                                                                   schwächt werden.
                                                                 • Des Weiteren enthalten die angereicherten Hierarchi-
                                                                   en teilweise Merkmale, die in einer falschen Beziehung
                                                                   zueinander stehen, z.B. induzieren die Merkmale Ak-
                                                                   ku und Akku-Ladegerät eine Ober-Untermerkmals-
                                                                   beziehung: Akku kann als Obermerkmal von Ladege-
                                                                   rät betrachtet werden. Außerdem konnte beobachtet
                                                                   werden, dass einige Merkmalsbeziehungen alternieren:
                                                                   z.B. existieren 2 Merkmale Taste und Druckpunkt
                                                                   in wechselnder Ober-Untermerkmalbeziehung.
                                                                 • Der Algorithmus benötigt POS-Muster, um Untermerk-
                                                                   male in Sätzen zu finden. Für diese Arbeit wurden die
                                                                   verwendeten POS-Muster manuell konstruiert, aber wir
                                                                   planen die Konstruktion der POS-Muster weitestge-
                                                                   hend zu automatisieren. Dazu ist eine umfangreiche
                                                                   Analyse eines großen Korpus notwendig.
                                                                 • Die Bereinigung der erzeugten Hierarchien ist unzurei-
                                                                   chend - die relative Häufigkeit eines Merkmals reicht
                                                                   als Gewichtung für unsere Zwecke nicht aus. Aus die-
                                                                   sem Grund möchten wir mit anderen Gewichtungsma-
                                                                   ßen experimentieren.
                                                                 • Die Experimente in dieser Arbeit sind sehr einfach ge-
                                                                   staltet. Eine sinnvolle Evaluation ist (z. Zt.) nicht mög-
                                                                   lich, da (unseres Wissens nach) kein geeigneter Test-
                                                                   korpus mit annotierten Merkmalshierarchien existiert.
                                                                   Die Konstruktion eines derartigen Korpus ist geplant.
                                                                 • Des Weiteren sind weitere Experimente geplant, um
                                                                   den Effekt der initialen Merkmalshierarchie auf den
                                                                   Algorithmus zu evaluieren. Diese Versuchsreihe um-
                                                                   fasst Experimente mit mehrstufigen, initialen Merk-
                                                                   malshierarchien, die sowohl manuell, als auch automa-
                                                                   tisch erzeugt wurden.

Abbildung 2: Angereicherte Hierarchie für die Pro-              • Abschließend planen wir die Verwendung unseres Al-
duktgruppe Digitalkamera.                                          gorithmus zur Extraktion von Produktmerkmalen in
                                                                   einem Gesamtsystem zur automatischen Zusammen-
                                                                   fassung und Analyse von Produktrezensionen einzu-
                                                                   setzen.
5.   RESÜMEE UND AUSBLICK
  In dieser Arbeit wurde ein neuer Algorithmus vorgestellt,
der auf Basis einer gegebenen – möglicherweise flachen –
Merkmalshierarchie diese Hierarchie mit zusätzlichen Merk-
6.   REFERENZEN
[1] M. Acher, A. Cleve, G. Perrouin, P. Heymans,
    C. Vanbeneden, P. Collet, and P. Lahire. On extracting
    feature models from product descriptions. In
    Proceedings of the Sixth International Workshop on
    Variability Modeling of Software-Intensive Systems,
    VaMoS ’12, pages 45–54, New York, NY, USA, 2012.
    ACM.
[2] F. L. Cruz, J. A. Troyano, F. Enrı́quez, F. J. Ortega,
    and C. G. Vallejo. A knowledge-rich approach to
    feature-based opinion extraction from product reviews.
    In Proceedings of the 2nd international workshop on
    Search and mining user-generated contents, SMUC ’10,
    pages 13–20, New York, NY, USA, 2010. ACM.
[3] M. Hu and B. Liu. Mining and summarizing customer
    reviews. In Proceedings of the tenth ACM SIGKDD
    international conference on Knowledge discovery and
    data mining, KDD ’04, pages 168–177, New York, NY,
    USA, 2004. ACM.
[4] K. S. Jones. A statistical interpretation of term
    specificity and its application in retrieval. Journal of
    Documentation, 28:11–21, 1972.
[5] X. Meng and H. Wang. Mining user reviews: From
    specification to summarization. In Proceedings of the
    ACL-IJCNLP 2009 Conference Short Papers,
    ACLShort ’09, pages 177–180, Stroudsburg, PA, USA,
    2009. Association for Computational Linguistics.
[6] S. Petrov, D. Das, and R. McDonald. A universal
    part-of-speech tagset. In N. C. C. Chair), K. Choukri,
    T. Declerck, M. U. Doğan, B. Maegaard, J. Mariani,
    J. Odijk, and S. Piperidis, editors, Proceedings of the
    Eight International Conference on Language Resources
    and Evaluation (LREC’12), Istanbul, Turkey, may 2012.
    European Language Resources Association (ELRA).
[7] T. Scholz and S. Conrad. Extraction of statements in
    news for a media response analysis. In Proc. of the 18th
    Intl. conf. on Applications of Natural Language
    Processing to Information Systems 2013 (NLDB 2013),
    2013. (to appear).
[8] K. Zhang, R. Narayanan, and A. Choudhary. Voice of
    the customers: Mining online customer reviews for
    product feature-based ranking. In Proceedings of the 3rd
    conference on Online social networks, WOSN’10, pages
    11–11, Berkeley, CA, USA, 2010. USENIX Association.