=Paper=
{{Paper
|id=None
|storemode=property
|title=Wissensextraktion im Rahmen des Grids
|pdfUrl=https://ceur-ws.org/Vol-581/gvd2010_8_2.pdf
|volume=Vol-581
|dblpUrl=https://dblp.org/rec/conf/gvd/Metzger10
}}
==Wissensextraktion im Rahmen des Grids==
<pdf width="1500px">https://ceur-ws.org/Vol-581/gvd2010_8_2.pdf</pdf>
<pre>
                    Wissensextraktion im Rahmen des Grids

                                                       Steffen Metzger
                                              Max-Planck-Institut für Informatik
                                                      Campus E1 4
                                                Saarbrücken, Deutschland
                                               smetzger@mpi-inf.mpg.de


Zusammenfassung                                                  gebildet, können aber auch nur dann gefunden werden, wenn
Moderne Netzwerke stellen immense Datensammlungen be-            explizit mit dem richtigen Schlüsselwort nach ihnen gesucht
reit, so dass oft weniger das Beschaffen von Informatio-         wird. Beispielsweise wird eine Schlüsselwortsuche nach dem
nen, als vielmehr das Herausfiltern der relevanten Essenz,       Geburtsort von Albert Einstein zu der Anfrage “Einstein
den größten Aufwand darstellt. Hier können Methoden der        Geburtsort” ein Dokument das lediglich den Satz “Einstein
Wissensextraktion helfen, essentielle Inhalte aus vorliegen-     wurde in Ulm geboren” nicht als Ergebnis liefern. Eine ab-
den Daten als höherwertiges Wissen zu extrahieren und da-       strakte Wissensrepräsentation dagegen kann solche unter-
mit konkrete Fragestellungen einfacher beantwortbar zu ma-       schiedlichen Ausdrucksweisen vereinheitlichen und die Suche
chen. Grid Computing hat zum Ziel verteilte Ressourcen für      nach den eigentlichen Inhalten so erleichtern. Zudem fällt die
alle Beteiligten effizient nutzbar zu machen. Bisherige Um-      Suche nach Beziehungen über eine Schlüsselwortbasierte Su-
setzungen haben sich dabei primär auf Rechenleistung als        che schwer. Sind z.B. alle Naturwissenschaftler gesucht, die
Ressource konzentriert. Um auch die im Grid vorliegenden         in Ulm geboren wurden, lässt sich diese Beziehung schwer-
Daten sinnvoll nutzbar zu machen, bietet es sich an, das ent-    lich als Schlüsselwortsuche formulieren. Zur Beantwortuntg
haltene Wissen zu extrahieren und in eine abstrakte Form         einer solchen Suche bedarf es Hintergrundwissen zur Iden-
zu übertragen. Extraktionstechnologien können hierbei von      tifikation von Naturwissenschaftlern und ihren Geburtsor-
der Gridinfrastruktur profitieren und so eine bessere Effizi-    ten. Liegt solches Wissen z.B. in Ontologien vor, kann die
enz erreichen. Innerhalb dieser Arbeit wird ein generisches      Fragestellung dagegen recht einfach als SPARQL Anfrage
Extraktionsframework vorgestellt, sich ergebende Probleme        formuliert werden: “?x hatTyp Naturwissenschaftler . ?x ge-
bei der Übertragung in ein Gridumfeld aufgezeigt und erste      borenIn Ulm”.
Schritte zur Anpassung dargelegt.                                Auf der anderen Seite zeigt sich zwar, dass Verfahren der
                                                                 Wissensextraktion auf Texten durch Einsatz komplexerer
1.   EINLEITUNG                                                  Sprachanalysemethoden deutlich verbesserte Ergebnisse er-
Mit der Entstehung von Computernetzwerken entstand auch          zielen können (z.B. Deep Syntactic Analysis in LEILA[21]),
der Bedarf entfernte Ressourcen, wie z.B. Rechenleistung         dies geht aber in der Regel auf Kosten der Laufzeit([20]), da
und Speicher, aber auch vorhandene Daten und Dienste, in         diese Verfahren einen deutlich höheren Aufwand erfordern
den lokalen Arbeitsprozess einzubinden. Dieses Bestreben         als beispielsweise relativ einfache Regeln auf Basis der Zei-
brachte das Grid Computing hervor, das darauf abzielt, die       chenabfolge (z.B. Reguläre Ausdrücke).
vorhandenen Ressourcen in sogenannten virtuellen Organi-         In der Kombination beider Technologien bietet sich hier
sationen für die jeweiligen Mitglieder zugänglich zu machen.   also ein Synergieeffekt an. Einerseits liegen in den Grid-
Bisher konzentrieren sich diese Bemühungen primär auf ver-     Communitys große Mengen an Daten vor, deren Inhalt auf
schiedene Aspekte zur verteilten Berechnung von Anwen-           einem höheren Abstraktionslevel einheitlich und effizient
dungen, wie z.B. Scheduling, Workflow Management (UNI-           durchsuchbar zur Verfügung gestellt werden soll. Anderer-
CORE[19], Condor[24]) und Zugriffssicherheit (Globus[13]).       seits kann die Wissensextraktion von der verteilten Rechen-
Allerdings bietet sich, zur Nutzung von Synergien, eine Zu-      leistung des Grids profitieren. Für die beteiligten Communi-
sammenarbeit auch auf Ebene der eigentlichen Inhalte an.         tys ergibt sich der Vorteil, dass eine existierende Infrastruk-
Dazu gehört z.B. eine einheitliche globale Suche nach die-      tur genutzt wird, um ihre Daten mit effizienten Methoden
sen Inhalten. Eine Schlüsselwortsuche auf den Daten selbst      aufzuwerten und Zugriff auf Wissen anderer Communitys zu
stellt hierbei nur den kleinsten gemeinsamen Nenner dar.         erhalten.
Die enthaltenen Informationen werden dabei vollständig ab-      Im folgenden wollen wir einen kurzen Einblick in den Stand
                                                                 der Forschung im Bereich der Wissensextraktion und des
                                                                 Grid Computing geben. Anschließend wird in Abschnitt 3
                                                                 ein generisches Musterbasiertes Verfahren zur Wissensex-
                                                                 traktion, das in einem Grid-Projekt (WisNetGrid [14]) Ver-
                                                                 wendung finden soll, vorgestellt. In Abschnitt 5 besprechen
                                                                 wir letztlich offene Punkte bzw. mögliche Erweiterungen.


Copyright is held by the author/owner(s).
GvD Workshop’10, 25.-28.05.2010, Bad Helmstedt, Germany.
2.   VERWANDTE ARBEITEN                                          traktion mit Abgleich gegen existierendes Wissen, z.B. zur
Zur Realisierung von Gridinfrastrukturen sind verschiedene       Bestimmung von Entitäten. Ein anderer Ansatz ([16]) nutzt
Middlewarekomponenten entstanden, die sich jeweils Aspek-        Markov Logik um Entitäten auf Basis von Wahrscheinlich-
ten der verteilten Berechnung von Anwendungen (Jobs) im          keiten zu identifizieren. Dem Ansatz des Lifelong Learning
Grid widmen. Während UNICORE[19] primär den Zugriff            folgend verwaltet ALICE[4] eine Wissensbasis in Form einer
auf große Rechencluster über ein Grid anstrebt und hierfür     Ontologie, die durch extrahierte Fakten regelmäßig erwei-
auch ein Job Workflow Management zur Verfügung stellt,          tert wird. Allerdings gibt es dabei keine Mechanismen, die
widmete sich Condor[24] ursprünglich mehr der Vernetzung        die Konsistenz der Ontologie sicherstellen. SOFIE[23] ver-
von Desktoprechnern, was durch die größere Unbeständig-        eint Muster-basierte Wissensextraktion mit einer logischen
keit der beteiligten Knoten über ein Job Workflow Mana-         Konsistenzprüfung und eignet sich daher insbesondere zur
gement hinaus ein Checkpoint System zur Wiederaufnah-            fortwährenden Erweiterung einer Ontologie. Das angestreb-
me unterbrochener Grid Jobs hervorbrachte. Während beide        te Extraktionsverfahren für die Anwendung im Grid basiert
Systeme den Datentransfer zu einem ausführenden Knoten          daher auf der SOFIE Architektur.
im Grid und zurück erlauben, bieten Globus[13] und gLite
[9] weitergehendere Kontrolle über die Daten im Grid sowie      3.   EXTRAKTIONSVERFAHREN
ein z.T. detaillierteres Rechtesystem.                           Auf dem abstrakten Level sind Muster generische Verall-
In Deutschland koordiniert die D-Grid-Initiative[8] (D-Grid)     gemeinerungen bestimmter Ausdrucksformen von Wissen.
Grid-orientierte Projekte mit dem Ziel eine nachhaltige          In Texten sind Muster also beispielsweise parametrisier-
Grid-Infrastruktur zu schaffen. Über die grundlegenden Ba-      te Formulierungen die jeweils einen bestimmten Sachver-
sisdienste zur Einrichtung des Grids hinaus, sollen hierbei      halt auf unterschiedlichen Objekten ausdrücken. Die For-
auch höhere Dienste etabliert werden. Die beteiligten aka-      mulierung “Einstein kam in Ulm zur Welt” beispielsweise
demischen Communitys setzen sich dabei aus unterschied-          beschreibt den Sachverhalt, dass Albert Einstein in Ulm
lichen Disziplinen, wie z.B. Linguistik (TextGrid[15]) und       geboren wurde. Die beiden Komponenten ‘Einstein’ und
Astrophysik (AstroGrid[10]) zusammen, darüberhinaus sind        ‘Ulm’ können dabei einfach ausgetauscht werden, um den-
jedoch auch kommerzielle Projekte (z.B. FinGrid[12]) einge-      selben Sachverhalt zwischen einer anderen Person und ei-
bunden. Durch die Vielfalt der beteiligten Communitys, liegt     nem anderen Ort auszudrücken. Ersetzen wir diese Kom-
eine große Datenheterogenität vor. Methoden der Wissens-        ponenten also durch Variablen, erhalten wir das allgemei-
extraktion können genutzt werden, um diese Heterogenität
                                                                 ne Muster X kam in Y zur Welt , welches eine Ausdrucks-
für den Nutzer zu überwinden und eine höherwertige Suche
auf dem vorhanden Wissen anzubieten. Allerdings bestehen         form der geborenIn Relation darstellt. Tritt dieses Muster
umgekehrt natürlich auch besondere Anforderungen an die         nun mit einer konkreten Variablenbesetzung auf, z.B. in der
verwendeten Extraktionsverfahren, z.B. kann eine Commu-          Form Einstein kam in Ulm zur Welt , bezeichnen wir dies
nity darauf bestehen, dass extrahiertes Wissen in ihrem di-      als Musterinstanz. Die gleiche Musterinstanz kann in ver-
rekten Einflussbereich verbleibt.                                schiedenen Dokumenten auftreten. Solche Vorkommen mit
                                                                 Bezug zu einer Quelle bezeichnen wir als Mustervorkommen.
Verfahren zur Wissensextraktion versuchen aus konkre-
ten Informationen in Dateien abstrakte Fakten zu generie-
ren[17]. Beispielsweise kann aus der Aussage “Einstein kam
in Ulm zur Welt” das abstrakte Wissen, dass Albert Ein-
stein in Ulm geboren wurde (als Fakt ausgedrückt gebore-
nIn(AlbertEinstein,Ulm)) hergeleitet werden. Dazu muss al-
lerdings der mehrdeutige Ausdruck “Einstein” als eine Aus-
drucksform der eindeutigen Entität AlbertEinstein erkannt
werden. Es existiert ein breites Spektrum an Verfahren zur
Wissensextraktion, drei der bekanntesten sind Snowball[1],
KnowItAll[11] and DIPRE[6]. Sie sind anhand einiger Bei-
spielfakten in der Lage mit statistichen Methoden automa-
tisch textuelle Muster zu finden, die wahrscheinlich die zuge-
hörige Relation ausdrücken. Dieser Ansatz kann weiter ver-     Figure 1: Beispiel der Musterbasierten Extraktion
bessert werden, indem bei der Wahl der Muster auch Ge-
genbeispiele berücksichtigt werden (siehe LEILA[21]). Wäh-     Dieser Zusammenhang ist in Abbildung 1 skizziert. Die
rend diese Verfahren je darauf abzielen für eine gegebene       Musterinstanz Albert Einstein kam in Ulm zur Welt wur-
Relation weitere Fakten zu finden, versucht z.B. TextRun-        de hierbei in Dokument D1 gefunden, während in Doku-
ner[3] Fakten aller Relationen, die im Internet auftauchen,      ment D2 eine Instanz des Musters X wurde geboren in Y
zu extrahieren. Allerdings wird hierbei keine Auflösung von     vorliegt. Aus beiden Mustervorkommen lässt sich der Fakt
Mehrdeutigkeiten und Umwandlung auf Relationen durch-            geborenIn(AlbertEinstein,Ulm) ableiten.
geführt. Liegen die Daten teilweise strukturiert vor, kann
das durch angepasste Extraktionsverfahren ausgenutzt wer-        Generell lässt sich das Extraktionsverfahren in vier Schritte
den. So konzentrieren sich einige Ansätze z.B. auf eine Ex-     unterteilen. Zuerst müssen Quelldateien auf Mustervorkom-
traktion aus Wikipedia ([22],[2]). In [18] wurde ein Frame-      men untersucht werden. Anschließend werden diese Vorkom-
work zur deklarativen Extraktion basierend auf Datalog ein-      men ausgewertet und potentielle Fakten aus den Muster-
geführt, welches zur Erzeugung von Portalen wie DBlife[7]       vorkommen generiert. Im dritten Schritt werden diese po-
genutzt wurde. Das Modell erlaubt eine regelbasierte Ex-         tentiellen Fakten mit der bestehenden Wissensbasis abgegli-
chen. Daraus ergibt sich eine optimale Menge an potentiellen     Umgekehrt lässt sich auch das Erlernen neuer Fakten in eine
Fakten, die mit dem bestehenden Wissen in Einklang steht.        Regel„fassen:                    «
Diese Fakten werden dann im letzten Schritt zur Wissensba-                    patternOcc(P,X,Y)
                                                                 R2:                                 ⇒R(X,Y)
sis hinzugefügt. Parallel zur Extraktion von Fakten, werden             ∧ expresses(P,R)
auch eigenständig neue Muster für bereits bekannte Relatio-
nen erlernt. Ist beispielsweise bereits bekannt, dass Albert     Bei beiden Regeln ignorieren wir hier, dass je die Entitäten,
Einstein in Ulm geboren wurde, und in einem Dokument             die X und Y entsprechen, noch eindeutig aus den konkreten
beginnt ein Satz mit “Albert Einstein erblickte das Licht        Worten identifiziert werden müssten. Dies kann ebenfalls als
der Welt in Ulm ...” kann daraus abgeleitet werden, dass         Teil der Regel formuliert werden. Ebenso können weitere Re-
das Muster X erblickte das Licht der Welt in Y ein guter         geln domainspezifisches Wissen kodieren, z.B. dass Personen
Kandidat für eine Ausdrucksform des Fakts geborenIn(X,Y)        nur an einem Ort geboren werden können.
ist. Beide Lernverfahren werden dabei einer gemeinsamen
logischen Evaluierung unterzogen. Basierend auf logischen        Werden Quelldaten bearbeitet, erzeugt jedes gefundene
Regeln und einer Menge von Fakten und Hypothesen, z.B.           Mustervorkommen einen entsprechenden patternOcc Fakt.
über neue Muster, wird eine Zuweisung von Wahrheitswer-         Zudem können wir davon ausgehen, dass bereits einige Fak-
ten zu den Hypothesen gesucht, so dass ein Maximum der           ten gesuchter Relationen in der Ontologie vorhanden sind,
logischen Regeln erfüllt ist.                                   z.B. weil sie bereits extrahiert wurden oder weil es sich um
                                                                 die anfangs gegebenen Beispiele handelt. Weiterhin könnten
                                                                 auch bereits Instanzen der expresses Relation bekannt sein.
Aussagen. Eine Aussage besteht aus einer Relation und            Wann immer nun die Voraussetzungen einer Regel erfüllt
einer Liste von Entitäten. Jeder Aussage wird ein binärer      sind, erzeugt diese Regel eine Hypothese aus der als Folge
Wahrheitswert zugeordnet, der in eckigen Klammern ange-          angegebenen Aussage.
geben wird:                                                      Ist z.B. patternOcc( X kam in Y zur Welt ,“Einstein”,“Ulm”)
    geborenIn(AlbertEinstein,Ulm) [1]
                                                                 und geborenIn(AlbertEinstein,Ulm) gegeben, wird die
Eine Aussage mit Wahrheitswert 1 bezeichnen wir als Fakt,        Hypothese expresses( X kam in Y zur Welt ,geborenIn) [?]
während eine Aussage mit unbekanntem Wahrheitswert ei-
                                                                 durch Regel R1 erzeugt.
ne Hypothese darstellt. Ist kein Wahrheitswert angegeben,
                                                                 Ist die Bearbeitung der Quelldaten abgeschlossen, muss ent-
handelt es sich um einen Fakt.
                                                                 schieden werden, welche Hypothesen als wahre Fakten be-
                                                                 trachtet und somit in die Ontologie aufgenommen werden
Regeln. Die logischen Regeln basieren auf Literalen. Ein         sollen. Hierzu wird eine Wahrheitszuweisung an die Hypo-
Literal ist eine Aussage ohne Wahrheitswert, bei der sowohl      thesen ermittelt, die ein Maximum an Regelinstanzen erfüllt.
die Relation als auch die Entitäten durch Variablen ersetzt     D.h. einzelne Regeln dürfen grundsätzlich gebrochen wer-
werden können. Eine Regel ist eine logische Formel erster       den. Wenn z.B. bereits in der Ontologie bekannt ist, dass
Stufe basierend auf Literalen. Zur Instantiierung einer sol-     eine generierte Hypothese nicht wahr sein kann, weil das
chen quantifizierten Regel, wird jede Variable an all ihren      Gegenteil bereits wahr ist, muss die entsprechende Regel ge-
Vorkommen durch die gleiche Entität ersetzt. Grundsätzlich     brochen werden können, ohne dass deshalb der komplette
müssen Regeln auf allen möglichen Instantiierungen gelten,     Vorgang fehlschlägt.
um gültig zu sein. Üblicherweise wird eine Person beispiels-   Um eine solche Wahrheitszuweisung zu finden, kann die
weise nur an einem Ort geboren. Dies lässt sich vereinfacht     Problemstellung auf ein maximum satisfiability (MAX-SAT)
wie folgt als logische Regel ausdrücken:                        Problem ([5]) reduziert werden. Das MAX-SAT Problem ba-
    geborenIn(X,Y) ⇒¬geborenIn(X,Z)                              siert auf Klauseln:

Basisregeln. Im folgenden wollen wir zwei stark vereinfach-        Definition 3.1 (Klausel). Eine Klausel ist eine Dis-
te Basisregeln vorstellen, die dem Erlernen neuer Fakten und     junktion X1 ∨ ... ∨ Xn wobei für alle Xi∈{1,...,n} gilt: Xi ist
möglicher neuer Muster entsprechen. Hierzu bedienen wir         entweder eine Variable oder eine negierte Variable.
uns zweier spezieller Relationen:

                                                                   Definition 3.2 (MAX-SAT Problem). Gegeben ei-
  1. patternOcc(P,A,B ) besagt, dass das Muster P mit den
                                                                 ne Menge von Klauseln C1 , ..., Cn über m Variablen. Fin-
     Instanzen A und B (z.B. P= X wurde geboren in Y             de eine Wahrheitszuweisung für die Variablen, so dass die
     mit X=A=“Einstein” und X=B=“Ulm”) vorgekommen               Anzahl erfüllter Klauseln maximal ist.
     ist. Korrekterweise müssten wir hier noch auf das Do-
     kument, in dem die Musterinstanz gefunden wurde,
     eingehen. Darauf verzichten wir an dieser Stelle.           Das MAX-SAT Problem ist ein bekanntes NP-vollständiges
                                                                 Problem, für das exakte Algorithmen sowie Annäherungs-
  2. expresses(P,R) besagt, dass das Muster P eine Aus-          verfahren zur Lösung existieren ([5]). Zur Übertragung in
     drucksform der Relation R (also z.B. geborenIn) ist.        ein MAX-SAT Problem müssen die Regeln per Rewriting in
                                                                 Klauseln umgewandelt werden und die enthaltenen Aussa-
                                                                 gen bzw. ihre Wahrheitswerte bilden die Variablen.
Das Erlernen neuer Muster bzw. ihrer Bedeutung kann dann
vereinfacht wie folgt als logische «
                                   Regel ausgedrückt werden:
                                                                 Gewichtete Regeln. In dem vorgestellten Ansatz werden
     „
             patternOcc(P,X,Y)
R1:                                  ⇒expresses(P,R)
         ∧ R(X,Y)                                                alle Regeln gleichbehandelt. Allerdings können einige Regeln
wichtiger als andere sein. Dies spielt z.B. eine Rolle, wenn    gehend sprachunabhängigen Methoden bilden, die bei Spra-
unterschiedlich wahrscheinliche Zuordnungen von Wörtern        chen für die noch kein höherwertiges Analysemodul vorliegt,
zu einzelnen Entitäten über Regeln abgebildet werden. Zu-     zum Einsatz kommt.
dem kann so existentes Wissen stärker gewichtet werden als
neu erlerntes. Das Problem der Zuordnung von Wahrheits-         Verteilte Daten - Aufspaltung des Frameworks. Eine
werten zu den Hypothesen unter Beachtung einer Regelge-         Grundeigenschaft des Grids ist die verteilte Datenlagerung.
wichtung kann nicht in ein MAX-SAT Problem überführt          Extrahiertes Wissen dagegen sollte zentral in einer Ontolo-
werden. Stattdessen kann es aber in ein gewichtetes MAX-        gie vorgehalten werden, um eine effiziente Suche zu erlauben
SAT Problem ([5]) überführt werden. Die Übertragung in       und die Konsistenz bei (manuellen) Änderungen sicherstel-
ein gewichtetes MAX-SAT Problem, sowie ein effizienter Al-      len zu können. Dabei können einzelne Communitys eigene
gorithmus zur Lösung eines solchen Problems wird in [23]       Ontologien unabhängig voneinander verwalten wollen, um
diskutiert. Auf beides gehen wir hier nicht weiter ein. Im      die Kontrolle über ‘ihr Wissen’ zu behalten. Es wäre nun
Grunde kann die Hypothesenbewertung mit einem beliebi-          sehr ineffizient alle Daten zur Extraktion zu der jeweiligen
gen Ansatz gelöst werden, es muss lediglich eine Zuweisung     zentralen Stelle, an der die entsprechende Ontologie vorge-
von Wahrheitswerten für die aufgestellten Hypothesen ge-       halten wird, zu übertragen. Einerseits sollte also die Analy-
funden werden, die möglichst viele Regeln erfüllt und dabei   se der vorliegenden Daten möglichst lokal am Lagerort der
eine Gewichtung erlaubt. Markov Logik böte z.B. einen an-      Daten geschehen. Andererseits muss die Extraktionskompo-
deren Ansatz.                                                   nente das extrahierte Wissen in die Ontologie übertragen
                                                                und dabei sicherstellen, dass die Konsistenz gewahrt bleibt.
                                                                Hier bietet sich eine Zweiteilung des Extraktionsverfahrens
4.   UMSETZUNG IM GRIDUMFELD                                    in einen Extraktionsclient und einen Extrakionsmaster an.
Aus dem Einsatz im Grid ergeben sich besondere Anforde-         Ersterer übernimmt das lokale Analysieren von Daten und
rungen an die Wissensexktraktion. Auf einige wollen wir im      extrahiert Mustervorkommen, letzterer aggregiert die gefun-
folgenden kurz eingehen.                                        denen Mustervorkommen, generiert daraus Hypothesen und
                                                                fügt letztlich neue Erkenntnisse zentral in die Ontologie ein.
Heterogene Daten und Domänen. Durch die Zielsetzung             So müssen nicht die eigentlichen Daten, sondern lediglich er-
völlig unterschiedliche Communitys über eine gemeinsame       kannte Mustervorkommen übertragen werden. Dabei kann
Gridarchitektur zu verknüpfen und darüber gegenseitigen       die Extraktion auch über das Grid verteilt erfolgen. So kön-
Zugriff auf in vorhandenen Daten enthaltenes Wissen zu er-      nen z.B. zur Textanalyse auch rechenintensivere komplexe
möglichen, ergibt sich eine heterogene Menge an Daten aus      Sprachanalysemethoden eingesetzt werden.
denen abstraktes Wissen extrahiert werden soll. Das bedeu-
tet einerseits dasss unterschiedliche Formatierungen struk-     Konfidenzen. Aufgrund der generischen Gestaltung sowie
turierter Inhalte, wie z.B. Tabellen, vorliegen, aber auch      fehlerhafter Quelldokumente, kann es vorkommen, dass Fak-
dass ganz unterschiedliches Hintergrundwissen vonnöten ist,    ten extrahiert werden, die nicht als wahr anzusehen sind.
um sinnvoll abstrakte Fakten aus den Daten verschiedener        Verschiedene Muster bzw. Mustertypen können als unter-
Communitys zu generieren. Hier bietet das besprochene Ex-       schiedlich sicher betrachtet werden. Beispielsweise ist ein
traktionsframework gute Anpassungsmöglichkeiten. Einer-        von einer Community manuell vorgegebenes Muster für ih-
seits können Muster generisch anhand von Beispielwissen        re strukturierten Daten, z.B. ein Mapping von Spalten- und
automatisch erlernt werden, so dass sich die Extraktion in-     Zeilenattribut in einer Tabelle auf eine Relation, im Allge-
krementell gestalten lässt. Andererseits können Nutzer aber   meinen als sicherer anzusehen als ein selbsterlerntes textu-
auch mit entsprechenden Tools direkt Muster vorgeben oder       elles Muster. Da die Nutzer im D-Grid aus unterschiedli-
bei entsprechend modularer Implementierung einzelne Kom-        chen Fachrichtungen kommen und daher bei Community-
ponenten des Frameworks für ihre Belange austauschen. Da-      übergreifenden Nachforschungen mit Fakten aus ihnen frem-
durch kann z.B. ein alternatives Verfahren zur Verarbei-        den Fachbereichen umgehen müssen, sollte der Grad der Si-
tung domainspezifischer strukturierter Daten hinzugefügt       cherheit einzelner Fakten ersichtlich sein. Hierzu wird ein
werden, dessen Muster sich auf die spezielle Struktur be-       Konfidenzwert für jeden Fakt berechnet, der das Vertrauen
ziehen. Ebenso können auf diese Weise gänzlich andere In-     darin repräsentiert, dass der Fakt korrekt extrahiert wur-
halte, wie z.B. Audiodaten oder grafische Darstellungen, un-    de. Dieser Wert basiert auf dem Vertrauen in die Qualität
tersucht werden. Unterschiedliche Mustertypen für verschie-    der Quelle und in die Genauigkeit des benutzten Musters.
dene Datenanalysemodule lassen sich parallel verwalten, es      D.h. es existieren Konfidenzwerte für Muster, Quellen und
muss lediglich die Information mitgeführt werden, welches      Fakten. Ihre Abhängigkeiten werden in Abbildung 2 skiz-
Muster zu welchem Analysemodul gehört. Ebenso kann do-         ziert. Generell basiert der Konfidenzwert eines Fakts auf al-
mainspezifisches Vorwissen in Form von logischen Regeln         len Mustervorkommen, die ihn bestätigen, bzw. dem durch
übergeben werden. Alternativ kann Vorwissen in Form von        sie generierten Vertrauen. Ein Mustervorkommen eines ex-
bestehenden Ontologien zur Verfügung gestellt werden, die      akten und sehr wohl erprobten Musters in einer vertrauens-
dann in den Reasoningprozess eingebunden werden. Die Da-        würdigen Quelle lässt den Fakt glaubwürdig erscheinen. Ist
tenheterogenität im Grid beschränkt sich zudem nicht nur      der einzige Beleg für den Fakt jedoch ein als unsicher einge-
auf die Dateninhalte und Formate, sondern auch auf die          stuftes Muster, das auf einer unglaubwürdigen Quelle gefun-
Sprache der Texte. D.h. das Extraktionsverfahren muss an        den wurde, so wird der Fakt wenig glaubwürdig erscheinen.
verschiedene Sprachen, zum Einsatz im D-Grid insbesonde-        Findet sich beispielsweise der Satz “Albert Einstein erhielt
re an Deutsch, angepasst werden bzw. einfach an weitere         seinen Nobelpreis für ...” auf der Wikipediaseite über Al-
Sprachen anpassbar sein. Einen breiten Basisansatz kann         bert Einstein, so ist dies ein sehr eindeutiger Beleg für den
hier eine einfache leicht anpassbare Textanalyse mit weit-
                                                                     [6] S. Brin. Extracting patterns and relations from the
                                                                         world wide web. In WebDB ’98, pages 172–183, 1999.
                                                                     [7] P. DeRose, W. Shen, F. Chen, A. Doan, and
                                                                         R. Ramakrishnan. Building structured web community
                                                                         portals: a top-down, compositional, and incremental
                                                                         approach. In VLDB ’07, pages 399–410, 2007.
                                                                     [8] D-Grid Initiative. http://www.d-grid.de/.
                                                                     [9] E. Laure et al. Programming the Grid with gLite. In
Figure 2: Beispiel: Vertrauensfluß der zum Gesamt-                       Computational Methods in Science and Technology,
vertrauen in einen Fakt führt                                           2006.
                                                                    [10] H. Enke, M. Steinmetz, T. Radke, A. Reiser,
                                                                         T. Röblitz, and M. Högqvist. AstroGrid-D: Enhancing
Fakt hatAuszeichnungErhalten(AlbertEinstein,Nobelpreis).
                                                                         Astronomic Science with Grid Technology. 2007.
Eng damit verknüpft ist das Einarbeiten von Nutzerfeed-
back. Wird ein extrahierter Fakt von einem Nutzer als feh-          [11] O. Etzioni, M. Cafarella, D. Downey, S. Kok, A.-M.
lerhaft erkannt, sollte dieses Wissen genutzt werden, um                 Popescu, T. Shaked, S. Soderland, D. S. Weld, and
für die Zukunft hinzuzulernen. Das kann beispielsweise über            A. Yates. Web-scale information extraction in
eine Anpassung der Konfidenz in das entsprechende Mus-                   knowitall: (preliminary results). In WWW ’04, pages
ter geschehen. Ein weiterer Schritt wäre die Konfidenzwerte             100–110, 2004.
auch direkt in das Extraktionsverfahren einzubinden, z.B.           [12] FinGrid - Financial Business Grid.
zur Regelgewichtung. Hinzu kommt, dass die gegenwärtige                 http://www.fingrid.de/.
Modellierung der Extraktion eingeschränkt ist. So ist es bei-      [13] I. Foster, C. Kesselman, and S. Tuecke. The Anatomy
spielsweise nicht ohne weiteres möglich zeitliche oder örtliche        of the Grid - Enabling Scalable Virtual Organizations.
Einschränkungen zu erkennen bzw. mit einem Fakt zu ver-                 International Journal of Supercomputer Applications,
knüpfen. Ebenso können z.B. kausale Zusammenhänge nicht               15:2001, 2001.
erkannt werden. Die Modellierung von Meinungen und Wer-             [14] gLite - Lightweight Middleware for Grid Computing.
tungen, die sich ja unter Umständen widersprechen können,              http://glite.web.cern.ch/glite/.
wird ebenso noch nicht berücksichtigt.                             [15] M. W. Küster, C. Ludwig, and A. Aschenbrenner.
                                                                         TextGrid: eScholarship und vernetzte Angebote. it -
                                                                         Information Technology, 51(4):183–190, 2009.
5.   ZUSAMMENFASSUNG & AUSBLICK                                     [16] H. Poon and P. Domingos. Joint inference in
In der vorliegenden Arbeit wurde ein Überblick über aktuel-
                                                                         information extraction. In AAAI’07, pages 913–918.
le Verfahren der Wissensextraktion gegeben und ein generi-
                                                                         AAAI Press, 2007.
sches Framework zur Wissensextraktion vorgestellt. Darauf
                                                                    [17] S. Sarawagi. Information extraction. Foundations and
aufbauend wurden einige Aspekte diskutiert, die es bei ei-
                                                                         Trends in Databases, 1(3):261–377, 2008.
ner Übertragung des Extraktionsverfahrens in ein Gridum-
feld zu beachten gilt. Für einige dieser Problemstellungen         [18] W. Shen, A. Doan, J. F. Naughton, and
wurden erste Lösungsansätze entlang des vorgestellten Fra-             R. Ramakrishnan. Declarative information extraction
meworks aufgezeigt. Im weiteren Verlauf der Forschungsar-                using datalog with embedded extraction predicates. In
beit müssen die noch offenen Problemstellungen weiterge-                VLDB ’07, pages 1033–1044, 2007.
hend analysiert und vollständige Lösungen in Form eines           [19] A. Streit, D. Erwin, D. Mallmann, R. Menday,
lauffähigen Systems umgesetzt werden. Dieses wird dann                  M. Rambadt, M. Riedel, M. Romberg, B. Schuller,
an die Bedürfnisse zweier Testcommunitys innerhalb von D-               and P. Wieder. UNICORE - From Project Results to
Grid angepasst und anschließend in diesem Rahmen evalu-                  Production Grids. In Grid Computing and New
iert werden.                                                             Frontiers of High Performance Processing, 2005.
                                                                    [20] F. M. Suchanek. Automated Construction and Growth
                                                                         of a Large Ontology. PhD thesis, Saarland University,
6.   LITERATUR                                                           2009.
 [1] E. Agichtein and L. Gravano. Snowball: extracting              [21] F. M. Suchanek, G. Ifrim, and G. Weikum. Combining
     relations from large plain-text collections. In DL ’00,             linguistic and statistical analysis to extract relations
     pages 85–94, 2000.                                                  from web documents. In KDD ’06, pages 712–717.
 [2] S. Auer, C. Bizer, G. Kobilarov, J. Lehmann, and                    ACM, 2006.
     Z. Ives. DBpedia: A Nucleus for a Web of Open Data.            [22] F. M. Suchanek, G. Kasneci, and G. Weikum. YAGO:
     In ISWC, pages 11–15. Springer, 2007.                               A Large Ontology from Wikipedia and WordNet. Web
 [3] M. Banko, M. J. Cafarella, S. Soderland,                            Semant., 6(3):203–217, 2008.
     M. Broadhead, and O. Etzioni. Open Information                 [23] F. M. Suchanek, M. Sozio, and G. Weikum. SOFIE: A
     Extraction from the Web. 2007.                                      Self-Organizing Framework for Information
 [4] M. Banko and O. Etzioni. Strategies for lifelong                    Extraction. In WWW 2009, 2009.
     knowledge extraction from the web. In K-CAP ’07,               [24] D. Thain, T. Tannenbaum, and M. Livny. Distributed
     pages 95–102, 2007.                                                 computing in practice: the Condor experience:
 [5] B. Borchers and J. Furman. A two-phase exact                        Research Articles. Concurr. Comput. : Pract. Exper.,
     algorithm for MAX-SAT and weighted MAX-SAT                          17(2-4):323–356, 2005.
     problems. Journal of Combinatorial Optimization,
     2:299–306, 1997.

</pre>