<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Wissensextraktion im Rahmen des Grids</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Saarbrücken</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Deutschland smetzger@mpi-inf.mpg.de</string-name>
        </contrib>
      </contrib-group>
      <pub-date>
        <year>2010</year>
      </pub-date>
      <abstract>
        <p>Zusammenfassung Moderne Netzwerke stellen immense Datensammlungen bereit, so dass oft weniger das Bescha en von Informationen, als vielmehr das Heraus ltern der relevanten Essenz, den gro ten Aufwand darstellt. Hier konnen Methoden der Wissensextraktion helfen, essentielle Inhalte aus vorliegenden Daten als hoherwertiges Wissen zu extrahieren und damit konkrete Fragestellungen einfacher beantwortbar zu machen. Grid Computing hat zum Ziel verteilte Ressourcen fur alle Beteiligten e zient nutzbar zu machen. Bisherige Umsetzungen haben sich dabei primar auf Rechenleistung als Ressource konzentriert. Um auch die im Grid vorliegenden Daten sinnvoll nutzbar zu machen, bietet es sich an, das enthaltene Wissen zu extrahieren und in eine abstrakte Form zu ubertragen. Extraktionstechnologien konnen hierbei von der Gridinfrastruktur pro tieren und so eine bessere E zienz erreichen. Innerhalb dieser Arbeit wird ein generisches Extraktionsframework vorgestellt, sich ergebende Probleme bei der U bertragung in ein Gridumfeld aufgezeigt und erste Schritte zur Anpassung dargelegt.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>1. EINLEITUNG</title>
      <p>
        Mit der Entstehung von Computernetzwerken entstand auch
der Bedarf entfernte Ressourcen, wie z.B. Rechenleistung
und Speicher, aber auch vorhandene Daten und Dienste, in
den lokalen Arbeitsprozess einzubinden. Dieses Bestreben
brachte das Grid Computing hervor, das darauf abzielt, die
vorhandenen Ressourcen in sogenannten virtuellen
Organisationen fur die jeweiligen Mitglieder zuganglich zu machen.
Bisher konzentrieren sich diese Bemuhungen primar auf
verschiedene Aspekte zur verteilten Berechnung von
Anwendungen, wie z.B. Scheduling, Work ow Management
(UNICORE[
        <xref ref-type="bibr" rid="ref20">19</xref>
        ], Condor[
        <xref ref-type="bibr" rid="ref25">24</xref>
        ]) und Zugri ssicherheit (Globus[
        <xref ref-type="bibr" rid="ref14">13</xref>
        ]).
Allerdings bietet sich, zur Nutzung von Synergien, eine
Zusammenarbeit auch auf Ebene der eigentlichen Inhalte an.
Dazu gehort z.B. eine einheitliche globale Suche nach
diesen Inhalten. Eine Schlusselwortsuche auf den Daten selbst
stellt hierbei nur den kleinsten gemeinsamen Nenner dar.
Die enthaltenen Informationen werden dabei vollstandig
abgebildet, konnen aber auch nur dann gefunden werden, wenn
explizit mit dem richtigen Schlusselwort nach ihnen gesucht
wird. Beispielsweise wird eine Schlusselwortsuche nach dem
Geburtsort von Albert Einstein zu der Anfrage \Einstein
Geburtsort" ein Dokument das lediglich den Satz \Einstein
wurde in Ulm geboren" nicht als Ergebnis liefern. Eine
abstrakte Wissensreprasentation dagegen kann solche
unterschiedlichen Ausdrucksweisen vereinheitlichen und die Suche
nach den eigentlichen Inhalten so erleichtern. Zudem fallt die
Suche nach Beziehungen uber eine Schlusselwortbasierte
Suche schwer. Sind z.B. alle Naturwissenschaftler gesucht, die
in Ulm geboren wurden, lasst sich diese Beziehung
schwerlich als Schlusselwortsuche formulieren. Zur Beantwortuntg
einer solchen Suche bedarf es Hintergrundwissen zur
Identi kation von Naturwissenschaftlern und ihren
Geburtsorten. Liegt solches Wissen z.B. in Ontologien vor, kann die
Fragestellung dagegen recht einfach als SPARQL Anfrage
formuliert werden: \?x hatTyp Naturwissenschaftler . ?x
geborenIn Ulm".
      </p>
      <p>
        Auf der anderen Seite zeigt sich zwar, dass Verfahren der
Wissensextraktion auf Texten durch Einsatz komplexerer
Sprachanalysemethoden deutlich verbesserte Ergebnisse
erzielen konnen (z.B. Deep Syntactic Analysis in LEILA[
        <xref ref-type="bibr" rid="ref22">21</xref>
        ]),
dies geht aber in der Regel auf Kosten der Laufzeit([
        <xref ref-type="bibr" rid="ref21">20</xref>
        ]), da
diese Verfahren einen deutlich hoheren Aufwand erfordern
als beispielsweise relativ einfache Regeln auf Basis der
Zeichenabfolge (z.B. Regulare Ausdrucke).
      </p>
      <p>In der Kombination beider Technologien bietet sich hier
also ein Synergiee ekt an. Einerseits liegen in den
GridCommunitys gro e Mengen an Daten vor, deren Inhalt auf
einem hoheren Abstraktionslevel einheitlich und e zient
durchsuchbar zur Verfugung gestellt werden soll.
Andererseits kann die Wissensextraktion von der verteilten
Rechenleistung des Grids pro tieren. Fur die beteiligten
Communitys ergibt sich der Vorteil, dass eine existierende
Infrastruktur genutzt wird, um ihre Daten mit e zienten Methoden
aufzuwerten und Zugri auf Wissen anderer Communitys zu
erhalten.</p>
      <p>
        Im folgenden wollen wir einen kurzen Einblick in den Stand
der Forschung im Bereich der Wissensextraktion und des
Grid Computing geben. Anschlie end wird in Abschnitt 3
ein generisches Musterbasiertes Verfahren zur
Wissensextraktion, das in einem Grid-Projekt (WisNetGrid [
        <xref ref-type="bibr" rid="ref15">14</xref>
        ])
Verwendung nden soll, vorgestellt. In Abschnitt 5 besprechen
wir letztlich o ene Punkte bzw. mogliche Erweiterungen.
      </p>
    </sec>
    <sec id="sec-2">
      <title>2. VERWANDTE ARBEITEN</title>
      <p>
        Zur Realisierung von Gridinfrastrukturen sind verschiedene
Middlewarekomponenten entstanden, die sich jeweils
Aspekten der verteilten Berechnung von Anwendungen (Jobs) im
Grid widmen. Wahrend UNICORE[
        <xref ref-type="bibr" rid="ref20">19</xref>
        ] primar den Zugri
auf gro e Rechencluster uber ein Grid anstrebt und hierfur
auch ein Job Work ow Management zur Verfugung stellt,
widmete sich Condor[
        <xref ref-type="bibr" rid="ref25">24</xref>
        ] ursprunglich mehr der Vernetzung
von Desktoprechnern, was durch die gro ere
Unbestandigkeit der beteiligten Knoten uber ein Job Work ow
Management hinaus ein Checkpoint System zur
Wiederaufnahme unterbrochener Grid Jobs hervorbrachte. Wahrend beide
Systeme den Datentransfer zu einem ausfuhrenden Knoten
im Grid und zuruck erlauben, bieten Globus[
        <xref ref-type="bibr" rid="ref14">13</xref>
        ] und gLite
[
        <xref ref-type="bibr" rid="ref10">9</xref>
        ] weitergehendere Kontrolle uber die Daten im Grid sowie
ein z.T. detaillierteres Rechtesystem.
      </p>
      <p>
        In Deutschland koordiniert die D-Grid-Initiative[
        <xref ref-type="bibr" rid="ref9">8</xref>
        ] (D-Grid)
Grid-orientierte Projekte mit dem Ziel eine nachhaltige
Grid-Infrastruktur zu scha en. U ber die grundlegenden
Basisdienste zur Einrichtung des Grids hinaus, sollen hierbei
auch hohere Dienste etabliert werden. Die beteiligten
akademischen Communitys setzen sich dabei aus
unterschiedlichen Disziplinen, wie z.B. Linguistik (TextGrid[
        <xref ref-type="bibr" rid="ref16">15</xref>
        ]) und
Astrophysik (AstroGrid[
        <xref ref-type="bibr" rid="ref11">10</xref>
        ]) zusammen, daruberhinaus sind
jedoch auch kommerzielle Projekte (z.B. FinGrid[
        <xref ref-type="bibr" rid="ref13">12</xref>
        ])
eingebunden. Durch die Vielfalt der beteiligten Communitys, liegt
eine gro e Datenheterogenitat vor. Methoden der
Wissensextraktion konnen genutzt werden, um diese Heterogenitat
fur den Nutzer zu uberwinden und eine hoherwertige Suche
auf dem vorhanden Wissen anzubieten. Allerdings bestehen
umgekehrt naturlich auch besondere Anforderungen an die
verwendeten Extraktionsverfahren, z.B. kann eine
Community darauf bestehen, dass extrahiertes Wissen in ihrem
direkten Ein ussbereich verbleibt.
      </p>
      <p>
        Verfahren zur Wissensextraktion versuchen aus
konkreten Informationen in Dateien abstrakte Fakten zu
generieren[
        <xref ref-type="bibr" rid="ref18">17</xref>
        ]. Beispielsweise kann aus der Aussage \Einstein kam
in Ulm zur Welt" das abstrakte Wissen, dass Albert
Einstein in Ulm geboren wurde (als Fakt ausgedruckt
geborenIn(AlbertEinstein,Ulm)) hergeleitet werden. Dazu muss
allerdings der mehrdeutige Ausdruck \Einstein" als eine
Ausdrucksform der eindeutigen Entitat AlbertEinstein erkannt
werden. Es existiert ein breites Spektrum an Verfahren zur
Wissensextraktion, drei der bekanntesten sind Snowball[
        <xref ref-type="bibr" rid="ref2">1</xref>
        ],
KnowItAll[
        <xref ref-type="bibr" rid="ref12">11</xref>
        ] and DIPRE[
        <xref ref-type="bibr" rid="ref1 ref7">6</xref>
        ]. Sie sind anhand einiger
Beispielfakten in der Lage mit statistichen Methoden
automatisch textuelle Muster zu nden, die wahrscheinlich die
zugehorige Relation ausdrucken. Dieser Ansatz kann weiter
verbessert werden, indem bei der Wahl der Muster auch
Gegenbeispiele berucksichtigt werden (siehe LEILA[
        <xref ref-type="bibr" rid="ref22">21</xref>
        ]).
Wahrend diese Verfahren je darauf abzielen fur eine gegebene
Relation weitere Fakten zu nden, versucht z.B.
TextRunner[
        <xref ref-type="bibr" rid="ref4">3</xref>
        ] Fakten aller Relationen, die im Internet auftauchen,
zu extrahieren. Allerdings wird hierbei keine Au osung von
Mehrdeutigkeiten und Umwandlung auf Relationen
durchgefuhrt. Liegen die Daten teilweise strukturiert vor, kann
das durch angepasste Extraktionsverfahren ausgenutzt
werden. So konzentrieren sich einige Ansatze z.B. auf eine
Extraktion aus Wikipedia ([
        <xref ref-type="bibr" rid="ref23">22</xref>
        ],[
        <xref ref-type="bibr" rid="ref3">2</xref>
        ]). In [
        <xref ref-type="bibr" rid="ref19">18</xref>
        ] wurde ein
Framework zur deklarativen Extraktion basierend auf Datalog
eingefuhrt, welches zur Erzeugung von Portalen wie DBlife[
        <xref ref-type="bibr" rid="ref8">7</xref>
        ]
genutzt wurde. Das Modell erlaubt eine regelbasierte
Extraktion mit Abgleich gegen existierendes Wissen, z.B. zur
Bestimmung von Entitaten. Ein anderer Ansatz ([
        <xref ref-type="bibr" rid="ref17">16</xref>
        ]) nutzt
Markov Logik um Entitaten auf Basis von
Wahrscheinlichkeiten zu identi zieren. Dem Ansatz des Lifelong Learning
folgend verwaltet ALICE[
        <xref ref-type="bibr" rid="ref5">4</xref>
        ] eine Wissensbasis in Form einer
Ontologie, die durch extrahierte Fakten regelma ig
erweitert wird. Allerdings gibt es dabei keine Mechanismen, die
die Konsistenz der Ontologie sicherstellen. SOFIE[
        <xref ref-type="bibr" rid="ref24">23</xref>
        ]
vereint Muster-basierte Wissensextraktion mit einer logischen
Konsistenzprufung und eignet sich daher insbesondere zur
fortwahrenden Erweiterung einer Ontologie. Das
angestrebte Extraktionsverfahren fur die Anwendung im Grid basiert
daher auf der SOFIE Architektur.
      </p>
    </sec>
    <sec id="sec-3">
      <title>3. EXTRAKTIONSVERFAHREN</title>
      <p>Auf dem abstrakten Level sind Muster generische
Verallgemeinerungen bestimmter Ausdrucksformen von Wissen.
In Texten sind Muster also beispielsweise
parametrisierte Formulierungen die jeweils einen bestimmten
Sachverhalt auf unterschiedlichen Objekten ausdrucken. Die
Formulierung \Einstein kam in Ulm zur Welt" beispielsweise
beschreibt den Sachverhalt, dass Albert Einstein in Ulm
geboren wurde. Die beiden Komponenten `Einstein' und
`Ulm' konnen dabei einfach ausgetauscht werden, um
denselben Sachverhalt zwischen einer anderen Person und
einem anderen Ort auszudrucken. Ersetzen wir diese
Komponenten also durch Variablen, erhalten wir das
allgemeine Muster X kam in Y zur Welt , welches eine
Ausdrucksform der geborenIn Relation darstellt. Tritt dieses Muster
nun mit einer konkreten Variablenbesetzung auf, z.B. in der
Form Einstein kam in Ulm zur Welt , bezeichnen wir dies
als Musterinstanz. Die gleiche Musterinstanz kann in
verschiedenen Dokumenten auftreten. Solche Vorkommen mit
Bezug zu einer Quelle bezeichnen wir als Mustervorkommen.
Dieser Zusammenhang ist in Abbildung 1 skizziert. Die
Musterinstanz Albert Einstein kam in Ulm zur Welt
wurde hierbei in Dokument D1 gefunden, wahrend in
Dokument D2 eine Instanz des Musters X wurde geboren in Y
vorliegt. Aus beiden Mustervorkommen lasst sich der Fakt
geborenIn(AlbertEinstein,Ulm) ableiten.</p>
      <p>Generell lasst sich das Extraktionsverfahren in vier Schritte
unterteilen. Zuerst mussen Quelldateien auf
Mustervorkommen untersucht werden. Anschlie end werden diese
Vorkommen ausgewertet und potentielle Fakten aus den
Mustervorkommen generiert. Im dritten Schritt werden diese
potentiellen Fakten mit der bestehenden Wissensbasis
abgeglichen. Daraus ergibt sich eine optimale Menge an potentiellen
Fakten, die mit dem bestehenden Wissen in Einklang steht.
Diese Fakten werden dann im letzten Schritt zur
Wissensbasis hinzugefugt. Parallel zur Extraktion von Fakten, werden
auch eigenstandig neue Muster fur bereits bekannte
Relationen erlernt. Ist beispielsweise bereits bekannt, dass Albert
Einstein in Ulm geboren wurde, und in einem Dokument
beginnt ein Satz mit \Albert Einstein erblickte das Licht
der Welt in Ulm ..." kann daraus abgeleitet werden, dass
das Muster X erblickte das Licht der Welt in Y ein guter
Kandidat fur eine Ausdrucksform des Fakts geborenIn(X,Y)
ist. Beide Lernverfahren werden dabei einer gemeinsamen
logischen Evaluierung unterzogen. Basierend auf logischen
Regeln und einer Menge von Fakten und Hypothesen, z.B.
uber neue Muster, wird eine Zuweisung von
Wahrheitswerten zu den Hypothesen gesucht, so dass ein Maximum der
logischen Regeln erfullt ist.</p>
      <p>Aussagen. Eine Aussage besteht aus einer Relation und
einer Liste von Entitaten. Jeder Aussage wird ein binarer
Wahrheitswert zugeordnet, der in eckigen Klammern
angegeben wird:</p>
      <p>
        geborenIn(AlbertEinstein,Ulm) [
        <xref ref-type="bibr" rid="ref2">1</xref>
        ]
Eine Aussage mit Wahrheitswert 1 bezeichnen wir als Fakt,
wahrend eine Aussage mit unbekanntem Wahrheitswert
eine Hypothese darstellt. Ist kein Wahrheitswert angegeben,
handelt es sich um einen Fakt.
      </p>
      <p>Regeln. Die logischen Regeln basieren auf Literalen. Ein
Literal ist eine Aussage ohne Wahrheitswert, bei der sowohl
die Relation als auch die Entitaten durch Variablen ersetzt
werden konnen. Eine Regel ist eine logische Formel erster
Stufe basierend auf Literalen. Zur Instantiierung einer
solchen quanti zierten Regel, wird jede Variable an all ihren
Vorkommen durch die gleiche Entitat ersetzt. Grundsatzlich
mussen Regeln auf allen moglichen Instantiierungen gelten,
um gultig zu sein. U blicherweise wird eine Person
beispielsweise nur an einem Ort geboren. Dies lasst sich vereinfacht
wie folgt als logische Regel ausdrucken:</p>
      <p>geborenIn(X,Y) ):geborenIn(X,Z)
Basisregeln. Im folgenden wollen wir zwei stark
vereinfachte Basisregeln vorstellen, die dem Erlernen neuer Fakten und
moglicher neuer Muster entsprechen. Hierzu bedienen wir
uns zweier spezieller Relationen:
1. patternOcc(P,A,B ) besagt, dass das Muster P mit den
Instanzen A und B (z.B. P= X wurde geboren in Y
mit X=A=\Einstein" und X=B=\Ulm") vorgekommen
ist. Korrekterweise mussten wir hier noch auf das
Dokument, in dem die Musterinstanz gefunden wurde,
eingehen. Darauf verzichten wir an dieser Stelle.
2. expresses(P,R) besagt, dass das Muster P eine
Ausdrucksform der Relation R (also z.B. geborenIn) ist.</p>
      <p>^
Das Erlernen neuer Muster bzw. ihrer Bedeutung kann dann
vereinfacht wie folgt als logische Regel ausgedruckt werden:
patternOcc(P,X,Y)
R1: R(X,Y) )expresses(P,R)
Umgekehrt lasst sich auch das Erlernen neuer Fakten in eine
Regel fassen:
R2:
^
patternOcc(P,X,Y)
expresses(P,R)
)R(X,Y)
Bei beiden Regeln ignorieren wir hier, dass je die Entitaten,
die X und Y entsprechen, noch eindeutig aus den konkreten
Worten identi ziert werden mussten. Dies kann ebenfalls als
Teil der Regel formuliert werden. Ebenso konnen weitere
Regeln domainspezi sches Wissen kodieren, z.B. dass Personen
nur an einem Ort geboren werden konnen.</p>
      <p>Werden Quelldaten bearbeitet, erzeugt jedes gefundene
Mustervorkommen einen entsprechenden patternOcc Fakt.
Zudem konnen wir davon ausgehen, dass bereits einige
Fakten gesuchter Relationen in der Ontologie vorhanden sind,
z.B. weil sie bereits extrahiert wurden oder weil es sich um
die anfangs gegebenen Beispiele handelt. Weiterhin konnten
auch bereits Instanzen der expresses Relation bekannt sein.
Wann immer nun die Voraussetzungen einer Regel erfullt
sind, erzeugt diese Regel eine Hypothese aus der als Folge
angegebenen Aussage.</p>
      <p>Ist z.B. patternOcc( X kam in Y zur Welt ,\Einstein",\Ulm")
und geborenIn(AlbertEinstein,Ulm) gegeben, wird die
Hypothese expresses( X kam in Y zur Welt ,geborenIn) [?]
durch Regel R1 erzeugt.</p>
      <p>Ist die Bearbeitung der Quelldaten abgeschlossen, muss
entschieden werden, welche Hypothesen als wahre Fakten
betrachtet und somit in die Ontologie aufgenommen werden
sollen. Hierzu wird eine Wahrheitszuweisung an die
Hypothesen ermittelt, die ein Maximum an Regelinstanzen erfullt.
D.h. einzelne Regeln durfen grundsatzlich gebrochen
werden. Wenn z.B. bereits in der Ontologie bekannt ist, dass
eine generierte Hypothese nicht wahr sein kann, weil das
Gegenteil bereits wahr ist, muss die entsprechende Regel
gebrochen werden konnen, ohne dass deshalb der komplette
Vorgang fehlschlagt.</p>
      <p>
        Um eine solche Wahrheitszuweisung zu nden, kann die
Problemstellung auf ein maximum satis ability (MAX-SAT)
Problem ([
        <xref ref-type="bibr" rid="ref6">5</xref>
        ]) reduziert werden. Das MAX-SAT Problem
basiert auf Klauseln:
      </p>
      <p>Definition 3.1 (Klausel). Eine Klausel ist eine
Disjunktion X1 _ ::: _ Xn wobei fur alle Xi2f1;:::;ng gilt: Xi ist
entweder eine Variable oder eine negierte Variable.</p>
      <p>Definition 3.2 (MAX-SAT Problem). Gegeben
eine Menge von Klauseln C1; :::; Cn uber m Variablen.
Finde eine Wahrheitszuweisung fur die Variablen, so dass die
Anzahl erfullter Klauseln maximal ist.</p>
      <p>
        Das MAX-SAT Problem ist ein bekanntes NP-vollstandiges
Problem, fur das exakte Algorithmen sowie
Annaherungsverfahren zur Losung existieren ([
        <xref ref-type="bibr" rid="ref6">5</xref>
        ]). Zur U bertragung in
ein MAX-SAT Problem mussen die Regeln per Rewriting in
Klauseln umgewandelt werden und die enthaltenen
Aussagen bzw. ihre Wahrheitswerte bilden die Variablen.
Gewichtete Regeln. In dem vorgestellten Ansatz werden
alle Regeln gleichbehandelt. Allerdings konnen einige Regeln
wichtiger als andere sein. Dies spielt z.B. eine Rolle, wenn
unterschiedlich wahrscheinliche Zuordnungen von Wortern
zu einzelnen Entitaten uber Regeln abgebildet werden.
Zudem kann so existentes Wissen starker gewichtet werden als
neu erlerntes. Das Problem der Zuordnung von
Wahrheitswerten zu den Hypothesen unter Beachtung einer
Regelgewichtung kann nicht in ein MAX-SAT Problem uberfuhrt
werden. Stattdessen kann es aber in ein gewichtetes
MAXSAT Problem ([
        <xref ref-type="bibr" rid="ref6">5</xref>
        ]) uberfuhrt werden. Die U bertragung in
ein gewichtetes MAX-SAT Problem, sowie ein e zienter
Algorithmus zur Losung eines solchen Problems wird in [
        <xref ref-type="bibr" rid="ref24">23</xref>
        ]
diskutiert. Auf beides gehen wir hier nicht weiter ein. Im
Grunde kann die Hypothesenbewertung mit einem
beliebigen Ansatz gelost werden, es muss lediglich eine Zuweisung
von Wahrheitswerten fur die aufgestellten Hypothesen
gefunden werden, die moglichst viele Regeln erfullt und dabei
eine Gewichtung erlaubt. Markov Logik bote z.B. einen
anderen Ansatz.
      </p>
    </sec>
    <sec id="sec-4">
      <title>4. UMSETZUNG IM GRIDUMFELD</title>
      <p>Aus dem Einsatz im Grid ergeben sich besondere
Anforderungen an die Wissensexktraktion. Auf einige wollen wir im
folgenden kurz eingehen.</p>
      <p>Heterogene Daten und Domänen. Durch die Zielsetzung
vollig unterschiedliche Communitys uber eine gemeinsame
Gridarchitektur zu verknupfen und daruber gegenseitigen
Zugri auf in vorhandenen Daten enthaltenes Wissen zu
ermoglichen, ergibt sich eine heterogene Menge an Daten aus
denen abstraktes Wissen extrahiert werden soll. Das
bedeutet einerseits dasss unterschiedliche Formatierungen
strukturierter Inhalte, wie z.B. Tabellen, vorliegen, aber auch
dass ganz unterschiedliches Hintergrundwissen vonnoten ist,
um sinnvoll abstrakte Fakten aus den Daten verschiedener
Communitys zu generieren. Hier bietet das besprochene
Extraktionsframework gute Anpassungsmoglichkeiten.
Einerseits konnen Muster generisch anhand von Beispielwissen
automatisch erlernt werden, so dass sich die Extraktion
inkrementell gestalten lasst. Andererseits konnen Nutzer aber
auch mit entsprechenden Tools direkt Muster vorgeben oder
bei entsprechend modularer Implementierung einzelne
Komponenten des Frameworks fur ihre Belange austauschen.
Dadurch kann z.B. ein alternatives Verfahren zur
Verarbeitung domainspezi scher strukturierter Daten hinzugefugt
werden, dessen Muster sich auf die spezielle Struktur
beziehen. Ebenso konnen auf diese Weise ganzlich andere
Inhalte, wie z.B. Audiodaten oder gra sche Darstellungen,
untersucht werden. Unterschiedliche Mustertypen fur
verschiedene Datenanalysemodule lassen sich parallel verwalten, es
muss lediglich die Information mitgefuhrt werden, welches
Muster zu welchem Analysemodul gehort. Ebenso kann
domainspezi sches Vorwissen in Form von logischen Regeln
ubergeben werden. Alternativ kann Vorwissen in Form von
bestehenden Ontologien zur Verfugung gestellt werden, die
dann in den Reasoningprozess eingebunden werden. Die
Datenheterogenitat im Grid beschrankt sich zudem nicht nur
auf die Dateninhalte und Formate, sondern auch auf die
Sprache der Texte. D.h. das Extraktionsverfahren muss an
verschiedene Sprachen, zum Einsatz im D-Grid
insbesondere an Deutsch, angepasst werden bzw. einfach an weitere
Sprachen anpassbar sein. Einen breiten Basisansatz kann
hier eine einfache leicht anpassbare Textanalyse mit
weitgehend sprachunabhangigen Methoden bilden, die bei
Sprachen fur die noch kein hoherwertiges Analysemodul vorliegt,
zum Einsatz kommt.</p>
      <p>Verteilte Daten - Aufspaltung des Frameworks. Eine
Grundeigenschaft des Grids ist die verteilte Datenlagerung.
Extrahiertes Wissen dagegen sollte zentral in einer
Ontologie vorgehalten werden, um eine e ziente Suche zu erlauben
und die Konsistenz bei (manuellen) A nderungen
sicherstellen zu konnen. Dabei konnen einzelne Communitys eigene
Ontologien unabhangig voneinander verwalten wollen, um
die Kontrolle uber `ihr Wissen' zu behalten. Es ware nun
sehr ine zient alle Daten zur Extraktion zu der jeweiligen
zentralen Stelle, an der die entsprechende Ontologie
vorgehalten wird, zu ubertragen. Einerseits sollte also die
Analyse der vorliegenden Daten moglichst lokal am Lagerort der
Daten geschehen. Andererseits muss die
Extraktionskomponente das extrahierte Wissen in die Ontologie ubertragen
und dabei sicherstellen, dass die Konsistenz gewahrt bleibt.
Hier bietet sich eine Zweiteilung des Extraktionsverfahrens
in einen Extraktionsclient und einen Extrakionsmaster an.
Ersterer ubernimmt das lokale Analysieren von Daten und
extrahiert Mustervorkommen, letzterer aggregiert die
gefundenen Mustervorkommen, generiert daraus Hypothesen und
fugt letztlich neue Erkenntnisse zentral in die Ontologie ein.
So mussen nicht die eigentlichen Daten, sondern lediglich
erkannte Mustervorkommen ubertragen werden. Dabei kann
die Extraktion auch uber das Grid verteilt erfolgen. So
konnen z.B. zur Textanalyse auch rechenintensivere komplexe
Sprachanalysemethoden eingesetzt werden.</p>
      <p>Konfidenzen. Aufgrund der generischen Gestaltung sowie
fehlerhafter Quelldokumente, kann es vorkommen, dass
Fakten extrahiert werden, die nicht als wahr anzusehen sind.
Verschiedene Muster bzw. Mustertypen konnen als
unterschiedlich sicher betrachtet werden. Beispielsweise ist ein
von einer Community manuell vorgegebenes Muster fur
ihre strukturierten Daten, z.B. ein Mapping von Spalten- und
Zeilenattribut in einer Tabelle auf eine Relation, im
Allgemeinen als sicherer anzusehen als ein selbsterlerntes
textuelles Muster. Da die Nutzer im D-Grid aus
unterschiedlichen Fachrichtungen kommen und daher bei
Communityubergreifenden Nachforschungen mit Fakten aus ihnen
fremden Fachbereichen umgehen mussen, sollte der Grad der
Sicherheit einzelner Fakten ersichtlich sein. Hierzu wird ein
Kon denzwert fur jeden Fakt berechnet, der das Vertrauen
darin reprasentiert, dass der Fakt korrekt extrahiert
wurde. Dieser Wert basiert auf dem Vertrauen in die Qualitat
der Quelle und in die Genauigkeit des benutzten Musters.
D.h. es existieren Kon denzwerte fur Muster, Quellen und
Fakten. Ihre Abhangigkeiten werden in Abbildung 2
skizziert. Generell basiert der Kon denzwert eines Fakts auf
allen Mustervorkommen, die ihn bestatigen, bzw. dem durch
sie generierten Vertrauen. Ein Mustervorkommen eines
exakten und sehr wohl erprobten Musters in einer
vertrauenswurdigen Quelle lasst den Fakt glaubwurdig erscheinen. Ist
der einzige Beleg fur den Fakt jedoch ein als unsicher
eingestuftes Muster, das auf einer unglaubwurdigen Quelle
gefunden wurde, so wird der Fakt wenig glaubwurdig erscheinen.
Findet sich beispielsweise der Satz \Albert Einstein erhielt
seinen Nobelpreis fur ..." auf der Wikipediaseite uber
Albert Einstein, so ist dies ein sehr eindeutiger Beleg fur den
Fakt hatAuszeichnungErhalten(AlbertEinstein,Nobelpreis).
Eng damit verknupft ist das Einarbeiten von
Nutzerfeedback. Wird ein extrahierter Fakt von einem Nutzer als
fehlerhaft erkannt, sollte dieses Wissen genutzt werden, um
fur die Zukunft hinzuzulernen. Das kann beispielsweise uber
eine Anpassung der Kon denz in das entsprechende
Muster geschehen. Ein weiterer Schritt ware die Kon denzwerte
auch direkt in das Extraktionsverfahren einzubinden, z.B.
zur Regelgewichtung. Hinzu kommt, dass die gegenwartige
Modellierung der Extraktion eingeschrankt ist. So ist es
beispielsweise nicht ohne weiteres moglich zeitliche oder ortliche
Einschrankungen zu erkennen bzw. mit einem Fakt zu
verknupfen. Ebenso konnen z.B. kausale Zusammenhange nicht
erkannt werden. Die Modellierung von Meinungen und
Wertungen, die sich ja unter Umstanden widersprechen konnen,
wird ebenso noch nicht berucksichtigt.</p>
    </sec>
    <sec id="sec-5">
      <title>5. ZUSAMMENFASSUNG &amp; AUSBLICK</title>
      <p>In der vorliegenden Arbeit wurde ein U berblick uber
aktuelle Verfahren der Wissensextraktion gegeben und ein
generisches Framework zur Wissensextraktion vorgestellt. Darauf
aufbauend wurden einige Aspekte diskutiert, die es bei
einer U bertragung des Extraktionsverfahrens in ein
Gridumfeld zu beachten gilt. Fur einige dieser Problemstellungen
wurden erste Losungsansatze entlang des vorgestellten
Frameworks aufgezeigt. Im weiteren Verlauf der
Forschungsarbeit mussen die noch o enen Problemstellungen
weitergehend analysiert und vollstandige Losungen in Form eines
lau ahigen Systems umgesetzt werden. Dieses wird dann
an die Bedurfnisse zweier Testcommunitys innerhalb von
DGrid angepasst und anschlie end in diesem Rahmen
evaluiert werden.</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>6. LITERATUR</mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          [1]
          <string-name>
            <given-names>E.</given-names>
            <surname>Agichtein</surname>
          </string-name>
          and
          <string-name>
            <given-names>L.</given-names>
            <surname>Gravano</surname>
          </string-name>
          .
          <article-title>Snowball: extracting relations from large plain-text collections</article-title>
          .
          <source>In DL '00</source>
          , pages
          <fpage>85</fpage>
          {
          <fpage>94</fpage>
          ,
          <year>2000</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          [2]
          <string-name>
            <given-names>S.</given-names>
            <surname>Auer</surname>
          </string-name>
          ,
          <string-name>
            <given-names>C.</given-names>
            <surname>Bizer</surname>
          </string-name>
          , G. Kobilarov,
          <string-name>
            <given-names>J.</given-names>
            <surname>Lehmann</surname>
          </string-name>
          , and
          <string-name>
            <surname>Z. Ives.</surname>
          </string-name>
          <article-title>DBpedia: A Nucleus for a Web of Open Data</article-title>
          .
          <source>In ISWC</source>
          , pages
          <volume>11</volume>
          {
          <fpage>15</fpage>
          . Springer,
          <year>2007</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          [3]
          <string-name>
            <given-names>M.</given-names>
            <surname>Banko</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M. J.</given-names>
            <surname>Cafarella</surname>
          </string-name>
          ,
          <string-name>
            <given-names>S.</given-names>
            <surname>Soderland</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Broadhead</surname>
          </string-name>
          , and
          <string-name>
            <given-names>O.</given-names>
            <surname>Etzioni</surname>
          </string-name>
          .
          <source>Open Information Extraction from the Web</source>
          .
          <year>2007</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          [4]
          <string-name>
            <given-names>M.</given-names>
            <surname>Banko</surname>
          </string-name>
          and
          <string-name>
            <given-names>O.</given-names>
            <surname>Etzioni</surname>
          </string-name>
          .
          <article-title>Strategies for lifelong knowledge extraction from the web</article-title>
          .
          <source>In K-CAP '07</source>
          , pages
          <fpage>95</fpage>
          {
          <fpage>102</fpage>
          ,
          <year>2007</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          [5]
          <string-name>
            <given-names>B.</given-names>
            <surname>Borchers</surname>
          </string-name>
          and
          <string-name>
            <given-names>J.</given-names>
            <surname>Furman</surname>
          </string-name>
          .
          <article-title>A two-phase exact algorithm for MAX-SAT and weighted MAX-SAT problems</article-title>
          .
          <source>Journal of Combinatorial Optimization</source>
          ,
          <volume>2</volume>
          :
          <fpage>299</fpage>
          {
          <fpage>306</fpage>
          ,
          <year>1997</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          [6]
          <string-name>
            <given-names>S.</given-names>
            <surname>Brin</surname>
          </string-name>
          .
          <article-title>Extracting patterns and relations from the world wide web</article-title>
          .
          <source>In WebDB '98</source>
          , pages
          <fpage>172</fpage>
          {
          <fpage>183</fpage>
          ,
          <year>1999</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          [7]
          <string-name>
            <given-names>P.</given-names>
            <surname>DeRose</surname>
          </string-name>
          ,
          <string-name>
            <given-names>W.</given-names>
            <surname>Shen</surname>
          </string-name>
          ,
          <string-name>
            <given-names>F.</given-names>
            <surname>Chen</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A.</given-names>
            <surname>Doan</surname>
          </string-name>
          , and
          <string-name>
            <given-names>R.</given-names>
            <surname>Ramakrishnan</surname>
          </string-name>
          .
          <article-title>Building structured web community portals: a top-down, compositional, and incremental approach</article-title>
          .
          <source>In VLDB '07</source>
          , pages
          <fpage>399</fpage>
          {
          <fpage>410</fpage>
          ,
          <year>2007</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          [8]
          <string-name>
            <given-names>D</given-names>
            <surname>-Grid Initiative</surname>
          </string-name>
          . http://www.d-grid.de/.
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          [9]
          <string-name>
            <given-names>E.</given-names>
            <surname>Laure</surname>
          </string-name>
          et al.
          <article-title>Programming the Grid with gLite</article-title>
          .
          <source>In Computational Methods in Science and Technology</source>
          ,
          <year>2006</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          [10]
          <string-name>
            <given-names>H.</given-names>
            <surname>Enke</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Steinmetz</surname>
          </string-name>
          ,
          <string-name>
            <given-names>T.</given-names>
            <surname>Radke</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A.</given-names>
            <surname>Reiser</surname>
          </string-name>
          , T. Roblitz, and
          <string-name>
            <surname>M.</surname>
          </string-name>
          <article-title>Hogqvist</article-title>
          . AstroGrid-D:
          <article-title>Enhancing Astronomic Science with Grid Technology</article-title>
          .
          <year>2007</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          [11]
          <string-name>
            <given-names>O.</given-names>
            <surname>Etzioni</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Cafarella</surname>
          </string-name>
          ,
          <string-name>
            <given-names>D.</given-names>
            <surname>Downey</surname>
          </string-name>
          ,
          <string-name>
            <given-names>S.</given-names>
            <surname>Kok</surname>
          </string-name>
          ,
          <string-name>
            <surname>A.-M. Popescu</surname>
            ,
            <given-names>T.</given-names>
          </string-name>
          <string-name>
            <surname>Shaked</surname>
            ,
            <given-names>S.</given-names>
          </string-name>
          <string-name>
            <surname>Soderland</surname>
            ,
            <given-names>D. S.</given-names>
          </string-name>
          <string-name>
            <surname>Weld</surname>
          </string-name>
          ,
          <article-title>and</article-title>
          <string-name>
            <given-names>A.</given-names>
            <surname>Yates</surname>
          </string-name>
          .
          <article-title>Web-scale information extraction in knowitall: (preliminary results)</article-title>
          .
          <source>In WWW '04</source>
          , pages
          <fpage>100</fpage>
          {
          <fpage>110</fpage>
          ,
          <year>2004</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          [12]
          <string-name>
            <surname>FinGrid - Financial Business</surname>
          </string-name>
          Grid. http://www.fingrid.de/.
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          [13]
          <string-name>
            <given-names>I.</given-names>
            <surname>Foster</surname>
          </string-name>
          ,
          <string-name>
            <given-names>C.</given-names>
            <surname>Kesselman</surname>
          </string-name>
          , and
          <string-name>
            <given-names>S.</given-names>
            <surname>Tuecke</surname>
          </string-name>
          .
          <article-title>The Anatomy of the Grid - Enabling Scalable Virtual Organizations</article-title>
          .
          <source>International Journal of Supercomputer Applications</source>
          ,
          <volume>15</volume>
          :
          <year>2001</year>
          ,
          <year>2001</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          [14]
          <article-title>gLite - Lightweight Middleware for Grid Computing</article-title>
          . http://glite.web.cern.ch/glite/.
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          [15]
          <string-name>
            <given-names>M. W.</given-names>
            <surname>Ku</surname>
          </string-name>
          <article-title>ster, C. Ludwig, and</article-title>
          <string-name>
            <surname>A. Aschenbrenner.</surname>
          </string-name>
          <article-title>TextGrid: eScholarship und vernetzte Angebote</article-title>
          . it - Information Technology,
          <volume>51</volume>
          (
          <issue>4</issue>
          ):
          <volume>183</volume>
          {
          <fpage>190</fpage>
          ,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref17">
        <mixed-citation>
          [16]
          <string-name>
            <given-names>H.</given-names>
            <surname>Poon</surname>
          </string-name>
          and
          <string-name>
            <given-names>P.</given-names>
            <surname>Domingos</surname>
          </string-name>
          .
          <article-title>Joint inference in information extraction</article-title>
          .
          <source>In AAAI'07</source>
          , pages
          <fpage>913</fpage>
          {
          <fpage>918</fpage>
          . AAAI Press,
          <year>2007</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref18">
        <mixed-citation>
          [17]
          <string-name>
            <given-names>S.</given-names>
            <surname>Sarawagi</surname>
          </string-name>
          . Information extraction.
          <source>Foundations and Trends in Databases</source>
          ,
          <volume>1</volume>
          (
          <issue>3</issue>
          ):
          <volume>261</volume>
          {
          <fpage>377</fpage>
          ,
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref19">
        <mixed-citation>
          [18]
          <string-name>
            <given-names>W.</given-names>
            <surname>Shen</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A.</given-names>
            <surname>Doan</surname>
          </string-name>
          ,
          <string-name>
            <given-names>J. F.</given-names>
            <surname>Naughton</surname>
          </string-name>
          , and
          <string-name>
            <given-names>R.</given-names>
            <surname>Ramakrishnan</surname>
          </string-name>
          .
          <article-title>Declarative information extraction using datalog with embedded extraction predicates</article-title>
          .
          <source>In VLDB '07</source>
          , pages
          <fpage>1033</fpage>
          {
          <fpage>1044</fpage>
          ,
          <year>2007</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref20">
        <mixed-citation>
          [19]
          <string-name>
            <given-names>A.</given-names>
            <surname>Streit</surname>
          </string-name>
          ,
          <string-name>
            <given-names>D.</given-names>
            <surname>Erwin</surname>
          </string-name>
          ,
          <string-name>
            <given-names>D.</given-names>
            <surname>Mallmann</surname>
          </string-name>
          ,
          <string-name>
            <given-names>R.</given-names>
            <surname>Menday</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Rambadt</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Riedel</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Romberg</surname>
          </string-name>
          ,
          <string-name>
            <given-names>B.</given-names>
            <surname>Schuller</surname>
          </string-name>
          , and
          <string-name>
            <given-names>P.</given-names>
            <surname>Wieder. UNICORE - From Project</surname>
          </string-name>
          <article-title>Results to Production Grids</article-title>
          .
          <source>In Grid Computing and New Frontiers of High Performance Processing</source>
          ,
          <year>2005</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref21">
        <mixed-citation>
          [20]
          <string-name>
            <given-names>F. M.</given-names>
            <surname>Suchanek</surname>
          </string-name>
          .
          <source>Automated Construction and Growth of a Large Ontology</source>
          .
          <source>PhD thesis</source>
          , Saarland University,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref22">
        <mixed-citation>
          [21]
          <string-name>
            <given-names>F. M.</given-names>
            <surname>Suchanek</surname>
          </string-name>
          , G. Ifrim, and
          <string-name>
            <given-names>G.</given-names>
            <surname>Weikum.</surname>
          </string-name>
          <article-title>Combining linguistic and statistical analysis to extract relations from web documents</article-title>
          .
          <source>In KDD '06</source>
          , pages
          <fpage>712</fpage>
          {
          <fpage>717</fpage>
          . ACM,
          <year>2006</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref23">
        <mixed-citation>
          [22]
          <string-name>
            <given-names>F. M.</given-names>
            <surname>Suchanek</surname>
          </string-name>
          , G. Kasneci, and
          <string-name>
            <given-names>G.</given-names>
            <surname>Weikum. YAGO</surname>
          </string-name>
          :
          <article-title>A Large Ontology from Wikipedia and WordNet</article-title>
          . Web Semant.,
          <volume>6</volume>
          (
          <issue>3</issue>
          ):
          <volume>203</volume>
          {
          <fpage>217</fpage>
          ,
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref24">
        <mixed-citation>
          [23]
          <string-name>
            <given-names>F. M.</given-names>
            <surname>Suchanek</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Sozio</surname>
          </string-name>
          , and
          <string-name>
            <given-names>G.</given-names>
            <surname>Weikum. SOFIE</surname>
          </string-name>
          :
          <article-title>A Self-Organizing Framework for Information Extraction</article-title>
          .
          <source>In WWW</source>
          <year>2009</year>
          ,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref25">
        <mixed-citation>
          [24]
          <string-name>
            <given-names>D.</given-names>
            <surname>Thain</surname>
          </string-name>
          ,
          <string-name>
            <given-names>T.</given-names>
            <surname>Tannenbaum</surname>
          </string-name>
          , and
          <string-name>
            <given-names>M.</given-names>
            <surname>Livny</surname>
          </string-name>
          .
          <article-title>Distributed computing in practice: the Condor experience: Research Articles</article-title>
          .
          <source>Concurr. Comput. : Pract</source>
          . Exper.,
          <volume>17</volume>
          (
          <issue>2-4</issue>
          ):
          <volume>323</volume>
          {
          <fpage>356</fpage>
          ,
          <year>2005</year>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>