<?xml version="1.0" encoding="UTF-8"?>
<TEI xml:space="preserve" xmlns="http://www.tei-c.org/ns/1.0" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
xsi:schemaLocation="http://www.tei-c.org/ns/1.0 https://raw.githubusercontent.com/kermitt2/grobid/master/grobid-home/schemas/xsd/Grobid.xsd"
 xmlns:xlink="http://www.w3.org/1999/xlink">
	<teiHeader xml:lang="de">
		<fileDesc>
			<titleStmt>
				<title level="a" type="main">Wissensextraktion im Rahmen des Grids</title>
			</titleStmt>
			<publicationStmt>
				<publisher/>
				<availability status="unknown"><licence/></availability>
			</publicationStmt>
			<sourceDesc>
				<biblStruct>
					<analytic>
						<author role="corresp">
							<persName><forename type="first">Steffen</forename><surname>Metzger</surname></persName>
							<email>smetzger@mpi-inf.mpg.de</email>
							<affiliation key="aff0">
								<orgName type="department">Max-Planck-Institut für Informatik Campus</orgName>
								<address>
									<postCode>E1</postCode>
								</address>
							</affiliation>
							<affiliation key="aff1">
								<address>
									<settlement>Saarbrücken</settlement>
									<country key="DE">Deutschland</country>
								</address>
							</affiliation>
						</author>
						<title level="a" type="main">Wissensextraktion im Rahmen des Grids</title>
					</analytic>
					<monogr>
						<imprint>
							<date/>
						</imprint>
					</monogr>
					<idno type="MD5">F4BDA422DB4F5459C0138349DF4DC17C</idno>
				</biblStruct>
			</sourceDesc>
		</fileDesc>
		<encodingDesc>
			<appInfo>
				<application version="0.7.2" ident="GROBID" when="2023-03-24T05:23+0000">
					<desc>GROBID - A machine learning software for extracting information from scholarly documents</desc>
					<ref target="https://github.com/kermitt2/grobid"/>
				</application>
			</appInfo>
		</encodingDesc>
		<profileDesc>
			<abstract>
<div xmlns="http://www.tei-c.org/ns/1.0"><p>Moderne Netzwerke stellen immense Datensammlungen bereit, so dass oft weniger das Beschaffen von Informationen, als vielmehr das Herausfiltern der relevanten Essenz, den größten Aufwand darstellt. Hier können Methoden der Wissensextraktion helfen, essentielle Inhalte aus vorliegenden Daten als höherwertiges Wissen zu extrahieren und damit konkrete Fragestellungen einfacher beantwortbar zu machen. Grid Computing hat zum Ziel verteilte Ressourcen für alle Beteiligten effizient nutzbar zu machen. Bisherige Umsetzungen haben sich dabei primär auf Rechenleistung als Ressource konzentriert. Um auch die im Grid vorliegenden Daten sinnvoll nutzbar zu machen, bietet es sich an, das enthaltene Wissen zu extrahieren und in eine abstrakte Form zu übertragen. Extraktionstechnologien können hierbei von der Gridinfrastruktur profitieren und so eine bessere Effizienz erreichen. Innerhalb dieser Arbeit wird ein generisches Extraktionsframework vorgestellt, sich ergebende Probleme bei der Übertragung in ein Gridumfeld aufgezeigt und erste Schritte zur Anpassung dargelegt.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="1.">EINLEITUNG</head></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head>Mit der Entstehung von</head><p>Computernetzwerken entstand auch der Bedarf entfernte Ressourcen, wie z.B. Rechenleistung und Speicher, aber auch vorhandene Daten und Dienste, in den lokalen Arbeitsprozess einzubinden. Dieses Bestreben brachte das Grid Computing hervor, das darauf abzielt, die vorhandenen Ressourcen in sogenannten virtuellen Organisationen für die jeweiligen Mitglieder zugänglich zu machen. Bisher konzentrieren sich diese Bemühungen primär auf verschiedene Aspekte zur verteilten Berechnung von Anwendungen, wie z.B. Scheduling, Workflow Management (UNI-CORE[19], Condor[24]) und Zugriffssicherheit (Globus[13]). Allerdings bietet sich, zur Nutzung von Synergien, eine Zusammenarbeit auch auf Ebene der eigentlichen Inhalte an. Dazu gehört z.B. eine einheitliche globale Suche nach diesen Inhalten. Eine Schlüsselwortsuche auf den Daten selbst stellt hierbei nur den kleinsten gemeinsamen Nenner dar. Die enthaltenen Informationen werden dabei vollständig ab-Copyright is held by the author/owner(s).</p></div>
			</abstract>
		</profileDesc>
	</teiHeader>
	<text xml:lang="de">
		<body>
<div xmlns="http://www.tei-c.org/ns/1.0"><p>gebildet, können aber auch nur dann gefunden werden, wenn explizit mit dem richtigen Schlüsselwort nach ihnen gesucht wird. Beispielsweise wird eine Schlüsselwortsuche nach dem Geburtsort von Albert Einstein zu der Anfrage "Einstein Geburtsort" ein Dokument das lediglich den Satz "Einstein wurde in Ulm geboren" nicht als Ergebnis liefern. Eine abstrakte Wissensrepräsentation dagegen kann solche unterschiedlichen Ausdrucksweisen vereinheitlichen und die Suche nach den eigentlichen Inhalten so erleichtern. Zudem fällt die Suche nach Beziehungen über eine Schlüsselwortbasierte Suche schwer. Sind z.B. alle Naturwissenschaftler gesucht, die in Ulm geboren wurden, lässt sich diese Beziehung schwerlich als Schlüsselwortsuche formulieren. Zur Beantwortuntg einer solchen Suche bedarf es Hintergrundwissen zur Identifikation von Naturwissenschaftlern und ihren Geburtsorten. Liegt solches Wissen z.B. in Ontologien vor, kann die Fragestellung dagegen recht einfach als SPARQL Anfrage formuliert werden: "?x hatTyp Naturwissenschaftler . ?x ge-borenIn Ulm". Auf der anderen Seite zeigt sich zwar, dass Verfahren der Wissensextraktion auf Texten durch Einsatz komplexerer Sprachanalysemethoden deutlich verbesserte Ergebnisse erzielen können (z.B. Deep Syntactic Analysis in LEILA <ref type="bibr" target="#b20">[21]</ref>), dies geht aber in der Regel auf Kosten der Laufzeit( <ref type="bibr" target="#b19">[20]</ref>), da diese Verfahren einen deutlich höheren Aufwand erfordern als beispielsweise relativ einfache Regeln auf Basis der Zeichenabfolge (z.B. Reguläre Ausdrücke). In der Kombination beider Technologien bietet sich hier also ein Synergieeffekt an. Einerseits liegen in den Grid-Communitys große Mengen an Daten vor, deren Inhalt auf einem höheren Abstraktionslevel einheitlich und effizient durchsuchbar zur Verfügung gestellt werden soll. Andererseits kann die Wissensextraktion von der verteilten Rechenleistung des Grids profitieren. Für die beteiligten Communitys ergibt sich der Vorteil, dass eine existierende Infrastruktur genutzt wird, um ihre Daten mit effizienten Methoden aufzuwerten und Zugriff auf Wissen anderer Communitys zu erhalten. Im folgenden wollen wir einen kurzen Einblick in den Stand der Forschung im Bereich der Wissensextraktion und des Grid Computing geben. Anschließend wird in Abschnitt 3 ein generisches Musterbasiertes Verfahren zur Wissensextraktion, das in einem Grid-Projekt (WisNetGrid <ref type="bibr" target="#b13">[14]</ref>) Verwendung finden soll, vorgestellt. In Abschnitt 5 besprechen wir letztlich offene Punkte bzw. mögliche Erweiterungen.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="2.">VERWANDTE ARBEITEN</head><p>Zur Realisierung von Gridinfrastrukturen sind verschiedene Middlewarekomponenten entstanden, die sich jeweils Aspekten der verteilten Berechnung von Anwendungen (Jobs) im Grid widmen. Während UNICORE <ref type="bibr" target="#b18">[19]</ref> primär den Zugriff auf große Rechencluster über ein Grid anstrebt und hierfür auch ein Job Workflow Management zur Verfügung stellt, widmete sich Condor <ref type="bibr" target="#b23">[24]</ref> ursprünglich mehr der Vernetzung von Desktoprechnern, was durch die größere Unbeständigkeit der beteiligten Knoten über ein Job Workflow Management hinaus ein Checkpoint System zur Wiederaufnahme unterbrochener Grid Jobs hervorbrachte. Während beide Systeme den Datentransfer zu einem ausführenden Knoten im Grid und zurück erlauben, bieten Globus <ref type="bibr" target="#b12">[13]</ref> und gLite <ref type="bibr" target="#b8">[9]</ref> weitergehendere Kontrolle über die Daten im Grid sowie ein z.T. detaillierteres Rechtesystem. In Deutschland koordiniert die D-Grid-Initiative <ref type="bibr" target="#b7">[8]</ref> (D-Grid) Grid-orientierte Projekte mit dem Ziel eine nachhaltige Grid-Infrastruktur zu schaffen. Über die grundlegenden Basisdienste zur Einrichtung des Grids hinaus, sollen hierbei auch höhere Dienste etabliert werden. Die beteiligten akademischen Communitys setzen sich dabei aus unterschiedlichen Disziplinen, wie z.B. Linguistik (TextGrid <ref type="bibr" target="#b14">[15]</ref>) und Astrophysik (AstroGrid <ref type="bibr" target="#b9">[10]</ref>) zusammen, darüberhinaus sind jedoch auch kommerzielle Projekte (z.B. FinGrid <ref type="bibr" target="#b11">[12]</ref>) eingebunden. Durch die Vielfalt der beteiligten Communitys, liegt eine große Datenheterogenität vor. Methoden der Wissensextraktion können genutzt werden, um diese Heterogenität für den Nutzer zu überwinden und eine höherwertige Suche auf dem vorhanden Wissen anzubieten. Allerdings bestehen umgekehrt natürlich auch besondere Anforderungen an die verwendeten Extraktionsverfahren, z.B. kann eine Community darauf bestehen, dass extrahiertes Wissen in ihrem direkten Einflussbereich verbleibt.</p><p>Verfahren zur Wissensextraktion versuchen aus konkreten Informationen in Dateien abstrakte Fakten zu generieren <ref type="bibr" target="#b16">[17]</ref>. Beispielsweise kann aus der Aussage "Einstein kam in Ulm zur Welt" das abstrakte Wissen, dass Albert Einstein in Ulm geboren wurde (als Fakt ausgedrückt gebore-nIn(AlbertEinstein,Ulm)) hergeleitet werden. Dazu muss allerdings der mehrdeutige Ausdruck "Einstein" als eine Ausdrucksform der eindeutigen Entität AlbertEinstein erkannt werden. Es existiert ein breites Spektrum an Verfahren zur Wissensextraktion, drei der bekanntesten sind Snowball <ref type="bibr" target="#b0">[1]</ref>, KnowItAll <ref type="bibr" target="#b10">[11]</ref> and DIPRE <ref type="bibr" target="#b5">[6]</ref>. Sie sind anhand einiger Beispielfakten in der Lage mit statistichen Methoden automatisch textuelle Muster zu finden, die wahrscheinlich die zugehörige Relation ausdrücken. Dieser Ansatz kann weiter verbessert werden, indem bei der Wahl der Muster auch Gegenbeispiele berücksichtigt werden (siehe LEILA <ref type="bibr" target="#b20">[21]</ref>). Während diese Verfahren je darauf abzielen für eine gegebene Relation weitere Fakten zu finden, versucht z.B. TextRunner <ref type="bibr" target="#b2">[3]</ref> Fakten aller Relationen, die im Internet auftauchen, zu extrahieren. Allerdings wird hierbei keine Auflösung von Mehrdeutigkeiten und Umwandlung auf Relationen durchgeführt. Liegen die Daten teilweise strukturiert vor, kann das durch angepasste Extraktionsverfahren ausgenutzt werden. So konzentrieren sich einige Ansätze z.B. auf eine Extraktion aus Wikipedia ( <ref type="bibr" target="#b21">[22]</ref>, <ref type="bibr" target="#b1">[2]</ref>). In <ref type="bibr" target="#b17">[18]</ref> wurde ein Framework zur deklarativen Extraktion basierend auf Datalog eingeführt, welches zur Erzeugung von Portalen wie DBlife <ref type="bibr" target="#b6">[7]</ref> genutzt wurde. Das Modell erlaubt eine regelbasierte Ex-traktion mit Abgleich gegen existierendes Wissen, z.B. zur Bestimmung von Entitäten. Ein anderer Ansatz ( <ref type="bibr" target="#b15">[16]</ref>) nutzt Markov Logik um Entitäten auf Basis von Wahrscheinlichkeiten zu identifizieren. Dem Ansatz des Lifelong Learning folgend verwaltet ALICE <ref type="bibr" target="#b3">[4]</ref> eine Wissensbasis in Form einer Ontologie, die durch extrahierte Fakten regelmäßig erweitert wird. Allerdings gibt es dabei keine Mechanismen, die die Konsistenz der Ontologie sicherstellen. SOFIE <ref type="bibr" target="#b22">[23]</ref> vereint Muster-basierte Wissensextraktion mit einer logischen Konsistenzprüfung und eignet sich daher insbesondere zur fortwährenden Erweiterung einer Ontologie. Das angestrebte Extraktionsverfahren für die Anwendung im Grid basiert daher auf der SOFIE Architektur.     Konfidenzen. Aufgrund der generischen Gestaltung sowie fehlerhafter Quelldokumente, kann es vorkommen, dass Fakten extrahiert werden, die nicht als wahr anzusehen sind. Verschiedene Muster bzw. Mustertypen können als unterschiedlich sicher betrachtet werden. Beispielsweise ist ein von einer Community manuell vorgegebenes Muster für ihre strukturierten Daten, z.B. ein Mapping von Spalten-und Zeilenattribut in einer Tabelle auf eine Relation, im Allgemeinen als sicherer anzusehen als ein selbsterlerntes textuelles Muster. Da die Nutzer im D-Grid aus unterschiedlichen Fachrichtungen kommen und daher bei Communityübergreifenden Nachforschungen mit Fakten aus ihnen fremden Fachbereichen umgehen müssen, sollte der Grad der Sicherheit einzelner Fakten ersichtlich sein. Hierzu wird ein Konfidenzwert für jeden Fakt berechnet, der das Vertrauen darin repräsentiert, dass der Fakt korrekt extrahiert wurde. Dieser Wert basiert auf dem Vertrauen in die Qualität der Quelle und in die Genauigkeit des benutzten Musters. D.h. es existieren Konfidenzwerte für Muster, Quellen und Fakten. Ihre Abhängigkeiten werden in Abbildung 2 skizziert. Generell basiert der Konfidenzwert eines Fakts auf allen Mustervorkommen, die ihn bestätigen, bzw. dem durch sie generierten Vertrauen. Ein Mustervorkommen eines exakten und sehr wohl erprobten Musters in einer vertrauenswürdigen Quelle lässt den Fakt glaubwürdig erscheinen. Ist der einzige Beleg für den Fakt jedoch ein als unsicher eingestuftes Muster, das auf einer unglaubwürdigen Quelle gefunden wurde, so wird der Fakt wenig glaubwürdig erscheinen. Findet sich beispielsweise der Satz "Albert Einstein erhielt seinen Nobelpreis für ..." auf der Wikipediaseite über Albert Einstein, so ist dies ein sehr eindeutiger Beleg für den </p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="3.">EXTRAKTIONSVERFAHREN</head></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="5.">ZUSAMMENFASSUNG &amp; AUSBLICK</head><p>In der vorliegenden Arbeit wurde ein Überblick über aktuelle Verfahren der Wissensextraktion gegeben und ein generisches Framework zur Wissensextraktion vorgestellt. Darauf aufbauend wurden einige Aspekte diskutiert, die es bei einer Übertragung des Extraktionsverfahrens in ein Gridumfeld zu beachten gilt. Für einige dieser Problemstellungen wurden erste Lösungsansätze entlang des vorgestellten Frameworks aufgezeigt. Im weiteren Verlauf der Forschungsarbeit müssen die noch offenen Problemstellungen weitergehend analysiert und vollständige Lösungen in Form eines lauffähigen Systems umgesetzt werden. Dieses wird dann an die Bedürfnisse zweier Testcommunitys innerhalb von D-Grid angepasst und anschließend in diesem Rahmen evaluiert werden.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="6.">LITERATUR</head></div><figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_0"><head></head><label></label><figDesc>Auf dem abstrakten Level sind Muster generische Verallgemeinerungen bestimmter Ausdrucksformen von Wissen. In Texten sind Muster also beispielsweise parametrisierte Formulierungen die jeweils einen bestimmten Sachverhalt auf unterschiedlichen Objekten ausdrücken. Die Formulierung "Einstein kam in Ulm zur Welt" beispielsweise beschreibt den Sachverhalt, dass Albert Einstein in Ulm geboren wurde. Die beiden Komponenten 'Einstein' und 'Ulm' können dabei einfach ausgetauscht werden, um denselben Sachverhalt zwischen einer anderen Person und einem anderen Ort auszudrücken. Ersetzen wir diese Komponenten also durch Variablen, erhalten wir das allgemeine Muster X kam in Y zur Welt , welches eine Ausdrucksform der geborenIn Relation darstellt. Tritt dieses Muster nun mit einer konkreten Variablenbesetzung auf, z.B. in der Form Einstein kam in Ulm zur Welt , bezeichnen wir dies als Musterinstanz. Die gleiche Musterinstanz kann in verschiedenen Dokumenten auftreten. Solche Vorkommen mit Bezug zu einer Quelle bezeichnen wir als Mustervorkommen.</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_1"><head>Figure 1 :</head><label>1</label><figDesc>Figure 1: Beispiel der Musterbasierten Extraktion Dieser Zusammenhang ist in Abbildung 1 skizziert. Die Musterinstanz Albert Einstein kam in Ulm zur Welt wurde hierbei in Dokument D1 gefunden, während in Dokument D2 eine Instanz des Musters X wurde geboren in Y vorliegt. Aus beiden Mustervorkommen lässt sich der Fakt geborenIn(AlbertEinstein,Ulm) ableiten.Generell lässt sich das Extraktionsverfahren in vier Schritte unterteilen. Zuerst müssen Quelldateien auf Mustervorkommen untersucht werden. Anschließend werden diese Vorkommen ausgewertet und potentielle Fakten aus den Mustervorkommen generiert. Im dritten Schritt werden diese potentiellen Fakten mit der bestehenden Wissensbasis abgegli-</figDesc><graphic coords="2,316.81,433.74,239.10,108.13" type="bitmap" /></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_2"><head>Definition 3 . 2 (</head><label>32</label><figDesc>MAX-SAT Problem). Gegeben eine Menge von Klauseln C1, ..., Cn über m Variablen. Finde eine Wahrheitszuweisung für die Variablen, so dass die Anzahl erfüllter Klauseln maximal ist. Das MAX-SAT Problem ist ein bekanntes NP-vollständiges Problem, für das exakte Algorithmen sowie Annäherungsverfahren zur Lösung existieren ([5]). Zur Übertragung in ein MAX-SAT Problem müssen die Regeln per Rewriting in Klauseln umgewandelt werden und die enthaltenen Aussagen bzw. ihre Wahrheitswerte bilden die Variablen. Gewichtete Regeln. In dem vorgestellten Ansatz werden alle Regeln gleichbehandelt. Allerdings können einige Regeln wichtiger als andere sein. Dies spielt z.B. eine Rolle, wenn unterschiedlich wahrscheinliche Zuordnungen von Wörtern zu einzelnen Entitäten über Regeln abgebildet werden. Zudem kann so existentes Wissen stärker gewichtet werden als neu erlerntes. Das Problem der Zuordnung von Wahrheitswerten zu den Hypothesen unter Beachtung einer Regelgewichtung kann nicht in ein MAX-SAT Problem überführt werden. Stattdessen kann es aber in ein gewichtetes MAX-SAT Problem ([5]) überführt werden. Die Übertragung in ein gewichtetes MAX-SAT Problem, sowie ein effizienter Algorithmus zur Lösung eines solchen Problems wird in [23] diskutiert. Auf beides gehen wir hier nicht weiter ein. Im Grunde kann die Hypothesenbewertung mit einem beliebigen Ansatz gelöst werden, es muss lediglich eine Zuweisung von Wahrheitswerten für die aufgestellten Hypothesen gefunden werden, die möglichst viele Regeln erfüllt und dabei eine Gewichtung erlaubt. Markov Logik böte z.B. einen anderen Ansatz.</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_3"><head>4 .</head><label>4</label><figDesc>UMSETZUNG IM GRIDUMFELD Aus dem Einsatz im Grid ergeben sich besondere Anforderungen an die Wissensexktraktion. Auf einige wollen wir im folgenden kurz eingehen. Heterogene Daten und Domänen. Durch die Zielsetzung völlig unterschiedliche Communitys über eine gemeinsame Gridarchitektur zu verknüpfen und darüber Zugriff auf in vorhandenen Daten enthaltenes Wissen zu ermöglichen, ergibt sich eine heterogene Menge an Daten aus denen abstraktes Wissen extrahiert werden soll. Das bedeutet einerseits dasss unterschiedliche Formatierungen strukturierter Inhalte, wie z.B. Tabellen, vorliegen, aber auch dass ganz unterschiedliches Hintergrundwissen vonnöten ist, um sinnvoll abstrakte Fakten aus den Daten verschiedener Communitys zu generieren. Hier bietet das besprochene Extraktionsframework gute Anpassungsmöglichkeiten. Einerseits können Muster generisch anhand von Beispielwissen automatisch erlernt werden, so dass sich die Extraktion inkrementell gestalten lässt. Andererseits können Nutzer aber auch mit entsprechenden Tools direkt Muster vorgeben oder bei entsprechend modularer Implementierung einzelne Komponenten des Frameworks für ihre Belange austauschen. Dadurch kann z.B. ein alternatives Verfahren zur Verarbeitung domainspezifischer strukturierter Daten hinzugefügt werden, dessen Muster sich auf die spezielle Struktur beziehen. Ebenso können auf diese Weise gänzlich andere Inhalte, wie z.B. Audiodaten oder grafische Darstellungen, untersucht werden. Unterschiedliche Mustertypen für verschiedene Datenanalysemodule lassen sich parallel verwalten, es muss lediglich die Information mitgeführt werden, welches Muster zu welchem Analysemodul gehört. Ebenso kann domainspezifisches Vorwissen in Form von logischen Regeln übergeben werden. Alternativ kann Vorwissen in Form von bestehenden Ontologien zur Verfügung gestellt werden, die dann in den Reasoningprozess eingebunden werden. Die Datenheterogenität im Grid beschränkt sich zudem nicht nur auf die Dateninhalte und Formate, sondern auch auf die Sprache der Texte. D.h. das Extraktionsverfahren muss an verschiedene Sprachen, zum Einsatz im D-Grid insbesondere an Deutsch, angepasst werden bzw. einfach an weitere Sprachen anpassbar sein. Einen breiten Basisansatz kann hier eine einfache leicht anpassbare Textanalyse mit weit-gehend sprachunabhängigen Methoden bilden, die bei Sprachen für die noch kein höherwertiges Analysemodul vorliegt, zum Einsatz kommt. Verteilte Daten -Aufspaltung des Frameworks. Eine Grundeigenschaft des Grids ist die verteilte Datenlagerung. Extrahiertes Wissen dagegen sollte zentral in einer Ontologie vorgehalten werden, um eine effiziente Suche zu erlauben und die Konsistenz bei (manuellen) Änderungen sicherstellen zu können. Dabei können einzelne Communitys eigene Ontologien unabhängig voneinander verwalten wollen, um die Kontrolle über 'ihr Wissen' zu behalten. Es wäre nun sehr ineffizient alle Daten zur Extraktion zu der jeweiligen zentralen Stelle, an der die entsprechende Ontologie vorgehalten wird, zu übertragen. Einerseits sollte also die Analyse der vorliegenden Daten möglichst lokal am Lagerort der Daten geschehen. Andererseits muss die Extraktionskomponente das extrahierte Wissen in die Ontologie übertragen und dabei sicherstellen, dass die Konsistenz gewahrt bleibt. Hier bietet sich eine Zweiteilung des Extraktionsverfahrens in einen Extraktionsclient und einen Extrakionsmaster an. Ersterer übernimmt das lokale Analysieren von Daten und extrahiert Mustervorkommen, letzterer aggregiert die gefundenen Mustervorkommen, generiert daraus Hypothesen und fügt letztlich neue Erkenntnisse zentral in die Ontologie ein. So müssen nicht die eigentlichen Daten, sondern lediglich erkannte Mustervorkommen übertragen werden. Dabei kann die Extraktion auch über das Grid verteilt erfolgen. So können z.B. zur Textanalyse auch rechenintensivere komplexe Sprachanalysemethoden eingesetzt werden.</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_4"><head>Figure 2 :</head><label>2</label><figDesc>Figure 2: Beispiel: Vertrauensfluß der zum Gesamtvertrauen in einen Fakt führt</figDesc><graphic coords="5,53.80,53.80,239.09,72.99" type="bitmap" /></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" type="table" xml:id="tab_0"><head></head><label></label><figDesc>zur Extraktion von Fakten, werden auch eigenständig neue Muster für bereits bekannte Relationen erlernt. Ist beispielsweise bereits bekannt, dass Albert Einstein in Ulm geboren wurde, und in einem Dokument beginnt ein Satz mit "Albert Einstein erblickte das Licht der Welt in Ulm ..." kann daraus abgeleitet werden, dass das Muster X erblickte das Licht der Welt in Y ein guter Kandidat für eine Ausdrucksform des Fakts geborenIn(X,Y) ist. Beide Lernverfahren werden dabei einer gemeinsamen logischen Evaluierung unterzogen. Basierend auf logischen Regeln und einer Menge von Fakten und Hypothesen, z.B. über neue Muster, wird eine Zuweisung von Wahrheitswerten zu den Hypothesen gesucht, so dass ein Maximum der logischen Regeln erfüllt ist. Aussagen. Eine Aussage besteht aus einer Relation und einer Liste von Entitäten. Jeder Aussage wird ein binärer Wahrheitswert zugeordnet, der in eckigen Klammern angegeben wird: geborenIn(AlbertEinstein,Ulm) [1] Eine Aussage mit Wahrheitswert 1 bezeichnen wir als Fakt, während eine Aussage mit unbekanntem Wahrheitswert eine Hypothese darstellt. Ist kein Wahrheitswert angegeben, handelt es sich um einen Fakt. Eine Klausel ist eine Disjunktion X1 ∨ ... ∨ Xn wobei für alle X i∈{1,...,n} gilt: Xi ist entweder eine Variable oder eine negierte Variable.</figDesc><table><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">Umgekehrt lässt sich auch das Erlernen neuer Fakten in eine</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">Regel fassen:</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell>R2:</cell><cell>"</cell><cell>patternOcc(P,X,Y) ∧ expresses(P,R)</cell><cell>«</cell><cell>⇒R(X,Y)</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">Bei beiden Regeln ignorieren wir hier, dass je die Entitäten,</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">die X und Y entsprechen, noch eindeutig aus den konkreten</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">Worten identifiziert werden müssten. Dies kann ebenfalls als</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">Teil der Regel formuliert werden. Ebenso können weitere Re-</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">geln domainspezifisches Wissen kodieren, z.B. dass Personen</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">nur an einem Ort geboren werden können.</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">Werden Quelldaten bearbeitet, erzeugt jedes gefundene</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">Mustervorkommen einen entsprechenden patternOcc Fakt.</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">Zudem können wir davon ausgehen, dass bereits einige Fak-</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">ten gesuchter Relationen in der Ontologie vorhanden sind,</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">z.B. weil sie bereits extrahiert wurden oder weil es sich um</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">die anfangs gegebenen Beispiele handelt. Weiterhin könnten</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">auch bereits Instanzen der expresses Relation bekannt sein.</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">Wann immer nun die Voraussetzungen einer Regel erfüllt</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">sind, erzeugt diese Regel eine Hypothese aus der als Folge</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">angegebenen Aussage.</cell></row><row><cell cols="5">Basisregeln. Im folgenden wollen wir zwei stark vereinfach-</cell></row><row><cell cols="5">te Basisregeln vorstellen, die dem Erlernen neuer Fakten und</cell></row><row><cell cols="5">möglicher neuer Muster entsprechen. Hierzu bedienen wir</cell></row><row><cell cols="3">uns zweier spezieller Relationen:</cell><cell></cell><cell></cell></row><row><cell cols="5">1. patternOcc(P,A,B ) besagt, dass das Muster P mit den</cell></row><row><cell></cell><cell cols="4">Instanzen A und B (z.B. P= X wurde geboren in Y</cell></row><row><cell></cell><cell cols="4">mit X=A="Einstein" und X=B="Ulm") vorgekommen</cell></row><row><cell></cell><cell cols="4">ist. Korrekterweise müssten wir hier noch auf das Do-</cell></row><row><cell></cell><cell cols="4">kument, in dem die Musterinstanz gefunden wurde,</cell></row><row><cell></cell><cell cols="4">eingehen. Darauf verzichten wir an dieser Stelle.</cell></row><row><cell cols="5">2. expresses(P,R) besagt, dass das Muster P eine Aus-</cell></row><row><cell></cell><cell cols="4">drucksform der Relation R (also z.B. geborenIn) ist.</cell></row><row><cell cols="5">Das Erlernen neuer Muster bzw. ihrer Bedeutung kann dann</cell></row><row><cell cols="5">vereinfacht wie folgt als logische Regel ausgedrückt werden:</cell></row><row><cell>R1:</cell><cell>"</cell><cell>patternOcc(P,X,Y) ∧ R(X,Y)</cell><cell>«</cell><cell>⇒expresses(P,R)</cell></row></table><note>Regeln. Die logischen Regeln basieren auf Literalen. Ein Literal ist eine Aussage ohne Wahrheitswert, bei der sowohl die Relation als auch die Entitäten durch Variablen ersetzt werden können. Eine Regel ist eine logische Formel erster Stufe basierend auf Literalen. Zur Instantiierung einer solchen quantifizierten Regel, wird jede Variable an all ihren Vorkommen durch die gleiche Entität ersetzt. Grundsätzlich müssen Regeln auf allen möglichen Instantiierungen gelten, um gültig zu sein. Üblicherweise wird eine Person beispielsweise nur an einem Ort geboren. Dies lässt sich vereinfacht wie folgt als logische Regel ausdrücken: geborenIn(X,Y) ⇒¬geborenIn(X,Z) Ist z.B. patternOcc( X kam in Y zur Welt ,"Einstein","Ulm") und geborenIn(AlbertEinstein,Ulm) gegeben, wird die Hypothese expresses( X kam in Y zur Welt ,geborenIn) [?] durch Regel R1 erzeugt. Ist die Bearbeitung der Quelldaten abgeschlossen, muss entschieden werden, welche Hypothesen als wahre Fakten betrachtet und somit in die Ontologie aufgenommen werden sollen. Hierzu wird eine Wahrheitszuweisung an die Hypothesen ermittelt, die ein Maximum an Regelinstanzen erfüllt. D.h. einzelne Regeln dürfen grundsätzlich gebrochen werden. Wenn z.B. bereits in der Ontologie bekannt ist, dass eine generierte Hypothese nicht wahr sein kann, weil das Gegenteil bereits wahr ist, muss die entsprechende Regel gebrochen werden können, ohne dass deshalb der komplette Vorgang fehlschlägt. Um eine solche Wahrheitszuweisung zu finden, kann die Problemstellung auf ein maximum satisfiability (MAX-SAT) Problem ([5]) reduziert werden. Das MAX-SAT Problem basiert auf Klauseln: Definition 3.1 (Klausel).</note></figure>
		</body>
		<back>
			<div type="references">

				<listBibl>

<biblStruct xml:id="b0">
	<analytic>
		<title level="a" type="main">Snowball: extracting relations from large plain-text collections</title>
		<author>
			<persName><forename type="first">E</forename><surname>Agichtein</surname></persName>
		</author>
		<author>
			<persName><forename type="first">L</forename><surname>Gravano</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">DL &apos;00</title>
				<imprint>
			<date type="published" when="2000">2000</date>
			<biblScope unit="page" from="85" to="94" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b1">
	<analytic>
		<title level="a" type="main">DBpedia: A Nucleus for a Web of Open Data</title>
		<author>
			<persName><forename type="first">S</forename><surname>Auer</surname></persName>
		</author>
		<author>
			<persName><forename type="first">C</forename><surname>Bizer</surname></persName>
		</author>
		<author>
			<persName><forename type="first">G</forename><surname>Kobilarov</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><surname>Lehmann</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Z</forename><surname>Ives</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">ISWC</title>
				<imprint>
			<publisher>Springer</publisher>
			<date type="published" when="2007">2007</date>
			<biblScope unit="page" from="11" to="15" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b2">
	<monogr>
		<title level="m" type="main">Open Information Extraction from the Web</title>
		<author>
			<persName><forename type="first">M</forename><surname>Banko</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><forename type="middle">J</forename><surname>Cafarella</surname></persName>
		</author>
		<author>
			<persName><forename type="first">S</forename><surname>Soderland</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Broadhead</surname></persName>
		</author>
		<author>
			<persName><forename type="first">O</forename><surname>Etzioni</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2007">2007</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b3">
	<analytic>
		<title level="a" type="main">Strategies for lifelong knowledge extraction from the web</title>
		<author>
			<persName><forename type="first">M</forename><surname>Banko</surname></persName>
		</author>
		<author>
			<persName><forename type="first">O</forename><surname>Etzioni</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">K-CAP &apos;</title>
		<imprint>
			<biblScope unit="volume">07</biblScope>
			<biblScope unit="page" from="95" to="102" />
			<date type="published" when="2007">2007</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b4">
	<analytic>
		<title level="a" type="main">A two-phase exact algorithm for MAX-SAT and weighted MAX-SAT problems</title>
		<author>
			<persName><forename type="first">B</forename><surname>Borchers</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><surname>Furman</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Journal of Combinatorial Optimization</title>
		<imprint>
			<biblScope unit="volume">2</biblScope>
			<biblScope unit="page" from="299" to="306" />
			<date type="published" when="1997">1997</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b5">
	<analytic>
		<title level="a" type="main">Extracting patterns and relations from the world wide web</title>
		<author>
			<persName><forename type="first">S</forename><surname>Brin</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">WebDB &apos;98</title>
				<imprint>
			<date type="published" when="1999">1999</date>
			<biblScope unit="page" from="172" to="183" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b6">
	<analytic>
		<title level="a" type="main">Building structured web community portals: a top-down, compositional, and incremental approach</title>
		<author>
			<persName><forename type="first">P</forename><surname>Derose</surname></persName>
		</author>
		<author>
			<persName><forename type="first">W</forename><surname>Shen</surname></persName>
		</author>
		<author>
			<persName><forename type="first">F</forename><surname>Chen</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A</forename><surname>Doan</surname></persName>
		</author>
		<author>
			<persName><forename type="first">R</forename><surname>Ramakrishnan</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">VLDB &apos;07</title>
				<imprint>
			<date type="published" when="2007">2007</date>
			<biblScope unit="page" from="399" to="410" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b7">
	<monogr>
		<ptr target="http://www.d-grid.de/" />
		<title level="m">D-Grid Initiative</title>
				<imprint/>
	</monogr>
</biblStruct>

<biblStruct xml:id="b8">
	<analytic>
		<title level="a" type="main">Programming the Grid with gLite</title>
		<author>
			<persName><forename type="first">E</forename><surname>Laure</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">Computational Methods in Science and Technology</title>
				<imprint>
			<date type="published" when="2006">2006</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b9">
	<monogr>
		<title level="m" type="main">AstroGrid-D: Enhancing Astronomic Science with Grid Technology</title>
		<author>
			<persName><forename type="first">H</forename><surname>Enke</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Steinmetz</surname></persName>
		</author>
		<author>
			<persName><forename type="first">T</forename><surname>Radke</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A</forename><surname>Reiser</surname></persName>
		</author>
		<author>
			<persName><forename type="first">T</forename><surname>Röblitz</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Högqvist</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2007">2007</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b10">
	<analytic>
		<title level="a" type="main">Web-scale information extraction in knowitall: (preliminary results)</title>
		<author>
			<persName><forename type="first">O</forename><surname>Etzioni</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Cafarella</surname></persName>
		</author>
		<author>
			<persName><forename type="first">D</forename><surname>Downey</surname></persName>
		</author>
		<author>
			<persName><forename type="first">S</forename><surname>Kok</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A.-M</forename><surname>Popescu</surname></persName>
		</author>
		<author>
			<persName><forename type="first">T</forename><surname>Shaked</surname></persName>
		</author>
		<author>
			<persName><forename type="first">S</forename><surname>Soderland</surname></persName>
		</author>
		<author>
			<persName><forename type="first">D</forename><forename type="middle">S</forename><surname>Weld</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A</forename><surname>Yates</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">WWW &apos;04</title>
				<imprint>
			<date type="published" when="2004">2004</date>
			<biblScope unit="page" from="100" to="110" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b11">
	<monogr>
		<ptr target="http://www.fingrid.de/" />
		<title level="m">FinGrid -Financial Business Grid</title>
				<imprint/>
	</monogr>
</biblStruct>

<biblStruct xml:id="b12">
	<analytic>
		<title level="a" type="main">The Anatomy of the Grid -Enabling Scalable Virtual Organizations</title>
		<author>
			<persName><forename type="first">I</forename><surname>Foster</surname></persName>
		</author>
		<author>
			<persName><forename type="first">C</forename><surname>Kesselman</surname></persName>
		</author>
		<author>
			<persName><forename type="first">S</forename><surname>Tuecke</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">International Journal of Supercomputer Applications</title>
		<imprint>
			<biblScope unit="volume">15</biblScope>
			<biblScope unit="page">2001</biblScope>
			<date type="published" when="2001">2001</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b13">
	<monogr>
		<ptr target="http://glite.web.cern.ch/glite/" />
		<title level="m">gLite -Lightweight Middleware for Grid Computing</title>
				<imprint/>
	</monogr>
</biblStruct>

<biblStruct xml:id="b14">
	<analytic>
		<title level="a" type="main">TextGrid: eScholarship und vernetzte Angebote</title>
		<author>
			<persName><forename type="first">M</forename><forename type="middle">W</forename><surname>Küster</surname></persName>
		</author>
		<author>
			<persName><forename type="first">C</forename><surname>Ludwig</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A</forename><surname>Aschenbrenner</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">it -Information Technology</title>
		<imprint>
			<biblScope unit="volume">51</biblScope>
			<biblScope unit="issue">4</biblScope>
			<biblScope unit="page" from="183" to="190" />
			<date type="published" when="2009">2009</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b15">
	<analytic>
		<title level="a" type="main">Joint inference in information extraction</title>
		<author>
			<persName><forename type="first">H</forename><surname>Poon</surname></persName>
		</author>
		<author>
			<persName><forename type="first">P</forename><surname>Domingos</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">AAAI&apos;07</title>
				<imprint>
			<publisher>AAAI Press</publisher>
			<date type="published" when="2007">2007</date>
			<biblScope unit="page" from="913" to="918" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b16">
	<analytic>
		<title level="a" type="main">Information extraction</title>
		<author>
			<persName><forename type="first">S</forename><surname>Sarawagi</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Foundations and Trends in Databases</title>
		<imprint>
			<biblScope unit="volume">1</biblScope>
			<biblScope unit="issue">3</biblScope>
			<biblScope unit="page" from="261" to="377" />
			<date type="published" when="2008">2008</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b17">
	<analytic>
		<title level="a" type="main">Declarative information extraction using datalog with embedded extraction predicates</title>
		<author>
			<persName><forename type="first">W</forename><surname>Shen</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A</forename><surname>Doan</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><forename type="middle">F</forename><surname>Naughton</surname></persName>
		</author>
		<author>
			<persName><forename type="first">R</forename><surname>Ramakrishnan</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">VLDB &apos;07</title>
				<imprint>
			<date type="published" when="2007">2007</date>
			<biblScope unit="page" from="1033" to="1044" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b18">
	<analytic>
		<title level="a" type="main">UNICORE -From Project Results to Production Grids</title>
		<author>
			<persName><forename type="first">A</forename><surname>Streit</surname></persName>
		</author>
		<author>
			<persName><forename type="first">D</forename><surname>Erwin</surname></persName>
		</author>
		<author>
			<persName><forename type="first">D</forename><surname>Mallmann</surname></persName>
		</author>
		<author>
			<persName><forename type="first">R</forename><surname>Menday</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Rambadt</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Riedel</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Romberg</surname></persName>
		</author>
		<author>
			<persName><forename type="first">B</forename><surname>Schuller</surname></persName>
		</author>
		<author>
			<persName><forename type="first">P</forename><surname>Wieder</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">Grid Computing and New Frontiers of High Performance Processing</title>
				<imprint>
			<date type="published" when="2005">2005</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b19">
	<monogr>
		<title level="m" type="main">Automated Construction and Growth of a Large Ontology</title>
		<author>
			<persName><forename type="first">F</forename><forename type="middle">M</forename><surname>Suchanek</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2009">2009</date>
		</imprint>
		<respStmt>
			<orgName>Saarland University</orgName>
		</respStmt>
	</monogr>
	<note type="report_type">PhD thesis</note>
</biblStruct>

<biblStruct xml:id="b20">
	<analytic>
		<title level="a" type="main">Combining linguistic and statistical analysis to extract relations from web documents</title>
		<author>
			<persName><forename type="first">F</forename><forename type="middle">M</forename><surname>Suchanek</surname></persName>
		</author>
		<author>
			<persName><forename type="first">G</forename><surname>Ifrim</surname></persName>
		</author>
		<author>
			<persName><forename type="first">G</forename><surname>Weikum</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">KDD &apos;06</title>
				<imprint>
			<publisher>ACM</publisher>
			<date type="published" when="2006">2006</date>
			<biblScope unit="page" from="712" to="717" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b21">
	<analytic>
		<title level="a" type="main">YAGO: A Large Ontology from Wikipedia and WordNet</title>
		<author>
			<persName><forename type="first">F</forename><forename type="middle">M</forename><surname>Suchanek</surname></persName>
		</author>
		<author>
			<persName><forename type="first">G</forename><surname>Kasneci</surname></persName>
		</author>
		<author>
			<persName><forename type="first">G</forename><surname>Weikum</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Web Semant</title>
		<imprint>
			<biblScope unit="volume">6</biblScope>
			<biblScope unit="issue">3</biblScope>
			<biblScope unit="page" from="203" to="217" />
			<date type="published" when="2008">2008</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b22">
	<analytic>
		<title level="a" type="main">SOFIE: A Self-Organizing Framework for Information Extraction</title>
		<author>
			<persName><forename type="first">F</forename><forename type="middle">M</forename><surname>Suchanek</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Sozio</surname></persName>
		</author>
		<author>
			<persName><forename type="first">G</forename><surname>Weikum</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">WWW 2009</title>
				<imprint>
			<date type="published" when="2009">2009</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b23">
	<analytic>
		<title level="a" type="main">Distributed computing in practice: the Condor experience: Research Articles</title>
		<author>
			<persName><forename type="first">D</forename><surname>Thain</surname></persName>
		</author>
		<author>
			<persName><forename type="first">T</forename><surname>Tannenbaum</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Livny</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Concurr. Comput. : Pract. Exper</title>
		<imprint>
			<biblScope unit="volume">17</biblScope>
			<biblScope unit="issue">2-4</biblScope>
			<biblScope unit="page" from="323" to="356" />
			<date type="published" when="2005">2005</date>
		</imprint>
	</monogr>
</biblStruct>

				</listBibl>
			</div>
		</back>
	</text>
</TEI>
