<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Ereignismuster für die Verwaltung von komplexen Tupelereignissen in Probabilistischen Datenbanken</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Sebastian Lehrack</string-name>
          <email>slehrack@informatik.tu-cottbus.de</email>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Peter Peter Kathleen John</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>XRF XRF ICS-MS XRF</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>ETArt</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>ETArteExp</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Brandenburgische Technische Universität Cottbus Institut für Informatik</institution>
          ,
          <addr-line>Postfach 10 13 44 D-03013 Cottbus</addr-line>
          ,
          <country country="DE">Deutschland</country>
        </aff>
      </contrib-group>
      <pub-date>
        <year>2012</year>
      </pub-date>
      <abstract>
        <p>Probabilistische Datenbanken haben sich als adaquate Technik zur Verwaltung und Verarbeitung von umfangreichen unsicheren Datenmengen etabliert. Eine der gro ten Herausforderungen fur probabilistische Datenbanken ist eine efziente Anfrageverarbeitung. Eine zentrale Rolle spielen dabei Ableitungsformeln, welche komplexe Tupelereignisse in Form von aussagenlogischen Formeln verkorpern. Eine direkte Abspeicherung und Verarbeitung von komplexen logischen Formeln wird von relationalen Datenbanksystemen jedoch nicht unterstutzt. Diese Arbeit stellt Ereignismuster als geeignetes Mittel vor, um Ableitungsformeln mittels eines RBDMS verwalten zu konnen.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>MOTIVATION</title>
      <p>3
10
4
aid
art1
art1
art1
art2
aid
art1
art1
art2
art2</p>
      <p>
        ArteExp
culture
roman
greek
roman
egyptian
ArteMat
culture
roman
greek
punic
egyptian
age
conf
conf
(X1 = t1)
(X2 = t2)
(X3 = t3)
(X4 = t4)
(X4 = t5)
(X5 = t6)
(X6 = t7)
ETArteMat
(X7 = t8)
(X7 = t9)
(X8 = t10)
(X9 = t11)
durch die Neuentwicklung des CISAR-Projektes1 [
        <xref ref-type="bibr" rid="ref5">5</xref>
        ],
welches als internet-basiertes Geo-Informationssystem fur
Archaologie und Gebaudegeschichte entwickelt worden ist. Die
hier vorgestellten Techniken werden umfassend in dem
Nachfolgesystem OpenInfRA eingesetzt [
        <xref ref-type="bibr" rid="ref17">17</xref>
        ].
      </p>
      <p>In dem stark vereinfachten Beispielszenario werden die
deterministische Tabelle Artefakte (Arte) und die zwei
probabilistischen Tabellen Artefakte klassi ziert bei Experten2
(ArteExp) und Artefakte klassi ziert bei Material (ArteMat )
verwendet, siehe Abb. (1). In der Datentabelle Arte werden
Informationen uber mehrere Artefakten gespeichert, welche
wahrend einer archaologischen Ausgrabung gefunden
worden sind. Dabei wird mittels der Sondage-Nummer
(Attribut sond ) die geographische Fundstelle eines Artefaktes
beschrieben.</p>
      <p>Zusatzlich geben mehrere Spezialisten verschiedene
Expertisen uber die Ursprungskultur eines Artefakts (Attribut
culture) ab, siehe Tabelle ArteExp. Diese Einschatzungen
werden mit einem Kon denzwert annotiert (Attribut conf ),
1http://www.dainst.org/en/project/cisar/
2Die Spalten tid, conf und ET (:::) gehoren nicht zu den
eigentlichen Datentabellen. Mittels der Spalte tid werden
Tupel adressiert. Die Bedeutung von conf und ET(:::) wird in
den nachsten Abschnitten erlautert.
select aid, type, culture
from ( select aid, culture</p>
      <p>from ArteExp
union
select aid, culture
from ArteMat
) origin
inner join
( select *</p>
      <p>from Arte
) prop
on ( origin.aid = prop.aid )
aid,type,culture</p>
      <p>./
[</p>
      <sec id="sec-1-1">
        <title>Arte</title>
        <p>aid,culture
aid,culture</p>
      </sec>
      <sec id="sec-1-2">
        <title>ArteExp</title>
      </sec>
      <sec id="sec-1-3">
        <title>ArteM at</title>
        <p>welche die Wahrscheinlichkeit ausdruckt, dass das
entsprechende Artefakt zu der bestimmten Kultur gehort. Neben
den subjektiven Expertenmeinungen werden auch
objektive Methoden einbezogen. Diese archaometrischen Methoden
(z.B. XRF und ICS-MS3) basieren auf einer
Materialanalyse. In Kombinationen mit den Fundstellen und dem
Artefaktalter kann die Materialzusammensetzung wichtige Hinweise
auf die Ursprungskultur geben, welche dann ebenfalls
mittels Kon denzwerten quanti ziert werden.</p>
        <p>
          Basierend auf den eingefuhrten Datentabellen soll
exemplarisch die folgende Anfrage Qe bearbeitet werden:
Bestimme alle Artefakte mit ihren jeweiligen Typ und ihren
moglichen Ursprungskulturen. Um diese Anfrage zu beantworten
wird sie zunachst in der Anfragesprache QSQL2 [
          <xref ref-type="bibr" rid="ref8">8</xref>
          ]
formuliert, siehe Abb. (2). Anschlie end wird von dem eigentlichen
SQL-Syntax abstrahiert, indem sie in Form einer
Algebraanfrage in den nachsten Kapiteln weiter verarbeitet wird.
        </p>
        <p>Die Arbeit ist wie folgt gegliedert. In Kap. (2) werden
zunachst die Grundlagen fur die weiteren Betrachtungen
gelegt. Danach steht der wesentliche Beitrag dieser Arbeit in
Form der Ereignismuster in Kap. (3) im Mittelpunkt. In
den Kap. (4) und (5) wird die Arbeit mit einer Diskussion
uber verwandte Arbeiten und einer Zusammenfassung
abgeschlossen. Der Beweis des Satzes (1) wird im Anhang (A)
gefuhrt.</p>
      </sec>
    </sec>
    <sec id="sec-2">
      <title>GRUNDLAGEN</title>
      <p>
        In einer probabilistischen Datenbanken werden mehrere
moglichen Datenbankinstanzen, welche auch Welten genannt
werden, gleichzeitig verwaltet und abgefragt. Dabei wird die
c"hreearlheeiWtealbt\zuablislduennbwekiradnnetinanWgeanhorsmchmeeinnl.icUhkmeitdsimesae
Uunbseirder Menge aller moglichen Welten vereinbart. Konkret wird
hier auf die De nition von Suciu et al. [
        <xref ref-type="bibr" rid="ref18">18</xref>
        ] zuruck gegri en.
      </p>
      <p>De nition 1. Angenommen werden k Relationennamen:
R1; : : : ; Rk. Eine unvollstandige Datenbank ist dann eine
endliche Menge von Dateninstanzen W = fW 1; W 2; : : : ; Wing,
wobei jede Dateninstanz (Welt) durch W i = (R1i; : : : ; Rk)
beschrieben ist. Eine probabilistische Datenbank ist ein
Wahrscheinlichkeitsraum D = (W; P) uber einer unvollstandigen
Datenbanken W. Damit ist P : W ! [0; 1] eine Funktion,
sodass PW 2W P(W ) = 1 gilt. Es wird vorausgesetzt, dass
8W 2 W : P(W ) &gt; 0 gilt.</p>
      <p>
        Im Allgemeinen ist die Semantik des
Wahrscheinlichkeitsma P nicht vorde niert. Konkret wird hier der Spezialfall
3XRF und ICP-MS stehen fur die x-ray uorescence und die
inductively coupled plasma mass spectrometry Methode.
der block-independent-disjoint Datenbanken (BID) [
        <xref ref-type="bibr" rid="ref2">2</xref>
        ]
benutzt, da Tupel- und Attributunsicherheit untersutzt
werden soll. Eine BID ist eine probabilistische Datenbank in
der die gegebenen Tupel in Blocke unterteilt werden.
Dabei kann ein Block sich nicht uber mehrere Relationen
erstrecken. Es wird vereinbart, dass alle Tupel innerhalb
eines Blockes mit disjunkten Tupelereignissen verbunden sind.
Ein Tupelereignis beschreibt das Vorhandensein oder das
Nicht-Vorhandensein eines Tupel in einer beliebigen Welt.
Wegen der Disjunktheit der Tupelereignisse kann maximal
ein Tupel eines Blockes in einer bestimmten Welt vorhanden
sein. Dagegen sind Tupel von verschiedenen Blocken mit
gegenseitig unabhangigen Tupelereignissen assoziiert.
      </p>
      <p>
        Fur die De nition von Blocken werden Ereignisschlussel in
Form von Attributmengen angewendet4. So wird ein Block
wird von Tupeln gebildet, welche die gleichen Werte fur die
Attribute des Schlussel haben. Anschlie end wird fur jeden
Block eine unabhangige Zufallsvariable Xk eingefuhrt. Das
konkrete Eintreten einer Zufallsvariable (Xk = tid)
reprasentiert ein Tupelereignis und wird quanti ziert mit dem
Kon denzwert des Tupels tid, siehe die Spalten conf und
ET (:::) in der Abb. (1)5. Die kombinierte
Wahrscheinlichkeitsverteilung aller Blockvariablen bilden schlie lich P. Um
eine Algebraanfrage auf einer probabilistischen Datenbank
auszufuhren, wird folgende Anfragesemantik verwendet [
        <xref ref-type="bibr" rid="ref18">18</xref>
        ].
berechnet.
      </p>
      <p>De nition 2. Sei Q eine Algebraanfrage und D = (W; P)
eine probabilistische Datenbank. Die Menge aller moglichen
Antworttupel einer Anfrage Q ist de niert als Qposs(W) =
ft j 9W 2 W : t 2 Q(W )g: Zusatzlich werden die
Eintrittswahrscheinlichkeiten aller moglichen Antworten in der
Funktion PrQ : Qposs(W) ! (0; 1] als PrQ(t) := P P(W ):
W 2W:t2Q(W )</p>
      <p>Dies bedeutet, dass die Anfrage Q konzeptionell in jeder
Welt separat ausgefuhrt wird. Dann wird die
Ergebnisrelation Qposs(W) gebildet, in dem alle moglichen Antworten der
verschiedenen Auswertungen gesammelt werden. Zusatzlich
wird die Eintrittswahrscheinlichkeit einer moglichen
Antwort durch das Aufsummieren der Welten, in der das
Antworttupel in der Antwort auftritt, gebildet. O ensichtlich
gibt die Def. (2) nur die Semantik der Anfrageauswertung
vor. Eine einzelne Auswertung in allen Welten ist praktisch
4In dem Beispielszenario werden die Ereignisschlussel von
Arte, ArteExp und ArteMat als faidg, fexp; aidg und
fmethod; aidg vereinbart, siehe Abb. (1).
5Da die Tabelle Arte deterministisch ist, wird P(X1 = t1) =
: : : = P(X3 = t3) = 1 gesetzt.
nicht umsetzbar, da die Anzahl aller Welten exponentiell in
Datengro e anwachsen kann.</p>
    </sec>
    <sec id="sec-3">
      <title>EREIGNISMUSTER</title>
      <p>In diesem Kapitel wird die praktische Auswertung einer
Algebraanfrage Q auf einer probabilistischen Datenbank
diskutiert. Dabei wird das Konzept der Ableitungsformeln
vorgestellt und eine neue Technik zur Verwaltung von
komplexen Tupelereignissen eingefuhrt.
3.1</p>
    </sec>
    <sec id="sec-4">
      <title>Ableitungsformeln</title>
      <p>
        Entsprechend Def. (2) muss zur Auswertung einer
Anfrage die Ergbeniswahrscheinlichkeit PrQ(t) fur jedes
Ergebnistupel berechnet werden. Fuhr und Rollecke schlugen in
[
        <xref ref-type="bibr" rid="ref4">4</xref>
        ] vor, diese Wahrscheinlichkeiten mittels von
Ableitungsformeln t zu berechnen. Dabei werden alle
Ableitungsformeln neben dem eigentlichen Datenanteil der Tupel
verwaltet. Prinzipiell ist eine Ableitungsformel t durch eine
aussagenlogische Formel gegeben, welche mittels den
Zufallsvariablen (Xk = tid)6 und den logischen Operatoren ^; _ und
: gebildet wird. Fuhr und Rollecke haben geschlussfolgert,
dass PrQ(t) durch Wahrscheinlichkeit P( t true)
ermittelt werden kann, d.h. PrQ(t) = P( t true). Somit kann
PrQ(t) durch P( t true) berechnet werden, ohne dass
uber alle Welten von W iteriert werden muss (siehe Def.
(2)). Im Folgenden wird P( t true) durch P( t)
abgekurzt. Die Konstruktion von t greift auf die Struktur der
betrachteten Anfrage Q zuruck.
      </p>
      <p>De nition 3. Angenommen Q ist eine Algebraanfrage und
D = (W; P) ist eine probabilistische Datenbank. Die
Ableitungsformel t ist dann wie folgt rekursiv de niert:</p>
      <p>
        Abb. (3) zeigt die Ableitungsformeln fur die
Ergebnistupel der Beispielanfrage Qe. Die Wahrscheinlichkeit P( t)
kann mit Standardalgorithmen berechnet werden (z.B. [
        <xref ref-type="bibr" rid="ref12 ref6">12,
6</xref>
        ]). Wie man dort sieht, besitzen Ereignistupel im
Allgemeinen unterschiedliche Ableitungsformeln. Mehrere Verfahren
(z.B. [
        <xref ref-type="bibr" rid="ref13 ref3 ref4">4, 3, 13</xref>
        ]) mussen eine komplexe Ableitungsformel fur
jedes einzelne Tupel, welches innerhalb der
Anfrageverarbeitung entsteht, verwalten. Praktische Anwendungsszenarien
haben jedoch bereits gezeigt, dass Ableitungsformel mit
einer Gro e von 10 MB fur ein Ergebnistupel auftreten konnen
[
        <xref ref-type="bibr" rid="ref14">14</xref>
        ]. Dementsprechend folgt der hier entwickelte Ansatz der
Argumentation von Antova et al. [
        <xref ref-type="bibr" rid="ref1">1</xref>
        ] und Das Sarma et al.
[
        <xref ref-type="bibr" rid="ref16">16</xref>
        ], dass die Verwaltung und die Verarbeitung von
komplexen Ableitungsformeln durch relationale Datenbanksysteme
nicht zielfuhrend sind, da solche Systeme nicht fur die
Verarbeitung von komplexen logischen Formeln ausgelegt sind.
6Ein solches Ereignis wird auch als Basisereignis bezeichnet.
Algorithm 1: gen( pa; t)
pdaelnnistm.EitineinKelrauKslealutusepleLlC1^i=: :(:L^1L;:m: :i ;vLomni ) tdknof.rrespondiert
      </p>
      <p>
        Die grundlegende Idee des hier vorgestellten Ansatzes lasst
sich dann in folgenden vier Schritten beschreiben:
(i) das Bilden einer Menge von Klauselmustern
(gekennzeichnet als pa), welche direkt von der Algebraanfrage
Q abgeleitet wird (d.h. unabhangig von den aktuellen
Daten in der Datenbank),
(ii) das Generieren einer Menge relevanter Basisereignissen
fur jedes Ergebnistupel wahrend der relationalen
Anfrageverarbeitung (verwaltet in einer erweiterten
Ergebnisdatenrelation Rev),
(iii) die Konstruktion einer DNF-Formel kodiert als t
fur jedes Ergebnistupel mittels des
Generierungsalgo(iv) driitehmBeursecghennu(ngpav;to)n, tP2( Rtdnevf) umndit Hilfe eines
Standardalgorithmus (z.B. [
        <xref ref-type="bibr" rid="ref12 ref6">12, 6</xref>
        ]).
      </p>
      <p>Bevor der Generierungsalgorithmus gen( pa; t) diskutiert
wird, werden zunachst die Bedeutung von pa und Rev
naher beleuchtet.</p>
      <p>Mustermenge pa: Die Mustermenge pa besteht aus
einer Menge von Klauselmustern fCP1; : : : ; CPlg. Ein
Klauselmuster CP = (ETRi1 ; : : : ; ETRim ) ist wiederum gegeben
durch ein Tupel von Basisereignismustern. Dabei
symbolisiert ein Muster ETRi genau ein Basisereignis (Xk = tid)
der Basisrelation Ri. Falls z.B. das Klauselmuster CP =
(ETArteExp; ETArteMat) betrachtet wird, verkorpert CP
alle Klauseln in denen das erste Basisereignis aus der Relation
ArteExp stammt und das zweite Basisereignis aus ArteM at
genommen wird.</p>
      <p>Basisereignisse in Rev: Die Ereignisdatenrelation Rev
besteht aus allen Datentupeln, sowie aus jeweils einer
Menge von Basisereignissen fur jedes Datentupel. Dabei werden
genau die Basisereignisse gespeichert, welche notwendig sind
um die Ableitungsformel fur ein bestimmtes Datentupel zu
bilden. Zu diesem Zwecke werden die Datenrelationen durch
zusatzliche Spalten erweitert, welche Basisereignisse
speichern. Alle Basisereignisse einer spezi schen Zeile gehoren
dabei zu dem jeweiligen Datentupel. Jede neue Spalte wird
mit einer Basisrelation Ri assoziiert und entsprechend mit
einem Musternamen ETRi bezeichnet, siehe Abb. (1) und
(4).</p>
      <p>Algorithmus gen( pa; t): Nach der Konstruktion von
pa und Rev generiert der Algoritmus gen( pa; t) eine
Ableitungsformel (kodiert als pa) fur ein Tupel der Relation
Rev. Im Wesentlichen ersetzt der Algorithmus der
Basisereignismuster mit den jeweiligen zuordenbaren
Basisereignissen (siehe Zeilen 2 bis 11 in Algorithmus (1)). Die
Vergleichskriterien sind durch die Musternamen ETRi und die
korrespondieren Bezeichnungen der Ereignisspalten von Rev
gegeben. Der Operator konkateniert zwei Tupel. Bevor eine
erzeugte Klausel C zu der Ergebnisformel t
hinzugenommen wird, werden alle Klauseln C logisch vereinfacht (siehe
Zeilen 12 und 13). Hierfur werden logische Gesetze wie
Idempotenz und Kontradiktion eingesetzt.</p>
      <p>Die Klauselmustermenge pa und die
Ereignisdatenrelation Rev werden rekursiv uber die Struktur der betrachteten
Algebraanfrage Q de niert. Prinzipiell wird pa in einer Art
und Weise konstruiert, dass die erzeugten Muster der
grundlegenden Semantik der Def. (3) genugt und alle moglichen
Ereignisse erzeugt werden konnen, die notig sind um tdnf zu
erzeugen. Exemplarisch wird die Ereignisdatenrelation der
Beispielanfrage Qe in Abb. (4) gezeigt.</p>
      <p>
        De nition 6. Sei Q eine positive Algebraanfrage7 und D =
7Genau wie die Systeme [
        <xref ref-type="bibr" rid="ref15">15</xref>
        ], [
        <xref ref-type="bibr" rid="ref19">19</xref>
        ] und [
        <xref ref-type="bibr" rid="ref7">7</xref>
        ] fokussiert sich
der hier vorgestellte Ansatz momentan auf Anfragen ohne
Di erenzoperationen.
(W; P) eine probabilistischen Datenbank. Die
Klauselmustermenge pa und die Ereignisdatenrelation Rev werden dann
rekursiv mittels der folgenden Regel gebildet8:
      </p>
      <p>Q
Q</p>
      <p>Q</p>
      <p>Ri :
c(Q1) :</p>
      <p>A(Q1) :
Q
Q</p>
      <p>Q1 ./ Q2 :
Q1 [ Q2 :</p>
      <p>pa := f(ETRi )g;
Rev := ft (Xk = tid) j t 2 Rig
pa := 1pa; Rev := c(R1ev)
pa :=</p>
      <p>1pa;
Rev := A[fall ETRi columnsg(R1ev)
pa := 1pa
pa := 1pa [ 2pa;
Rev := R1ev ./full outer R2ev
2pa; Rev := R1ev ./ R2ev
Um die endgultige Ableitungsformel dnf fur ein
Ergebnit
stupel t zu bilden, werden die generierten t-Formeln aller
Tupel in Rev mit den selben Datenwerten wie das
Ergebnistupel t disjunktiv verknupft:
tdnf :=</p>
      <p>_
t^2Rev;t^[datAttr]=t
gen( pa; t^);
wobei datAttr die Menge aller Datenattribute der
Ergebnisdatenrelation Rev reprasentiert, d.h. alle Attribut ohne die
jeweiligen ETRi Spalten9.</p>
      <p>Satz 1. Sei Rev und tdnf konstruiert wie in Def. (6)
angegeben, dann gilt (i) Qposs(W) = datAttr(Rev) und (ii)
8t 2 Qposs(W) : PrQ(t) = P( tdnf).
4.</p>
    </sec>
    <sec id="sec-5">
      <title>VERWANDTE ARBEITEN</title>
      <p>
        Eine umfassende Monographie uber probabilistische
Datenbank wurde kurzlich von Suciu et al. [
        <xref ref-type="bibr" rid="ref18">18</xref>
        ] vero entlicht.
Daneben wurden in den letzten Jahren mehrere
probabilistische Datenbanksysteme erfolgreich umgesetzt (z.B. [
        <xref ref-type="bibr" rid="ref15 ref19 ref7">15, 7,
19</xref>
        ]). In vorangegangenen Arbeiten [
        <xref ref-type="bibr" rid="ref10 ref11">10, 11</xref>
        ] des Autors wurde
ein probabilistisches Daten- und Anfargemodell entworfen,
welches Konzepte aus dem Gebiet des Information Retrievals
mit Technologien der Datenbankwelt kombiniert. Die dabei
8Um die DNF-Reprasentation von Def. (5) zu
bewahruennd werpdaen=Tufp(eLl3;vLer4)agchgte.gWebeennn szin.Bd., d1paann= efrg(Lib1t; Ls2ic)hg
1pa 2 2pa = f(L1; L2; L3; L4)g anstelle von 1pa 2pa =
f((L1; L2); (L3; L4))g.
9Diese Notation von datAttr wird in der restlichen Arbeit
weiter verwendet.
epa = f(ETArteExp; ETArte); (ETArteMat; ETArte)g
entwickelten Techniken werden in dem erweiterten
probabilistischen Datenbanksystem ProQua10 umgesetzt. Im
Gegensatz zu anderen Systemen (z.B. [
        <xref ref-type="bibr" rid="ref15 ref19 ref7">15, 7, 19</xref>
        ]) unterstutzt
ProQua logik-basierte A hnlichkeitsanfragen, sowie die
Gewichtung von Teilanfragen innerhalb seiner Anfragesprache
QSQL2 [
        <xref ref-type="bibr" rid="ref8 ref9">8, 9</xref>
        ].
      </p>
    </sec>
    <sec id="sec-6">
      <title>5. ZUSAMMENFASSUNG</title>
      <p>In dieser Arbeit wurde ein Konzept vorgestellt, welches
mit der Hilfe von Ereignismustern und
Basisereignismengen komplexe Tupelereignisse verwalten kann. Diese
Tupelereignisse entstehen bei der Auswertung einer komplexen
positiven Algebraanfrage auf einer probabilistischen
BIDDatenbank. Der wesentliche Vorteil dieser Methode liegt in
dem naturlichen Ablegen von Ableitungsformeln in einer
strukturierten Form innerhalb einer erweiterten
Datenrelation. Dadurch konnen die Tupelereignisse direkt mittels eines
RDBMS verarbeitet werden.</p>
      <p>Danksagung: Sebastian Lehrack wurde innerhalb der
Projekte SCHM 1208/11-1 und SCHM 1208/11-2 von der
Deutschen Forschungsgesellschaft unterstutzt.</p>
    </sec>
    <sec id="sec-7">
      <title>APPENDIX</title>
    </sec>
    <sec id="sec-8">
      <title>A. BEWEIS FüR SATZ (1)</title>
      <p>
        Es wird angenommen, dass PrQ(t) = P( t), falls t
gebildet wurde wie in Def. (3) spezi ziert (siehe [
        <xref ref-type="bibr" rid="ref4">4</xref>
        ]). Somit muss
gezeigt werden, dass (i) Qposs(W) = datAttr(Rev) und (ii)
8t 2 Qposs(W) : t tdnf.
      </p>
      <p>Induktion uber die Anzahl der Operatoren n von Q
Induktionsanfang: n = 1 : Q = Ri, d.h. zu zeigen
(ii) 8t 2 Ri : gen(ETRi ; t^)
t^2ft (Xk=tid)jt2Rig;</p>
      <p>t^[datAttr]=t
(i) t 2 datAttr(ft (Xk = tid) j t 2 Rig) ,? t 2 Ri,
W ?
(Xk = tid),</p>
      <sec id="sec-8-1">
        <title>Beweis:</title>
        <p>(i) datAttr(ft (Xk = tid) j t 2 Rig) = Ri X
(ii) 8t^ 2 ft (Xk = tid) j t 2 Rig : nach Konstruktion gibt
es eineindeutiges t 2 Ri, sodass t^ = t (Xk = tid)
) 8t 2 Ri :</p>
        <p>W gen(ETRi ; t^)
t^2ft (Xk=tid)jt2Rig;</p>
        <p>t^[datAttr]=t
gen(ETRi ; t (Xk = tid))
(Xk = tid) X
10http://dbis.informatik.tu-cottbus.de/ProQua/
Induktionsschritt: n ! n + 1 mit der
Induktionsannahme (IA), dass fur alle Anfragen mit bis zu n Operatoren gilt:
(i) t 2 R1ev , t 2 Q1 und
(ii) 8t 2 Q1 : W gen( 1pa; t^)</p>
        <p>t^2R1ev;
t^[datAttr]=t
Operator: Q</p>
        <p>sc(Q1), d.h. zu zeigen
(i) t 2 datAttr( sc(R1ev)) ,? t 2 sc(Q1),
t1 :
(ii) 8t 2 sc(Q1) :</p>
      </sec>
      <sec id="sec-8-2">
        <title>Beweis:</title>
        <p>W
t^2 sc(R1ev);
t^[datAttr]=t
gen( 1pa; t^) ?
t1
(i) t 2 datAttr( sc(R1ev)) , 9t^ 2 R1ev ^ t^[datAttr] = t ^
sc(t) = true I,A t^[datAttr] 2 Q1 ^ t^[datAttr] = t ^ sc(t) =
true , t 2 sc(Q1) X
(Bed. sc(t) ist nur uber Attribute von datAttr de niert)
(ii) 8t 2 sc(Q1) ) sc(t) = true ^(t^[datAttr] = t ) sc(t^) =
true) )
8t 2 sc(Q1) : gen( 1pa; t^) =</p>
        <p>W
t^2 sc(R1ev);
t^[datAttr]=t</p>
        <p>W gen( 1pa; t^) IA
t^2R1ev;
t^[datAttr]=t
(Bed. t^[datAttr] = t ist strenger als sc(t))
t1 X
Operator: Q</p>
        <p>A(Q1), d.h. zu zeigen
(i) t 2 datAttr( A[fall ETsg(R1ev)) ,? t 2 A(Q1),
(ii) 8t 2 A(Q1) : W gen( 1pa; t^) ?
t2 A[fall ETsg(R1ev);
^
t^[datAttr]=t
(A besteht nur aus Datenattributen, d.h. A = datAttr)
(ii) 8t 2 A(Q1) : W gen( 1pa; t^) =
t2 A[fall ETsg(R1ev);
^
t^[datAttr]=t
0
1</p>
        <p>W B W
t^2 A[fat^[lAlE]=Ttsg(R1ev);@ t_[dat_t2ARt1etrv1;]=t^
gen( 1pa; t_)C I=A</p>
        <p>A
(da A</p>
        <p>datAttr1 und Idempotenz gilt)
(i) t 2 datAttr(R1ev ./ R2ev) ,? t 2 Q1 ./ Q2,
(ii) 8t 2 Q1 ./ Q2 : W gen( 1pa
t^2R1ev./R2ev;
t^[datAttr]=t
2pa; t^) ?
datAttr2 (R2ev) I,A t1 2 Q1 ^ t2 2 Q2 ^ jc(t1; t2) = true ,
t1 t2 2 Q1 ./jc Q2 , t 2 Q1 ./ Q2 X
(Verbundbed. jc(t1; t2) (nat. Verbund) bezieht sich nur auf
Datenattributen, da durch Konstruktion stets gilt
evAttr1 \ evAttr2 = ;)
(ii) 8t 2 Q1 ./ Q2 : W gen( 1pa
t^2R1ev./R2ev;
t^[datAttr]=t
W gen( 1pa 2pa; t1 t2) =
2pa; t^) =
gen( 1pa; t1) ^ gen( 2pa; t2) =</p>
        <p>W
t12R1ev;
t1[datAttr1]=t
gen( 1pa; t1)^W</p>
        <p>t22R2ev;
t2[datAttr2]=t</p>
        <p>gen( 2pa; t2) I=A t1 ^ t2 X
(da (t1 t2)[datAttr] = t ) jc(t1 t2) = true;
konkatenierte Muster (erzeugt durch ) drucken Konjunktion aus
und ipa enthalt nur Basisereignismuster von ti)
Operator: Q</p>
        <p>Q1 [ Q2, d.h. zu zeigen
(i) t 2 datAttr(R1ev ./fo R2ev) ,? t 2 Q1 [ Q2,
(ii) 8t 2 Q1 [ Q2 : W gen( 1pa [ 2pa; t^) ?
t^2R1ev./foR2ev;</p>
        <p>t^[datAttr]=t</p>
      </sec>
      <sec id="sec-8-3">
        <title>Beweis:</title>
        <p>(i) t 2
datAttr(R1ev ./fo R2ev) ) t 2 datAttr1 (R1ev) _ t 2</p>
        <p>IA
datAttr2 (R2ev) , t 2 Q1 _ t2 2 Q2 , t 2 Q1 [ Q2
(wegen der Def. eines vollen au eren Verbundes und datAttr =
datAttr1 = datAttr2)
(ii) 8t 2 Q1 [ Q2 : W gen( 1pa [ 2pa; t^) =
t^2R1ev./foR2ev;</p>
        <p>t^[datAttr]=t</p>
        <p>W gen( 1pa; t^) _ gen( 2pa; t^) =
t^2R1ev_t^2R2ev;
t^[datAttr]=t</p>
        <p>W gen( 1pa; t^) _ W gen( 2pa; t^) I=A t1 _ t2 X
t^2R1ev; t^2R2ev;
t^[datAttr]=t t^[datAttr]=t
(wegen der Def. eines vollen au eren Verbundes und da pa
eine disjunktiv verknupfte Klauselkombination beschreibt)</p>
      </sec>
    </sec>
    <sec id="sec-9">
      <title>B. REFERENCES</title>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          [1]
          <string-name>
            <given-names>L.</given-names>
            <surname>Antova</surname>
          </string-name>
          ,
          <string-name>
            <given-names>T.</given-names>
            <surname>Jansen</surname>
          </string-name>
          ,
          <string-name>
            <given-names>C.</given-names>
            <surname>Koch</surname>
          </string-name>
          , and
          <string-name>
            <given-names>D.</given-names>
            <surname>Olteanu</surname>
          </string-name>
          .
          <article-title>Fast and simple relational processing of uncertain data</article-title>
          .
          <source>In ICDE</source>
          , pages
          <volume>983</volume>
          {
          <fpage>992</fpage>
          ,
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          [2]
          <string-name>
            <given-names>D.</given-names>
            <surname>Barbara</surname>
          </string-name>
          ,
          <string-name>
            <given-names>H.</given-names>
            <surname>Garcia-Molina</surname>
          </string-name>
          , and
          <string-name>
            <given-names>D.</given-names>
            <surname>Porter</surname>
          </string-name>
          .
          <article-title>The management of probabilistic data</article-title>
          .
          <source>IEEE Trans. on Knowl. and Data Eng</source>
          .,
          <volume>4</volume>
          :
          <fpage>487</fpage>
          {
          <fpage>502</fpage>
          ,
          <year>October 1992</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          [3]
          <string-name>
            <given-names>R.</given-names>
            <surname>Fink</surname>
          </string-name>
          ,
          <string-name>
            <given-names>D.</given-names>
            <surname>Olteanu</surname>
          </string-name>
          , and
          <string-name>
            <given-names>S.</given-names>
            <surname>Rath</surname>
          </string-name>
          .
          <article-title>Providing support for full relational algebra in probabilistic databases</article-title>
          .
          <source>In ICDE</source>
          , pages
          <volume>315</volume>
          {
          <fpage>326</fpage>
          ,
          <year>2011</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          [4]
          <string-name>
            <given-names>N.</given-names>
            <surname>Fuhr</surname>
          </string-name>
          and
          <string-name>
            <given-names>T.</given-names>
            <surname>Roelleke</surname>
          </string-name>
          .
          <article-title>A probabilistic relational algebra for the integration of information retrieval and database systems</article-title>
          .
          <source>ACM Trans. IS</source>
          ,
          <volume>15</volume>
          (
          <issue>1</issue>
          ):
          <volume>32</volume>
          {
          <fpage>66</fpage>
          ,
          <year>1997</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          [5]
          <string-name>
            <given-names>F.</given-names>
            <surname>Henze</surname>
          </string-name>
          ,
          <string-name>
            <given-names>H.</given-names>
            <surname>Lehmann</surname>
          </string-name>
          , and
          <string-name>
            <given-names>W.</given-names>
            <surname>Langer. CISAR - A Modular Database</surname>
          </string-name>
          <article-title>System as a Basis for Analysis and Documentation of Spatial Information</article-title>
          . In CAA, pages
          <volume>228</volume>
          {
          <fpage>233</fpage>
          ,
          <year>2007</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          [6]
          <string-name>
            <given-names>R. M.</given-names>
            <surname>Karp</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Luby</surname>
          </string-name>
          , and
          <string-name>
            <given-names>N.</given-names>
            <surname>Madras</surname>
          </string-name>
          .
          <article-title>Monte-carlo approximation algorithms for enumeration problems</article-title>
          .
          <source>Journal of Algorithms</source>
          ,
          <volume>10</volume>
          (
          <issue>3</issue>
          ):
          <volume>429</volume>
          {
          <fpage>448</fpage>
          ,
          <year>1989</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          [7]
          <string-name>
            <given-names>C.</given-names>
            <surname>Koch</surname>
          </string-name>
          .
          <article-title>MayBMS: A System for Managing Large Uncertain and Probabilistic Databases</article-title>
          .
          <source>In Managing and Mining Uncertain Data, ch. 6</source>
          . Springer-Verlag,
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          [8]
          <string-name>
            <given-names>S.</given-names>
            <surname>Lehrack</surname>
          </string-name>
          ,
          <string-name>
            <given-names>S.</given-names>
            <surname>Saretz</surname>
          </string-name>
          ,
          <string-name>
            <surname>and I. Schmitt.</surname>
          </string-name>
          <article-title>QSQL2: Query Language Support for Logic-Based Similarity Conditions on Probabilistic Databases</article-title>
          .
          <source>In RCIS</source>
          ,
          <year>2012</year>
          (to appear).
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          [9]
          <string-name>
            <given-names>S.</given-names>
            <surname>Lehrack</surname>
          </string-name>
          and
          <string-name>
            <surname>I. Schmitt.</surname>
          </string-name>
          <article-title>QSQL: Incorporating Logic-Based Retrieval Conditions into SQL</article-title>
          .
          <source>In DASFAA</source>
          , pages
          <volume>429</volume>
          {
          <fpage>443</fpage>
          ,
          <year>2010</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          [10]
          <string-name>
            <given-names>S.</given-names>
            <surname>Lehrack</surname>
          </string-name>
          and
          <string-name>
            <given-names>I.</given-names>
            <surname>Schmitt</surname>
          </string-name>
          .
          <article-title>A Probabilistic Interpretation for a Geometric Similarity Measure</article-title>
          .
          <source>In ECSQARU</source>
          , pages
          <volume>749</volume>
          {
          <fpage>760</fpage>
          ,
          <year>2011</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          [11]
          <string-name>
            <given-names>S.</given-names>
            <surname>Lehrack</surname>
          </string-name>
          and
          <string-name>
            <given-names>I. Schmitt. A Unifying</given-names>
            <surname>Probability</surname>
          </string-name>
          <article-title>Measure for Logic-Based Similarity Conditions on Uncertain Relational Data</article-title>
          .
          <source>In NTSS</source>
          , pages
          <volume>14</volume>
          {
          <fpage>19</fpage>
          ,
          <year>2011</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          [12]
          <string-name>
            <given-names>D.</given-names>
            <surname>Olteanu</surname>
          </string-name>
          ,
          <string-name>
            <given-names>J.</given-names>
            <surname>Huang</surname>
          </string-name>
          , and
          <string-name>
            <given-names>C.</given-names>
            <surname>Koch</surname>
          </string-name>
          .
          <article-title>Approximate con dence computation in probabilistic databases</article-title>
          .
          <source>In ICDE</source>
          , pages
          <volume>145</volume>
          {
          <fpage>156</fpage>
          ,
          <year>2010</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          [13]
          <string-name>
            <given-names>D.</given-names>
            <surname>Olteanu</surname>
          </string-name>
          and
          <string-name>
            <given-names>H.</given-names>
            <surname>Wen</surname>
          </string-name>
          .
          <article-title>Ranking Query Answers in Probabilistic Databases: Complexity and E cient Algorithms</article-title>
          . In ICDE,
          <year>2012</year>
          (to appear).
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          [14]
          <string-name>
            <given-names>C.</given-names>
            <surname>Re</surname>
          </string-name>
          and
          <string-name>
            <given-names>D.</given-names>
            <surname>Suciu</surname>
          </string-name>
          .
          <article-title>Approximate lineage for probabilistic databases</article-title>
          .
          <source>PVLDB</source>
          ,
          <volume>1</volume>
          (
          <issue>1</issue>
          ):
          <volume>797</volume>
          {
          <fpage>808</fpage>
          ,
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          [15]
          <string-name>
            <given-names>C.</given-names>
            <surname>Re</surname>
          </string-name>
          and
          <string-name>
            <given-names>D.</given-names>
            <surname>Suciu</surname>
          </string-name>
          .
          <article-title>Managing Probabilistic Data with MystiQ: The Can-Do, the Could-Do, and the Can't-Do</article-title>
          .
          <source>In SUM</source>
          , pages
          <volume>5</volume>
          {
          <fpage>18</fpage>
          ,
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          [16]
          <string-name>
            <surname>A. D. Sarma</surname>
            ,
            <given-names>O.</given-names>
          </string-name>
          <string-name>
            <surname>Benjelloun</surname>
            ,
            <given-names>A. Y.</given-names>
          </string-name>
          <string-name>
            <surname>Halevy</surname>
            , and
            <given-names>J.</given-names>
          </string-name>
          <string-name>
            <surname>Widom</surname>
          </string-name>
          .
          <article-title>Working models for uncertain data</article-title>
          .
          <source>In ICDE, page 7</source>
          ,
          <year>2006</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref17">
        <mixed-citation>
          [17]
          <string-name>
            <given-names>F.</given-names>
            <surname>Schaefer</surname>
          </string-name>
          and
          <string-name>
            <surname>A. Schulze.</surname>
          </string-name>
          <article-title>OpenInfRA { Storing and retrieving information in a heterogenous documentation system</article-title>
          .
          <source>In CAA</source>
          ,
          <year>2012</year>
          (to appear).
        </mixed-citation>
      </ref>
      <ref id="ref18">
        <mixed-citation>
          [18]
          <string-name>
            <given-names>D.</given-names>
            <surname>Suciu</surname>
          </string-name>
          ,
          <string-name>
            <given-names>D.</given-names>
            <surname>Olteanu</surname>
          </string-name>
          , C. Re, and
          <string-name>
            <given-names>C.</given-names>
            <surname>Koch</surname>
          </string-name>
          . Probabilistic Databases.
          <source>Synthesis Lectures on Data Management</source>
          . Morgan &amp; Claypool Publishers,
          <year>2011</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref19">
        <mixed-citation>
          [19]
          <string-name>
            <given-names>J.</given-names>
            <surname>Widom</surname>
          </string-name>
          .
          <article-title>Trio: A system for data, uncertainty, and lineage</article-title>
          .
          <source>In Managing and Mining Uncertain Data</source>
          , pages
          <volume>113</volume>
          {
          <fpage>148</fpage>
          . Springer,
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>