<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Die probabilistische Ähnlichkeitsanfragesprache QSQL2</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Sascha Saretz und Sebastian Lehrack</string-name>
          <email>slehrack@informatik.tu-cottbus.de</email>
          <email>ssaretz@informatik.tu-cottbus.de</email>
          <xref ref-type="aff" rid="aff0">0</xref>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>(ii) Tupel</institution>
          ,
          <addr-line>welche Konfidenzwerte besitzen</addr-line>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>Brandenburgischer Technische Universität Cottbus Institut für Informatik Postfach 10</institution>
          <addr-line>13 44 D-03013 Cottbus</addr-line>
          ,
          <country country="DE">Germany</country>
        </aff>
      </contrib-group>
      <pub-date>
        <year>2011</year>
      </pub-date>
      <fpage>61</fpage>
      <lpage>65</lpage>
      <abstract>
        <p>Die quantenlogik-basierte probabilistische Ähnlichkeitsanfragesprache QSQL2 soll vorgestellt werden. Dabei liegt das Hauptaugenmerk auf der Formulierung von Anfragen, welche “unsicher” sind, also nicht nur die traditionelle Boolesche Werte wahr und falsch annehmen können. QSQL2 kann Ungenauigkeiten sowohl auf Relationenebene als Eintrittswahrscheinlichkeiten, als auch auf Prädikatebene als Relevanzwahrscheinlichkeiten modellieren. Zusätzlich bietet die Sprache die Eigenschaft einer Booleschen Algebra, womit bekannte Äquivalenzen für die Anfragen nutzbar sind.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>MOTIVATION</title>
    </sec>
    <sec id="sec-2">
      <title>ANFRAGETYPEN</title>
      <p>
        Wir wollen zunächst eine Klassifikation unterschiedlicher
Anfrageklassen erstellen. Mit diesen sollen semantische
Unterschiede zwischen Anfragen deutlich gemacht werden. Die
Entwicklung dieser Klassifikation ist in [
        <xref ref-type="bibr" rid="ref14">13</xref>
        ] zu finden.
(ii) Unsichere Anfragen auf sicheren Daten (UQonCD)
Die Klasse UQonCD (Uncertain Queries on Certain Data)
steht für Anfragen, welche Ungenauigkeiten und Vagheit
unterstützen indem Ähnlichkeitsprädikate genutzt werden
können. Diese Prädikate basieren auf einer sicheren
Datengrundlage. Das Evaluationsergebnis einer solchen Anfrage
kann durch einen score-Wert aus dem Intervall [
        <xref ref-type="bibr" rid="ref2">0, 1</xref>
        ]
angegeben werden, welches den Grad der Erfüllung darstellt.
(iii) Sichere Anfragen auf unsicheren Daten (CQonUD)
Die Anfragen der Klasse CQonUD sind typisch für
probabilistische Datenbanken mit Possible-Worlds-Semantik (siehe
Abschnitt 3.2). Diese Anfragen nutzen Boolesche
Bedingungen auf unsicheren Daten mit einem Konfidenzwert aus dem
Intervall [
        <xref ref-type="bibr" rid="ref2">0, 1</xref>
        ].
(iv) Unsichere Anfragen auf unsicheren Daten (UQonUD)
Wenn man die Possible-Worlds-Semantik (iii) durch
Bedingungen mit Ähnlichkeitsprädikaten (ii) kombiniert, erhält
man eine Anfrage einer Klasse mit erweiterter
Ausdruckskraft. In UQonUD können Ähnlichkeitsbedingungen auf
Daten genutzt werden, welche nur in einem bestimmten
unsicheren Datenbankzustand gegeben sind. Die Klasse UQonUD
umfasst die ersten drei Klassen.
      </p>
      <p>Wir werden sehen, dass QSQL2 eine Vielzahl von
Anfragen aus allen vier Klassen auswerten kann und somit eine
große Bandbreite für die Nutzung von unsicheren Anfragen
bietet.</p>
    </sec>
    <sec id="sec-3">
      <title>DATEN- UND ANFRAGEMODELL</title>
      <p>Nun soll das grundlegende Datenmodell der
Anfragesprache QSQL2 beschrieben werden. Es kombiniert zwei
Wahrscheinlichkeitsarten: (i) eine Relevanzwahrscheinlichkeit
gegen eine Anfrage und (ii) eine Eintrittswahrscheinlichkeit für
ein Datenobjekt.
3.1</p>
    </sec>
    <sec id="sec-4">
      <title>Relevanzwahrscheinlichkeit</title>
      <p>
        Um die Relevanzwahrscheinlichkeit z. B. einer
UQonCDAnfrage auszudrücken, nutzen wir die probabilistische
Interpretation eines geometrischen Retrievalmodells, welches
auf dem quadrierten Kosinus-Ähnlichkeitsmaß basiert [
        <xref ref-type="bibr" rid="ref13">12</xref>
        ].
Die Hauptidee unseres Retrievalmodells ist die Anwendung
von Vektorräumen, welche auch aus der Quantenmechanik
oder Quantenlogik bekannt sind, um Anfrageauswertung in
Datenbanken zu betreiben. Hier wollen wir eine Idee der
grundlegenden Prinzipien vermitteln. Für diesen Zweck sind
Zusammenhänge zwischen Konzepten aus der
Anfrageauswertung und dem angewandten Retrievalmodell in Tabelle 1
dargestellt.
      </p>
      <p>Das Retrievalmodell beschreibt die Auswertung eines
einzelnen Tupels gegen eine gegebene Ähnlichkeitsanfrage. Wir
beginnen unsere Beschreibung, indem wir uns ein
Vektorraum vorstellen, welcher die Domäne für ein Tupel ist. Alle
Attributwerte eines Tupels werden durch die Richtung
eines entsprechenden Tupelvektors der Länge 1 ausgedrückt.
Eine logik-basierte Bedingung korrespondiert zu einem
spezifischen Vektorunterraum des Domänen-Vektorraums, auch
Bedingungsraum genannt.</p>
      <p>
        Das Resultat der Auswertung ist festgelegt durch den
minimalen Winkel zwischen Tupelvektor und Bedingungsraum.
Der quadrierte Kosinus dieses Winkels ist ein Wert aus dem
Intervall [
        <xref ref-type="bibr" rid="ref2">0, 1</xref>
        ] und kann daher als Ähnlichkeitsmaß
interpretiert werden. Wenn also ein Tupelvektor zum
Bedingungs
      </p>
      <sec id="sec-4-1">
        <title>Anfrageauswertung</title>
        <sec id="sec-4-1-1">
          <title>Wertebereich Dom(t)</title>
          <p>angefragtes Tupel t</p>
        </sec>
        <sec id="sec-4-1-2">
          <title>Bedingung c</title>
          <p>Auswertung evalt(c)
↔
↔
↔
↔</p>
        </sec>
      </sec>
      <sec id="sec-4-2">
        <title>CQQL Modell</title>
        <p>Vektorraum H</p>
        <p>#
Tupelvektor t
Bedingungsraum cs[c]
quadrierter Kosinus
Winkels #
zwischen# t und cs[c]
(cos2(]( t , cs[c])))
raum gehört, kann man diese Bedingung als vollständige
Übereinstimmung interpretierten (mit einem Score-Wert von
1). Im Gegensatz dazu entspricht der rechte Winkel von 90◦
zwischen Tupelvektor und Bedingungsraum keiner
Übereinstimmung, der Score-Wert ist 0.</p>
        <p>
          In frühreren Arbeiten [
          <xref ref-type="bibr" rid="ref12 ref13">12, 11</xref>
          ] entwickelten wir eine
probabilistische Interpretation für unser Retrievalmodell,
daher kann das geometrische Ähnlichkeitsmaß auch als
Wahrscheinlichkeit der Relevanz aufgefasst werden. Aus diesem
Grund kann man die folgenden bekannten
Auswertungsregeln für Wahrscheinlichkeiten anwenden, wenn alle
beteiligten Teilbedingungen c1 und c2 unabhängig sind:
evalt(c) := SF(t, c), wenn c atomar ist
evalt(c1∧c2) := evalt(c1) ∗ evalt(c2)
evalt(c1∨c2) := evalt(c1)+evalt(c2)−
        </p>
        <p>evalt(c1) ∗ evalt(c2)
evalt(¬c) := 1 − evalt(c).</p>
        <p>Die Berechungsfunktion SF den Ähnlichkeitswert für
atomare Ähnlichkeitsbedingungen berechnet, z. B. ‘Ort ≈ Berlin’.</p>
        <p>Um die Unabhängigkeit der Teilbedingungen zu erhalten
benötigt man die folgende Einschränkung: In einer gültigen
Bedingung darf kein Attribut gegen mehr als eine Konstante
in unterschiedlichen Ähnlichkeitsprädikaten angefragt
werden. Daher ist die Bedingung ‘Ort≈Berlin ∧ Ort≈München’
nicht in QSQL2 erlaubt. Die Ähnlichkeitsprädikate ‘Ort ≈
Berlin’ und ‘Ort ≈ München’ können somit nicht für einen
festen Ort gleichzeitig zu 1 ausgewertet werden (vollständige
Übereinstimmung), was auch der Intuition entspricht. Diese
Einschränkung entspricht der Unabhängigkeitsannahme von
Tupel-unabhängigen bzw. Block-unabhängigen
probabilistischen Datenbanken, welche im folgenden Abschnitt näher
erläutert werden.
3.2</p>
      </sec>
    </sec>
    <sec id="sec-5">
      <title>Eintrittswahrscheinlichkeit</title>
      <p>Die Possible-Worlds-Semantik wird von den meisten
probabilistischen Datenbanken genutzt um Anfragen aus der
Klasse CQonUD zu verarbeiten.</p>
      <p>Als Grundlage dient eine Relation R ⊆ Dom(A1) × . . . ×
Dom(An) eines Relationenschemas attr(R) = {A1, . . . , An},
wobei Ai für ein Attribut steht. Dann definiert jede
Tupelteilmenge von R einen eigenen Datenbankzustand, auch
Welt von R genannt. Nehmen wir eine ein-attributige
Relation R = {(1), (2)} an. Für dieses Beispiel sind die möglichen
Zustände oder möglichen Welten durch Rw1 = {(1), (2)},
Rw2 = {(1)}, Rw3 = {(2)} und Rw4 = {} gegeben. Eine
dieser möglichen Welten repräsentiert die eine, welche in
Realtität vorkommt. Allerdings ist unbekannt, welche dies genau
ist. Um diese Unsicherheit zu meistern, nutzen wir ein
Wahrscheinlichkeitsmaß über der Menge aller möglichen Welten,
welches aus einer probabilistischen Tabelle abgeleitet ist.
Wir nennen eine Welt mit einer Eintrittswahrscheinlichkeit
höher als 0 eine mögliche Welt oder possible world.</p>
      <p>
        Im Allgemeinen ist die Semantik der genutzten
Wahrscheinlichkeitsmaße nicht vordefiniert. Um die
Wahrscheinlichkeitsberechnung zu vereinfachen nutzen wir die Semantik
der probabilistischen Block-unabhängigen Datenbanken [
        <xref ref-type="bibr" rid="ref3">2</xref>
        ]
für QSQL2.
      </p>
      <p>In probabilistischen Block-unabhängigen Datenbanken ist
jedes Tupel t mit einem Ereignis E[t] verknüpft, welches das
Vorkommen oder das Nichtvorhandensein eines Tupels t in
der Realität ausdrückt. Insbesondere unterscheiden wir zwei
Arten von Ereignissen und Tupeln. Auf der einen Seite
betrachten wir Basisereignisse welche von Basistupeln
abgeleitet sind, welche durch initiale probabilistische Relationen
gegeben sind. Außerdem berücksichtigen wir komplexe
Ereignisse, welche mit während der Anfrageverarbeitung
erzeugen komplexen Tupeln verknüpft sind. Diese Ereignisse
bestimmen die Eintrittswahrscheinlichkeit der
Ergebnistupel.</p>
      <p>Dabei sind Tupel aus einem Block disjunkt zueinander,
Tupel aus unterschiedlichen Blöcken sind unabhängig zu
einander. Durch diese Vereinfachung erhält man eine relativ
einfache Berechnungsvorschrift für komplexe Ereignisse.</p>
      <p>
        Wenn die zugrundeliegende Ereignisstruktur unabhängig
ist, kann man die Wahrscheinlichkeiten eines komplexen
Ereignistupels wie in [
        <xref ref-type="bibr" rid="ref9">8</xref>
        ] berechnen:
      </p>
      <p>Pr(E[t1] ∧ E[t2]) := Pr(E[t1]) ∗ Pr(E[t2])
Pr(E[t1] ∨ E[t2]) := Pr(E[t1]) + Pr(E[t2])−</p>
      <p>Pr(E[t1] ∧ E[t2])</p>
      <p>Pr(¬E[t1]) := 1 − Pr(E[t1]).
3.3</p>
    </sec>
    <sec id="sec-6">
      <title>Kombinierter Wahrscheinlichkeitsraum</title>
      <p>Schlussendlich kombinieren wir die eingeführten
probabilistischen Modelle, um beliebige Anfragen aus der Klasse
UQonUD verarbeiten zu können. Dies wird getan, indem die
Wahrscheinlichkeitsräume, welche Relevanz- und
Eintrittswahrscheinlichkeiten repräsentieren, durch einen
Produktwahrscheinlichkeitsraum vereinigt werden. Die Nutzung
eines Produktwahrscheinlichkeitraumes kann durch die
Klassifikation der Anfrageklasse UQonUD gerechtfertigt werden.</p>
      <p>Wir nehmen also zuerst ein gegebenes Tupel als
Datenbasis an, welches mit einer Eintrittswahrscheinlichkeit
annotiert ist. Dann wenden wir zusätzlich eine
Ähnlichkeitsbedingung an, um eine Relevanzwahrscheinlichkeit auf dieser
Datenbasis zu erzeugen. So verhindern wir das Vermischen
oder Überlappen von beiden Eingabewahrscheinlichkeiten.
Somit nehmen wir an, dass beide Wahrscheinlichkeitsmaße
unabhängig voneinander und in den kombinierten
Produktwahrscheinlichkeitsraum eingebettet sind.</p>
    </sec>
    <sec id="sec-7">
      <title>ANFRAGEN IN QSQL2</title>
      <p>
        Um Ideen zu verdeutlichen und Beispielanfragen
anzugeben wollen wir ein laufendes Beispiel einführen. Es ist ein
vereinfachter Verbrechenslöser, welcher an ein Beispiel vom
Trio Projekt [
        <xref ref-type="bibr" rid="ref16">15</xref>
        ] angelehnt ist. Die Datenwerte sind aus [
        <xref ref-type="bibr" rid="ref14">13</xref>
        ].
Es gibt eine deterministische Tabelle Criminals (abgekürzt
crim, Tabelle 2), welche ein Dossier von registrierten
Kriminellen enthält. Des Weiteren gibt es eine probabilistische
Tabelle Observations (abgekürzt obs, Tabelle 3) mit
Zeugenaussagen und den zugehörigen Konfidenzen.
      </p>
      <p>Die Datei der Kriminellen enthalt die Attribute name,
status, sex, age und height jeder registrierten Person,
wobei die Domänen für die Attribute status und sex {free,
jail, parole} und {female, male} sind.</p>
      <p>Die Aufzeichnung der Beobachtungen beinhaltet die
Zeugenaussagen für ein spezielles Verbrechen, so dass jeder
Zeuge nur genau eine Person mit entsprechenden Geschlecht
(obs_sex), geschätztem Alter (obs_age) und geschätzter
Größe (obs_height) sah. Jedes Aussagentupel in obs ist
mit einem Konfidenzwert annotiert, welcher als
Eintritts</p>
      <p>Criminals (crim)
status sex
jail female
free male
free male
height
1.63
1.83
1.76</p>
      <p>Als ein Beispiel für eine Anfrage aus der Klasse UQonUD
wollen wir eine Variante der letzten CQonUD-Anfrage
(Listing 3) betrachten: “Bestimme alle Kriminellen, welche
möglicherweise beobachtet wurden. Dies bedeutet, dass das Alter
ähnlich zum beobachteten Alter ist und dass das
beobachtete Geschlecht passend ist” (Listing 4). In dieser Anfrage
kommt sowohl ein Ähnlichkeitsprädikat (≈), als auch eine
probabilistische Relation (Observation) vor.</p>
      <p>SELECT name FROM Criminals C
WHERE C.status = ’free’</p>
      <sec id="sec-7-1">
        <title>Listing 1: CQonCD-Anfrage</title>
        <p>SELECT name FROM Criminals C
WHERE C.status = ’free’ and C.age ≈ 30</p>
      </sec>
      <sec id="sec-7-2">
        <title>Listing 2: UQonCD-Anfrage</title>
        <p>SELECT name FROM Criminals C, Observation O
WHERE C.sex = O.sex and C.age &gt; O.obs_age-5
and C.age &lt; O.obs_age+5</p>
      </sec>
      <sec id="sec-7-3">
        <title>Listing 3: CQonUD-Anfrage</title>
        <p>Logische Anfragen: Ein großer Vorteil von QSQL2 ist,
dass das zugrunde liegende theoretische Fundament eine
Boolesche Algebra bildet, also viele bekannte mathematische
Äquivalenzen wie z. B. Distributivität, Idempotenz und
Absorption erfüllt sind. An dieser Stelle sollen einige dieser
logischen Eigenschaften exemplarisch von QSQL2 für
praxisrelevante Anfragen genutzt werden. Wie wir später noch
in Abschnitt 5.4 sehen werden, erfüllen z. B. die
FuzzyDatenbanken nicht alle diese logischen Eigenschaften,
insofern sind einige der folgenden Anfragen trotz einfacher
Syntax nicht selbstverständlich.</p>
        <p>Oft macht es Sinn Implikationen der Form A → B
auszudrücken, d.h. wenn die erste Aussage wahr ist, muss es
die andere auch sein. Durch die bekannte Äquivalenz A →
B ≡ ¬A ∨ B kann man diesen Junktor auch auf Anfragen
mit Relevanz- und Eintrittswahrscheinlichkeiten anwenden.
Analog verhält es sich mit der Äquivalenz A ↔ B. Bei ihr
sind im Booleschen Fall entweder beide Variablen wahr oder
beide sind falsch. Durch die Umformung A ↔ B ≡ A → B
∧ B → A ≡ (¬A ∨ B) ∧ (¬B ∨ A) ≡ (A ∧ B) ∨ (¬A ∧ ¬B)
kann diese Aussage auch äquivalent in QSQL2 ausgedrückt
werden.</p>
        <p>
          QSQL2 bietet ebenfalls gewichtete Junktoren. So macht
es manchmal Sinn den Einfluss einer Teilbedingung
heraufoder herabzusetzen. In der Sprache gibt es deshalb jeweils
eine gewichtete Konjunktion, ausgedrückt durch and[θ1, θ2],
und eine gewichtete Disjunktion, ausgedrückt mit or[θ1, θ2].
Die Gewichtsvariablen θi sind reelle Zahlen aus dem
Intervall [
          <xref ref-type="bibr" rid="ref2">0, 1</xref>
          ], wobei ein Gewicht von 0 überhaupt keinen Einfluss
und ein Gewicht von 1 normalen Einfluss bedeutet.
        </p>
        <p>Man könnte sich vorstellen, dass die Identifizierung der
Verdächtigen durch die Zeugen nicht eindeutig war, weil das
Verbrechen bei Dunkelheit geschehen ist. So kann man
folgende Variante der UQonUD-Anfrage in QSQL2 stellen:
“Bestimme alle Kriminellen, welche möglicherweise beobachtet
wurden. Dies bedeutet, dass das Alter ähnlich zum
beobachteten Alter ist und dass die Größe ähnlich zur beobachteten
Größe ist. Die Relevanz des beobachteten Größe ist doppelt
so hoch wie die des geschätzten Alters.” (Listing 5).</p>
        <p>SELECT name FROM Criminals C, Observation O
WHERE C.sex = O.sex and C.age ≈ O.obs_age</p>
      </sec>
      <sec id="sec-7-4">
        <title>Listing 4: UQonUD-Anfrage</title>
      </sec>
      <sec id="sec-7-5">
        <title>Listing 5: Beispiel für gewichtete Anfrage</title>
        <p>5.</p>
      </sec>
    </sec>
    <sec id="sec-8">
      <title>VERGLEICHBARE ANSÄTZE</title>
      <p>
        In den letzten Jahren wurden viele probabilistische
relationale Datenbankansätze vorgeschlagen [
        <xref ref-type="bibr" rid="ref11 ref2 ref3 ref4 ref7 ref8 ref9">3, 2, 7, 8, 6, 10, 1</xref>
        ].
Sie unterstützen alle die Verarbeitung von probabilistischen
relationalen Daten, d.h. Anfragen aus der Klasse CQonUD.
      </p>
      <p>Neben der Berechnungskomplexität ist die Ausdruckskraft
ein signifikantes Vergleichsmerkmal. Im Folgenden werden
drei unterschiedliche Ansätze beschrieben, wie
probabilistische Datenbanken um Ähnlichkeitsprädikate erweitert
werden können.
5.1
Ähnlichkeitsprädikate als
Built-In-Prädikate</p>
      <p>
        Fuhr und Rölleke schlagen vor die Bewertungsfunktion
eines Ähnlichkeitsprädikates durch eine separate
probabilistische Relation umzusetzen [
        <xref ref-type="bibr" rid="ref9">8</xref>
        ]. Diese Relation für eine
Ähnlichkeitsfunktion (SF-Relation) ersetzt das
Ähnlichkeitsprädikat und wird durch ein Join in die Anfrage integriert.
      </p>
      <p>Leider gibt es bei diesem Ansatz ein Problem bei der
Konstruktion der Ähnlichkeitsfunktion SF. Die Funktion
repräsentiert ein Ähnlichkeitsprädikat, aber bzgl. der Auswertung
ist es kein unabhängiges Konzept, sondern unterliegt den
selben Regeln wie alle probabilistische Relationen. So müssen
die Tupel unabhängige Basisereignisse bilden, damit man
geeignete Aggregationsfunktionen anwenden kann. Die
Unabhängigkeit der Tupel in einer SF-Relation ist aber nicht
gegeben. Fuhr und Rölleke schlagen daher vor nur Anfragen
zu nutzen, in denen keine Tupel aus der selben SF-Relation
kombiniert werden. Deshalb kann keine SF-Relation mehr
als einmal in einer Anfrage vorkommen und Projektionen
können nicht mehr beliebig genutzt werden.
5.2
Ähnlichkeitsprädikate als
Wahrscheinlichkeit von Relationen</p>
      <p>
        Der letzte Ansatz nutzte Ähnlichkeitsprädikate wie
probabilistische Relationen, welche während der
Anfrageauswertung eingebaut werden. Im Gegensatz dazu schlagen Dalvi
und Suciu [
        <xref ref-type="bibr" rid="ref7">6</xref>
        ] vor, die Wahrscheinlichkeiten für die
genutzten Ähnlichkeitsprädiakte vor der eigentlichen
Anfrageauswertung auszuwerten. Die Ergebnisse dieser Vorberechnung
werden als Eintrittswahrscheinlichkeiten den Relationen
zugewiesen, auf welche die Ähnlichkeitsprädikate verweisen.
      </p>
      <p>Dieser Ansatz arbeitet nur auf Anfragen mit
konjunktivverknüpften Ähnlichkeitsprädiaten. Schon bei einer
einfachen Disjunktion von Ähnlichkeitsprädiaten, welche sich auf
unterschiedliche Relationen beziehen, ist es nicht mehr
möglich, die Auswertung der disjunktiven Ähnlichkeitsbedingung
aufzuspalten und hinunter in die entsprechenden Relationen
zu schieben.
5.3</p>
      <p>
        Ähnlichkeitsprädikate auf Attributebene
In anderen Modellen wie [
        <xref ref-type="bibr" rid="ref11 ref2">1, 10</xref>
        ] können
Wahrscheinlichkeiten auch auf Attributebene modelliert werden. In diesem
Fall ist es möglich, die Auswertung der
Ähnlichkeitsprädikate in den abgefragten Attribut vor der eigentlichen
Anfrageauswertung zu speichern. Wie beim letzten Ansatz aus
Abschnitt 5.2 funktioniert dies nur bei konjunktiv
verknüpften Ähnlichkeitsprädikaten, weil die Wahrscheinlichkeit
eines Tupels konjunktiv aus den Wahrscheinlichkeiten der
jeweiligen Attributwerte berechnet wird. Deshalb können nicht
alle komplexen (z. B. disjunktiven) Kombinationen von
Ähnlichkeitsprädikaten ausgewertet werden.
5.4
      </p>
    </sec>
    <sec id="sec-9">
      <title>Fuzzy-Datenbanken</title>
      <p>
        Fuzzy-Datenbanken wie FSQL [
        <xref ref-type="bibr" rid="ref10">9</xref>
        ] können ebenfalls
unsichere Anfragen auf einer unsicheren Datengrundlage
bewerkstelligen, allerdings sind sie kein probabilistisches
Modell. Die entsprechenden Tupel-Konfidenzwerte werden
einfach ohne Rücksicht auf die Semantik der Teilbedingungen
aggregiert. Es findet also keine Überprüfung auf
Korrelationen statt, was das Ergebnis verfälschen kann.
      </p>
      <p>
        Außerdem bildet die Fuzzylogik [
        <xref ref-type="bibr" rid="ref17">16</xref>
        ] keine Boolesche
Algebra, da bekannte Äquivalenzen wie Idempotenz und
Distributibität nicht erfüllt sind. Aufgrund des Fehlens dieser
elementaren Eigenschaft sind Fuzzy-Datenbanken für uns nicht
geeignet. Einen ausführlichen Vergleich zwischen Fuzzy- und
Quantenlogik wird in [
        <xref ref-type="bibr" rid="ref15">14</xref>
        ] gegeben.
      </p>
      <p>
        Wir fassen zusammen, dass im Gegensatz zu QSQL2 die
anderen Ansätze [
        <xref ref-type="bibr" rid="ref10 ref11 ref2 ref7 ref9">8, 6, 1, 10, 9</xref>
        ] nicht beliebige, logik-basierte
Ähnlichkeitsbedingungen beherrschen.
      </p>
    </sec>
    <sec id="sec-10">
      <title>ZUSAMMENFASSUNG</title>
      <p>In dieser Arbeit wurde die quantenlogik-basierte
probabilistische Ähnlichkeitsanfragesprache QSQL2 vorgestellt. Ihre
Grundlagen wurden kurz dargelegt, ihre Syntax an
Beispielen anschaulich gemacht und ihre Besonderheiten
demonstriert.</p>
      <p>Im Gegensatz zu probabilistischen Datenbanken ist die
Integration und Nutzung von Ähnlichkeitsprädikaten in mehr
Fällen möglich. Die zusätzlichen Eigenschaften einer
Booleschen Algebra wie Idempotenz oder Distributibität
ermöglichen bessere Resultate als z. B. bei Fuzzylogik-basierte
Sprachen. Das mathematisch Fundament ermöglicht die
Interpretation der Ergebnisse als Wahrscheinlichkeiten, was sie
anschaulicher und verständlicher macht.</p>
      <p>Danksagung: Diese Arbeit wurde durch die Förderung
SCHM 1208/11 – 1 der Deutschen Forschungsgemeinschaft
(DFG) unterstützt.</p>
    </sec>
    <sec id="sec-11">
      <title>Literatur</title>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          <string-name>
            <surname>SELECT name FROM Criminals</surname>
            <given-names>C</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Observation O WHERE C.height</surname>
          </string-name>
          ≈ O.
          <source>obs_height and[ 1</source>
          ,
          <issue>0</issue>
          .5 ]
          <string-name>
            <surname>C.</surname>
          </string-name>
          <article-title>age ≈ O.obs_age 6</article-title>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          [1]
          <string-name>
            <given-names>P.</given-names>
            <surname>Agrawal</surname>
          </string-name>
          ,
          <string-name>
            <given-names>O.</given-names>
            <surname>Benjelloun</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A. D.</given-names>
            <surname>Sarma</surname>
          </string-name>
          ,
          <string-name>
            <given-names>C.</given-names>
            <surname>Hayworth</surname>
          </string-name>
          ,
          <string-name>
            <given-names>S.</given-names>
            <surname>Nabar</surname>
          </string-name>
          ,
          <string-name>
            <given-names>T.</given-names>
            <surname>Sugihara</surname>
          </string-name>
          , and
          <string-name>
            <given-names>J.</given-names>
            <surname>Widom</surname>
          </string-name>
          .
          <article-title>Trio: A System for Data, Uncertainty, and Lineage</article-title>
          .
          <source>In 32nd International Conference on Very Large Data Bases. VLDB</source>
          <year>2006</year>
          (
          <article-title>demonstration description)</article-title>
          ,
          <year>September 2006</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          [2]
          <string-name>
            <given-names>D.</given-names>
            <surname>Barbara</surname>
          </string-name>
          ,
          <string-name>
            <given-names>H.</given-names>
            <surname>Garcia-Molina</surname>
          </string-name>
          , and
          <string-name>
            <given-names>D.</given-names>
            <surname>Porter</surname>
          </string-name>
          .
          <article-title>The management of probabilistic data</article-title>
          .
          <source>IEEE Trans. Knowl. Data Eng.</source>
          ,
          <volume>4</volume>
          (
          <issue>5</issue>
          ):
          <fpage>487</fpage>
          -
          <lpage>502</lpage>
          ,
          <year>1992</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          [3]
          <string-name>
            <given-names>R.</given-names>
            <surname>Cavallo</surname>
          </string-name>
          and
          <string-name>
            <given-names>M.</given-names>
            <surname>Pittarelli</surname>
          </string-name>
          .
          <article-title>The theory of probabilistic databases</article-title>
          . In P. M.
          <string-name>
            <surname>Stocker</surname>
            ,
            <given-names>W.</given-names>
          </string-name>
          <string-name>
            <surname>Kent</surname>
          </string-name>
          , and P. Hammersley, editors,
          <source>VLDB</source>
          , pages
          <fpage>71</fpage>
          -
          <lpage>81</lpage>
          . Morgan Kaufmann,
          <year>1987</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          [4]
          <string-name>
            <given-names>E. F.</given-names>
            <surname>Codd</surname>
          </string-name>
          .
          <article-title>A relational model of data for large shared data banks</article-title>
          .
          <source>Commun. ACM</source>
          ,
          <volume>13</volume>
          (
          <issue>6</issue>
          ):
          <fpage>377</fpage>
          -
          <lpage>387</lpage>
          ,
          <year>1970</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          [5]
          <string-name>
            <given-names>N. N.</given-names>
            <surname>Dalvi</surname>
          </string-name>
          ,
          <string-name>
            <given-names>C.</given-names>
            <surname>Ré</surname>
          </string-name>
          , and
          <string-name>
            <given-names>D.</given-names>
            <surname>Suciu</surname>
          </string-name>
          .
          <article-title>Probabilistic Databases: Diamonds in the Dirt</article-title>
          .
          <source>Commun. ACM</source>
          ,
          <volume>52</volume>
          (
          <issue>7</issue>
          ):
          <fpage>86</fpage>
          -
          <lpage>94</lpage>
          ,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          [6]
          <string-name>
            <given-names>N. N.</given-names>
            <surname>Dalvi</surname>
          </string-name>
          and
          <string-name>
            <given-names>D.</given-names>
            <surname>Suciu</surname>
          </string-name>
          .
          <article-title>Efficient query evaluation on probabilistic databases</article-title>
          .
          <source>VLDB J</source>
          .,
          <volume>16</volume>
          (
          <issue>4</issue>
          ):
          <fpage>523</fpage>
          -
          <lpage>544</lpage>
          ,
          <year>2007</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          [7]
          <string-name>
            <given-names>D.</given-names>
            <surname>Dey</surname>
          </string-name>
          and
          <string-name>
            <given-names>S.</given-names>
            <surname>Sarkar</surname>
          </string-name>
          .
          <article-title>A probabilistic relational model and algebra</article-title>
          .
          <source>ACM Trans. Database Syst</source>
          .,
          <volume>21</volume>
          (
          <issue>3</issue>
          ):
          <fpage>339</fpage>
          -
          <lpage>369</lpage>
          ,
          <year>1996</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          [8]
          <string-name>
            <given-names>N.</given-names>
            <surname>Fuhr</surname>
          </string-name>
          and
          <string-name>
            <given-names>T.</given-names>
            <surname>Rölleke</surname>
          </string-name>
          .
          <article-title>A Probabilistic Relational Algebra for the Integration of Information Retrieval and Database Systems</article-title>
          .
          <source>ACM Trans. Inf</source>
          . Syst.,
          <volume>15</volume>
          (
          <issue>1</issue>
          ):
          <fpage>32</fpage>
          -
          <lpage>66</lpage>
          ,
          <year>1997</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          [9]
          <string-name>
            <given-names>J.</given-names>
            <surname>Galindo</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A.</given-names>
            <surname>Urrutia</surname>
          </string-name>
          , and
          <string-name>
            <given-names>M.</given-names>
            <surname>Piattini</surname>
          </string-name>
          . Fuzzy Databases: Modeling, Design and Implementation. Idea Group Publishing, Hershey, USA,
          <year>2006</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          [10]
          <string-name>
            <given-names>C.</given-names>
            <surname>Koch</surname>
          </string-name>
          .
          <article-title>MayBMS: A system for managing large uncertain and probabilistic databases</article-title>
          .
          <source>Managing and Mining Uncertain Data</source>
          ,
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          [11]
          <string-name>
            <given-names>S.</given-names>
            <surname>Lehrack</surname>
          </string-name>
          ,
          <string-name>
            <given-names>S.</given-names>
            <surname>Saretz</surname>
          </string-name>
          ,
          <string-name>
            <surname>and I. Schmitt.</surname>
          </string-name>
          <article-title>QSQLp: Eine Erweiterung der probabilistischen Many-WorldSemantik um Relevanzwahrscheinlichkeiten</article-title>
          . In T. Härder,
          <string-name>
            <given-names>W.</given-names>
            <surname>Lehner</surname>
          </string-name>
          ,
          <string-name>
            <given-names>B.</given-names>
            <surname>Mitschang</surname>
          </string-name>
          ,
          <string-name>
            <given-names>H.</given-names>
            <surname>Schöning</surname>
          </string-name>
          , and H. Schwarz, editors,
          <source>BTW</source>
          , volume
          <volume>180</volume>
          <source>of LNI</source>
          , pages
          <fpage>494</fpage>
          -
          <lpage>513</lpage>
          . GI,
          <year>2011</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          [12]
          <string-name>
            <given-names>S.</given-names>
            <surname>Lehrack</surname>
          </string-name>
          and
          <string-name>
            <given-names>I.</given-names>
            <surname>Schmitt</surname>
          </string-name>
          .
          <article-title>A Probabilistic Interpretation for a Geometric Similarity Measure</article-title>
          .
          <source>In Proceedings of the 11th European Conference on Symbolic and Quantitative Approaches to Reasoning with Uncertainty</source>
          ,
          <source>ECSQARU '11</source>
          ,
          <year>June 2011</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          [13]
          <string-name>
            <given-names>S.</given-names>
            <surname>Lehrack</surname>
          </string-name>
          and
          <string-name>
            <surname>I. Schmitt.</surname>
          </string-name>
          <article-title>A unifying probability measure for logic-based similarity conditions on uncertain relational data</article-title>
          .
          <source>In Proceedings of the 1st Workshop on New Trends in Similarity Search, NTSS '11</source>
          , pages
          <fpage>14</fpage>
          -
          <lpage>19</lpage>
          , New York, NY, USA,
          <year>2011</year>
          . ACM.
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          [14]
          <string-name>
            <given-names>I.</given-names>
            <surname>Schmitt</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A.</given-names>
            <surname>Nürnberger</surname>
          </string-name>
          , and
          <string-name>
            <given-names>S.</given-names>
            <surname>Lehrack</surname>
          </string-name>
          .
          <article-title>On the Relation between Fuzzy and Quantum Logic</article-title>
          .
          <source>In Views on Fuzzy Sets and Systems from Different Perspectives, chapter 5</source>
          . Springer-Verlag,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          [15]
          <string-name>
            <given-names>J.</given-names>
            <surname>Widom</surname>
          </string-name>
          .
          <article-title>Trio: A system for data, uncertainty, and lineage</article-title>
          .
          <source>In Managing and Mining Uncertain Data</source>
          , pages
          <fpage>113</fpage>
          -
          <lpage>148</lpage>
          . Springer,
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref17">
        <mixed-citation>
          [16]
          <string-name>
            <given-names>L. A.</given-names>
            <surname>Zadeh</surname>
          </string-name>
          .
          <article-title>Fuzzy sets</article-title>
          .
          <source>Information and Control</source>
          ,
          <volume>8</volume>
          (
          <issue>3</issue>
          ):
          <fpage>338</fpage>
          -
          <lpage>353</lpage>
          ,
          <year>June 1965</year>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>