<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <article-id pub-id-type="doi">10.1145/320083.320091</article-id>
      <title-group>
        <article-title>Inverses in Research Data Management: Combining Provenance Management, Schema and Data Evolution</article-title>
      </title-group>
      <contrib-group>
        <aff id="aff0">
          <label>0</label>
          <institution>Tanja Auge Lehrstuhl für Datenbankund Informationssysteme Institut für Informatik Universität Rostock</institution>
        </aff>
      </contrib-group>
      <pub-date>
        <year>2017</year>
      </pub-date>
      <volume>1917</volume>
      <abstract>
        <p />
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>Collecting, recording, storing, tracking, and archiving
scienti c data is the task of research data management, which is
the basis for scienti c evaluations on these data. In addition
to the evaluation and the result itself, the section of the
original database used has to be archived too. This evaluation
usually corresponds to a complex database query. Thus, to
ensure reproducible and replicable research, the evaluation
queries can be processed again later on in time to reproduce
the result. If the data or the schema of the research database
changes frequently, the original database would now have to
be permanently stored (frozen) after every evaluation carried
out on the database. In order to avoid this and in order to
avoid massively replicated databases, we want to use
provenance management techniques to calculate the minimal part
of the database that must be frozen in order to be able to
generate the query result again. For this, we want to
combine techniques of why and how provenance with the theory
of schema mappings for data integration and data exchange,
especially the inverse schema mappings of Fagin. These
inverse schema mappings have been extended by a new chase
inverse, the result equivalent chase inverse. In this article
we present an overview of the entire research project and
then concentrate on the rst concrete partial results: the
classi cation of internal requests in the calculation of why
provenance. We will distinguish between the cases, (1)
whether we can calculate the inverse only with the query result
and the evaluation query, (2) whether the inverse calculates
a sub-database that can be homomorphically mapped to the
original database, or (3) whether additional provenance
information (polynomials of how provenance) must be stored
to be able to calculate the inverse.</p>
      <p>Andreas Heuer
Lehrstuhl für Datenbank- und</p>
      <p>Informationssysteme
Institut für Informatik</p>
      <p>Universität Rostock
heuer@informatik.uni-rostock.de</p>
      <p>Inverse im Forschungsdatenmanagement
Eine Kombination aus Provenance Management, Schema- und Daten-Evolution
Die Sammlung, Erfassung, Speicherung, Verfolgung und
Archivierung wissenschaftlicher Daten ist Aufgabe des
Forschungsdatenmanagements. Neben der Auswertungsanfrage
und dem -ergebnis selbst soll auch der verwendete Ausschnitt
der Originaldatenbank archiviert werden. So konnen zur
Absicherung replizierbarer Forschung die Auswertungsanfragen
zu einem spateren Zeitpunkt erneut gestellt werden, um das
Ergebnis zu reproduzieren.</p>
      <p>Falls sich die Daten oder das Schema der
Forschungsdatenbank hau g verandern, musste man nun nach jeder auf dem
Datenbestand vorgenommenen Auswertung die
Originaldatenbank "einfrieren\ und sichern. Um dies zu vermeiden und
somit massiv replizierte Datenbestande zu erzeugen,
wollen wir mit Hilfe von Provenance-Management-Techniken
die minimale Teildatenbank berechnen, die gesichert werden
muss, um das Anfrageergebnis wieder erzeugen zu konnen.</p>
      <p>Dazu wollen wir Techniken der why - und how -Provenance
kombinieren mit der Theorie der Schema-Abbildungen fur
Datenintegration und Datenaustausch, hier insbesondere der
inversen Schemaabbildungen von Fagin.</p>
      <p>In diesem Beitrag stellen wir das gesamte
Forschungsprojekt im Uberblick vor und konzentrieren uns dann auf die
ersten konkreten Teilergebnisse: die Klassi zierung von
inversen Anfragen bei der Berechnung der why -Provenance.</p>
      <p>Dabei werden wir die Falle unterscheiden, ob wir die Inverse
nur mit Hilfe von Ergebnis und Auswertungsanfrage
berechnen konnen, ob die Inverse zumindest einen
Datenbankausschnitt berechnet, der homomorph auf die Originaldatenbank
abgebildet werden kann, oder ob fur die Berechnung der
Inversen zusatzliche Provenance-Informationen (Polynome der
how -Provenance) gespeichert werden mussen.</p>
    </sec>
    <sec id="sec-2">
      <title>Categories and Subject Descriptors</title>
      <p>Information Systems [Data Management Systems]: Data
Provenance; Information Systems [Information
Integration]: Data Exchange
CHASE-Algorithmus, Data Provenance, Schema-Evolution,
Daten-Evolution, CHASE-Inverse, Ergebnisaquivalenz
1.</p>
    </sec>
    <sec id="sec-3">
      <title>PROBLEMSTELLUNG</title>
      <p>Unter dem Begri Provenance Management versteht man
die Ruckverfolgbarkeit eines Anfrageergebnisses bis zu den
relevanten Originaldaten [4]. Dies beinhaltet sowohl die
Originaldaten an sich (where-Provenance) als auch den
zuruckgelegten Weg (why- und how-Provenance).</p>
      <p>
        Anwendung ndet diese Fragestellung etwa im
Forschungsdatenmanagement. Das Ziel besteht hierbei in der Verfolgung
und Archivierung von Daten, die bei wissenschaftlichen
Projekten, Experimenten oder Beobachtungen erfasst worden
sind. Der Weg von der Datenerhebung bis zur
Publikation soll so nachvollziehbar, rekonstruierbar und replizierbar
gehalten werden. Da die Forschungsdatenbank sich standig
andert und somit eine bitemporale Datenbank [
        <xref ref-type="bibr" rid="ref14">18</xref>
        ] darstellt,
muss die Evolution von Daten und Schemata mit dem
Provenance Management zusammenspielen. Leider werden
bisher die Data-Provenance-Forschungen immer auf einer festen
Datenbank durchgefuhrt. Zwei Forschungsziele des Projektes
bestehen daher in der Berechnung einer minimalen
Teildatenbank der Original-Forschungsdatenbank sowie der
Vereinheitlichung von Provenance und Evolution.
      </p>
      <p>Berechnung einer minimalen Teildatenbank: Die
berechnete minimale Teildatenbank soll die Ergebnisse der
Auswertungsanfrage unter verschiedenen Randbedingungen
rekonstruieren konnen, etwa:</p>
      <p>Die Tupelanzahl der Originalrelation bleibt erhalten.
Die Teildatenbank kann homomorph auf das Original
abgebildet werden.</p>
      <p>
        Konkret stellt sich die Frage, welche zusatzlichen
Informationen bei archiviertem Ergebnis und gemerkter
Auswertungsanfrage fur die Rekonstruktion der minimalen Teildatenbank
benotigt werden. Reicht es, eine minimale Zeugenmenge
aufzuheben (why -Provenance, [
        <xref ref-type="bibr" rid="ref2">6</xref>
        ]) und/oder die
zugehorigen Provenance-Polynome zu berechnen (how -Provenance,
[
        <xref ref-type="bibr" rid="ref10">14</xref>
        ])? Oder ist es notwendig, ganze Tupel bzw.
Datenbankausschnitte direkt zu speichern?
      </p>
      <p>Die Berechnung einer inversen Anfrage Q 1, mit deren
Hilfe die gesuchte minimale Teildatenbank bestimmt werden
soll, ist abhangig vom Typ der Originalanfrage Q sowie allen
zusatzlich gemerkten Informationen. So kann fur die
Projektion etwa eine ergebnisaquivalente CHASE-Inverse [3], fur die
, K(S2)</p>
      <p>
        A
Projektion ohne Duplikateliminierung eine relaxte
CHASEInverse und fur die Kopie eine exakte CHASE-Inverse [
        <xref ref-type="bibr" rid="ref8">12</xref>
        ]
angegeben werden (siehe Tabelle 4). Die in den
Randbedingungen geforderte Homomorphie ist eine sehr starke
Eigenschaft, welche im Verlauf weiterer Untersuchungen gezielt
abgeschwacht werden soll. Ein erster Ansatz ist die De
nition ergebnisaquivalenter CHASE-Inversen (siehe Abschnitt
3.3). Diese vernachlassigen die Homomorphie ganzlich, was
wiederum zu einem starken Informationsverlust fuhren kann.
So konnen ganze (vielleicht fur andere Anfragen notwendige)
Tupel verloren gehen, welche bei der Verwendung einer
relaxten CHASE-Inversen zumindest als Nulltupel noch erhalten
blieben. Andere Ansatze fuhren beispielsweise
Konzepthierarchien oder eine Vergroberung der Datenbankbestande ein,
wie es etwa fur intensionale Provenance-Antworten
notwendig ist [
        <xref ref-type="bibr" rid="ref18">22</xref>
        ].
      </p>
      <p>Vereinheitlichung von Provenance und Evolution:
Bisherige Provenance-Anfragen Qprov (where-, why - und how
Provenance) erfolgen stets auf einer gegebenen festen
Datenbank S1 sowie einer Auswertungs-Anfrage Q. Die
Kombination von Provenance mit Schema- und Daten-Evolution
soll die Auswertung von Provenance-Anfragen bei sich
andernden Daten und Schemata ermoglichen (siehe Abbildung
1). Mit Hilfe der Inversenbildung E 1 kann wiederum, (falls
moglich) der neue Datenbankbestand J in das alte Schema
Das mittels CHASE berechnete Auswertungsergebnis
(siehe Abschnitt 3.1) soll daher in einem zweiten Schritt, dem
BACKCHASE, um eine inverse Provenance-Anfrage Q0prov
erweitert werden.</p>
      <p>Formal: Nach der Schemaevolution E : S1 ! S3 kann die
Anfrage Q0 als Komposition der ursprunglichen Anfrage Q
sowie der inversen Evolution E 1 direkt berechnet werden:
Q0(J (S3)) = (E 1</p>
      <p>Q)(J (S3)) = Q(I(S1)):
Die neue Provenanceanfrage Q0prov ergibt sich analog als</p>
      <p>Q0prov(K (S2)) = (Qprov E)(K (S2)):
Es genugt daher, sich eine der beiden minimalen
Teildatenbanken I (S1) oder J (S3) zu merken. Die jeweils
andere lasst sich mit Hilfe der Inversen leicht berechnen. Im
Forschungsdatenmanagement entspricht K dabei stets der
gesamten Ergebnisdatenbank K, d.h. K = K. Allgemeine
Provenance-Anfragen konnen auch auf Teilmengen dieser
Ergebnisdatenbank sowie konkreten Tupeln gestellt werden.</p>
      <p>
        Die Universitat Rostock vereint ihre Forschungen zum
Thema Provenance Management im Projekt METIS in
PArADISE [
        <xref ref-type="bibr" rid="ref13">17</xref>
        ]. Konkret beschaftigt sich dieses Projekt mit
Provenance Management bei der Auswertung von
Sensordatenmengen fur die Entwicklung von Assistenzsystemen.
      </p>
      <p>METIS : Das Langzeitprojekt METIS (Management,
Evolution, Transformation und Integration von Schemata)
vereint die Verfahren zur Integration, Transformation und
Evolution von Daten. Auch die Frage der Datenherkunft wird
in diesem Projekt untersucht.</p>
      <p>PArADISE : In der Projektgruppe PArADISE (Privacy
AwaRe Assistive Distributed Information System
Environment) werden Techniken zur Auswertung von gro en Mengen
von Sensordaten entwickelt.</p>
      <p>
        Eine Anwendung von METIS in PArADISE im Bereich
des Forschungsdatenmanagements wird zusammen mit dem
Leibniz-Institut fur Ostseeforschung in Warnemunde (IOW)
entwickelt (siehe [
        <xref ref-type="bibr" rid="ref1">5</xref>
        ]). Die Notwendigkeit zur Integration von
Provenance- und Evolutions-Fragestellungen wurde gerade
in dieser Kooperation geboren.
      </p>
      <p>Im Rest dieses Beitrages werden wir die Formalisierung
der Auswertungsanfragen und ihrer Inversen mit Hilfe des
CHASE einfuhren sowie fur einfache Auswertungsanfragen
verschiedene Typen von Inversen angeben. Die
Formalisierung der Techniken uber den CHASE soll uns gerade
ermoglichen, die Ergebnisse der Schema-Evolutions-Theorie, der
Theorie des Datenaustausches und der Data Provenance zu
vereinheitlichen.</p>
    </sec>
    <sec id="sec-4">
      <title>2. STAND DER FORSCHUNG</title>
      <p>Die Idee unserer Arbeit basiert auf der Kombination dreier
verschiedenen Grundtechniken.</p>
      <p>
        Provenance: Die Grundlage fur unsere
Provenance-Analysen bildet [
        <xref ref-type="bibr" rid="ref12">16</xref>
        ] mit einem allgemeinen U berblick uber die
Begri sbildungen sowie die verschiedenen Klassi zierungen von
Provenance-Anfragen (why , where, how und why not ). Die
Konstruktion von (minimalen) Zeugenbasen und
ProvenancePolynomen zur Beantwortung der why - bzw. how
-Provenance basieren auf den Techniken aus [
        <xref ref-type="bibr" rid="ref2">6</xref>
        ] und [
        <xref ref-type="bibr" rid="ref10 ref11">1, 14, 15</xref>
        ].
Die Ubertragung der Problematik auf die Spieltheorie wird
in [
        <xref ref-type="bibr" rid="ref15">19</xref>
        ] zur Analyse der why not -Provenance benutzt.
      </p>
      <p>
        CHASE: Leider werden Provenance-Anfragen derzeit nur
auf festen Datenbanken benutzt. Um die Technik mit der
Evolution von Schemata und Daten kombinieren zu konnen,
wollen wir die Auswertungs-Anfragen Q sowie die
ProvenanceAnfragen Qprov mit Hilfe von s-t tgds und egds (siehe
unten) darstellen und mit Hilfe des CHASE konzeptuell
umsetzen. Seine ursprungliche Anwendung hat der CHASE im
Datenbankentwurf [
        <xref ref-type="bibr" rid="ref16">20</xref>
        ], der auf den Tableaude nitionen in
[1] basiert. Der CHASE wurde dann spater vor allem fur die
Transformation von Datenbanken im Bereich der
Datenintegration, des Datenaustausches und der Schema-Evolution
benutzt. In diesen Fallen dient der CHASE dann zur
Darstellung von Schemabbildungen.
      </p>
      <p>
        Schemaabbildungen und inverse Abbildungen. Fagin et al.
beschaftigen sich in ihren Arbeiten [
        <xref ref-type="bibr" rid="ref5 ref8">9, 12</xref>
        ] ausfuhrlich mit
der De nition des CHASE-Algorithmus fur s-t tgds und egds
sowie der Konstruktion von CHASE-inversen
Schemaabbildungen [
        <xref ref-type="bibr" rid="ref6 ref7">10, 11</xref>
        ]. Eine Implementierung des CHASE fur diesen
Anwendungsfall liefert etwa die Software Llunatic [
        <xref ref-type="bibr" rid="ref9">13</xref>
        ]. In [
        <xref ref-type="bibr" rid="ref4">8</xref>
        ]
wurden diese Techniken auch fur die Schema-Evolution
verwendet. Die Nutzung inverser Schemaabbildungen fur das
Provenance Management, speziell fur Provenance-Anfragen,
ist bisher noch nicht vorgenommen worden.
      </p>
    </sec>
    <sec id="sec-5">
      <title>DIE TECHNIKEN</title>
      <p>Die Bearbeitung der beiden oben vorgestellten
Forschungsziele soll durch die Kombination der gerade vorgestellten
Tabelle 1: APS-Relation mit zugehorigen Tupelidenti
katoren t1 und t2
Techniken erfolgen, (1) dem CHASE-Algorithmus zur
Auswertung von Anfragen, (2) der Ermittlung von why - und
how -Provenance und (3) der Berechnung von
CHASE-inversen Abbildungen zur Rekonstruktion einer minimalen
Teilmenge der Originaldatenbank.
3.1</p>
    </sec>
    <sec id="sec-6">
      <title>Der CHASE</title>
      <p>Der CHASE ist ein in der Datenbanktheorie universell
einsetzbares Werkzeug. Es ndet Anwendung etwa bei der
Darstellung von Abhangigkeiten innerhalb einer Datenbank
oder eines relationenalgebraischen Ausdrucks, der
Implikation von Abhangigkeiten, dem Aquivalenznachweis von
Datenbankschemata unter gegebenen Abhangigkeiten sowie der
Behandlung (Ersetzung oder Sauberung) von Nullwerten in
Datenbanken. Die Idee dieses Algorithmus kann dabei wie
folgt zusammengefasst werden: Fur ein Objekt und eine
Menge von Abhangigkeiten ? (beispielsweise eine Menge von
FDs und JDs) arbeitet der CHASE die Abhangigkeiten ? in
das Objekt ein, sodass ? implizit in enthalten ist, und
somit die Abhangigkeiten nicht verletzt. Bildhaft ergibt
sich:</p>
      <p>chase?( ) = ? :</p>
      <p>
        Seine ursprungliche Anwendung hat der CHASE im
Datenbankentwurf [
        <xref ref-type="bibr" rid="ref16">20</xref>
        ], der auf den Tableaude nitionen in [1]
basiert. Der CHASE kann aber nicht nur mit FDs und JDs
(?) auf Tableaus ( ), sondern auch mit tgds/s-t tgds und
egds (?) auf Datenbanken ( ) de niert werden. Dies
beschreiben unter Anderem Fagin et al. in [
        <xref ref-type="bibr" rid="ref5 ref8">12, 9</xref>
        ].
      </p>
      <p>Eine tuple-generating dependency (tgd) ist eine Sequenz
der Form</p>
      <p>8x : ( (x) ! 9y : (x; y))
mit Konjunktionen (x) und (x; y) von Atomen aus x bzw.
x und y. Ist (x) eine Konjunktion von Atomen uber einem
Quellschema S und (x; y) eine Konjunktion von Atomen
uber einem Zielschema T , so hei t eine solche Sequenz auch
source-to-target tuple-generating dependency (s-t tgd). Eine
equality-generating dependency (egd) ist fur zwei Variablen
x1; x2 aus x de niert durch</p>
      <p>8x : ( (x) ! (x1 = x2)):</p>
      <p>Der CHASE einer Instanz I uber einer
Abhangigkeitsmenge ist schlie lich eine (endliche oder unendliche) Sequenz
von tgd- und egd-Regeln, welche neue Tupel erzeugen oder
(markierte) Nullwerte durch Konstanten bzw. (markierte)
Nullwerte mit kleinerem Index ersetzen kann.</p>
      <p>Zur Veranschaulichung des CHASE sei exemplarisch die
Datenbank einer Universitat gegeben. Diese enthalt unter
Anderem eine Relation mit den Namen, Studiengangen und
Matrikelnummern ihrer Studenten sowie eine weitere
Relation, welche alle abgeschlossenen Abschlussarbeiten listet. Die
zugehorigen Schemata sind de niert</p>
      <p>STUD(Matrikelnummer, Name, Studiengang)
und</p>
      <p>AA(ID, Titel, Vertiefung, Matrikelnummer, Note).
Die Relation APS mit dem Schema</p>
      <p>APS(ID, Titel, Matrikelnummer, Studiengang),
welche die Abschlussarbeiten pro Studiengang
zusammenfasst, soll nun in die Relationen AA und STUD migriert
werden. Hierzu seien folgende Abhangigkeiten gegeben (eine
s-t tgd, eine tgd sowie eine egd):</p>
      <p>ST
=
f 1 : APS(i; t; m; s)</p>
      <p>! 9N; V; G : STUD(m; N; s) ^ AA(i; t; V; m; G)g
T =
f 2 : AA(i; t; v; m; g) ! 9 N; S : STUD(m; N; S);</p>
      <p>3 : STUD(m; n1; s) ^ STUD(m; n2; s) ! n1 = n2g
Der CHASE liefert nun, angewandt auf den Datenbestand
aus Tabelle 1, nach Integration der s-t tgd 1 die Tupelmenge
I0 =
fSTUD(4711, N1, Informatik),
AA(1234, Big Data, V1, 4711, G1),
STUD(4711, N2, Informatik),</p>
      <p>AA(2467, Provenance, V2, 4711, G2)g
mit den (markierten) Nullwerten N1; N2; V1; V2; G1 und G2.
Bevor 2 sowie 3 eingearbeitet werden, muss gepruft werden,
ob I0 die Abhangigkeiten aus T bereits erfullt, d.h. I0 j= T.
In diesem Fall ware ein weiterer CHASE-Schritt, also die
Anwendung einer tgd- oder egd-Regel, nicht mehr notwendig
und der CHASE selbst erfolgreich. Die tgd 2 ist bereits
erfullt, sodass die Eliminierung uber ussiger Nullwerte | das
sogenannte cleaning | mittels 3 bereits die Ergebnisinstanz
I00 = fSTUD(4711, N1, Informatik),</p>
      <p>AA(1234, Big Data, V1, 4711, G1),</p>
      <p>
        AA(2467, Provenance, V2, 4711, G2)g
liefert. Implementiert ist diese Art des CHASE etwa in der
Software Llunatic [
        <xref ref-type="bibr" rid="ref9">13</xref>
        ].
3.2
      </p>
    </sec>
    <sec id="sec-7">
      <title>Data Provenance</title>
      <p>
        Typischerweise werden vier Provenance-Anfragen und vier
Provenance-Antworten (siehe Tabelle 2) unterschieden [
        <xref ref-type="bibr" rid="ref12">16</xref>
        ].
Die ersten drei Anfragen konnen dabei bzgl. ihres
Informationsgehaltes ( ) geordnet werden:
where
why
how :
Mit anderen Worten, aus dem Ergebnis der how -Provenance
konnen die why - sowie die where-Provenance abgeleitet
werden. Gleiches gilt fur die why - und where-Provenance (siehe
Abbildung 2). Der formale Beweis fur die Reduktion der why
auf die how -Provenance kann in [
        <xref ref-type="bibr" rid="ref3">7</xref>
        ] nachgelesen werden. Die
why not -Anfrage kann in diese "Informationskette\ nicht
eingeordnet werden, da sie, anders als die why -, where- oder
how -Anfrage keine extensionale, sondern eine anfrage- oder
modi kationsbasierte Antwort liefert.
      </p>
      <p>
        Die how -Provenance einer Anfrage Q kann als
ProvenancePolynom [
        <xref ref-type="bibr" rid="ref10 ref11">14, 2, 15</xref>
        ], die why -Provenance in Form von
(minimalen) Zeugenbasen [
        <xref ref-type="bibr" rid="ref2">6</xref>
        ] und die where-Provenance als Liste
where-Provenance
(Tabellenname)
      </p>
      <p>APS
h
why-Provenance how-Provenance
(Zeugenbasis) (Polynom)
fft1g; ft2g; ft1; t2gg (t1 (t1 + t2)) + (t2 (t1 + t2))</p>
      <p>h</p>
      <sec id="sec-7-1">
        <title>Relationenname</title>
      </sec>
      <sec id="sec-7-2">
        <title>Tupelliste</title>
        <p>
          Abbildung 2: Reduktion von why , where und how
Fur die Angabe einer extensionalen Provenance-Antwort
genugt somit die Berechnung der how -Provenance. Die
Berechnung und Speicherung dieser Polynome erfolgt etwa uber
die schrittweise Verfolgung der algebraischen
Grundoperationen der Anfrage oder uber graphentheoretische Ansatze. Im
Bereich der Spieltheorie existieren fur die Beantwortung der
why -, why not - oder how -Provenance beispielsweise die
sogenannten Provenance Games [
          <xref ref-type="bibr" rid="ref15">19</xref>
          ].
3.3
        </p>
      </sec>
    </sec>
    <sec id="sec-8">
      <title>CHASE-Inverse</title>
      <p>
        Exakte, klassische und relaxte CHASE-Inverse sind
spezielle Formen von inversen Abbildungen [
        <xref ref-type="bibr" rid="ref8">12</xref>
        ]. Erstmalig
formuliert wurden inverse Schemaabbildungen von Fagin [
        <xref ref-type="bibr" rid="ref6">10</xref>
        ]. Er
de niert die Inverse einer Schemaabbildung M : S1 ! S2 als
eine Schemaabbildung M : S2 ! S1, deren Komposition
M M der Identitatsabbildung entspricht.
      </p>
      <p>
        Inverse Abbildungen nden etwa bei der
Schemaevolution Anwendung. Wahrend eine exakte CHASE-Inverse stets
die Originaldatenbank rekonstruiert, liefert die klassische
CHASE-Inverse nur ein zur Originaldatenbank aquivalentes
Ergebnis. Kann eine Inverse nicht angegeben bzw. de niert
werden, wird aber dennoch eine Art inverse Abbildung
benotigt, kann auf die sogenannte Quasi-Inverse zuruckgegri en
werden [
        <xref ref-type="bibr" rid="ref7">11</xref>
        ]. Sie liefert nicht mehr die Quellinstanz selbst,
dafur aber eine hierzu aquivalente Instanz oder zumindest
eine aquivalente Teilinstanz.
      </p>
      <p>Fur eine Anfrage Q und eine Quellinstanz I liefert der
CHASE eine Ergebnisinstanz K = chaseM(I), wenn gilt:
Q wird als Schemaabbildung M = (S1; S2; 1) mit
Quell- und Zielschema S1 und S2 sowie einer Menge
von Abhangigkeiten 1 aufgefasst;</p>
      <sec id="sec-8-1">
        <title>I ist Quellinstanz in S1.</title>
      </sec>
      <sec id="sec-8-2">
        <title>K ist Zielinstanz in S2.</title>
        <p>Die Urinstanz I = chaseM (K) = chaseM (chaseM(I)) ist
somit das Ergebnis einer Ruckanfrage Q0 auf die
Ergebnisinstanz K. Dabei enthalt I ganze oder auf bestimmte
Attribute des Quellschemas eingeschrankte (und mit (markierten)
Nullwerten aufgefullte) Tupel aus I.</p>
      </sec>
      <sec id="sec-8-3">
        <title>Schema:</title>
      </sec>
      <sec id="sec-8-4">
        <title>Instanz:</title>
        <p>S1
I
&amp;
S2
9 K
chaseM
chaseM?
&amp;
S1
9 I</p>
        <p>Das CHASE&amp;BACKCHASE-Verfahren zur Bestimmung
einer CHASE-inversen Schemaabbildung M = (S2; S; 2)
zu M = (S; S2; 1) lasst sich daher wie folgt beschreiben:
CHASE: Berechne den CHASE von I bzgl. M als
Sequenz von s-t tgd- und egd-Regeln.</p>
        <p>BACKCHASE: Berechne den CHASE von K bzgl. M
als Sequenz von s-t tgd- und egd-Regeln.</p>
        <p>Enthalt die Urinstanz I Tupel mit (markierten)
Nullwerten, deren restliche Attributwerte mit den Attributwerten
eines Tupels der Quellinstanz I ubereinstimmen,
beispielsweise (1; 3; 5) 2 I und (1; 3; n1) 2 I , so hei t I Ausschnitt der
Instanz I, kurz I I. Mit anderen Worten, es existiert ein
Homomorphismus h, welcher die Tupel aus I auf die Tupel
aus I abbildet. Fur das obige Beispiel gilt dann 1 7! 1; 3 7! 3
und n1 7! 5. Enthalt I keine (markierten) Nullwerten und
sind alle Tupel aus I auch Tupel in I, schreibt man I I.</p>
        <p>Die relaxte CHASE-Inverse ist eine Abschwachung der
klassischen CHASE-Inversen. Sie fordert keine
Aquivalenzbeziehung zwischen Quell- und Urinstanz I , dafur aber
Ergebnisaquivalenz sowie die Existenz eines Homomorphismus
von der Urinstanz I in die Quellinstanz I. Eine
Schemaabbildung M = (S1; S2; ) hei t ergebnisaquivalent bzgl. M
(kurz: I $M K), wenn fur zwei Instanzen I; K uber S gilt:
chaseM(I) $ chaseM(K):</p>
        <p>Die ergebnisaquivalente CHASE-Inverse fordert nur noch
Ergebnisaquivalenz und ist somit die schwachste
CHASEInverse. Insgesamt ergibt sich die Reduktion:
ergebnisaquivalent
relaxt
klassisch
exakt:
Diese Reduktion bildet die hinreichende Bedingung fur die
Existenz einer CHASE-Inversen. Die notwendige Bedingung
folgt aus der jeweiligen De nition der CHASE-Inversen.
Tabelle 3 fasst diese Bedingungen zusammen.</p>
        <p>Eine allgemeine Untersuchung der wichtigsten
Basis-Operationen auf die Existenz CHASE-inverser Abbildungen
bildet den Kern der Masterarbeit "Umsetzung von
ProvenanceAnfragen in Big-Data-Analytics-Umgebungen\ [3]. So
konnen fur die Operationen der Relationenalgebra bis auf wenige
Ausnahmen (Selektion auf Ungleichheit, Di erenzbildung)
exakte, relaxte oder ergebnisaquivalente CHASE-Inverse
angegeben werden (siehe Tabelle 4, Spalte 2). Die Existenz
einer exakten CHASE-Inversen (=) kann dabei nur fur einige
wenige relationale Operationen wie das Kopieren oder den
naturliche Verbund ohne Duplikate nachgewiesen werden.
Wahrend fur die Aggregatfunktionen SUM und AVG keine
CHASE-Inverse gefunden werden kann (xxx), sind die
meisten Operationen ergebnisaquivalent ($) oder relaxt
CHASEinvers ( ).</p>
        <p>Die Hinzunahme zusatzlicher Provenance-Informationen
ermoglicht die Angabe starkerer CHASE-Inversen (siehe
Tabelle 4, Spalte 4). Die hierfur benotigten
Provenance-Polynome und (minimalen) Zeugenbasen entsprechen den De
nitionen aus Abschnitt 3.2. So kann im Falle der Projektion mit
Duplikaten durch die Verwendung von Data Provenance statt
einer ergebnisaquivalenten CHASE-Inversen eine relaxte und
fur die Vereinigung sogar eine exakte CHASE-Inverse
konstruiert werden. Fur andere Operationen wie etwa die
Projektion ohne Duplikate, die Selektion auf &lt;; ; =; ; &gt; oder die
Maximum- bzw. Minimumbildung konnen trotz
ProvenanceUntersuchungen keine Verbesserungen gefunden werden. Die
Kopieroperation, die Umbenennung, der naturliche Verbund
ohne Duplikate sowie die arithmetischen Operationen +; ;
und : liefern zudem bereits ohne Provenance-Aspekte exakte
CHASE-Inverse. Fur die Selektion auf Ungleichheit sowie
die Di erenzbildung konnen trotz Provenance keine
CHASEInversen gefunden werden. Anders verhalt es sich bei den
Aggregatfunktionen SUM und AVG. Hier kann nur mit Hilfe
der Provenance-Polynome uberhaupt eine CHASE-inverse
Abbildung angegeben werden.</p>
        <p>Eine konkrete Angabe der inversen Abbildung M ist fur
einige der Grundoperationen ebenfalls moglich. Die
ergebnisaquivalente CHASE-Inverse entspricht stets der
Identitatsabbildung (Selektion, Mengenoperationen) oder im Falle von
Relationenschemaanderungen der Erweiterung um
(markierte) Nullwerten (null values, NV) etwa bei den Operationen
Projektion, naturlicher Verbund sowie den
Aggregatfunktionen MIN und MAX. Die relaxte CHASE-Inverse kann neben
den (markierten) Nullwerten sogar ganze Nulltupel
(Aggregatfunktion COUNT) erzeugen. Der naturliche Verbund, die
arithmetischen Operationen +, , und : sowie die
Umbenennung lassen sich durch die Projektion, die arithmetischen
Operationen , +, : und sowie die Ruckbenennung
invertieren. Dargestellt sind diese Erkenntnisse in der dritten und
funften Spalte der Tabelle 4.</p>
        <p>Fur die Komposition M = M1 ::: Mn der obigen
Operationen ergibt sich die inverse Funktion</p>
        <p>M = (M1 ::: Mn) 1 = Mn ::: M2 M1
als Komposition der inversen Teiloperationen M1; :::; Mn.
Der Typ der Inversen M entspricht dabei dem Typ der
schwachsten Teilinversen Mi (i = 1; :::; n). Fur die Anfrage
Q = m( i;s(APS) ./ m;s(APS))
l
e
p
u
T
r
e
n
e
r
o
l
r
ev i i</p>
        <p>R R
inAi itokun tseau tseau
reu i
ew inA iton iton
t
i</p>
        <p>k k
rE VN jreo jreo
m P P
u
g
n
u
r
e
t
i
e
w
r
E
i i</p>
        <p>R R
inVAi inVAi tseauu tseauu
itree itee iton iton
rw rw k k</p>
        <p>e je
E E jro ro</p>
        <p>P P
p
y
T
n
se = = $ $=
r
e
v
n
I
p
y
T
n
se = = $
r
e
v
n
I
)
)
R
((r ))
M
n
o
i
t
a
repO ()rR Aj (Ai</p>
        <p>Ai (rR
=
)
2
(R
2
r
/
.
)
1
(R
1
r
ceeann IrseevnMItteadn AAij gunNVm trseoknR+ ifttauA ftauA iItdn Idn
? it rbu itrbu tta ittta</p>
        <p>e e
v
o
r
P
t
i
m
v
o
r
P
e
n
h
o
xxx xxx liteokn itttean xxx gnuNVm egovnunN lrrreeevnA rrreeevnA :/ ta
/ itt
+ en
eS Id o lo / Id
i i
A A
in in
j tre tre
=6 e e
,i ln tw tw
j e bu ibu
A up itr r
in llt t tt
itreu rzeu ion ion
w E tk tk
e
rE trsu trsu
n n
o o
ek ek
R R
?
ce rse it A tbA tttan itttan
ean IvnMItteadn AAij gunuNm rgnuuNm ifttrabu iftrau iId Id
n e e e
xxx xxx iten itten xxx gnuNVm egovnunN xxx xxx ://+ itttean
tta ta</p>
        <p>Id Id / Id
xxx xxx =
x
x
x</p>
        <p>$= = =
xxx xxx
x
x
x</p>
        <p>$xxx xxx =
j
=6
,i ln
j e
A up
in llt
u u
r e
e z
itew rE
r
E
)
)
(R
r
(
N
I
M)
g
=
;
;
;
+
f
2
g
&gt;
;
;
=
;
))(rR())(rR;&lt;f )) )) ()2 ()2R)(2 ))/ ()r )) ))Ritm D</p>
        <p>R</p>
        <p>R R R
Ai Ai m A=i6 AA=ij6 ()r11 ()r11 ()r11R AXMAiR(TCOUNAi ((rSUMAi((rAVGAi ()r ()r
(c Aj it2 ((rcR((rRr2[ r2\ r2 ((r OM</p>
        <p>R R R R
Tabelle 4: Grundoperation und ihre exakten (=), relaxten
($) oder ergebnisaquivalenten ( ) CHASE-Inversen
(Ausschnitt aus [3])
ergibt sich somit eine ergebnisaquivalente CHASE-Inverse,
denn sowohl die Projektion mit Duplikatbildung, als auch der
naturliche Verbund mit dangling tuples liefern die Existenz
einer solchen Inversen. Existiert zu einer der Teiloperationen
Mi keine CHASE-Inverse, so auch nicht zu M.</p>
        <p>
          Die Anwendung dieser theoretischen U berlegungen auf ein
praxisbezogenes Beispiel, das Hidden-Markov-Modell, kann
in [3] nachgelesen werden. Basierend auf der Darstellung des
Hidden-Markov-Modells in Form von SQL-Anweisungen [
          <xref ref-type="bibr" rid="ref17">21</xref>
          ],
konnen die benotigten Operationen Addition und
Subtraktion, skalare Multiplikation und Division sowie die
MatrixVektor- und Matrix-Matrix-Multiplikation auf die Existenz
von CHASE-inversen Abbildungen untersucht werden.
Insgesamt ergibt sich fur die Komposition dieser Operationen
eine ergebnisaquivalente CHASE-Inverse.
        </p>
      </sec>
    </sec>
    <sec id="sec-9">
      <title>ZUSAMMENFASSUNG</title>
      <p>Im Forschungsdatenmanagement soll neben der
Auswertungsanfrage und dem -ergebnis selbst auch der verwendete
Ausschnitt der Originaldatenbank archiviert werden. Falls
sich die Daten oder das Schema der Forschungsdatenbank
hau g verandern, musste man nach jeder auf dem
Datenbestand vorgenommenen Auswertung die Originaldatenbank
einfrieren\ und sichern. Um dies zu vermeiden, berechnen
"wir mit Hilfe von Provenance-Management-Techniken die
minimale Teildatenbank, die gesichert werden muss, um das
Anfrageergebnis wieder erzeugen zu konnen. Dazu haben wir
Techniken der why - und how -Provenance mit der Theorie
der inversen Schema-Abbildungen fur Datenintegration und
Datenaustausch kombiniert. Basis fur die Transformationen
auf den Daten zur Evolution von Schema und Daten als auch
fur die Transformation, die die Auswertungsanfrage darstellt,
ist der CHASE. Damit konnen wir drei verschiedene
Teilgebiete der Theorie zusammenfuhren.</p>
      <p>In diesem Beitrag haben wir erste konkrete Teilergebnisse
zur Klassi zierung von inversen Anfragen bei der Berechnung
der why -Provenance vorgestellt: Die Berechnung der
Inversen nur mit Hilfe von Ergebnis und Auswertungsanfrage, die
Bestimmung der Inversen mit Hilfe zusatzlicher
ProvenanceInformationen (Provenance-Polynome der how -Provenance)
sowie die De nition eines Datenbankausschnitts, der
homomorph auf die Originaldatenbank abgebildet werden kann.</p>
    </sec>
    <sec id="sec-10">
      <title>Literatur</title>
      <p>[2] Y. Amsterdamer, D. Deutch und V. Tannen.
\Provenance for Aggregate Queries". In: PODS. ACM, 2011,
S. 153{164.</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          [5]
          <string-name>
            <given-names>I.</given-names>
            <surname>Bruder</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Klettke</surname>
          </string-name>
          , M. L. Moller, F. Meyer, A. Heuer,
          <string-name>
            <surname>S.</surname>
          </string-name>
          <article-title>Jurgensmann und S. Feistel</article-title>
          . \
          <source>Daten wie Sand am Meer - Datenerhebung</source>
          , -strukturierung,
          <article-title>-management und Data Provenance fur die Ostseeforschung"</article-title>
          .
          <source>In: Datenbank-Spektrum 17.2</source>
          (
          <issue>2017</issue>
          ), S.
          <volume>183</volume>
          {
          <fpage>196</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          [6]
          <string-name>
            <given-names>P.</given-names>
            <surname>Buneman</surname>
          </string-name>
          , S. Khanna und
          <string-name>
            <given-names>W. C.</given-names>
            <surname>Tan</surname>
          </string-name>
          . \
          <article-title>Why and Where: A Characterization of Data Provenance"</article-title>
          .
          <source>In: ICDT. Bd. 1</source>
          . Springer.
          <year>2001</year>
          , S.
          <volume>316</volume>
          {
          <fpage>330</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          [7]
          <string-name>
            <given-names>J.</given-names>
            <surname>Cheney</surname>
          </string-name>
          , L. Chiticariu und
          <string-name>
            <given-names>W. C.</given-names>
            <surname>Tan</surname>
          </string-name>
          . \Provenance in Databases: Why, How, and
          <article-title>Where"</article-title>
          .
          <source>In: Foundations and Trends in Databases 1.4</source>
          (
          <issue>2009</issue>
          ), S.
          <volume>379</volume>
          {474. doi:
          <volume>10</volume>
          .1561/1900000006.
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          [8]
          <string-name>
            <given-names>C.</given-names>
            <surname>Curino</surname>
          </string-name>
          ,
          <string-name>
            <given-names>H. J.</given-names>
            <surname>Moon</surname>
          </string-name>
          , A. Deutsch und
          <string-name>
            <given-names>C.</given-names>
            <surname>Zaniolo</surname>
          </string-name>
          . \
          <article-title>Update Rewriting and Integrity Constraint Maintenance in a Schema Evolution Support System: PRISM++"</article-title>
          .
          <source>In: PVLDB 4.2</source>
          (
          <issue>2010</issue>
          ), S.
          <volume>117</volume>
          {128. url: http://www. vldb.org/pvldb/vol4/p117-curino.pdf.
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          [9]
          <string-name>
            <given-names>R.</given-names>
            <surname>Fagin</surname>
          </string-name>
          ,
          <string-name>
            <given-names>P. G.</given-names>
            <surname>Kolaitis</surname>
          </string-name>
          ,
          <string-name>
            <given-names>R. J</given-names>
            .
            <surname>Miller</surname>
          </string-name>
          und
          <string-name>
            <given-names>L.</given-names>
            <surname>Popa</surname>
          </string-name>
          .
          <article-title>\Data Exchange: Semantics and Query Answering"</article-title>
          .
          <source>In: Theor. Comput. Sci. 336</source>
          .1 (
          <issue>2005</issue>
          ), S.
          <volume>89</volume>
          {
          <fpage>124</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          [10]
          <string-name>
            <given-names>R.</given-names>
            <surname>Fagin</surname>
          </string-name>
          . \
          <article-title>Inverting Schema Mappings"</article-title>
          .
          <source>In: ACM TODS 32.4</source>
          (
          <issue>2007</issue>
          ),
          <string-name>
            <surname>S.</surname>
          </string-name>
          <year>25</year>
          . doi:
          <volume>10</volume>
          .1145/1292609.1292615.
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          [11]
          <string-name>
            <given-names>R.</given-names>
            <surname>Fagin</surname>
          </string-name>
          ,
          <string-name>
            <given-names>P. G.</given-names>
            <surname>Kolaitis</surname>
          </string-name>
          , L. Popa und
          <string-name>
            <given-names>W. C.</given-names>
            <surname>Tan</surname>
          </string-name>
          . \
          <article-title>Quasi-Inverses of Schema Mappings"</article-title>
          .
          <source>In: ACM TODS 33.2</source>
          (
          <issue>2008</issue>
          ),
          <volume>11</volume>
          :1{
          <fpage>11</fpage>
          :
          <fpage>52</fpage>
          . doi:
          <volume>10</volume>
          .1145/1366102.1366108.
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          [12]
          <string-name>
            <given-names>R.</given-names>
            <surname>Fagin</surname>
          </string-name>
          ,
          <string-name>
            <given-names>P. G.</given-names>
            <surname>Kolaitis</surname>
          </string-name>
          , L. Popa und
          <string-name>
            <given-names>W. C.</given-names>
            <surname>Tan</surname>
          </string-name>
          . \
          <article-title>Schema Mapping Evolution Through Composition and Inversion"</article-title>
          .
          <source>In: Schema Matching and Mapping</source>
          . Springer,
          <year>2011</year>
          , S.
          <volume>191</volume>
          {
          <fpage>222</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          [13]
          <string-name>
            <given-names>F.</given-names>
            <surname>Geerts</surname>
          </string-name>
          , G. Mecca, P. Papotti und
          <string-name>
            <given-names>D.</given-names>
            <surname>Santoro</surname>
          </string-name>
          . \
          <article-title>That's All Folks! LLUNATIC Goes Open Source"</article-title>
          .
          <source>In: PVLDB 7</source>
          .13 (
          <year>2014</year>
          ), S.
          <volume>1565</volume>
          {
          <fpage>1568</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          [14]
          <string-name>
            <given-names>T. J.</given-names>
            <surname>Green</surname>
          </string-name>
          ,
          <string-name>
            <given-names>G. Karvounarakis und V.</given-names>
            <surname>Tannen</surname>
          </string-name>
          . \
          <article-title>Provenance semirings"</article-title>
          .
          <source>In: PODS. ACM</source>
          ,
          <year>2007</year>
          , S.
          <volume>31</volume>
          {
          <fpage>40</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          [15]
          <string-name>
            <given-names>T. J</given-names>
            .
            <surname>Green</surname>
          </string-name>
          und
          <string-name>
            <given-names>V.</given-names>
            <surname>Tannen</surname>
          </string-name>
          . \
          <article-title>The Semiring Framework for Database Provenance"</article-title>
          .
          <source>In: PODS</source>
          <year>2017</year>
          .
          <year>2017</year>
          , S.
          <volume>93</volume>
          { 99. doi:
          <volume>10</volume>
          .1145/3034786.3056125.
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          [16]
          <string-name>
            <given-names>M.</given-names>
            <surname>Herschel</surname>
          </string-name>
          .
          <article-title>\A Hybrid Approach to Answering WhyNot Questions on Relational Query Results"</article-title>
          .
          <source>In: J. Data and Information Quality</source>
          <volume>5</volume>
          .3 (
          <issue>2015</issue>
          ),
          <volume>10</volume>
          :1{
          <fpage>10</fpage>
          :
          <fpage>29</fpage>
          . doi:
          <volume>10</volume>
          .1145/2665070.
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          [17]
          <string-name>
            <given-names>A.</given-names>
            <surname>Heuer</surname>
          </string-name>
          . \
          <article-title>METIS in PArADISE: Provenance Management bei der Auswertung von Sensordatenmengen fur die Entwicklung von Assistenzsystemen"</article-title>
          .
          <source>In: BTW Workshops. Bd. 242. LNI</source>
          .
          <year>2015</year>
          , S.
          <volume>131</volume>
          {
          <fpage>136</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          [18]
          <string-name>
            <given-names>T.</given-names>
            <surname>Johnston</surname>
          </string-name>
          .
          <article-title>Bitemporal Data { Theory and Practice</article-title>
          . Morgan Kaufmann,
          <year>2014</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          [19]
          <string-name>
            <given-names>S.</given-names>
            <surname>Ko</surname>
          </string-name>
          hler, B. Ludascher
          <string-name>
            <given-names>und D.</given-names>
            <surname>Zinn</surname>
          </string-name>
          . \
          <string-name>
            <surname>First-Order Provenance Games</surname>
          </string-name>
          <article-title>"</article-title>
          .
          <source>In: CoRR abs/1309</source>
          .2655 (
          <year>2013</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          [20]
          <string-name>
            <given-names>D.</given-names>
            <surname>Maier</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A. O.</given-names>
            <surname>Mendelzon</surname>
          </string-name>
          und
          <string-name>
            <given-names>Y.</given-names>
            <surname>Sagiv</surname>
          </string-name>
          . \
          <article-title>Testing Implications of Data Dependencies"</article-title>
          .
          <source>In: ACM TODS 4.4</source>
          (
          <issue>1979</issue>
          ), S.
          <volume>455</volume>
          {469. doi:
          <volume>10</volume>
          .1145/320107.320115.
        </mixed-citation>
      </ref>
      <ref id="ref17">
        <mixed-citation>
          [21]
          <string-name>
            <given-names>D.</given-names>
            <surname>Marten</surname>
          </string-name>
          und
          <string-name>
            <given-names>A.</given-names>
            <surname>Heuer</surname>
          </string-name>
          . \Machine Learning on Large Databases:
          <article-title>Transforming Hidden Markov Models to SQL Statements"</article-title>
          .
          <source>In: OJDB 4.1</source>
          (
          <issue>2017</issue>
          ), S.
          <volume>22</volume>
          {
          <fpage>42</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref18">
        <mixed-citation>
          [22]
          <string-name>
            <given-names>J.</given-names>
            <surname>Svacina</surname>
          </string-name>
          .
          <article-title>Intensional Answers for Provenance Queries in Big Data Analytics</article-title>
          . Universitat Rostock.
          <source>Bachelorarbeit</source>
          .
          <year>2016</year>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>