-

10.1145/320083.320091

Inverses in Research Data Management: Combining Provenance Management, Schema and Data Evolution

0 Tanja Auge Lehrstuhl für Datenbankund Informationssysteme Institut für Informatik Universität Rostock

2017

1917

Collecting, recording, storing, tracking, and archiving scienti c data is the task of research data management, which is the basis for scienti c evaluations on these data. In addition to the evaluation and the result itself, the section of the original database used has to be archived too. This evaluation usually corresponds to a complex database query. Thus, to ensure reproducible and replicable research, the evaluation queries can be processed again later on in time to reproduce the result. If the data or the schema of the research database changes frequently, the original database would now have to be permanently stored (frozen) after every evaluation carried out on the database. In order to avoid this and in order to avoid massively replicated databases, we want to use provenance management techniques to calculate the minimal part of the database that must be frozen in order to be able to generate the query result again. For this, we want to combine techniques of why and how provenance with the theory of schema mappings for data integration and data exchange, especially the inverse schema mappings of Fagin. These inverse schema mappings have been extended by a new chase inverse, the result equivalent chase inverse. In this article we present an overview of the entire research project and then concentrate on the rst concrete partial results: the classi cation of internal requests in the calculation of why provenance. We will distinguish between the cases, (1) whether we can calculate the inverse only with the query result and the evaluation query, (2) whether the inverse calculates a sub-database that can be homomorphically mapped to the original database, or (3) whether additional provenance information (polynomials of how provenance) must be stored to be able to calculate the inverse.

Andreas Heuer Lehrstuhl für Datenbank- und

Informationssysteme Institut für Informatik

Universität Rostock heuer@informatik.uni-rostock.de

Inverse im Forschungsdatenmanagement Eine Kombination aus Provenance Management, Schema- und Daten-Evolution Die Sammlung, Erfassung, Speicherung, Verfolgung und Archivierung wissenschaftlicher Daten ist Aufgabe des Forschungsdatenmanagements. Neben der Auswertungsanfrage und dem -ergebnis selbst soll auch der verwendete Ausschnitt der Originaldatenbank archiviert werden. So konnen zur Absicherung replizierbarer Forschung die Auswertungsanfragen zu einem spateren Zeitpunkt erneut gestellt werden, um das Ergebnis zu reproduzieren.

Falls sich die Daten oder das Schema der Forschungsdatenbank hau g verandern, musste man nun nach jeder auf dem Datenbestand vorgenommenen Auswertung die Originaldatenbank "einfrieren\ und sichern. Um dies zu vermeiden und somit massiv replizierte Datenbestande zu erzeugen, wollen wir mit Hilfe von Provenance-Management-Techniken die minimale Teildatenbank berechnen, die gesichert werden muss, um das Anfrageergebnis wieder erzeugen zu konnen.

Dazu wollen wir Techniken der why - und how -Provenance kombinieren mit der Theorie der Schema-Abbildungen fur Datenintegration und Datenaustausch, hier insbesondere der inversen Schemaabbildungen von Fagin.

In diesem Beitrag stellen wir das gesamte Forschungsprojekt im Uberblick vor und konzentrieren uns dann auf die ersten konkreten Teilergebnisse: die Klassi zierung von inversen Anfragen bei der Berechnung der why -Provenance.

Dabei werden wir die Falle unterscheiden, ob wir die Inverse nur mit Hilfe von Ergebnis und Auswertungsanfrage berechnen konnen, ob die Inverse zumindest einen Datenbankausschnitt berechnet, der homomorph auf die Originaldatenbank abgebildet werden kann, oder ob fur die Berechnung der Inversen zusatzliche Provenance-Informationen (Polynome der how -Provenance) gespeichert werden mussen.

Categories and Subject Descriptors

Information Systems [Data Management Systems]: Data Provenance; Information Systems [Information Integration]: Data Exchange CHASE-Algorithmus, Data Provenance, Schema-Evolution, Daten-Evolution, CHASE-Inverse, Ergebnisaquivalenz 1.

PROBLEMSTELLUNG

Unter dem Begri Provenance Management versteht man die Ruckverfolgbarkeit eines Anfrageergebnisses bis zu den relevanten Originaldaten [4]. Dies beinhaltet sowohl die Originaldaten an sich (where-Provenance) als auch den zuruckgelegten Weg (why- und how-Provenance).

Anwendung ndet diese Fragestellung etwa im Forschungsdatenmanagement. Das Ziel besteht hierbei in der Verfolgung und Archivierung von Daten, die bei wissenschaftlichen Projekten, Experimenten oder Beobachtungen erfasst worden sind. Der Weg von der Datenerhebung bis zur Publikation soll so nachvollziehbar, rekonstruierbar und replizierbar gehalten werden. Da die Forschungsdatenbank sich standig andert und somit eine bitemporale Datenbank [ 18 ] darstellt, muss die Evolution von Daten und Schemata mit dem Provenance Management zusammenspielen. Leider werden bisher die Data-Provenance-Forschungen immer auf einer festen Datenbank durchgefuhrt. Zwei Forschungsziele des Projektes bestehen daher in der Berechnung einer minimalen Teildatenbank der Original-Forschungsdatenbank sowie der Vereinheitlichung von Provenance und Evolution.

Berechnung einer minimalen Teildatenbank: Die berechnete minimale Teildatenbank soll die Ergebnisse der Auswertungsanfrage unter verschiedenen Randbedingungen rekonstruieren konnen, etwa:

Die Tupelanzahl der Originalrelation bleibt erhalten. Die Teildatenbank kann homomorph auf das Original abgebildet werden.

Konkret stellt sich die Frage, welche zusatzlichen Informationen bei archiviertem Ergebnis und gemerkter Auswertungsanfrage fur die Rekonstruktion der minimalen Teildatenbank benotigt werden. Reicht es, eine minimale Zeugenmenge aufzuheben (why -Provenance, [ 6 ]) und/oder die zugehorigen Provenance-Polynome zu berechnen (how -Provenance, [ 14 ])? Oder ist es notwendig, ganze Tupel bzw. Datenbankausschnitte direkt zu speichern?

Die Berechnung einer inversen Anfrage Q 1, mit deren Hilfe die gesuchte minimale Teildatenbank bestimmt werden soll, ist abhangig vom Typ der Originalanfrage Q sowie allen zusatzlich gemerkten Informationen. So kann fur die Projektion etwa eine ergebnisaquivalente CHASE-Inverse [3], fur die , K(S2)

A Projektion ohne Duplikateliminierung eine relaxte CHASEInverse und fur die Kopie eine exakte CHASE-Inverse [ 12 ] angegeben werden (siehe Tabelle 4). Die in den Randbedingungen geforderte Homomorphie ist eine sehr starke Eigenschaft, welche im Verlauf weiterer Untersuchungen gezielt abgeschwacht werden soll. Ein erster Ansatz ist die De nition ergebnisaquivalenter CHASE-Inversen (siehe Abschnitt 3.3). Diese vernachlassigen die Homomorphie ganzlich, was wiederum zu einem starken Informationsverlust fuhren kann. So konnen ganze (vielleicht fur andere Anfragen notwendige) Tupel verloren gehen, welche bei der Verwendung einer relaxten CHASE-Inversen zumindest als Nulltupel noch erhalten blieben. Andere Ansatze fuhren beispielsweise Konzepthierarchien oder eine Vergroberung der Datenbankbestande ein, wie es etwa fur intensionale Provenance-Antworten notwendig ist [ 22 ].

Vereinheitlichung von Provenance und Evolution: Bisherige Provenance-Anfragen Qprov (where-, why - und how Provenance) erfolgen stets auf einer gegebenen festen Datenbank S1 sowie einer Auswertungs-Anfrage Q. Die Kombination von Provenance mit Schema- und Daten-Evolution soll die Auswertung von Provenance-Anfragen bei sich andernden Daten und Schemata ermoglichen (siehe Abbildung 1). Mit Hilfe der Inversenbildung E 1 kann wiederum, (falls moglich) der neue Datenbankbestand J in das alte Schema Das mittels CHASE berechnete Auswertungsergebnis (siehe Abschnitt 3.1) soll daher in einem zweiten Schritt, dem BACKCHASE, um eine inverse Provenance-Anfrage Q0prov erweitert werden.

Formal: Nach der Schemaevolution E : S1 ! S3 kann die Anfrage Q0 als Komposition der ursprunglichen Anfrage Q sowie der inversen Evolution E 1 direkt berechnet werden: Q0(J (S3)) = (E 1

Q)(J (S3)) = Q(I(S1)): Die neue Provenanceanfrage Q0prov ergibt sich analog als

Q0prov(K (S2)) = (Qprov E)(K (S2)): Es genugt daher, sich eine der beiden minimalen Teildatenbanken I (S1) oder J (S3) zu merken. Die jeweils andere lasst sich mit Hilfe der Inversen leicht berechnen. Im Forschungsdatenmanagement entspricht K dabei stets der gesamten Ergebnisdatenbank K, d.h. K = K. Allgemeine Provenance-Anfragen konnen auch auf Teilmengen dieser Ergebnisdatenbank sowie konkreten Tupeln gestellt werden.

Die Universitat Rostock vereint ihre Forschungen zum Thema Provenance Management im Projekt METIS in PArADISE [ 17 ]. Konkret beschaftigt sich dieses Projekt mit Provenance Management bei der Auswertung von Sensordatenmengen fur die Entwicklung von Assistenzsystemen.

METIS : Das Langzeitprojekt METIS (Management, Evolution, Transformation und Integration von Schemata) vereint die Verfahren zur Integration, Transformation und Evolution von Daten. Auch die Frage der Datenherkunft wird in diesem Projekt untersucht.

PArADISE : In der Projektgruppe PArADISE (Privacy AwaRe Assistive Distributed Information System Environment) werden Techniken zur Auswertung von gro en Mengen von Sensordaten entwickelt.

Eine Anwendung von METIS in PArADISE im Bereich des Forschungsdatenmanagements wird zusammen mit dem Leibniz-Institut fur Ostseeforschung in Warnemunde (IOW) entwickelt (siehe [ 5 ]). Die Notwendigkeit zur Integration von Provenance- und Evolutions-Fragestellungen wurde gerade in dieser Kooperation geboren.

Im Rest dieses Beitrages werden wir die Formalisierung der Auswertungsanfragen und ihrer Inversen mit Hilfe des CHASE einfuhren sowie fur einfache Auswertungsanfragen verschiedene Typen von Inversen angeben. Die Formalisierung der Techniken uber den CHASE soll uns gerade ermoglichen, die Ergebnisse der Schema-Evolutions-Theorie, der Theorie des Datenaustausches und der Data Provenance zu vereinheitlichen.

2. STAND DER FORSCHUNG

Die Idee unserer Arbeit basiert auf der Kombination dreier verschiedenen Grundtechniken.

Provenance: Die Grundlage fur unsere Provenance-Analysen bildet [ 16 ] mit einem allgemeinen U berblick uber die Begri sbildungen sowie die verschiedenen Klassi zierungen von Provenance-Anfragen (why , where, how und why not ). Die Konstruktion von (minimalen) Zeugenbasen und ProvenancePolynomen zur Beantwortung der why - bzw. how -Provenance basieren auf den Techniken aus [ 6 ] und [ 1, 14, 15 ]. Die Ubertragung der Problematik auf die Spieltheorie wird in [ 19 ] zur Analyse der why not -Provenance benutzt.

CHASE: Leider werden Provenance-Anfragen derzeit nur auf festen Datenbanken benutzt. Um die Technik mit der Evolution von Schemata und Daten kombinieren zu konnen, wollen wir die Auswertungs-Anfragen Q sowie die ProvenanceAnfragen Qprov mit Hilfe von s-t tgds und egds (siehe unten) darstellen und mit Hilfe des CHASE konzeptuell umsetzen. Seine ursprungliche Anwendung hat der CHASE im Datenbankentwurf [ 20 ], der auf den Tableaude nitionen in [1] basiert. Der CHASE wurde dann spater vor allem fur die Transformation von Datenbanken im Bereich der Datenintegration, des Datenaustausches und der Schema-Evolution benutzt. In diesen Fallen dient der CHASE dann zur Darstellung von Schemabbildungen.

Schemaabbildungen und inverse Abbildungen. Fagin et al. beschaftigen sich in ihren Arbeiten [ 9, 12 ] ausfuhrlich mit der De nition des CHASE-Algorithmus fur s-t tgds und egds sowie der Konstruktion von CHASE-inversen Schemaabbildungen [ 10, 11 ]. Eine Implementierung des CHASE fur diesen Anwendungsfall liefert etwa die Software Llunatic [ 13 ]. In [ 8 ] wurden diese Techniken auch fur die Schema-Evolution verwendet. Die Nutzung inverser Schemaabbildungen fur das Provenance Management, speziell fur Provenance-Anfragen, ist bisher noch nicht vorgenommen worden.

DIE TECHNIKEN

Die Bearbeitung der beiden oben vorgestellten Forschungsziele soll durch die Kombination der gerade vorgestellten Tabelle 1: APS-Relation mit zugehorigen Tupelidenti katoren t1 und t2 Techniken erfolgen, (1) dem CHASE-Algorithmus zur Auswertung von Anfragen, (2) der Ermittlung von why - und how -Provenance und (3) der Berechnung von CHASE-inversen Abbildungen zur Rekonstruktion einer minimalen Teilmenge der Originaldatenbank. 3.1

Der CHASE

Der CHASE ist ein in der Datenbanktheorie universell einsetzbares Werkzeug. Es ndet Anwendung etwa bei der Darstellung von Abhangigkeiten innerhalb einer Datenbank oder eines relationenalgebraischen Ausdrucks, der Implikation von Abhangigkeiten, dem Aquivalenznachweis von Datenbankschemata unter gegebenen Abhangigkeiten sowie der Behandlung (Ersetzung oder Sauberung) von Nullwerten in Datenbanken. Die Idee dieses Algorithmus kann dabei wie folgt zusammengefasst werden: Fur ein Objekt und eine Menge von Abhangigkeiten ? (beispielsweise eine Menge von FDs und JDs) arbeitet der CHASE die Abhangigkeiten ? in das Objekt ein, sodass ? implizit in enthalten ist, und somit die Abhangigkeiten nicht verletzt. Bildhaft ergibt sich:

chase?( ) = ? :

Seine ursprungliche Anwendung hat der CHASE im Datenbankentwurf [ 20 ], der auf den Tableaude nitionen in [1] basiert. Der CHASE kann aber nicht nur mit FDs und JDs (?) auf Tableaus ( ), sondern auch mit tgds/s-t tgds und egds (?) auf Datenbanken ( ) de niert werden. Dies beschreiben unter Anderem Fagin et al. in [ 12, 9 ].

Eine tuple-generating dependency (tgd) ist eine Sequenz der Form

8x : ( (x) ! 9y : (x; y)) mit Konjunktionen (x) und (x; y) von Atomen aus x bzw. x und y. Ist (x) eine Konjunktion von Atomen uber einem Quellschema S und (x; y) eine Konjunktion von Atomen uber einem Zielschema T , so hei t eine solche Sequenz auch source-to-target tuple-generating dependency (s-t tgd). Eine equality-generating dependency (egd) ist fur zwei Variablen x1; x2 aus x de niert durch

8x : ( (x) ! (x1 = x2)):

Der CHASE einer Instanz I uber einer Abhangigkeitsmenge ist schlie lich eine (endliche oder unendliche) Sequenz von tgd- und egd-Regeln, welche neue Tupel erzeugen oder (markierte) Nullwerte durch Konstanten bzw. (markierte) Nullwerte mit kleinerem Index ersetzen kann.

Zur Veranschaulichung des CHASE sei exemplarisch die Datenbank einer Universitat gegeben. Diese enthalt unter Anderem eine Relation mit den Namen, Studiengangen und Matrikelnummern ihrer Studenten sowie eine weitere Relation, welche alle abgeschlossenen Abschlussarbeiten listet. Die zugehorigen Schemata sind de niert

STUD(Matrikelnummer, Name, Studiengang) und

AA(ID, Titel, Vertiefung, Matrikelnummer, Note). Die Relation APS mit dem Schema

APS(ID, Titel, Matrikelnummer, Studiengang), welche die Abschlussarbeiten pro Studiengang zusammenfasst, soll nun in die Relationen AA und STUD migriert werden. Hierzu seien folgende Abhangigkeiten gegeben (eine s-t tgd, eine tgd sowie eine egd):

ST = f 1 : APS(i; t; m; s)

! 9N; V; G : STUD(m; N; s) ^ AA(i; t; V; m; G)g T = f 2 : AA(i; t; v; m; g) ! 9 N; S : STUD(m; N; S);

3 : STUD(m; n1; s) ^ STUD(m; n2; s) ! n1 = n2g Der CHASE liefert nun, angewandt auf den Datenbestand aus Tabelle 1, nach Integration der s-t tgd 1 die Tupelmenge I0 = fSTUD(4711, N1, Informatik), AA(1234, Big Data, V1, 4711, G1), STUD(4711, N2, Informatik),

AA(2467, Provenance, V2, 4711, G2)g mit den (markierten) Nullwerten N1; N2; V1; V2; G1 und G2. Bevor 2 sowie 3 eingearbeitet werden, muss gepruft werden, ob I0 die Abhangigkeiten aus T bereits erfullt, d.h. I0 j= T. In diesem Fall ware ein weiterer CHASE-Schritt, also die Anwendung einer tgd- oder egd-Regel, nicht mehr notwendig und der CHASE selbst erfolgreich. Die tgd 2 ist bereits erfullt, sodass die Eliminierung uber ussiger Nullwerte | das sogenannte cleaning | mittels 3 bereits die Ergebnisinstanz I00 = fSTUD(4711, N1, Informatik),

AA(1234, Big Data, V1, 4711, G1),

AA(2467, Provenance, V2, 4711, G2)g liefert. Implementiert ist diese Art des CHASE etwa in der Software Llunatic [ 13 ]. 3.2

Data Provenance

Typischerweise werden vier Provenance-Anfragen und vier Provenance-Antworten (siehe Tabelle 2) unterschieden [ 16 ]. Die ersten drei Anfragen konnen dabei bzgl. ihres Informationsgehaltes ( ) geordnet werden: where why how : Mit anderen Worten, aus dem Ergebnis der how -Provenance konnen die why - sowie die where-Provenance abgeleitet werden. Gleiches gilt fur die why - und where-Provenance (siehe Abbildung 2). Der formale Beweis fur die Reduktion der why auf die how -Provenance kann in [ 7 ] nachgelesen werden. Die why not -Anfrage kann in diese "Informationskette\ nicht eingeordnet werden, da sie, anders als die why -, where- oder how -Anfrage keine extensionale, sondern eine anfrage- oder modi kationsbasierte Antwort liefert.

Die how -Provenance einer Anfrage Q kann als ProvenancePolynom [ 14, 2, 15 ], die why -Provenance in Form von (minimalen) Zeugenbasen [ 6 ] und die where-Provenance als Liste where-Provenance (Tabellenname)

APS h why-Provenance how-Provenance (Zeugenbasis) (Polynom) fft1g; ft2g; ft1; t2gg (t1 (t1 + t2)) + (t2 (t1 + t2))

Relationenname Tupelliste

Abbildung 2: Reduktion von why , where und how Fur die Angabe einer extensionalen Provenance-Antwort genugt somit die Berechnung der how -Provenance. Die Berechnung und Speicherung dieser Polynome erfolgt etwa uber die schrittweise Verfolgung der algebraischen Grundoperationen der Anfrage oder uber graphentheoretische Ansatze. Im Bereich der Spieltheorie existieren fur die Beantwortung der why -, why not - oder how -Provenance beispielsweise die sogenannten Provenance Games [ 19 ]. 3.3

CHASE-Inverse

Exakte, klassische und relaxte CHASE-Inverse sind spezielle Formen von inversen Abbildungen [ 12 ]. Erstmalig formuliert wurden inverse Schemaabbildungen von Fagin [ 10 ]. Er de niert die Inverse einer Schemaabbildung M : S1 ! S2 als eine Schemaabbildung M : S2 ! S1, deren Komposition M M der Identitatsabbildung entspricht.

Inverse Abbildungen nden etwa bei der Schemaevolution Anwendung. Wahrend eine exakte CHASE-Inverse stets die Originaldatenbank rekonstruiert, liefert die klassische CHASE-Inverse nur ein zur Originaldatenbank aquivalentes Ergebnis. Kann eine Inverse nicht angegeben bzw. de niert werden, wird aber dennoch eine Art inverse Abbildung benotigt, kann auf die sogenannte Quasi-Inverse zuruckgegri en werden [ 11 ]. Sie liefert nicht mehr die Quellinstanz selbst, dafur aber eine hierzu aquivalente Instanz oder zumindest eine aquivalente Teilinstanz.

Fur eine Anfrage Q und eine Quellinstanz I liefert der CHASE eine Ergebnisinstanz K = chaseM(I), wenn gilt: Q wird als Schemaabbildung M = (S1; S2; 1) mit Quell- und Zielschema S1 und S2 sowie einer Menge von Abhangigkeiten 1 aufgefasst;

I ist Quellinstanz in S1. K ist Zielinstanz in S2.

Die Urinstanz I = chaseM (K) = chaseM (chaseM(I)) ist somit das Ergebnis einer Ruckanfrage Q0 auf die Ergebnisinstanz K. Dabei enthalt I ganze oder auf bestimmte Attribute des Quellschemas eingeschrankte (und mit (markierten) Nullwerten aufgefullte) Tupel aus I.

Schema: Instanz:

S1 I & S2 9 K chaseM chaseM? & S1 9 I

Das CHASE&BACKCHASE-Verfahren zur Bestimmung einer CHASE-inversen Schemaabbildung M = (S2; S; 2) zu M = (S; S2; 1) lasst sich daher wie folgt beschreiben: CHASE: Berechne den CHASE von I bzgl. M als Sequenz von s-t tgd- und egd-Regeln.

BACKCHASE: Berechne den CHASE von K bzgl. M als Sequenz von s-t tgd- und egd-Regeln.

Enthalt die Urinstanz I Tupel mit (markierten) Nullwerten, deren restliche Attributwerte mit den Attributwerten eines Tupels der Quellinstanz I ubereinstimmen, beispielsweise (1; 3; 5) 2 I und (1; 3; n1) 2 I , so hei t I Ausschnitt der Instanz I, kurz I I. Mit anderen Worten, es existiert ein Homomorphismus h, welcher die Tupel aus I auf die Tupel aus I abbildet. Fur das obige Beispiel gilt dann 1 7! 1; 3 7! 3 und n1 7! 5. Enthalt I keine (markierten) Nullwerten und sind alle Tupel aus I auch Tupel in I, schreibt man I I.

Die relaxte CHASE-Inverse ist eine Abschwachung der klassischen CHASE-Inversen. Sie fordert keine Aquivalenzbeziehung zwischen Quell- und Urinstanz I , dafur aber Ergebnisaquivalenz sowie die Existenz eines Homomorphismus von der Urinstanz I in die Quellinstanz I. Eine Schemaabbildung M = (S1; S2; ) hei t ergebnisaquivalent bzgl. M (kurz: I $M K), wenn fur zwei Instanzen I; K uber S gilt: chaseM(I) $ chaseM(K):

Die ergebnisaquivalente CHASE-Inverse fordert nur noch Ergebnisaquivalenz und ist somit die schwachste CHASEInverse. Insgesamt ergibt sich die Reduktion: ergebnisaquivalent relaxt klassisch exakt: Diese Reduktion bildet die hinreichende Bedingung fur die Existenz einer CHASE-Inversen. Die notwendige Bedingung folgt aus der jeweiligen De nition der CHASE-Inversen. Tabelle 3 fasst diese Bedingungen zusammen.

Eine allgemeine Untersuchung der wichtigsten Basis-Operationen auf die Existenz CHASE-inverser Abbildungen bildet den Kern der Masterarbeit "Umsetzung von ProvenanceAnfragen in Big-Data-Analytics-Umgebungen\ [3]. So konnen fur die Operationen der Relationenalgebra bis auf wenige Ausnahmen (Selektion auf Ungleichheit, Di erenzbildung) exakte, relaxte oder ergebnisaquivalente CHASE-Inverse angegeben werden (siehe Tabelle 4, Spalte 2). Die Existenz einer exakten CHASE-Inversen (=) kann dabei nur fur einige wenige relationale Operationen wie das Kopieren oder den naturliche Verbund ohne Duplikate nachgewiesen werden. Wahrend fur die Aggregatfunktionen SUM und AVG keine CHASE-Inverse gefunden werden kann (xxx), sind die meisten Operationen ergebnisaquivalent ($) oder relaxt CHASEinvers ( ).

Die Hinzunahme zusatzlicher Provenance-Informationen ermoglicht die Angabe starkerer CHASE-Inversen (siehe Tabelle 4, Spalte 4). Die hierfur benotigten Provenance-Polynome und (minimalen) Zeugenbasen entsprechen den De nitionen aus Abschnitt 3.2. So kann im Falle der Projektion mit Duplikaten durch die Verwendung von Data Provenance statt einer ergebnisaquivalenten CHASE-Inversen eine relaxte und fur die Vereinigung sogar eine exakte CHASE-Inverse konstruiert werden. Fur andere Operationen wie etwa die Projektion ohne Duplikate, die Selektion auf <; ; =; ; > oder die Maximum- bzw. Minimumbildung konnen trotz ProvenanceUntersuchungen keine Verbesserungen gefunden werden. Die Kopieroperation, die Umbenennung, der naturliche Verbund ohne Duplikate sowie die arithmetischen Operationen +; ; und : liefern zudem bereits ohne Provenance-Aspekte exakte CHASE-Inverse. Fur die Selektion auf Ungleichheit sowie die Di erenzbildung konnen trotz Provenance keine CHASEInversen gefunden werden. Anders verhalt es sich bei den Aggregatfunktionen SUM und AVG. Hier kann nur mit Hilfe der Provenance-Polynome uberhaupt eine CHASE-inverse Abbildung angegeben werden.

Eine konkrete Angabe der inversen Abbildung M ist fur einige der Grundoperationen ebenfalls moglich. Die ergebnisaquivalente CHASE-Inverse entspricht stets der Identitatsabbildung (Selektion, Mengenoperationen) oder im Falle von Relationenschemaanderungen der Erweiterung um (markierte) Nullwerten (null values, NV) etwa bei den Operationen Projektion, naturlicher Verbund sowie den Aggregatfunktionen MIN und MAX. Die relaxte CHASE-Inverse kann neben den (markierten) Nullwerten sogar ganze Nulltupel (Aggregatfunktion COUNT) erzeugen. Der naturliche Verbund, die arithmetischen Operationen +, , und : sowie die Umbenennung lassen sich durch die Projektion, die arithmetischen Operationen , +, : und sowie die Ruckbenennung invertieren. Dargestellt sind diese Erkenntnisse in der dritten und funften Spalte der Tabelle 4.

Fur die Komposition M = M1 ::: Mn der obigen Operationen ergibt sich die inverse Funktion

M = (M1 ::: Mn) 1 = Mn ::: M2 M1 als Komposition der inversen Teiloperationen M1; :::; Mn. Der Typ der Inversen M entspricht dabei dem Typ der schwachsten Teilinversen Mi (i = 1; :::; n). Fur die Anfrage Q = m( i;s(APS) ./ m;s(APS)) l e p u T r e n e r o l r ev i i

R R inAi itokun tseau tseau reu i ew inA iton iton t i

k k rE VN jreo jreo m P P u g n u r e t i e w r E i i

R R inVAi inVAi tseauu tseauu itree itee iton iton rw rw k k

e je E E jro ro

P P p y T n se = = $ $= r e v n I p y T n se = = $ r e v n I ) ) R ((r )) M n o i t a repO ()rR Aj (Ai

Ai (rR = ) 2 (R 2 r / . ) 1 (R 1 r ceeann IrseevnMItteadn AAij gunNVm trseoknR+ ifttauA ftauA iItdn Idn ? it rbu itrbu tta ittta

e e v o r P t i m v o r P e n h o xxx xxx liteokn itttean xxx gnuNVm egovnunN lrrreeevnA rrreeevnA :/ ta / itt + en eS Id o lo / Id i i A A in in j tre tre =6 e e ,i ln tw tw j e bu ibu A up itr r in llt t tt itreu rzeu ion ion w E tk tk e rE trsu trsu n n o o ek ek R R ? ce rse it A tbA tttan itttan ean IvnMItteadn AAij gunuNm rgnuuNm ifttrabu iftrau iId Id n e e e xxx xxx iten itten xxx gnuNVm egovnunN xxx xxx ://+ itttean tta ta

Id Id / Id xxx xxx = x x x

$= = = xxx xxx x x x

$xxx xxx = j =6 ,i ln j e A up in llt u u r e e z itew rE r E ) ) (R r ( N I M) g = ; ; ; + f 2 g > ; ; = ; ))(rR())(rR;<f )) )) ()2 ()2R)(2 ))/ ()r )) ))Ritm D

R R R Ai Ai m A=i6 AA=ij6 ()r11 ()r11 ()r11R AXMAiR(TCOUNAi ((rSUMAi((rAVGAi ()r ()r (c Aj it2 ((rcR((rRr2[ r2\ r2 ((r OM

R R R R Tabelle 4: Grundoperation und ihre exakten (=), relaxten ($) oder ergebnisaquivalenten ( ) CHASE-Inversen (Ausschnitt aus [3]) ergibt sich somit eine ergebnisaquivalente CHASE-Inverse, denn sowohl die Projektion mit Duplikatbildung, als auch der naturliche Verbund mit dangling tuples liefern die Existenz einer solchen Inversen. Existiert zu einer der Teiloperationen Mi keine CHASE-Inverse, so auch nicht zu M.

Die Anwendung dieser theoretischen U berlegungen auf ein praxisbezogenes Beispiel, das Hidden-Markov-Modell, kann in [3] nachgelesen werden. Basierend auf der Darstellung des Hidden-Markov-Modells in Form von SQL-Anweisungen [ 21 ], konnen die benotigten Operationen Addition und Subtraktion, skalare Multiplikation und Division sowie die MatrixVektor- und Matrix-Matrix-Multiplikation auf die Existenz von CHASE-inversen Abbildungen untersucht werden. Insgesamt ergibt sich fur die Komposition dieser Operationen eine ergebnisaquivalente CHASE-Inverse.

ZUSAMMENFASSUNG

Im Forschungsdatenmanagement soll neben der Auswertungsanfrage und dem -ergebnis selbst auch der verwendete Ausschnitt der Originaldatenbank archiviert werden. Falls sich die Daten oder das Schema der Forschungsdatenbank hau g verandern, musste man nach jeder auf dem Datenbestand vorgenommenen Auswertung die Originaldatenbank einfrieren\ und sichern. Um dies zu vermeiden, berechnen "wir mit Hilfe von Provenance-Management-Techniken die minimale Teildatenbank, die gesichert werden muss, um das Anfrageergebnis wieder erzeugen zu konnen. Dazu haben wir Techniken der why - und how -Provenance mit der Theorie der inversen Schema-Abbildungen fur Datenintegration und Datenaustausch kombiniert. Basis fur die Transformationen auf den Daten zur Evolution von Schema und Daten als auch fur die Transformation, die die Auswertungsanfrage darstellt, ist der CHASE. Damit konnen wir drei verschiedene Teilgebiete der Theorie zusammenfuhren.

In diesem Beitrag haben wir erste konkrete Teilergebnisse zur Klassi zierung von inversen Anfragen bei der Berechnung der why -Provenance vorgestellt: Die Berechnung der Inversen nur mit Hilfe von Ergebnis und Auswertungsanfrage, die Bestimmung der Inversen mit Hilfe zusatzlicher ProvenanceInformationen (Provenance-Polynome der how -Provenance) sowie die De nition eines Datenbankausschnitts, der homomorph auf die Originaldatenbank abgebildet werden kann.

Literatur

[2] Y. Amsterdamer, D. Deutch und V. Tannen. \Provenance for Aggregate Queries". In: PODS. ACM, 2011, S. 153{164.

[5]

Bruder ,

Klettke , M. L. Moller, F. Meyer, A. Heuer, S. Jurgensmann und S. Feistel . \ Daten wie Sand am Meer - Datenerhebung , -strukturierung, -management und Data Provenance fur die Ostseeforschung" . In: Datenbank-Spektrum 17.2 ( 2017 ), S. 183 { 196 .

[6]

Buneman , S. Khanna und

W. C.

Tan . \ Why and Where: A Characterization of Data Provenance" . In: ICDT. Bd. 1 . Springer. 2001 , S. 316 { 330 .

[7]

Cheney , L. Chiticariu und

W. C.

Tan . \Provenance in Databases: Why, How, and Where" . In: Foundations and Trends in Databases 1.4 ( 2009 ), S. 379 {474. doi: 10 .1561/1900000006.

[8]

Curino ,

H. J.

Moon , A. Deutsch und

Zaniolo . \ Update Rewriting and Integrity Constraint Maintenance in a Schema Evolution Support System: PRISM++" . In: PVLDB 4.2 ( 2010 ), S. 117 {128. url: http://www. vldb.org/pvldb/vol4/p117-curino.pdf.

[9]

Fagin ,

P. G.

Kolaitis , R. J . Miller und

Popa . \Data Exchange: Semantics and Query Answering" . In: Theor. Comput. Sci. 336 .1 ( 2005 ), S. 89 { 124 .

[10]

Fagin . \ Inverting Schema Mappings" . In: ACM TODS 32.4 ( 2007 ), S. 25 . doi: 10 .1145/1292609.1292615.

[11]

Fagin ,

P. G.

Kolaitis , L. Popa und

W. C.

Tan . \ Quasi-Inverses of Schema Mappings" . In: ACM TODS 33.2 ( 2008 ), 11 :1{ 11 : 52 . doi: 10 .1145/1366102.1366108.

[12]

Fagin ,

P. G.

Kolaitis , L. Popa und

W. C.

Tan . \ Schema Mapping Evolution Through Composition and Inversion" . In: Schema Matching and Mapping . Springer, 2011 , S. 191 { 222 .

[13]

Geerts , G. Mecca, P. Papotti und

Santoro . \ That's All Folks! LLUNATIC Goes Open Source" . In: PVLDB 7 .13 ( 2014 ), S. 1565 { 1568 .

[14]

T. J.

Green ,

G. Karvounarakis und V.

Tannen . \ Provenance semirings" . In: PODS. ACM , 2007 , S. 31 { 40 .

[15] T. J . Green und

Tannen . \ The Semiring Framework for Database Provenance" . In: PODS 2017 . 2017 , S. 93 { 99. doi: 10 .1145/3034786.3056125.

[16]

Herschel . \A Hybrid Approach to Answering WhyNot Questions on Relational Query Results" . In: J. Data and Information Quality 5 .3 ( 2015 ), 10 :1{ 10 : 29 . doi: 10 .1145/2665070.

[17]

Heuer . \ METIS in PArADISE: Provenance Management bei der Auswertung von Sensordatenmengen fur die Entwicklung von Assistenzsystemen" . In: BTW Workshops. Bd. 242. LNI . 2015 , S. 131 { 136 .

[18]

Johnston . Bitemporal Data { Theory and Practice . Morgan Kaufmann, 2014 .

[19]

Ko hler, B. Ludascher

und D.

Zinn . \ First-Order Provenance Games " . In: CoRR abs/1309 .2655 ( 2013 ).

[20]

Maier ,

A. O.

Mendelzon und

Sagiv . \ Testing Implications of Data Dependencies" . In: ACM TODS 4.4 ( 1979 ), S. 455 {469. doi: 10 .1145/320107.320115.

[21]

Marten und

Heuer . \Machine Learning on Large Databases: Transforming Hidden Markov Models to SQL Statements" . In: OJDB 4.1 ( 2017 ), S. 22 { 42 .

[22]

Svacina . Intensional Answers for Provenance Queries in Big Data Analytics . Universitat Rostock. Bachelorarbeit . 2016 .