Konzepte für das Forschungsdatenmanagement
                 an der Universität Rostock – Extended Abstract
                     Concepts for the Management of Research Data at the
                          University of Rostock (Extended Abstract)

                         Ilvio Bruder, Andreas Heuer, Sebastian Schick und Sascha Spors

                                                     Universität Rostock


                 Abstract: Research Data Management aims at gathering, capturing, storing,
                 tracking, and archiving all the data being produced in scientific projects and ex-
                 periments. Besides these data, all the processing steps on these data - eventually
                 resulting in scientific publications - have to be stored as well.
                     Research Data Management is not only a scientific discipline in Compu-
                 ter Science. Universities and Research Institutes have to provide organizational
                 structures and processes and pragmatic solutions (hardware and software re-
                 sources) to implement first, simple tasks of Research Data Management.
                     In this paper, we sketch the organizational, pragmatic, and research aspects
                 of Research Data Management from a local (University of Rostock) point of
                 view. At the University of Rostock, we have wider experiences with research
                 data management in marine biology and medical research. The research aspects
                 are part of modern database research topics such as temporal databases, data
                 integration, schema evolution, and provenance management.


                 1    Einleitung

                 Ziel des Forschungsdatenmanagement ist es, Daten, die bei wissenschaftlichen
                 Projekten, Experimenten oder Beobachtungen erfasst werden, zu verfolgen und
                 zu archivieren. Zusätzlich muss die weitere Verarbeitung der Daten bis hin
                 zur Publikation gespeichert und nachvollziehbar gemacht werden. Viele Kon-
                 ferenzen und Workshops widmen sich unter anderem genau diesem Thema und
                 Forschungsgeldgeber erwarten bei Ausschreibungen fast immer Konzepte bzgl.
                 Nachhaltigkeit, Nachvollziehbarkeit und Offenlegung von Forschungsdaten. Da-
                 her müssen an Universitäten verstärkt organisatorische Konzepte für das For-
                 schungsdatenmanagement entwickelt werden sowie zeitnah pragmatische Lösun-
                 gen für eine erste Umsetzung des Forschungsdatenmanagements implementiert
                 werden. In diesem Beitrag soll ein Überblick über die organisatorischen Maß-
                 nahmen und die pragmatischen Lösungen an der Universität Rostock gegeben
                 werden.
                     Darüberhinaus ist Forschungsdatenmanagement ein aktuelles Forschungsthe-
                 ma, bei dem insbesondere moderne Datenbanktechnologien benötigt werden. In
                 diesem Beitrag werden wir einige Forschungsansätze skizzieren, mit denen wir


Copyright © 2017 by the paper’s authors. Copying permitted only for private and academic purposes.
In: M. Leyer (Ed.): Proceedings of the LWDA 2017 Workshops: KDML, FGWM, IR, and FGDB.
Rostock, Germany, 11.-13. September 2017, published at http://ceur-ws.org
uns speziell in der Datenbankforschungsgruppe der Universität Rostock befas-
sen. Insbesondere werden Forschungsergebnisse aus den Bereichen temporale Da-
tenbanken, Datenintegration, Schemaevolution sowie Provenance-Management
erwähnt.
    An der Universität Rostock haben wir speziell Erfahrungen im Bereich von
Informatik- [8] und Elektrotechnik-Forschungsgebieten [18] und im Bereich mee-
resbiologischer Forschungsdaten [2], mittlerweile aber auch verstärkt in anderen
naturwissenschaftlichen und medizinischen [19] Forschungsbereichen. Ein ganz
anderer Bereich sind die weniger (mess- und sensor-)datengetriebenen geistes-
wissenschaftlichen Forschungsgebiete (Digital Humanities), in denen sehr doku-
mentzentriert gearbeitet wird [15]. Im Folgenden werden wir uns eher mit den
datengetriebenen Szenarien befassen.


2   Herausforderungen des Forschungsdatenmanagements

Es gibt im Forschungsdatenmanagement eine Reihe von Herausforderungen, die
zum einen eher organisatorisch bzw. praktisch orientiert sind. Zum anderen gibt
es auch interessante Herausforderungen in der Grundlagenforschung, gerade in
Bezug auf Datenbanktechnologien. Die Herausforderungen in der Datenbank-
Grundlagenforschung sind

 – die Heterogenität der Daten,
 – ein nicht oder nur unvollständig vorhandenes Schema,
 – die Sicherung der Provenance (Herkunft) der Forschungsergebnisse sowie die
   Reproduzierbarkeit der wissenschaftlichen Auswertungen,
 – die Spezifikation und Nachverfolgung von wissenschaftlichen Arbeitsabläufen
   (Scientific Workflows), sowohl organisatorisch als auch datentechnisch,
 – die Einbettung und Speicherung von anwendungsspezifischen Funktionen
   und Methoden, insbesondere zur Analyse von Daten,
 – temporale Aspekte zur Reproduzierbarkeit von Auswertungen über Messda-
   ten, die als Stromdaten ständig produziert werden
 – sowie die Komplexität in den Auswertungen und Veränderungen in den Aus-
   wertungsroutinen über einen längeren Zeitraum hinweg.

Eher praktische Herausforderungen, die zeitnah mit pragmatischen und bereits
vorhandenen Hardware- und Software-Lösungen implementiert werden müssen,
sind

 – Open Science, inklusive Zugriff auf und Präsentation von Daten und Ergeb-
   nissen,
 – die Umsetzbarkeit von Lösungen in der Praxis, etwa durch flexible Architek-
   turen,
 – die Nachhaltigkeit der implementierten Lösungen,
 – Usability bzw. Ergonomie des Softwaresystems
 – sowie Lizenz- und Rechtsfragen bei benutzten Originaldaten und Software-
   werkzeugen zur Auswertung und Darstellung der Daten.
Andere Ansätze unterstützen auch kollaboratives Arbeiten und stellen die Erfas-
sung, Verwaltung und Nutzung von Forschungs-Metadaten in den Vordergrund
(wie LabBook: [11]). Weiterhin können Forschungsdaten und (datenbankgestütz-
te) Auswerungen auch in das zu publizierende Dokument integriert werden wie
in Janiform mit den Portable DataBase Files (PDbF) [5].
    Einige der oben genannten Herausforderungen werden wir im Folgenden ge-
nauer diskutieren.

3   Forschungsdaten-Lifecycle
In Forschungseinrichtungen wird man mit einer Vielzahl an Experimenten und
Auswertungen aus sehr unterschiedlichen, interdisziplinären Forschungsberei-
chen konfrontiert. Die Daten, Methodik und verwendeten Werkzeuge sind sehr
heterogen. Für die Zusammenarbeit müssen Austauschbarkeit und Interoperabi-
lität gewährleistet werden. Hierzu gibt es verschiedene Modellierungsansätze, die
entweder abstrakt und damit allgemeingültiger oder eher spezialisiert und damit
komplexer sind. Des Weiteren gibt es unterschiedliche Daten und Ziele der Ver-
arbeitung entlang des Lifecycles eines Experiments. Abbildung 1 veranschaulicht
einen solchen Lifecycle von der ersten Erfassung der Daten als Primärforschungs-
daten über die weitere Verarbeitung bis hin zur Publikation. Dabei ist für die
Nachvollziehbarkeit der Forschungsergebnisse die gesamte Kette der Datenverar-
beitung von der Erfassung bis zur Publikation aufzunehmen und zu archivieren
(grüner Rahmen).


                   Abb. 1. Lifecycle von Forschungsdaten aus [2]


    Forschungsdaten- und Publikations-Workflows sind in der Wissenschaft eng
verzahnt. Dabei gibt es viele mögliche Abläufe, die beliebige Zusammenhänge
zwischen Experimenten, Primärforschungsdaten, Sekundärforschungsdaten so-
wie Publikationen abbilden. Hier haben sich Scientific-Workflow-Systeme wie
z.B. Kepler [13] etabliert. Publikationsprozesse sind Bestandteil des Gebiets der
Digitalen Bibliotheken (siehe z.B. [21]).
    Grundlegendes Prinzip, das im Rahmen dieser wissenschaftlichen Arbeits-
abläufe realisiert werden muss, ist das FAIR-Prinzip aus [20]. FAIR beinhaltet,
dass Daten auffindbar (findable), zugreifbar (accessible), interoperabel und wie-
derverwendbar (reusable) sein müssen. Wir werden nun zunächst einige orga-
nisatorische Maßnahmen sowie pragmatische Lösungen beschreiben, die dieses
Prinzip fördern sollen.


4   Forschungsdatenmanagement an der Universität
    Rostock

An der Universität Rostock wurden und werden verschiedene organisatorische
Konzepte sowie grundlegende als auch praxisnahe Lösungen entwickelt. Einige
sollen im Folgenden kurz vorgestellt werden.


Rostocker Modell

Das Rostocker Modell“ der Universität Rostock [9] regelt die Zuständigkeit und
     ”
generelle Verfahrensweise bei der Verstetigung und Nachhaltigkeit von Spezial-
archiven, die im Rahmen von Forschungsprojekten an verschiedenen Fakultäten
der Universität Rostock entstehen oder entstanden sind.
    Derartige Spezialarchive zeichnen sich dadurch aus, dass sie nicht nur die Da-
ten selbst speichern, sondern auch (Text-, Bild-, Multimedia-)Dokumente sowie
archiv-spezifische Funktionen und Methoden. Solche Funktionen und Metho-
den gehen über das hinaus, was Standard-Software und Standard-DBMS bie-
ten. Das bedeutet, dass man solche Archive nicht einfach durch herkömmliche
Software-Maintenance warten kann, sondern auch die spezielle Funktionalität
aktuell halten muss. Die Rostocker Lösung ist eine Arbeitsteilung zwischen dem
Universitätsrechenzentrum (ITMZ: IT- und Medienzentrum), der Universitäts-
bibliothek (UB) sowie dem Institut für Informatik, die in zugrundeliegenden
Projekten oftmals beteiligt sind. Darüberhinaus wird mit regionalen Software-
firmen die Wartung unterstützt. Hierdurch ist es möglich, auch längere Zeit nach
Beendigung des Projektes eine zumindest grundlegende Funktionalität des Spe-
zialarchivs eines abgeschlossenen Software-Projektes innerhalb und außerhalb
der Universität Rostock verfügbar zu halten.
    Beispielsweise wurden in einer aktuellen Arbeit in 2017 Forschungsergebnisse
des Projekts eNoteHistory [1] auf einen aktuellen Softwarestand gebracht. Die-
ses Projekt war bereits vor 10 Jahren abgeschlossen worden. Im Projekt wurden
Notenhandschriften digitalisiert, gespeichert und so aufbereitet, dass ein Auffin-
den nach Merkmalen des Schreibers der Noten möglich war. Die Software musste
dabei von einer IBM-DB2-Lösung (in 2004 noch mit den damals vorhandenen
Text und Image Extendern entwickelt) auf eine aktuelle PostgreSQL-Version
umgestellt werden. Dabei wurden auch viele Erfahrungen gesammelt, was in der
Zukunft bei analogen Projekten konzeptionell zu überdenken ist, wenn keine
kontinuierliche Evolution der Soft- und Hardware nach Projektende möglich ist.
Forschungsdatenworkflow und Publikationsworkflow an der
Universität Rostock
Die Universität Rostock unterstützt aktiv Open-Access-Veröffentlichungen und
hat u.a. die “Berlin Declaration on Open Access to Knowledge in the Sciences
and Humanities” [12] unterzeichnet. Außerdem wurde ein Publikationsfonds
für Open-Access-Veröffentlichungen unter Beteiligung der Universitätsbiblio-
thek und Vertretern aller Fakultäten aufgebaut. Weiterhin befinden sich an der
Universitätsbibliothek Dienste im Bereich des Forschungsdatenmanagements im
Aufbau. Dazu zählen Services zur Strategie und Wahl des Datenmanagements
und der Datenstandards, zur Repräsentation des Wissens sowie bei der digitalen
Archivierung von Daten.
    Für die Publikationen, deren Langzeitarchivierung sowie deren stabilen Zi-
tierbarkeit wird an der Universität Rostock auf entsprechende Systeme, die die
eindeutige Referenzierbarkeit per Digital Object Identifiers (DOI) realisieren,
zurückgegriffen. Basis ist das System “RosDok” (http://rosdok.uni-rostock.de),
das Dokumente in einer Digitalen Bibliothek organisiert, speichert und zugreif-
bar hält. Erweitert wird das System, um neben den Publikationen selbst auch Da-
ten und Referenzen für die Forschungsdaten und -methoden anzubieten. RosDok
basiert auf dem MyCoRe-System [17]. Die Universität Rostock plant das For-
schungsdatenmanagement zentral zu koordinieren und die vorhandenen Dienst-
leistungen kontinuierlich zu erweitern.

Open Science und pragmatische Lösungen für die kurzfristige
Umsetzung des Forschungsdatenmanagements
Open Science ist eine Forderung an die Wissenschaft aus dem gesellschaftlichen
Kontext heraus: wissenschaftliche Ergebnisse, von öffentlich-rechtlichen Einrich-
tungen erzielt oder aus öffentlichen Mitteln finanziert, sollten auch der Öffent-
lichkeit zur Verfügung stehen. Open Science wird daher gerade von staatlichen
Forschungsförderern als Voraussetzung für gute wissenschaftliche Praxis angese-
hen.
    Zur Open Science gehören eine Reihe von Begrifflichkeiten und Konzepten,
um die Wissenschaft transparent und nachvollziehbar für jedermann anzubieten
(siehe auch [18]):
 – Open Source – freie Verfügbarkeit des Sourcecodes und der im Forschungs-
   projekt verwendeten Werkzeuge
 – Open (Science) Data – freie Verfügbarkeit der wissenschaftlichen Daten. Da-
   zu gehören auch Protokolle, Beschreibungen, Kalibrierdaten, etc.
 – Open Access – freier Zugriff auf die veröffentlichten Ergebnisse, wie For-
   schungsartikel
 – Open Methodology – Beschreibung aller verwendeten Methoden, die für das
   Forschungsergebnis genutzt und entwickelt wurden
 – Open Notebook Science – freie Verfügbarkeit sämtlicher Basisdaten, Auf-
   zeichnungen, Planungs- und Einsatzinformationen zu einem Forschungspro-
   jekt
 – Open Educational Resources – freier Zugang zu Lehr- und Lernmaterialien
   bzgl. der Forschung
 – Open Peer Review – Transparenz und öffentlicher Zugang zum Reviewing-
   Prozess im wissenschaftlichen Publikations- bzw. Antragsprozess

   Für die Realisierung von Open (Science) Data werden in einigen Forschungs-
gruppen der Universität Rostock derzeit zunächst für das interne Management
der Daten Versionskontrollwerkzeuge wie SVN and Git benutzt. Veröffentlicht
werden die Daten dann über GitHub. Nachteilig bei diesen Werkzeugen ist insbe-
sondere die Versionsverfolgung bei einer sehr großen Anzahl von Forschungsdaten
(und -dateien). Ein positiver Seiteneffekt bei der öffentlichen Bereitstellung ist
dagegen die Notwendigkeit für eine saubere Dokumentation (die sonst oft un-
terbleibt), eine Bereinigung von Daten und Ergebnissen, und eine ausführliche
gruppeninterne Diskussion über Originaldaten und Ergebnisse.
   Gerade die angesprochenen Probleme bei der Versionsverfolgung bei For-
schungsergebnissen, die über einen längeren Zeitraum, etwa auch permanent, ge-
wonnen und ausgewertet werden führten zu einigen grundlegenden Forschungsar-
beiten, die derzeit in der Datenbank-Forschungsgruppe der Universität Rostock
vorangetrieben werden.


5   Forschungsfragestellungen im
    Forschungsdatenmanagement


Im Folgenden wollen wir einige Fragestellungen des Forschungsdatenmanage-
ments mit Bezug zu Datenbanktechniken genauer vorstellen. Im Gegensatz zu
[2] werden wir uns in diesem Artikel nicht nur auf die meeresbiologischen Szenari-
en eines unserer Aninstitute konzentrieren, sondern auch andere datengetriebene
Szenarien und die dort auftretenden Fragestellungen berücksichtigen. Anderer-
seits werden wir uns im Gegensatz zu [2] eher auf die Teilbereiche des Provenance
Management und die Reproduzierbarkeit von Forschungsergebnissen konzentrie-
ren und die gesamte Integrationspipeline nur überblicksartig vorstellen.
    In der Systematik von Abbildung 1 werden wir uns dabei um die Auswertung
von Primär- und Sekundärforschungsdaten in langfristigen Messreihen kümmern.
Dabei ist die Reproduzierbarkeit dieser Auswertungsergebnisse für die Nach-
prüfbarkeit von Publikationsergebnissen in naturwissenschaftlicher Forschung
wichtig. Das Provenance Management wird aber auch benötigt, um bei der Erfor-
schung und Entwicklung von smarten Systemen (Assistenzsystemen) beurteilen
zu können, warum die Situations- und Aktivitätserkennung in Assistenzsyste-
men in bestimmten Fällen fehlerhafte Ergebnisse geliefert hat. Sowohl bei lang-
fristigen Messreihen als auch bei der Entwicklung von smarten Systemen sind
daneben auch noch temporale Aspekte wichtig, da über die Zeit sowohl erfasste
Daten als auch Auswertungsmethoden sich verändern können.
Provenance Management und Reproduzierbarkeit von
Forschungsergebnissen
Bei der Reproduzierbarkeit von Forschungsergebnissen gibt es verschiedene Stu-
fen. Man kann testen
 – ob ein Ergebnis plausibel ist: hier ist die Fragestellung, ob eine Aussage in
   einer Publikation zu den gespeicherten Forschungsdaten passt; üblicherwei-
   se eine manuell durch Gutachter durchzuführende Tätigkeit, die u.a. durch
   Textanalysen softwaretechnisch zumindest unterstützt werden kann
 – ob das Ergebnis nachvollziehbar ist: hier ist die Fragestellung, ob ein etwa
   tabellarisch aufbereitetes Ergebnis aus strukturierten Daten zu den gespei-
   cherten Forschungsdaten passt; hier greifen schon weitere Analyseverfahren,
   die auf strukturierte Daten angewendet werden können
 – oder ob das Ergebnis reproduzierbar ist: hier muss dasselbe Ergebnis aus
   strukturierten Daten auf Basis der gespeicherten Primärforschungsdaten mit
   der gleichen Methodik (etwa einer gespeicherten Analysefunktion) software-
   technisch ohne Medienbruch wieder errechnet werden können.
Wenn man davon ausgeht, dass die Forschungsarbeiten auf Basis von Open
Science durchgeführt werden, sollten die Forschungsergebnisse prinzipiell immer
von den Primärforschungsdaten her reproduzierbar sein. Der entgegengesetzte
Weg, vom Ergebnis zurück zu den Primärforschungsdaten, ist die Rückverfolg-
barkeit von Forschungsergebnissen. Das zugrundeliegende Forschungsgebiet im
Datenbankbereich ist das Provenance Management.
   In der Provenance-Theorie unterscheidet man Where-, Why- und How-
Provenance [16,4]. Die Fragestellungen dahinter sind:
 – Where – woher kommen die Daten, die zu dem Ergebnis führten? Ergebnis
   ist die Herkunft der Daten in Form von zugrundliegenden Datenbanken,
   Dateiverzeichnissen, Datensammlungen oder Repositorien.
 – Why – welche Daten spielten exakt eine Rolle? Ergebnis sind die Einzeldaten
   (relational: die Tupel in Relationen), die in die Methodik eingeflossen sind.
 – How – wie ist es mit diesen Daten zu diesem Ergebnis gekommen? Ergebnis
   ist eine Darstellung der angewendeten Operationen inklusive der Reihenfolge
   der Bearbeitungsschritte, die für die Ermittlung des Ergebnisses relevant
   waren.
   Dabei sind Where- und Why-Anfragen auf die Forschungsdaten mit aktuellen
Mitteln, wie z.B. einer Datenbankerweiterung der Open-Source-Datenbank Post-
greSQL [7], machbar. Leider eignen sich die derzeit vorhandenen Provenance-
Techniken nur unter sehr speziellen Randbedingungen, die üblicherweise bei For-
schungsprojekten mit komplexen Auswertungsfunktionen nicht gegeben sind:
 – Die Auswertungen auf den Daten werden nur mit Selektion, Projektion und
   Verbund vorgenommen. Nur in speziellen Fällen können Aggregatfunktio-
   nen berücksichtigt werden. Analysen auf Forschungsdaten enthalten aber
   üblicherweise komplexe statistische Funktionen oder gar Machine-Learning-
   Algorithmen.
 – Die Auswertungen auf den Daten werden auf einer fixierten Datenbank
   vorgenommen: die Forschungsergebnisse berücksichtigen keine Updates (bei
   Stromdaten: ständig sich ändernde Menge an Primärforschungsdaten) auf
   den Forschungsdaten. Hier müssen wir die Provenance-Techniken mit tem-
   poralen Aspekten (siehe unten) verknüpfen.

Ein grundlegendes Forschungsproblem ist dabei, welcher (minimale) Ausschnitt
von den Primärforschungsdaten in welcher Version (unveränderbar) gespeichert
werden muss (wir nennen es: eingefroren werden muss), so dass man aus den
Ergebnissen der Auswertung und den eingefrorenen Daten die Inverse der Aus-
wertung (Anfrage an die Datenbank) automatisiert berechnen kann. Für unsere
Forschungsarbeiten hierzu erweitern wir den Begriff der inversen Schemaabbil-
dungen, der für Datenaustausch und Datenintegration etwa in [6] eingeführt
wurde.
    Ziele unserer Forschungsarbeiten zum Provenance Management haben wir
in [8] bereits im Kontext der Entwicklung von Assistenzsystemen vorgestellt.
Die zu entwickelnden Verfahren des Provenance Management werden nun aber
auch auf die Rückverfolgbarkeit von Forschungsergebnissen im Rahmen des For-
schungsdatenmanagements angewandt [2] und weiterentwickelt.


Temporale Aspekte im Forschungsdatenmanagement

Für den Umgang mit Forschungsdaten sind Auswertungen von historischen Da-
ten als auch die spätere Nachvollziehbarkeit von Forschungsergebnissen ein we-
sentliches Qualitätsmerkmal für eine Nachhaltigkeit dieser Forschung. Tempo-
rale Informationen über die Daten und Experimente sind nötig, um eine solche
Nachhaltigkeit zu erreichen.
    Das Speichern temporaler Informationen zu den Forschungsdaten sind z.B.
für Provenance-Anfragen, historische Vergleiche bzw. für sogenannte Time-
Travel-Anfragen essentiell. Time-Travel-Anfragen sind Anfragen auf Daten-
bestände, die auch zu anderen Zeitpunkten als dem aktuellen gültig waren. Seit
dem SQL:2011-Standard [10] sind temporale Aspekte fester Bestandteil des Da-
tenbankstandards. Unser Prototyp zum Forschungsdatenmanagement, der im
Rahmen einer Koopperation mit einem Aninstitut der Universität Rostock ent-
wickelt wurde, wurde auf Basis von PostgreSQL implementiert, da dieses System
verglichen mit anderen Open-Source-DBMS mehr Voraussetzungen für die Um-
setzung von SQL:2011-Konzepten angeboten hat [14].
    Da sich neben den Daten auch Funktionen über die Zeit verändern können,
müssen auch diese versioniert und mit entsprechenden Zeitintervallen beschrie-
ben werden können. Eine Versionierung von User Defined Functions (UDFs in
RDBMS) ist im SQL-Standard noch nicht vorgesehen, so dass gleiche Funktio-
nen (gleiche Namen und Parameter) mit unterschiedlicher zeitlicher Gültigkeit
nicht gleichzeitig in der Datenbank registriert sein können. Hierzu bedarf es zur
Zeit noch manuell definierter Tabellen zur Verwaltung der zeitlichen Gültigkeit
von Funktionen bzw. zusätzliche Werkzeuge zur An- und Abmeldung von UDFs,
die gerade für eine spezielle Anfrage benötigt werden.
Integration statt Migration – Integrationspipeline

Bei der Organisation des Forschungsdatenmanagements werden meist Richtli-
nien (gibt es bei der DFG, BMBF, Hochschulen und Forschungseinrichtungen)
oder Handbücher (ein allgemeines auch von der DFG anerkanntes ist [3]) aus-
gearbeitet, die die Vorgehensweise vorgeben. Aus bisherigen Erfahrungen wird
allerdings eine solche Vorgabe nicht unbedingt beachtet und die Durchsetzung
gestaltet sich ebenfalls oftmals schwierig. Kernpunkt eines nutzerfreundlichen
Forschungsdatenmanagements sollte sein

 – den Wissenschaftlern einen Mehrwert mit der Forschungsdatenverwaltung
   zu bieten,
 – ihre Vorgehensweisen und Werkzeuge nicht zu ersetzen, sondern zu integrie-
   ren, sowie
 – Services anzubieten, neben Beratung auch direkte, technische Unterstützung
   bei der Organisation und Umsetzung einer konkreten individuellen als auch
   verknüpften Forschungsdatenverwaltung.

Wissenschaftler stellen sich nicht zwangsweise komplett auf eine andere Art der
Datenverwaltung um. Es ist bzgl. der Compliance besser, die speziellen Vorgänge
der einzelnen Wissenschaftler in eine Gesamtstrategie zum Forschungsdatenma-
nagement zu integrieren.
    Um die Forschungsdaten aus verschiedenen wissenschaftlichen Projekten zu
integrieren sind Transformations- und Evolutionsprozesse der Daten, der Sche-
mata und der Funktionalität vonnöten. Diese Vorgänge ähneln dem ETL-Prozess
in Data Warehouses. Wir haben dazu eine Integrationspipeline entwickelt, die
über verschiedene Stufen halbautomatisch Schemata extrahieren und integrieren
kann [2].


6   Zusammenfassung

In diesem Beitrag wurden drei Aspekte des Forschungsdatenmanagements disku-
tiert. Es wurden die derzeitigen und geplanten organisatorischen Rahmenbedin-
gungen an der Universität Rostock vorgestellt. Es wurden zunächst pragmatische
Lösungen aufgezeigt, um zeitnah Lösungen für die Open-Science-Anforderungen
umsetzen zu können. Schließlich wurden Forschungsherausforderungen insbeson-
dere aus dem Bereich der Datenbanktechnologie präsentiert.
    Die Autorengruppe arbeitet dabei an verschiedenen Teilaspekten, etwa an
den organisatorischen Rahmenbedingungen (Schick; Universitätsbibliothek Ro-
stock, verantwortlich für Digitale Bibliotheken und Forschungsdaten), den prag-
matischen Lösungen für die Open Science im Kontext eines startenden Son-
derforschungsbereiches (Spors; Institut für Nachrichtentechnik) und an den ge-
nannten Forschungsfragestellungen (Bruder, Heuer; Institut für Informatik, For-
schungsgruppe Datenbanken).
Literatur

 1. Ilvio Bruder, Temenushka Ignatova, and Lars Milewski. Knowledge-Based Scribe
    Recognition in Historical Music Archives. In Rachel Heery and Liz Lyon, editors,
    Research and Advanced Technology for Digital Libraries, 8th European Conference,
    ECDL’04, volume 3232 of Lecture Notes in Computer Science, pages 304–316.
    Springer, 2004.
 2. Ilvio Bruder, Meike Klettke, Mark Lukas Möller, Frank Meyer, Andreas Heuer,
    Susanne Jürgensmann, and Susanne Feistel. Daten wie Sand am Meer - Datenerhe-
    bung, -strukturierung, -management und Data Provenance für die Ostseeforschung.
    Datenbank-Spektrum, 17(2):183–196, 2017.
 3. Stephan Büttner, Hans-Christoph Hobohm, and Lars Müller. Handbuch For-
    schungsdatenmanagement. BOCK+HERCHEN, 2011.
 4. James Cheney, Laura Chiticariu, and Wang Chiew Tan. Provenance in databases:
    Why, how, and where. Foundations and Trends in Databases, 1(4):379–474, 2009.
 5. Jens Dittrich and Patrick Bender. Janiform intra-document analytics for reprodu-
    cible research. PVLDB, 8(12):1972–1975, 2015.
 6. Ronald Fagin, Phokion G. Kolaitis, Lucian Popa, and Wang Chiew Tan. Schema
    mapping evolution through composition and inversion. In Zohra Bellahsene, Angela
    Bonifati, and Erhard Rahm, editors, Schema Matching and Mapping, Data-Centric
    Systems and Applications, pages 191–222. Springer, 2011.
 7. Boris Glavic and Gustavo Alonso. The PERM provenance management system in
    action. In Proc. SIGMOD’09, 2009.
 8. Andreas Heuer. METIS in PArADISE: Provenance Management bei der Auswer-
    tung von Sensordatenmengen für die Entwicklung von Assistenzsystemen. In Nor-
    bert Ritter, Andreas Henrich, Wolfgang Lehner, Andreas Thor, Steffen Friedrich,
    and Wolfram Wingerath, editors, Datenbanksysteme für Business, Technologie und
    Web (BTW 2015) - Workshopband, 2.-3. März 2015, Hamburg, Germany, volume
    242 of LNI, pages 131–136. GI, 2015.
 9. Andreas Heuer, Holger Meyer, and Ilvio Bruder. Nachhaltigkeit von digitalen
    Dokumenten – das Rostocker Modell. Steinbeis Transfermagazin, 04/2014, 2014.
10. ISO/IEC 9075-2:2011. Information technology - Database languages - SQL-Part
    2: Foundation (SQL/Foundation). Technical report, ISO/IEC JTC 1/SC 32, 2011.
11. Eser Kandogan, Mary Roth, Peter M. Schwarz, Joshua Hui, Ignacio G. Terrizzano,
    Christina Christodoulakis, and Renée J. Miller. Labbook: Metadata-driven social
    collaborative data analysis. In Proc. International Conference on Big Data, pages
    431–440. IEEE, 2015.
12. Max-Planck-Gesellschaft. Berlin Declaration on Open Access to Knowledge in the
    Sciences and Humanities, 2003. erreichbar unter https://openaccess.mpg.de/.
13. Timothy McPhilips, Shawn Bowers, and Bertram Ludäscher. Collection-oriented
    scientific workflows for integrating and analyzing biological data. In Proceedings
    of the DILS Workshop, 2006.
14. Frank Meyer. Temporale Aspekte und Provenance-Anfragen im Umfeld des For-
    schungsdatenmanagements. Master-Arbeit, Universität Rostock, 2016.
15. Holger Meyer, Alf-Christian Schering, and Andreas Heuer. The Hydra.PowerGraph
    System - Building Digital Archives with Directed and Typed Hypergraphs.
    Datenbank-Spektrum, 17(2):113–129, 2017.
16. Luc Moreau and Paul T. Groth. Provenance: An Introduction to PROV. Morgan
    & Claypool, 2013.
17. Wiebke Oeltjen. Virtuelle Bibliotheken flexibel gestalten. In eLibrary – den Wan-
    del gestalten, Proceedings of the WissKom’10, pages 259–266. Schriften des For-
    schungszentrums Jülich, 2010.
18. Sascha Spors, Matthias Geier, and Hagen Wierstorf. Towards Open Science in
    Acoustics: Foundations and Best Practices. In Tagungsband der DAGA’17, pages
    218–221. DEGA, 2017.
19. Georgi Straube, Ilvio Bruder, Dortje Löper, and Andreas Heuer. Data Integration
    in a Clinical Environment Using the Global-as-Local-View-Extension Technique.
    In Yanchun Zhang, Guiqing Yao, Jing He, Lei Wang, Neil R. Smalheiser, and Xiao-
    Xia Yin, editors, Health Information Science - Third International Conference, HIS
    2014, Shenzhen, China, April 22-23, 2014. Proceedings, volume 8423 of Lecture
    Notes in Computer Science, pages 148–159. Springer, 2014.
20. Mark D. Wilkinson and et.al. The FAIR Guiding Principles for scientific data
    management and stewardship. Scientific Data, 3, 2016.
21. Ian Witten, David Bainbridge, and David Nichols. How to Build a Digital Library.
    Morgan Kaufmann, 2nd edition, 2010.