=Paper= {{Paper |id=Vol-1917/paper25 |storemode=property |title=Konzepte für das Forschungsdatenmanagement an der Universität Rostock(Concepts for the Management of Research Data at the University of Rostock) |pdfUrl=https://ceur-ws.org/Vol-1917/paper25.pdf |volume=Vol-1917 |authors=Ilvio Bruder,Andreas Heuer,Sebastian Schick,Sascha Spors |dblpUrl=https://dblp.org/rec/conf/lwa/BruderHSS17 }} ==Konzepte für das Forschungsdatenmanagement an der Universität Rostock(Concepts for the Management of Research Data at the University of Rostock)== https://ceur-ws.org/Vol-1917/paper25.pdf
                  Konzepte für das Forschungsdatenmanagement
                 an der Universität Rostock – Extended Abstract
                     Concepts for the Management of Research Data at the
                          University of Rostock (Extended Abstract)

                         Ilvio Bruder, Andreas Heuer, Sebastian Schick und Sascha Spors

                                                     Universität Rostock



                 Abstract: Research Data Management aims at gathering, capturing, storing,
                 tracking, and archiving all the data being produced in scientific projects and ex-
                 periments. Besides these data, all the processing steps on these data - eventually
                 resulting in scientific publications - have to be stored as well.
                     Research Data Management is not only a scientific discipline in Compu-
                 ter Science. Universities and Research Institutes have to provide organizational
                 structures and processes and pragmatic solutions (hardware and software re-
                 sources) to implement first, simple tasks of Research Data Management.
                     In this paper, we sketch the organizational, pragmatic, and research aspects
                 of Research Data Management from a local (University of Rostock) point of
                 view. At the University of Rostock, we have wider experiences with research
                 data management in marine biology and medical research. The research aspects
                 are part of modern database research topics such as temporal databases, data
                 integration, schema evolution, and provenance management.


                 1    Einleitung

                 Ziel des Forschungsdatenmanagement ist es, Daten, die bei wissenschaftlichen
                 Projekten, Experimenten oder Beobachtungen erfasst werden, zu verfolgen und
                 zu archivieren. Zusätzlich muss die weitere Verarbeitung der Daten bis hin
                 zur Publikation gespeichert und nachvollziehbar gemacht werden. Viele Kon-
                 ferenzen und Workshops widmen sich unter anderem genau diesem Thema und
                 Forschungsgeldgeber erwarten bei Ausschreibungen fast immer Konzepte bzgl.
                 Nachhaltigkeit, Nachvollziehbarkeit und Offenlegung von Forschungsdaten. Da-
                 her müssen an Universitäten verstärkt organisatorische Konzepte für das For-
                 schungsdatenmanagement entwickelt werden sowie zeitnah pragmatische Lösun-
                 gen für eine erste Umsetzung des Forschungsdatenmanagements implementiert
                 werden. In diesem Beitrag soll ein Überblick über die organisatorischen Maß-
                 nahmen und die pragmatischen Lösungen an der Universität Rostock gegeben
                 werden.
                     Darüberhinaus ist Forschungsdatenmanagement ein aktuelles Forschungsthe-
                 ma, bei dem insbesondere moderne Datenbanktechnologien benötigt werden. In
                 diesem Beitrag werden wir einige Forschungsansätze skizzieren, mit denen wir




Copyright © 2017 by the paper’s authors. Copying permitted only for private and academic purposes.
In: M. Leyer (Ed.): Proceedings of the LWDA 2017 Workshops: KDML, FGWM, IR, and FGDB.
Rostock, Germany, 11.-13. September 2017, published at http://ceur-ws.org
uns speziell in der Datenbankforschungsgruppe der Universität Rostock befas-
sen. Insbesondere werden Forschungsergebnisse aus den Bereichen temporale Da-
tenbanken, Datenintegration, Schemaevolution sowie Provenance-Management
erwähnt.
    An der Universität Rostock haben wir speziell Erfahrungen im Bereich von
Informatik- [8] und Elektrotechnik-Forschungsgebieten [18] und im Bereich mee-
resbiologischer Forschungsdaten [2], mittlerweile aber auch verstärkt in anderen
naturwissenschaftlichen und medizinischen [19] Forschungsbereichen. Ein ganz
anderer Bereich sind die weniger (mess- und sensor-)datengetriebenen geistes-
wissenschaftlichen Forschungsgebiete (Digital Humanities), in denen sehr doku-
mentzentriert gearbeitet wird [15]. Im Folgenden werden wir uns eher mit den
datengetriebenen Szenarien befassen.


2   Herausforderungen des Forschungsdatenmanagements

Es gibt im Forschungsdatenmanagement eine Reihe von Herausforderungen, die
zum einen eher organisatorisch bzw. praktisch orientiert sind. Zum anderen gibt
es auch interessante Herausforderungen in der Grundlagenforschung, gerade in
Bezug auf Datenbanktechnologien. Die Herausforderungen in der Datenbank-
Grundlagenforschung sind

 – die Heterogenität der Daten,
 – ein nicht oder nur unvollständig vorhandenes Schema,
 – die Sicherung der Provenance (Herkunft) der Forschungsergebnisse sowie die
   Reproduzierbarkeit der wissenschaftlichen Auswertungen,
 – die Spezifikation und Nachverfolgung von wissenschaftlichen Arbeitsabläufen
   (Scientific Workflows), sowohl organisatorisch als auch datentechnisch,
 – die Einbettung und Speicherung von anwendungsspezifischen Funktionen
   und Methoden, insbesondere zur Analyse von Daten,
 – temporale Aspekte zur Reproduzierbarkeit von Auswertungen über Messda-
   ten, die als Stromdaten ständig produziert werden
 – sowie die Komplexität in den Auswertungen und Veränderungen in den Aus-
   wertungsroutinen über einen längeren Zeitraum hinweg.

Eher praktische Herausforderungen, die zeitnah mit pragmatischen und bereits
vorhandenen Hardware- und Software-Lösungen implementiert werden müssen,
sind

 – Open Science, inklusive Zugriff auf und Präsentation von Daten und Ergeb-
   nissen,
 – die Umsetzbarkeit von Lösungen in der Praxis, etwa durch flexible Architek-
   turen,
 – die Nachhaltigkeit der implementierten Lösungen,
 – Usability bzw. Ergonomie des Softwaresystems
 – sowie Lizenz- und Rechtsfragen bei benutzten Originaldaten und Software-
   werkzeugen zur Auswertung und Darstellung der Daten.
Andere Ansätze unterstützen auch kollaboratives Arbeiten und stellen die Erfas-
sung, Verwaltung und Nutzung von Forschungs-Metadaten in den Vordergrund
(wie LabBook: [11]). Weiterhin können Forschungsdaten und (datenbankgestütz-
te) Auswerungen auch in das zu publizierende Dokument integriert werden wie
in Janiform mit den Portable DataBase Files (PDbF) [5].
    Einige der oben genannten Herausforderungen werden wir im Folgenden ge-
nauer diskutieren.

3   Forschungsdaten-Lifecycle
In Forschungseinrichtungen wird man mit einer Vielzahl an Experimenten und
Auswertungen aus sehr unterschiedlichen, interdisziplinären Forschungsberei-
chen konfrontiert. Die Daten, Methodik und verwendeten Werkzeuge sind sehr
heterogen. Für die Zusammenarbeit müssen Austauschbarkeit und Interoperabi-
lität gewährleistet werden. Hierzu gibt es verschiedene Modellierungsansätze, die
entweder abstrakt und damit allgemeingültiger oder eher spezialisiert und damit
komplexer sind. Des Weiteren gibt es unterschiedliche Daten und Ziele der Ver-
arbeitung entlang des Lifecycles eines Experiments. Abbildung 1 veranschaulicht
einen solchen Lifecycle von der ersten Erfassung der Daten als Primärforschungs-
daten über die weitere Verarbeitung bis hin zur Publikation. Dabei ist für die
Nachvollziehbarkeit der Forschungsergebnisse die gesamte Kette der Datenverar-
beitung von der Erfassung bis zur Publikation aufzunehmen und zu archivieren
(grüner Rahmen).




                   Abb. 1. Lifecycle von Forschungsdaten aus [2]


    Forschungsdaten- und Publikations-Workflows sind in der Wissenschaft eng
verzahnt. Dabei gibt es viele mögliche Abläufe, die beliebige Zusammenhänge
zwischen Experimenten, Primärforschungsdaten, Sekundärforschungsdaten so-
wie Publikationen abbilden. Hier haben sich Scientific-Workflow-Systeme wie
z.B. Kepler [13] etabliert. Publikationsprozesse sind Bestandteil des Gebiets der
Digitalen Bibliotheken (siehe z.B. [21]).
    Grundlegendes Prinzip, das im Rahmen dieser wissenschaftlichen Arbeits-
abläufe realisiert werden muss, ist das FAIR-Prinzip aus [20]. FAIR beinhaltet,
dass Daten auffindbar (findable), zugreifbar (accessible), interoperabel und wie-
derverwendbar (reusable) sein müssen. Wir werden nun zunächst einige orga-
nisatorische Maßnahmen sowie pragmatische Lösungen beschreiben, die dieses
Prinzip fördern sollen.


4   Forschungsdatenmanagement an der Universität
    Rostock

An der Universität Rostock wurden und werden verschiedene organisatorische
Konzepte sowie grundlegende als auch praxisnahe Lösungen entwickelt. Einige
sollen im Folgenden kurz vorgestellt werden.


Rostocker Modell

Das Rostocker Modell“ der Universität Rostock [9] regelt die Zuständigkeit und
     ”
generelle Verfahrensweise bei der Verstetigung und Nachhaltigkeit von Spezial-
archiven, die im Rahmen von Forschungsprojekten an verschiedenen Fakultäten
der Universität Rostock entstehen oder entstanden sind.
    Derartige Spezialarchive zeichnen sich dadurch aus, dass sie nicht nur die Da-
ten selbst speichern, sondern auch (Text-, Bild-, Multimedia-)Dokumente sowie
archiv-spezifische Funktionen und Methoden. Solche Funktionen und Metho-
den gehen über das hinaus, was Standard-Software und Standard-DBMS bie-
ten. Das bedeutet, dass man solche Archive nicht einfach durch herkömmliche
Software-Maintenance warten kann, sondern auch die spezielle Funktionalität
aktuell halten muss. Die Rostocker Lösung ist eine Arbeitsteilung zwischen dem
Universitätsrechenzentrum (ITMZ: IT- und Medienzentrum), der Universitäts-
bibliothek (UB) sowie dem Institut für Informatik, die in zugrundeliegenden
Projekten oftmals beteiligt sind. Darüberhinaus wird mit regionalen Software-
firmen die Wartung unterstützt. Hierdurch ist es möglich, auch längere Zeit nach
Beendigung des Projektes eine zumindest grundlegende Funktionalität des Spe-
zialarchivs eines abgeschlossenen Software-Projektes innerhalb und außerhalb
der Universität Rostock verfügbar zu halten.
    Beispielsweise wurden in einer aktuellen Arbeit in 2017 Forschungsergebnisse
des Projekts eNoteHistory [1] auf einen aktuellen Softwarestand gebracht. Die-
ses Projekt war bereits vor 10 Jahren abgeschlossen worden. Im Projekt wurden
Notenhandschriften digitalisiert, gespeichert und so aufbereitet, dass ein Auffin-
den nach Merkmalen des Schreibers der Noten möglich war. Die Software musste
dabei von einer IBM-DB2-Lösung (in 2004 noch mit den damals vorhandenen
Text und Image Extendern entwickelt) auf eine aktuelle PostgreSQL-Version
umgestellt werden. Dabei wurden auch viele Erfahrungen gesammelt, was in der
Zukunft bei analogen Projekten konzeptionell zu überdenken ist, wenn keine
kontinuierliche Evolution der Soft- und Hardware nach Projektende möglich ist.
Forschungsdatenworkflow und Publikationsworkflow an der
Universität Rostock
Die Universität Rostock unterstützt aktiv Open-Access-Veröffentlichungen und
hat u.a. die “Berlin Declaration on Open Access to Knowledge in the Sciences
and Humanities” [12] unterzeichnet. Außerdem wurde ein Publikationsfonds
für Open-Access-Veröffentlichungen unter Beteiligung der Universitätsbiblio-
thek und Vertretern aller Fakultäten aufgebaut. Weiterhin befinden sich an der
Universitätsbibliothek Dienste im Bereich des Forschungsdatenmanagements im
Aufbau. Dazu zählen Services zur Strategie und Wahl des Datenmanagements
und der Datenstandards, zur Repräsentation des Wissens sowie bei der digitalen
Archivierung von Daten.
    Für die Publikationen, deren Langzeitarchivierung sowie deren stabilen Zi-
tierbarkeit wird an der Universität Rostock auf entsprechende Systeme, die die
eindeutige Referenzierbarkeit per Digital Object Identifiers (DOI) realisieren,
zurückgegriffen. Basis ist das System “RosDok” (http://rosdok.uni-rostock.de),
das Dokumente in einer Digitalen Bibliothek organisiert, speichert und zugreif-
bar hält. Erweitert wird das System, um neben den Publikationen selbst auch Da-
ten und Referenzen für die Forschungsdaten und -methoden anzubieten. RosDok
basiert auf dem MyCoRe-System [17]. Die Universität Rostock plant das For-
schungsdatenmanagement zentral zu koordinieren und die vorhandenen Dienst-
leistungen kontinuierlich zu erweitern.

Open Science und pragmatische Lösungen für die kurzfristige
Umsetzung des Forschungsdatenmanagements
Open Science ist eine Forderung an die Wissenschaft aus dem gesellschaftlichen
Kontext heraus: wissenschaftliche Ergebnisse, von öffentlich-rechtlichen Einrich-
tungen erzielt oder aus öffentlichen Mitteln finanziert, sollten auch der Öffent-
lichkeit zur Verfügung stehen. Open Science wird daher gerade von staatlichen
Forschungsförderern als Voraussetzung für gute wissenschaftliche Praxis angese-
hen.
    Zur Open Science gehören eine Reihe von Begrifflichkeiten und Konzepten,
um die Wissenschaft transparent und nachvollziehbar für jedermann anzubieten
(siehe auch [18]):
 – Open Source – freie Verfügbarkeit des Sourcecodes und der im Forschungs-
   projekt verwendeten Werkzeuge
 – Open (Science) Data – freie Verfügbarkeit der wissenschaftlichen Daten. Da-
   zu gehören auch Protokolle, Beschreibungen, Kalibrierdaten, etc.
 – Open Access – freier Zugriff auf die veröffentlichten Ergebnisse, wie For-
   schungsartikel
 – Open Methodology – Beschreibung aller verwendeten Methoden, die für das
   Forschungsergebnis genutzt und entwickelt wurden
 – Open Notebook Science – freie Verfügbarkeit sämtlicher Basisdaten, Auf-
   zeichnungen, Planungs- und Einsatzinformationen zu einem Forschungspro-
   jekt
 – Open Educational Resources – freier Zugang zu Lehr- und Lernmaterialien
   bzgl. der Forschung
 – Open Peer Review – Transparenz und öffentlicher Zugang zum Reviewing-
   Prozess im wissenschaftlichen Publikations- bzw. Antragsprozess

   Für die Realisierung von Open (Science) Data werden in einigen Forschungs-
gruppen der Universität Rostock derzeit zunächst für das interne Management
der Daten Versionskontrollwerkzeuge wie SVN and Git benutzt. Veröffentlicht
werden die Daten dann über GitHub. Nachteilig bei diesen Werkzeugen ist insbe-
sondere die Versionsverfolgung bei einer sehr großen Anzahl von Forschungsdaten
(und -dateien). Ein positiver Seiteneffekt bei der öffentlichen Bereitstellung ist
dagegen die Notwendigkeit für eine saubere Dokumentation (die sonst oft un-
terbleibt), eine Bereinigung von Daten und Ergebnissen, und eine ausführliche
gruppeninterne Diskussion über Originaldaten und Ergebnisse.
   Gerade die angesprochenen Probleme bei der Versionsverfolgung bei For-
schungsergebnissen, die über einen längeren Zeitraum, etwa auch permanent, ge-
wonnen und ausgewertet werden führten zu einigen grundlegenden Forschungsar-
beiten, die derzeit in der Datenbank-Forschungsgruppe der Universität Rostock
vorangetrieben werden.



5   Forschungsfragestellungen im
    Forschungsdatenmanagement


Im Folgenden wollen wir einige Fragestellungen des Forschungsdatenmanage-
ments mit Bezug zu Datenbanktechniken genauer vorstellen. Im Gegensatz zu
[2] werden wir uns in diesem Artikel nicht nur auf die meeresbiologischen Szenari-
en eines unserer Aninstitute konzentrieren, sondern auch andere datengetriebene
Szenarien und die dort auftretenden Fragestellungen berücksichtigen. Anderer-
seits werden wir uns im Gegensatz zu [2] eher auf die Teilbereiche des Provenance
Management und die Reproduzierbarkeit von Forschungsergebnissen konzentrie-
ren und die gesamte Integrationspipeline nur überblicksartig vorstellen.
    In der Systematik von Abbildung 1 werden wir uns dabei um die Auswertung
von Primär- und Sekundärforschungsdaten in langfristigen Messreihen kümmern.
Dabei ist die Reproduzierbarkeit dieser Auswertungsergebnisse für die Nach-
prüfbarkeit von Publikationsergebnissen in naturwissenschaftlicher Forschung
wichtig. Das Provenance Management wird aber auch benötigt, um bei der Erfor-
schung und Entwicklung von smarten Systemen (Assistenzsystemen) beurteilen
zu können, warum die Situations- und Aktivitätserkennung in Assistenzsyste-
men in bestimmten Fällen fehlerhafte Ergebnisse geliefert hat. Sowohl bei lang-
fristigen Messreihen als auch bei der Entwicklung von smarten Systemen sind
daneben auch noch temporale Aspekte wichtig, da über die Zeit sowohl erfasste
Daten als auch Auswertungsmethoden sich verändern können.
Provenance Management und Reproduzierbarkeit von
Forschungsergebnissen
Bei der Reproduzierbarkeit von Forschungsergebnissen gibt es verschiedene Stu-
fen. Man kann testen
 – ob ein Ergebnis plausibel ist: hier ist die Fragestellung, ob eine Aussage in
   einer Publikation zu den gespeicherten Forschungsdaten passt; üblicherwei-
   se eine manuell durch Gutachter durchzuführende Tätigkeit, die u.a. durch
   Textanalysen softwaretechnisch zumindest unterstützt werden kann
 – ob das Ergebnis nachvollziehbar ist: hier ist die Fragestellung, ob ein etwa
   tabellarisch aufbereitetes Ergebnis aus strukturierten Daten zu den gespei-
   cherten Forschungsdaten passt; hier greifen schon weitere Analyseverfahren,
   die auf strukturierte Daten angewendet werden können
 – oder ob das Ergebnis reproduzierbar ist: hier muss dasselbe Ergebnis aus
   strukturierten Daten auf Basis der gespeicherten Primärforschungsdaten mit
   der gleichen Methodik (etwa einer gespeicherten Analysefunktion) software-
   technisch ohne Medienbruch wieder errechnet werden können.
Wenn man davon ausgeht, dass die Forschungsarbeiten auf Basis von Open
Science durchgeführt werden, sollten die Forschungsergebnisse prinzipiell immer
von den Primärforschungsdaten her reproduzierbar sein. Der entgegengesetzte
Weg, vom Ergebnis zurück zu den Primärforschungsdaten, ist die Rückverfolg-
barkeit von Forschungsergebnissen. Das zugrundeliegende Forschungsgebiet im
Datenbankbereich ist das Provenance Management.
   In der Provenance-Theorie unterscheidet man Where-, Why- und How-
Provenance [16,4]. Die Fragestellungen dahinter sind:
 – Where – woher kommen die Daten, die zu dem Ergebnis führten? Ergebnis
   ist die Herkunft der Daten in Form von zugrundliegenden Datenbanken,
   Dateiverzeichnissen, Datensammlungen oder Repositorien.
 – Why – welche Daten spielten exakt eine Rolle? Ergebnis sind die Einzeldaten
   (relational: die Tupel in Relationen), die in die Methodik eingeflossen sind.
 – How – wie ist es mit diesen Daten zu diesem Ergebnis gekommen? Ergebnis
   ist eine Darstellung der angewendeten Operationen inklusive der Reihenfolge
   der Bearbeitungsschritte, die für die Ermittlung des Ergebnisses relevant
   waren.
   Dabei sind Where- und Why-Anfragen auf die Forschungsdaten mit aktuellen
Mitteln, wie z.B. einer Datenbankerweiterung der Open-Source-Datenbank Post-
greSQL [7], machbar. Leider eignen sich die derzeit vorhandenen Provenance-
Techniken nur unter sehr speziellen Randbedingungen, die üblicherweise bei For-
schungsprojekten mit komplexen Auswertungsfunktionen nicht gegeben sind:
 – Die Auswertungen auf den Daten werden nur mit Selektion, Projektion und
   Verbund vorgenommen. Nur in speziellen Fällen können Aggregatfunktio-
   nen berücksichtigt werden. Analysen auf Forschungsdaten enthalten aber
   üblicherweise komplexe statistische Funktionen oder gar Machine-Learning-
   Algorithmen.
 – Die Auswertungen auf den Daten werden auf einer fixierten Datenbank
   vorgenommen: die Forschungsergebnisse berücksichtigen keine Updates (bei
   Stromdaten: ständig sich ändernde Menge an Primärforschungsdaten) auf
   den Forschungsdaten. Hier müssen wir die Provenance-Techniken mit tem-
   poralen Aspekten (siehe unten) verknüpfen.

Ein grundlegendes Forschungsproblem ist dabei, welcher (minimale) Ausschnitt
von den Primärforschungsdaten in welcher Version (unveränderbar) gespeichert
werden muss (wir nennen es: eingefroren werden muss), so dass man aus den
Ergebnissen der Auswertung und den eingefrorenen Daten die Inverse der Aus-
wertung (Anfrage an die Datenbank) automatisiert berechnen kann. Für unsere
Forschungsarbeiten hierzu erweitern wir den Begriff der inversen Schemaabbil-
dungen, der für Datenaustausch und Datenintegration etwa in [6] eingeführt
wurde.
    Ziele unserer Forschungsarbeiten zum Provenance Management haben wir
in [8] bereits im Kontext der Entwicklung von Assistenzsystemen vorgestellt.
Die zu entwickelnden Verfahren des Provenance Management werden nun aber
auch auf die Rückverfolgbarkeit von Forschungsergebnissen im Rahmen des For-
schungsdatenmanagements angewandt [2] und weiterentwickelt.


Temporale Aspekte im Forschungsdatenmanagement

Für den Umgang mit Forschungsdaten sind Auswertungen von historischen Da-
ten als auch die spätere Nachvollziehbarkeit von Forschungsergebnissen ein we-
sentliches Qualitätsmerkmal für eine Nachhaltigkeit dieser Forschung. Tempo-
rale Informationen über die Daten und Experimente sind nötig, um eine solche
Nachhaltigkeit zu erreichen.
    Das Speichern temporaler Informationen zu den Forschungsdaten sind z.B.
für Provenance-Anfragen, historische Vergleiche bzw. für sogenannte Time-
Travel-Anfragen essentiell. Time-Travel-Anfragen sind Anfragen auf Daten-
bestände, die auch zu anderen Zeitpunkten als dem aktuellen gültig waren. Seit
dem SQL:2011-Standard [10] sind temporale Aspekte fester Bestandteil des Da-
tenbankstandards. Unser Prototyp zum Forschungsdatenmanagement, der im
Rahmen einer Koopperation mit einem Aninstitut der Universität Rostock ent-
wickelt wurde, wurde auf Basis von PostgreSQL implementiert, da dieses System
verglichen mit anderen Open-Source-DBMS mehr Voraussetzungen für die Um-
setzung von SQL:2011-Konzepten angeboten hat [14].
    Da sich neben den Daten auch Funktionen über die Zeit verändern können,
müssen auch diese versioniert und mit entsprechenden Zeitintervallen beschrie-
ben werden können. Eine Versionierung von User Defined Functions (UDFs in
RDBMS) ist im SQL-Standard noch nicht vorgesehen, so dass gleiche Funktio-
nen (gleiche Namen und Parameter) mit unterschiedlicher zeitlicher Gültigkeit
nicht gleichzeitig in der Datenbank registriert sein können. Hierzu bedarf es zur
Zeit noch manuell definierter Tabellen zur Verwaltung der zeitlichen Gültigkeit
von Funktionen bzw. zusätzliche Werkzeuge zur An- und Abmeldung von UDFs,
die gerade für eine spezielle Anfrage benötigt werden.
Integration statt Migration – Integrationspipeline

Bei der Organisation des Forschungsdatenmanagements werden meist Richtli-
nien (gibt es bei der DFG, BMBF, Hochschulen und Forschungseinrichtungen)
oder Handbücher (ein allgemeines auch von der DFG anerkanntes ist [3]) aus-
gearbeitet, die die Vorgehensweise vorgeben. Aus bisherigen Erfahrungen wird
allerdings eine solche Vorgabe nicht unbedingt beachtet und die Durchsetzung
gestaltet sich ebenfalls oftmals schwierig. Kernpunkt eines nutzerfreundlichen
Forschungsdatenmanagements sollte sein

 – den Wissenschaftlern einen Mehrwert mit der Forschungsdatenverwaltung
   zu bieten,
 – ihre Vorgehensweisen und Werkzeuge nicht zu ersetzen, sondern zu integrie-
   ren, sowie
 – Services anzubieten, neben Beratung auch direkte, technische Unterstützung
   bei der Organisation und Umsetzung einer konkreten individuellen als auch
   verknüpften Forschungsdatenverwaltung.

Wissenschaftler stellen sich nicht zwangsweise komplett auf eine andere Art der
Datenverwaltung um. Es ist bzgl. der Compliance besser, die speziellen Vorgänge
der einzelnen Wissenschaftler in eine Gesamtstrategie zum Forschungsdatenma-
nagement zu integrieren.
    Um die Forschungsdaten aus verschiedenen wissenschaftlichen Projekten zu
integrieren sind Transformations- und Evolutionsprozesse der Daten, der Sche-
mata und der Funktionalität vonnöten. Diese Vorgänge ähneln dem ETL-Prozess
in Data Warehouses. Wir haben dazu eine Integrationspipeline entwickelt, die
über verschiedene Stufen halbautomatisch Schemata extrahieren und integrieren
kann [2].


6   Zusammenfassung

In diesem Beitrag wurden drei Aspekte des Forschungsdatenmanagements disku-
tiert. Es wurden die derzeitigen und geplanten organisatorischen Rahmenbedin-
gungen an der Universität Rostock vorgestellt. Es wurden zunächst pragmatische
Lösungen aufgezeigt, um zeitnah Lösungen für die Open-Science-Anforderungen
umsetzen zu können. Schließlich wurden Forschungsherausforderungen insbeson-
dere aus dem Bereich der Datenbanktechnologie präsentiert.
    Die Autorengruppe arbeitet dabei an verschiedenen Teilaspekten, etwa an
den organisatorischen Rahmenbedingungen (Schick; Universitätsbibliothek Ro-
stock, verantwortlich für Digitale Bibliotheken und Forschungsdaten), den prag-
matischen Lösungen für die Open Science im Kontext eines startenden Son-
derforschungsbereiches (Spors; Institut für Nachrichtentechnik) und an den ge-
nannten Forschungsfragestellungen (Bruder, Heuer; Institut für Informatik, For-
schungsgruppe Datenbanken).
Literatur

 1. Ilvio Bruder, Temenushka Ignatova, and Lars Milewski. Knowledge-Based Scribe
    Recognition in Historical Music Archives. In Rachel Heery and Liz Lyon, editors,
    Research and Advanced Technology for Digital Libraries, 8th European Conference,
    ECDL’04, volume 3232 of Lecture Notes in Computer Science, pages 304–316.
    Springer, 2004.
 2. Ilvio Bruder, Meike Klettke, Mark Lukas Möller, Frank Meyer, Andreas Heuer,
    Susanne Jürgensmann, and Susanne Feistel. Daten wie Sand am Meer - Datenerhe-
    bung, -strukturierung, -management und Data Provenance für die Ostseeforschung.
    Datenbank-Spektrum, 17(2):183–196, 2017.
 3. Stephan Büttner, Hans-Christoph Hobohm, and Lars Müller. Handbuch For-
    schungsdatenmanagement. BOCK+HERCHEN, 2011.
 4. James Cheney, Laura Chiticariu, and Wang Chiew Tan. Provenance in databases:
    Why, how, and where. Foundations and Trends in Databases, 1(4):379–474, 2009.
 5. Jens Dittrich and Patrick Bender. Janiform intra-document analytics for reprodu-
    cible research. PVLDB, 8(12):1972–1975, 2015.
 6. Ronald Fagin, Phokion G. Kolaitis, Lucian Popa, and Wang Chiew Tan. Schema
    mapping evolution through composition and inversion. In Zohra Bellahsene, Angela
    Bonifati, and Erhard Rahm, editors, Schema Matching and Mapping, Data-Centric
    Systems and Applications, pages 191–222. Springer, 2011.
 7. Boris Glavic and Gustavo Alonso. The PERM provenance management system in
    action. In Proc. SIGMOD’09, 2009.
 8. Andreas Heuer. METIS in PArADISE: Provenance Management bei der Auswer-
    tung von Sensordatenmengen für die Entwicklung von Assistenzsystemen. In Nor-
    bert Ritter, Andreas Henrich, Wolfgang Lehner, Andreas Thor, Steffen Friedrich,
    and Wolfram Wingerath, editors, Datenbanksysteme für Business, Technologie und
    Web (BTW 2015) - Workshopband, 2.-3. März 2015, Hamburg, Germany, volume
    242 of LNI, pages 131–136. GI, 2015.
 9. Andreas Heuer, Holger Meyer, and Ilvio Bruder. Nachhaltigkeit von digitalen
    Dokumenten – das Rostocker Modell. Steinbeis Transfermagazin, 04/2014, 2014.
10. ISO/IEC 9075-2:2011. Information technology - Database languages - SQL-Part
    2: Foundation (SQL/Foundation). Technical report, ISO/IEC JTC 1/SC 32, 2011.
11. Eser Kandogan, Mary Roth, Peter M. Schwarz, Joshua Hui, Ignacio G. Terrizzano,
    Christina Christodoulakis, and Renée J. Miller. Labbook: Metadata-driven social
    collaborative data analysis. In Proc. International Conference on Big Data, pages
    431–440. IEEE, 2015.
12. Max-Planck-Gesellschaft. Berlin Declaration on Open Access to Knowledge in the
    Sciences and Humanities, 2003. erreichbar unter https://openaccess.mpg.de/.
13. Timothy McPhilips, Shawn Bowers, and Bertram Ludäscher. Collection-oriented
    scientific workflows for integrating and analyzing biological data. In Proceedings
    of the DILS Workshop, 2006.
14. Frank Meyer. Temporale Aspekte und Provenance-Anfragen im Umfeld des For-
    schungsdatenmanagements. Master-Arbeit, Universität Rostock, 2016.
15. Holger Meyer, Alf-Christian Schering, and Andreas Heuer. The Hydra.PowerGraph
    System - Building Digital Archives with Directed and Typed Hypergraphs.
    Datenbank-Spektrum, 17(2):113–129, 2017.
16. Luc Moreau and Paul T. Groth. Provenance: An Introduction to PROV. Morgan
    & Claypool, 2013.
17. Wiebke Oeltjen. Virtuelle Bibliotheken flexibel gestalten. In eLibrary – den Wan-
    del gestalten, Proceedings of the WissKom’10, pages 259–266. Schriften des For-
    schungszentrums Jülich, 2010.
18. Sascha Spors, Matthias Geier, and Hagen Wierstorf. Towards Open Science in
    Acoustics: Foundations and Best Practices. In Tagungsband der DAGA’17, pages
    218–221. DEGA, 2017.
19. Georgi Straube, Ilvio Bruder, Dortje Löper, and Andreas Heuer. Data Integration
    in a Clinical Environment Using the Global-as-Local-View-Extension Technique.
    In Yanchun Zhang, Guiqing Yao, Jing He, Lei Wang, Neil R. Smalheiser, and Xiao-
    Xia Yin, editors, Health Information Science - Third International Conference, HIS
    2014, Shenzhen, China, April 22-23, 2014. Proceedings, volume 8423 of Lecture
    Notes in Computer Science, pages 148–159. Springer, 2014.
20. Mark D. Wilkinson and et.al. The FAIR Guiding Principles for scientific data
    management and stewardship. Scientific Data, 3, 2016.
21. Ian Witten, David Bainbridge, and David Nichols. How to Build a Digital Library.
    Morgan Kaufmann, 2nd edition, 2010.