<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Konzepte fur das Forschungsdatenmanagement an der Universitat Rostock { Extended Abstract</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Ilvio Bruder</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Andreas Heuer</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Sebastian Schick und Sascha Spors</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Universitat Rostock</string-name>
        </contrib>
      </contrib-group>
      <pub-date>
        <year>2017</year>
      </pub-date>
      <abstract>
        <p>Research Data Management aims at gathering, capturing, storing, tracking, and archiving all the data being produced in scienti c projects and experiments. Besides these data, all the processing steps on these data - eventually resulting in scienti c publications - have to be stored as well. Research Data Management is not only a scienti c discipline in Computer Science. Universities and Research Institutes have to provide organizational structures and processes and pragmatic solutions (hardware and software resources) to implement rst, simple tasks of Research Data Management. In this paper, we sketch the organizational, pragmatic, and research aspects of Research Data Management from a local (University of Rostock) point of view. At the University of Rostock, we have wider experiences with research data management in marine biology and medical research. The research aspects are part of modern database research topics such as temporal databases, data integration, schema evolution, and provenance management. Ziel des Forschungsdatenmanagement ist es, Daten, die bei wissenschaftlichen Projekten, Experimenten oder Beobachtungen erfasst werden, zu verfolgen und zu archivieren. Zusatzlich muss die weitere Verarbeitung der Daten bis hin zur Publikation gespeichert und nachvollziehbar gemacht werden. Viele Konferenzen und Workshops widmen sich unter anderem genau diesem Thema und Forschungsgeldgeber erwarten bei Ausschreibungen fast immer Konzepte bzgl. Nachhaltigkeit, Nachvollziehbarkeit und O enlegung von Forschungsdaten. Daher mussen an Universitaten verstarkt organisatorische Konzepte fur das Forschungsdatenmanagement entwickelt werden sowie zeitnah pragmatische Losungen fur eine erste Umsetzung des Forschungsdatenmanagements implementiert werden. In diesem Beitrag soll ein U berblick uber die organisatorischen Ma nahmen und die pragmatischen Losungen an der Universitat Rostock gegeben werden. Daruberhinaus ist Forschungsdatenmanagement ein aktuelles Forschungsthema, bei dem insbesondere moderne Datenbanktechnologien benotigt werden. In diesem Beitrag werden wir einige Forschungsansatze skizzieren, mit denen wir</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>Einleitung</title>
      <p>uns speziell in der Datenbankforschungsgruppe der Universitat Rostock
befassen. Insbesondere werden Forschungsergebnisse aus den Bereichen temporale
Datenbanken, Datenintegration, Schemaevolution sowie Provenance-Management
erwahnt.</p>
      <p>
        An der Universitat Rostock haben wir speziell Erfahrungen im Bereich von
Informatik- [
        <xref ref-type="bibr" rid="ref8">8</xref>
        ] und Elektrotechnik-Forschungsgebieten [18] und im Bereich
meeresbiologischer Forschungsdaten [
        <xref ref-type="bibr" rid="ref2">2</xref>
        ], mittlerweile aber auch verstarkt in anderen
naturwissenschaftlichen und medizinischen [19] Forschungsbereichen. Ein ganz
anderer Bereich sind die weniger (mess- und sensor-)datengetriebenen
geisteswissenschaftlichen Forschungsgebiete (Digital Humanities), in denen sehr
dokumentzentriert gearbeitet wird [
        <xref ref-type="bibr" rid="ref15">15</xref>
        ]. Im Folgenden werden wir uns eher mit den
datengetriebenen Szenarien befassen.
2
      </p>
    </sec>
    <sec id="sec-2">
      <title>Herausforderungen des Forschungsdatenmanagements</title>
      <p>Es gibt im Forschungsdatenmanagement eine Reihe von Herausforderungen, die
zum einen eher organisatorisch bzw. praktisch orientiert sind. Zum anderen gibt
es auch interessante Herausforderungen in der Grundlagenforschung, gerade in
Bezug auf Datenbanktechnologien. Die Herausforderungen in der
DatenbankGrundlagenforschung sind
{ die Heterogenitat der Daten,
{ ein nicht oder nur unvollstandig vorhandenes Schema,
{ die Sicherung der Provenance (Herkunft) der Forschungsergebnisse sowie die</p>
      <p>Reproduzierbarkeit der wissenschaftlichen Auswertungen,
{ die Spezi kation und Nachverfolgung von wissenschaftlichen Arbeitsablaufen
(Scienti c Work ows), sowohl organisatorisch als auch datentechnisch,
{ die Einbettung und Speicherung von anwendungsspezi schen Funktionen
und Methoden, insbesondere zur Analyse von Daten,
{ temporale Aspekte zur Reproduzierbarkeit von Auswertungen uber
Messdaten, die als Stromdaten standig produziert werden
{ sowie die Komplexitat in den Auswertungen und Veranderungen in den
Auswertungsroutinen uber einen langeren Zeitraum hinweg.</p>
      <p>Eher praktische Herausforderungen, die zeitnah mit pragmatischen und bereits
vorhandenen Hardware- und Software-Losungen implementiert werden mussen,
sind
{ Open Science, inklusive Zugri auf und Prasentation von Daten und
Ergebnissen,
{ die Umsetzbarkeit von Losungen in der Praxis, etwa durch exible
Architekturen,
{ die Nachhaltigkeit der implementierten Losungen,
{ Usability bzw. Ergonomie des Softwaresystems
{ sowie Lizenz- und Rechtsfragen bei benutzten Originaldaten und
Softwarewerkzeugen zur Auswertung und Darstellung der Daten.</p>
      <p>
        Andere Ansatze unterstutzen auch kollaboratives Arbeiten und stellen die
Erfassung, Verwaltung und Nutzung von Forschungs-Metadaten in den Vordergrund
(wie LabBook: [
        <xref ref-type="bibr" rid="ref11">11</xref>
        ]). Weiterhin konnen Forschungsdaten und
(datenbankgestutzte) Auswerungen auch in das zu publizierende Dokument integriert werden wie
in Janiform mit den Portable DataBase Files (PDbF) [
        <xref ref-type="bibr" rid="ref5">5</xref>
        ].
      </p>
      <p>Einige der oben genannten Herausforderungen werden wir im Folgenden
genauer diskutieren.
3</p>
    </sec>
    <sec id="sec-3">
      <title>Forschungsdaten-Lifecycle</title>
      <p>In Forschungseinrichtungen wird man mit einer Vielzahl an Experimenten und
Auswertungen aus sehr unterschiedlichen, interdisziplinaren
Forschungsbereichen konfrontiert. Die Daten, Methodik und verwendeten Werkzeuge sind sehr
heterogen. Fur die Zusammenarbeit mussen Austauschbarkeit und
Interoperabilitat gewahrleistet werden. Hierzu gibt es verschiedene Modellierungsansatze, die
entweder abstrakt und damit allgemeingultiger oder eher spezialisiert und damit
komplexer sind. Des Weiteren gibt es unterschiedliche Daten und Ziele der
Verarbeitung entlang des Lifecycles eines Experiments. Abbildung 1 veranschaulicht
einen solchen Lifecycle von der ersten Erfassung der Daten als
Primarforschungsdaten uber die weitere Verarbeitung bis hin zur Publikation. Dabei ist fur die
Nachvollziehbarkeit der Forschungsergebnisse die gesamte Kette der
Datenverarbeitung von der Erfassung bis zur Publikation aufzunehmen und zu archivieren
(gruner Rahmen).</p>
      <p>
        Abb. 1. Lifecycle von Forschungsdaten aus [
        <xref ref-type="bibr" rid="ref2">2</xref>
        ]
      </p>
      <p>
        Forschungsdaten- und Publikations-Work ows sind in der Wissenschaft eng
verzahnt. Dabei gibt es viele mogliche Ablaufe, die beliebige Zusammenhange
zwischen Experimenten, Primarforschungsdaten, Sekundarforschungsdaten
sowie Publikationen abbilden. Hier haben sich Scienti c-Work ow-Systeme wie
z.B. Kepler [
        <xref ref-type="bibr" rid="ref13">13</xref>
        ] etabliert. Publikationsprozesse sind Bestandteil des Gebiets der
Digitalen Bibliotheken (siehe z.B. [21]).
      </p>
      <p>Grundlegendes Prinzip, das im Rahmen dieser wissenschaftlichen
Arbeitsablaufe realisiert werden muss, ist das FAIR-Prinzip aus [20]. FAIR beinhaltet,
dass Daten au ndbar ( ndable), zugreifbar (accessible), interoperabel und
wiederverwendbar (reusable) sein mussen. Wir werden nun zunachst einige
organisatorische Ma nahmen sowie pragmatische Losungen beschreiben, die dieses
Prinzip fordern sollen.
4</p>
    </sec>
    <sec id="sec-4">
      <title>Forschungsdatenmanagement an der Universitat</title>
    </sec>
    <sec id="sec-5">
      <title>Rostock</title>
      <p>An der Universitat Rostock wurden und werden verschiedene organisatorische
Konzepte sowie grundlegende als auch praxisnahe Losungen entwickelt. Einige
sollen im Folgenden kurz vorgestellt werden.</p>
      <sec id="sec-5-1">
        <title>Rostocker Modell</title>
        <p>
          Das "Rostocker Modell\ der Universitat Rostock [
          <xref ref-type="bibr" rid="ref9">9</xref>
          ] regelt die Zustandigkeit und
generelle Verfahrensweise bei der Verstetigung und Nachhaltigkeit von
Spezialarchiven, die im Rahmen von Forschungsprojekten an verschiedenen Fakultaten
der Universitat Rostock entstehen oder entstanden sind.
        </p>
        <p>Derartige Spezialarchive zeichnen sich dadurch aus, dass sie nicht nur die
Daten selbst speichern, sondern auch (Text-, Bild-, Multimedia-)Dokumente sowie
archiv-spezi sche Funktionen und Methoden. Solche Funktionen und
Methoden gehen uber das hinaus, was Standard-Software und Standard-DBMS
bieten. Das bedeutet, dass man solche Archive nicht einfach durch herkommliche
Software-Maintenance warten kann, sondern auch die spezielle Funktionalitat
aktuell halten muss. Die Rostocker Losung ist eine Arbeitsteilung zwischen dem
Universitatsrechenzentrum (ITMZ: IT- und Medienzentrum), der
Universitatsbibliothek (UB) sowie dem Institut fur Informatik, die in zugrundeliegenden
Projekten oftmals beteiligt sind. Daruberhinaus wird mit regionalen
Softwarermen die Wartung unterstutzt. Hierdurch ist es moglich, auch langere Zeit nach
Beendigung des Projektes eine zumindest grundlegende Funktionalitat des
Spezialarchivs eines abgeschlossenen Software-Projektes innerhalb und au erhalb
der Universitat Rostock verfugbar zu halten.</p>
        <p>
          Beispielsweise wurden in einer aktuellen Arbeit in 2017 Forschungsergebnisse
des Projekts eNoteHistory [
          <xref ref-type="bibr" rid="ref1">1</xref>
          ] auf einen aktuellen Softwarestand gebracht.
Dieses Projekt war bereits vor 10 Jahren abgeschlossen worden. Im Projekt wurden
Notenhandschriften digitalisiert, gespeichert und so aufbereitet, dass ein Au
nden nach Merkmalen des Schreibers der Noten moglich war. Die Software musste
dabei von einer IBM-DB2-Losung (in 2004 noch mit den damals vorhandenen
Text und Image Extendern entwickelt) auf eine aktuelle PostgreSQL-Version
umgestellt werden. Dabei wurden auch viele Erfahrungen gesammelt, was in der
Zukunft bei analogen Projekten konzeptionell zu uberdenken ist, wenn keine
kontinuierliche Evolution der Soft- und Hardware nach Projektende moglich ist.
        </p>
      </sec>
      <sec id="sec-5-2">
        <title>Forschungsdatenwork ow und Publikationswork ow an der</title>
      </sec>
      <sec id="sec-5-3">
        <title>Universitat Rostock</title>
        <p>
          Die Universitat Rostock unterstutzt aktiv Open-Access-Vero entlichungen und
hat u.a. die \Berlin Declaration on Open Access to Knowledge in the Sciences
and Humanities" [
          <xref ref-type="bibr" rid="ref12">12</xref>
          ] unterzeichnet. Au erdem wurde ein Publikationsfonds
fur Open-Access-Vero entlichungen unter Beteiligung der
Universitatsbibliothek und Vertretern aller Fakultaten aufgebaut. Weiterhin be nden sich an der
Universitatsbibliothek Dienste im Bereich des Forschungsdatenmanagements im
Aufbau. Dazu zahlen Services zur Strategie und Wahl des Datenmanagements
und der Datenstandards, zur Reprasentation des Wissens sowie bei der digitalen
Archivierung von Daten.
        </p>
        <p>Fur die Publikationen, deren Langzeitarchivierung sowie deren stabilen
Zitierbarkeit wird an der Universitat Rostock auf entsprechende Systeme, die die
eindeutige Referenzierbarkeit per Digital Object Identi ers (DOI) realisieren,
zuruckgegri en. Basis ist das System \RosDok" (http://rosdok.uni-rostock.de),
das Dokumente in einer Digitalen Bibliothek organisiert, speichert und
zugreifbar halt. Erweitert wird das System, um neben den Publikationen selbst auch
Daten und Referenzen fur die Forschungsdaten und -methoden anzubieten. RosDok
basiert auf dem MyCoRe-System [17]. Die Universitat Rostock plant das
Forschungsdatenmanagement zentral zu koordinieren und die vorhandenen
Dienstleistungen kontinuierlich zu erweitern.</p>
      </sec>
      <sec id="sec-5-4">
        <title>Open Science und pragmatische Losungen fur die kurzfristige</title>
      </sec>
      <sec id="sec-5-5">
        <title>Umsetzung des Forschungsdatenmanagements</title>
        <p>Open Science ist eine Forderung an die Wissenschaft aus dem gesellschaftlichen
Kontext heraus: wissenschaftliche Ergebnisse, von o entlich-rechtlichen
Einrichtungen erzielt oder aus o entlichen Mitteln nanziert, sollten auch der O
entlichkeit zur Verfugung stehen. Open Science wird daher gerade von staatlichen
Forschungsforderern als Voraussetzung fur gute wissenschaftliche Praxis
angesehen.</p>
        <p>Zur Open Science gehoren eine Reihe von Begri ichkeiten und Konzepten,
um die Wissenschaft transparent und nachvollziehbar fur jedermann anzubieten
(siehe auch [18]):
{ Open Source { freie Verfugbarkeit des Sourcecodes und der im
Forschungsprojekt verwendeten Werkzeuge
{ Open (Science) Data { freie Verfugbarkeit der wissenschaftlichen Daten.
Dazu gehoren auch Protokolle, Beschreibungen, Kalibrierdaten, etc.
{ Open Access { freier Zugri auf die vero entlichten Ergebnisse, wie
Forschungsartikel
{ Open Methodology { Beschreibung aller verwendeten Methoden, die fur das</p>
        <p>Forschungsergebnis genutzt und entwickelt wurden
{ Open Notebook Science { freie Verfugbarkeit samtlicher Basisdaten,
Aufzeichnungen, Planungs- und Einsatzinformationen zu einem
Forschungsprojekt
{ Open Educational Resources { freier Zugang zu Lehr- und Lernmaterialien
bzgl. der Forschung
{ Open Peer Review { Transparenz und o entlicher Zugang zum
ReviewingProzess im wissenschaftlichen Publikations- bzw. Antragsprozess
Fur die Realisierung von Open (Science) Data werden in einigen
Forschungsgruppen der Universitat Rostock derzeit zunachst fur das interne Management
der Daten Versionskontrollwerkzeuge wie SVN and Git benutzt. Vero entlicht
werden die Daten dann uber GitHub. Nachteilig bei diesen Werkzeugen ist
insbesondere die Versionsverfolgung bei einer sehr gro en Anzahl von Forschungsdaten
(und -dateien). Ein positiver Seitene ekt bei der o entlichen Bereitstellung ist
dagegen die Notwendigkeit fur eine saubere Dokumentation (die sonst oft
unterbleibt), eine Bereinigung von Daten und Ergebnissen, und eine ausfuhrliche
gruppeninterne Diskussion uber Originaldaten und Ergebnisse.</p>
        <p>Gerade die angesprochenen Probleme bei der Versionsverfolgung bei
Forschungsergebnissen, die uber einen langeren Zeitraum, etwa auch permanent,
gewonnen und ausgewertet werden fuhrten zu einigen grundlegenden
Forschungsarbeiten, die derzeit in der Datenbank-Forschungsgruppe der Universitat Rostock
vorangetrieben werden.
5</p>
      </sec>
    </sec>
    <sec id="sec-6">
      <title>Forschungsfragestellungen im</title>
    </sec>
    <sec id="sec-7">
      <title>Forschungsdatenmanagement</title>
      <p>
        Im Folgenden wollen wir einige Fragestellungen des
Forschungsdatenmanagements mit Bezug zu Datenbanktechniken genauer vorstellen. Im Gegensatz zu
[
        <xref ref-type="bibr" rid="ref2">2</xref>
        ] werden wir uns in diesem Artikel nicht nur auf die meeresbiologischen
Szenarien eines unserer Aninstitute konzentrieren, sondern auch andere datengetriebene
Szenarien und die dort auftretenden Fragestellungen berucksichtigen.
Andererseits werden wir uns im Gegensatz zu [
        <xref ref-type="bibr" rid="ref2">2</xref>
        ] eher auf die Teilbereiche des Provenance
Management und die Reproduzierbarkeit von Forschungsergebnissen
konzentrieren und die gesamte Integrationspipeline nur uberblicksartig vorstellen.
      </p>
      <p>In der Systematik von Abbildung 1 werden wir uns dabei um die Auswertung
von Primar- und Sekundarforschungsdaten in langfristigen Messreihen kummern.
Dabei ist die Reproduzierbarkeit dieser Auswertungsergebnisse fur die
Nachprufbarkeit von Publikationsergebnissen in naturwissenschaftlicher Forschung
wichtig. Das Provenance Management wird aber auch benotigt, um bei der
Erforschung und Entwicklung von smarten Systemen (Assistenzsystemen) beurteilen
zu konnen, warum die Situations- und Aktivitatserkennung in
Assistenzsystemen in bestimmten Fallen fehlerhafte Ergebnisse geliefert hat. Sowohl bei
langfristigen Messreihen als auch bei der Entwicklung von smarten Systemen sind
daneben auch noch temporale Aspekte wichtig, da uber die Zeit sowohl erfasste
Daten als auch Auswertungsmethoden sich verandern konnen.</p>
      <sec id="sec-7-1">
        <title>Provenance Management und Reproduzierbarkeit von</title>
      </sec>
      <sec id="sec-7-2">
        <title>Forschungsergebnissen</title>
        <p>Bei der Reproduzierbarkeit von Forschungsergebnissen gibt es verschiedene
Stufen. Man kann testen
{ ob ein Ergebnis plausibel ist: hier ist die Fragestellung, ob eine Aussage in
einer Publikation zu den gespeicherten Forschungsdaten passt;
ublicherweise eine manuell durch Gutachter durchzufuhrende Tatigkeit, die u.a. durch
Textanalysen softwaretechnisch zumindest unterstutzt werden kann
{ ob das Ergebnis nachvollziehbar ist: hier ist die Fragestellung, ob ein etwa
tabellarisch aufbereitetes Ergebnis aus strukturierten Daten zu den
gespeicherten Forschungsdaten passt; hier greifen schon weitere Analyseverfahren,
die auf strukturierte Daten angewendet werden konnen
{ oder ob das Ergebnis reproduzierbar ist: hier muss dasselbe Ergebnis aus
strukturierten Daten auf Basis der gespeicherten Primarforschungsdaten mit
der gleichen Methodik (etwa einer gespeicherten Analysefunktion)
softwaretechnisch ohne Medienbruch wieder errechnet werden konnen.</p>
        <p>Wenn man davon ausgeht, dass die Forschungsarbeiten auf Basis von Open
Science durchgefuhrt werden, sollten die Forschungsergebnisse prinzipiell immer
von den Primarforschungsdaten her reproduzierbar sein. Der entgegengesetzte
Weg, vom Ergebnis zuruck zu den Primarforschungsdaten, ist die
Ruckverfolgbarkeit von Forschungsergebnissen. Das zugrundeliegende Forschungsgebiet im
Datenbankbereich ist das Provenance Management.</p>
        <p>
          In der Provenance-Theorie unterscheidet man Where-, Why- und
HowProvenance [
          <xref ref-type="bibr" rid="ref16 ref4">16,4</xref>
          ]. Die Fragestellungen dahinter sind:
{ Where { woher kommen die Daten, die zu dem Ergebnis fuhrten? Ergebnis
ist die Herkunft der Daten in Form von zugrundliegenden Datenbanken,
Dateiverzeichnissen, Datensammlungen oder Repositorien.
{ Why { welche Daten spielten exakt eine Rolle? Ergebnis sind die Einzeldaten
(relational: die Tupel in Relationen), die in die Methodik einge ossen sind.
{ How { wie ist es mit diesen Daten zu diesem Ergebnis gekommen? Ergebnis
ist eine Darstellung der angewendeten Operationen inklusive der Reihenfolge
der Bearbeitungsschritte, die fur die Ermittlung des Ergebnisses relevant
waren.
        </p>
        <p>
          Dabei sind Where- und Why-Anfragen auf die Forschungsdaten mit aktuellen
Mitteln, wie z.B. einer Datenbankerweiterung der Open-Source-Datenbank
PostgreSQL [
          <xref ref-type="bibr" rid="ref7">7</xref>
          ], machbar. Leider eignen sich die derzeit vorhandenen
ProvenanceTechniken nur unter sehr speziellen Randbedingungen, die ublicherweise bei
Forschungsprojekten mit komplexen Auswertungsfunktionen nicht gegeben sind:
{ Die Auswertungen auf den Daten werden nur mit Selektion, Projektion und
Verbund vorgenommen. Nur in speziellen Fallen konnen
Aggregatfunktionen berucksichtigt werden. Analysen auf Forschungsdaten enthalten aber
ublicherweise komplexe statistische Funktionen oder gar
Machine-LearningAlgorithmen.
{ Die Auswertungen auf den Daten werden auf einer xierten Datenbank
vorgenommen: die Forschungsergebnisse berucksichtigen keine Updates (bei
Stromdaten: standig sich andernde Menge an Primarforschungsdaten) auf
den Forschungsdaten. Hier mussen wir die Provenance-Techniken mit
temporalen Aspekten (siehe unten) verknupfen.
        </p>
        <p>
          Ein grundlegendes Forschungsproblem ist dabei, welcher (minimale) Ausschnitt
von den Primarforschungsdaten in welcher Version (unveranderbar) gespeichert
werden muss (wir nennen es: eingefroren werden muss), so dass man aus den
Ergebnissen der Auswertung und den eingefrorenen Daten die Inverse der
Auswertung (Anfrage an die Datenbank) automatisiert berechnen kann. Fur unsere
Forschungsarbeiten hierzu erweitern wir den Begri der inversen
Schemaabbildungen, der fur Datenaustausch und Datenintegration etwa in [
          <xref ref-type="bibr" rid="ref6">6</xref>
          ] eingefuhrt
wurde.
        </p>
        <p>
          Ziele unserer Forschungsarbeiten zum Provenance Management haben wir
in [
          <xref ref-type="bibr" rid="ref8">8</xref>
          ] bereits im Kontext der Entwicklung von Assistenzsystemen vorgestellt.
Die zu entwickelnden Verfahren des Provenance Management werden nun aber
auch auf die Ruckverfolgbarkeit von Forschungsergebnissen im Rahmen des
Forschungsdatenmanagements angewandt [
          <xref ref-type="bibr" rid="ref2">2</xref>
          ] und weiterentwickelt.
        </p>
      </sec>
      <sec id="sec-7-3">
        <title>Temporale Aspekte im Forschungsdatenmanagement</title>
        <p>Fur den Umgang mit Forschungsdaten sind Auswertungen von historischen
Daten als auch die spatere Nachvollziehbarkeit von Forschungsergebnissen ein
wesentliches Qualitatsmerkmal fur eine Nachhaltigkeit dieser Forschung.
Temporale Informationen uber die Daten und Experimente sind notig, um eine solche
Nachhaltigkeit zu erreichen.</p>
        <p>
          Das Speichern temporaler Informationen zu den Forschungsdaten sind z.B.
fur Provenance-Anfragen, historische Vergleiche bzw. fur sogenannte
TimeTravel-Anfragen essentiell. Time-Travel-Anfragen sind Anfragen auf
Datenbestande, die auch zu anderen Zeitpunkten als dem aktuellen gultig waren. Seit
dem SQL:2011-Standard [
          <xref ref-type="bibr" rid="ref10">10</xref>
          ] sind temporale Aspekte fester Bestandteil des
Datenbankstandards. Unser Prototyp zum Forschungsdatenmanagement, der im
Rahmen einer Koopperation mit einem Aninstitut der Universitat Rostock
entwickelt wurde, wurde auf Basis von PostgreSQL implementiert, da dieses System
verglichen mit anderen Open-Source-DBMS mehr Voraussetzungen fur die
Umsetzung von SQL:2011-Konzepten angeboten hat [
          <xref ref-type="bibr" rid="ref14">14</xref>
          ].
        </p>
        <p>Da sich neben den Daten auch Funktionen uber die Zeit verandern konnen,
mussen auch diese versioniert und mit entsprechenden Zeitintervallen
beschrieben werden konnen. Eine Versionierung von User De ned Functions (UDFs in
RDBMS) ist im SQL-Standard noch nicht vorgesehen, so dass gleiche
Funktionen (gleiche Namen und Parameter) mit unterschiedlicher zeitlicher Gultigkeit
nicht gleichzeitig in der Datenbank registriert sein konnen. Hierzu bedarf es zur
Zeit noch manuell de nierter Tabellen zur Verwaltung der zeitlichen Gultigkeit
von Funktionen bzw. zusatzliche Werkzeuge zur An- und Abmeldung von UDFs,
die gerade fur eine spezielle Anfrage benotigt werden.</p>
      </sec>
      <sec id="sec-7-4">
        <title>Integration statt Migration { Integrationspipeline</title>
        <p>
          Bei der Organisation des Forschungsdatenmanagements werden meist
Richtlinien (gibt es bei der DFG, BMBF, Hochschulen und Forschungseinrichtungen)
oder Handbucher (ein allgemeines auch von der DFG anerkanntes ist [
          <xref ref-type="bibr" rid="ref3">3</xref>
          ])
ausgearbeitet, die die Vorgehensweise vorgeben. Aus bisherigen Erfahrungen wird
allerdings eine solche Vorgabe nicht unbedingt beachtet und die Durchsetzung
gestaltet sich ebenfalls oftmals schwierig. Kernpunkt eines nutzerfreundlichen
Forschungsdatenmanagements sollte sein
{ den Wissenschaftlern einen Mehrwert mit der Forschungsdatenverwaltung
zu bieten,
{ ihre Vorgehensweisen und Werkzeuge nicht zu ersetzen, sondern zu
integrieren, sowie
{ Services anzubieten, neben Beratung auch direkte, technische Unterstutzung
bei der Organisation und Umsetzung einer konkreten individuellen als auch
verknupften Forschungsdatenverwaltung.
        </p>
        <p>Wissenschaftler stellen sich nicht zwangsweise komplett auf eine andere Art der
Datenverwaltung um. Es ist bzgl. der Compliance besser, die speziellen Vorgange
der einzelnen Wissenschaftler in eine Gesamtstrategie zum
Forschungsdatenmanagement zu integrieren.</p>
        <p>
          Um die Forschungsdaten aus verschiedenen wissenschaftlichen Projekten zu
integrieren sind Transformations- und Evolutionsprozesse der Daten, der
Schemata und der Funktionalitat vonnoten. Diese Vorgange ahneln dem ETL-Prozess
in Data Warehouses. Wir haben dazu eine Integrationspipeline entwickelt, die
uber verschiedene Stufen halbautomatisch Schemata extrahieren und integrieren
kann [
          <xref ref-type="bibr" rid="ref2">2</xref>
          ].
6
        </p>
      </sec>
    </sec>
    <sec id="sec-8">
      <title>Zusammenfassung</title>
      <p>In diesem Beitrag wurden drei Aspekte des Forschungsdatenmanagements
diskutiert. Es wurden die derzeitigen und geplanten organisatorischen
Rahmenbedingungen an der Universitat Rostock vorgestellt. Es wurden zunachst pragmatische
Losungen aufgezeigt, um zeitnah Losungen fur die Open-Science-Anforderungen
umsetzen zu konnen. Schlie lich wurden Forschungsherausforderungen
insbesondere aus dem Bereich der Datenbanktechnologie prasentiert.</p>
      <p>Die Autorengruppe arbeitet dabei an verschiedenen Teilaspekten, etwa an
den organisatorischen Rahmenbedingungen (Schick; Universitatsbibliothek
Rostock, verantwortlich fur Digitale Bibliotheken und Forschungsdaten), den
pragmatischen Losungen fur die Open Science im Kontext eines startenden
Sonderforschungsbereiches (Spors; Institut fur Nachrichtentechnik) und an den
genannten Forschungsfragestellungen (Bruder, Heuer; Institut fur Informatik,
Forschungsgruppe Datenbanken).
17. Wiebke Oeltjen. Virtuelle Bibliotheken exibel gestalten. In eLibrary { den
Wandel gestalten, Proceedings of the WissKom'10, pages 259{266. Schriften des
Forschungszentrums Julich, 2010.
18. Sascha Spors, Matthias Geier, and Hagen Wierstorf. Towards Open Science in
Acoustics: Foundations and Best Practices. In Tagungsband der DAGA'17, pages
218{221. DEGA, 2017.
19. Georgi Straube, Ilvio Bruder, Dortje Loper, and Andreas Heuer. Data Integration
in a Clinical Environment Using the Global-as-Local-View-Extension Technique.
In Yanchun Zhang, Guiqing Yao, Jing He, Lei Wang, Neil R. Smalheiser, and
XiaoXia Yin, editors, Health Information Science - Third International Conference, HIS
2014, Shenzhen, China, April 22-23, 2014. Proceedings, volume 8423 of Lecture
Notes in Computer Science, pages 148{159. Springer, 2014.
20. Mark D. Wilkinson and et.al. The FAIR Guiding Principles for scienti c data
management and stewardship. Scienti c Data, 3, 2016.
21. Ian Witten, David Bainbridge, and David Nichols. How to Build a Digital Library.</p>
      <p>Morgan Kaufmann, 2nd edition, 2010.</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          1.
          <string-name>
            <given-names>Ilvio</given-names>
            <surname>Bruder</surname>
          </string-name>
          , Temenushka Ignatova, and
          <string-name>
            <given-names>Lars</given-names>
            <surname>Milewski</surname>
          </string-name>
          .
          <article-title>Knowledge-Based Scribe Recognition in Historical Music Archives</article-title>
          . In Rachel Heery and Liz Lyon, editors,
          <source>Research and Advanced Technology for Digital Libraries, 8th European Conference, ECDL'04</source>
          , volume
          <volume>3232</volume>
          of Lecture Notes in Computer Science, pages
          <volume>304</volume>
          {
          <fpage>316</fpage>
          . Springer,
          <year>2004</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          2.
          <string-name>
            <given-names>Ilvio</given-names>
            <surname>Bruder</surname>
          </string-name>
          , Meike Klettke, Mark Lukas Moller, Frank Meyer, Andreas Heuer, Susanne Jurgensmann, and Susanne Feistel.
          <source>Daten wie Sand am Meer - Datenerhebung</source>
          , -strukturierung,
          <article-title>-management und Data Provenance fur die Ostseeforschung</article-title>
          .
          <source>Datenbank-Spektrum</source>
          ,
          <volume>17</volume>
          (
          <issue>2</issue>
          ):
          <volume>183</volume>
          {
          <fpage>196</fpage>
          ,
          <year>2017</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          3. Stephan Buttner,
          <string-name>
            <surname>Hans-Christoph Hobohm</surname>
          </string-name>
          , and Lars Muller.
          <source>Handbuch Forschungsdatenmanagement. BOCK+HERCHEN</source>
          ,
          <year>2011</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          4.
          <string-name>
            <given-names>James</given-names>
            <surname>Cheney</surname>
          </string-name>
          , Laura Chiticariu, and
          <article-title>Wang Chiew Tan</article-title>
          .
          <article-title>Provenance in databases: Why, how, and where</article-title>
          .
          <source>Foundations and Trends in Databases</source>
          ,
          <volume>1</volume>
          (
          <issue>4</issue>
          ):
          <volume>379</volume>
          {
          <fpage>474</fpage>
          ,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          5.
          <string-name>
            <given-names>Jens</given-names>
            <surname>Dittrich</surname>
          </string-name>
          and
          <string-name>
            <given-names>Patrick</given-names>
            <surname>Bender</surname>
          </string-name>
          .
          <article-title>Janiform intra-document analytics for reproducible research</article-title>
          . PVLDB,
          <volume>8</volume>
          (
          <issue>12</issue>
          ):
          <year>1972</year>
          {
          <year>1975</year>
          ,
          <year>2015</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          6.
          <string-name>
            <given-names>Ronald</given-names>
            <surname>Fagin</surname>
          </string-name>
          , Phokion G. Kolaitis, Lucian Popa, and
          <article-title>Wang Chiew Tan</article-title>
          .
          <article-title>Schema mapping evolution through composition and inversion</article-title>
          . In Zohra Bellahsene, Angela Bonifati, and Erhard Rahm, editors,
          <source>Schema Matching and Mapping, Data-Centric Systems and Applications</source>
          , pages
          <volume>191</volume>
          {
          <fpage>222</fpage>
          . Springer,
          <year>2011</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          7.
          <string-name>
            <given-names>Boris</given-names>
            <surname>Glavic</surname>
          </string-name>
          and
          <string-name>
            <given-names>Gustavo</given-names>
            <surname>Alonso</surname>
          </string-name>
          .
          <article-title>The PERM provenance management system in action</article-title>
          .
          <source>In Proc. SIGMOD'09</source>
          ,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          8.
          <string-name>
            <given-names>Andreas</given-names>
            <surname>Heuer</surname>
          </string-name>
          .
          <article-title>METIS in PArADISE: Provenance Management bei der Auswertung von Sensordatenmengen fur die Entwicklung von Assistenzsystemen</article-title>
          . In Norbert Ritter, Andreas Henrich, Wolfgang Lehner, Andreas Thor, Ste en Friedrich, and Wolfram Wingerath, editors,
          <source>Datenbanksysteme fur Business</source>
          ,
          <source>Technologie und Web (BTW</source>
          <year>2015</year>
          )
          <article-title>- Workshopband, 2</article-title>
          .-
          <fpage>3</fpage>
          . Marz
          <year>2015</year>
          , Hamburg, Germany, volume
          <volume>242</volume>
          <source>of LNI</source>
          , pages
          <volume>131</volume>
          {
          <fpage>136</fpage>
          .
          <string-name>
            <surname>GI</surname>
          </string-name>
          ,
          <year>2015</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          9.
          <string-name>
            <given-names>Andreas</given-names>
            <surname>Heuer</surname>
          </string-name>
          , Holger Meyer, and Ilvio Bruder.
          <article-title>Nachhaltigkeit von digitalen Dokumenten { das Rostocker Modell</article-title>
          .
          <source>Steinbeis Transfermagazin</source>
          ,
          <volume>04</volume>
          /
          <year>2014</year>
          ,
          <year>2014</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          10. ISO/IEC 9075-2:
          <fpage>2011</fpage>
          .
          <article-title>Information technology - Database languages - SQL-Part 2: Foundation (SQL/Foundation)</article-title>
          .
          <source>Technical report, ISO/IEC JTC 1/SC 32</source>
          ,
          <year>2011</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          11.
          <string-name>
            <surname>Eser</surname>
            <given-names>Kandogan</given-names>
          </string-name>
          , Mary Roth,
          <string-name>
            <surname>Peter M. Schwarz</surname>
            , Joshua Hui, Ignacio G. Terrizzano, Christina Christodoulakis, and
            <given-names>Renee J.</given-names>
          </string-name>
          <string-name>
            <surname>Miller</surname>
          </string-name>
          . Labbook:
          <article-title>Metadata-driven social collaborative data analysis</article-title>
          .
          <source>In Proc. International Conference on Big Data</source>
          , pages
          <volume>431</volume>
          {
          <fpage>440</fpage>
          . IEEE,
          <year>2015</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          12.
          <string-name>
            <surname>Max-Planck-Gesellschaft</surname>
          </string-name>
          . Berlin Declaration on Open Access to Knowledge
          <source>in the Sciences and Humanities</source>
          ,
          <year>2003</year>
          . erreichbar unter https://openaccess.mpg.de/.
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          13.
          <string-name>
            <surname>Timothy</surname>
            <given-names>McPhilips</given-names>
          </string-name>
          ,
          <string-name>
            <given-names>Shawn</given-names>
            <surname>Bowers</surname>
          </string-name>
          , and
          <article-title>Bertram Ludascher. Collection-oriented scienti c work ows for integrating and analyzing biological data</article-title>
          .
          <source>In Proceedings of the DILS Workshop</source>
          ,
          <year>2006</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          14. Frank Meyer.
          <article-title>Temporale Aspekte und Provenance-Anfragen im Umfeld des Forschungsdatenmanagements</article-title>
          . Master-Arbeit,
          <source>Universitat Rostock</source>
          ,
          <year>2016</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          15. Holger Meyer,
          <string-name>
            <surname>Alf-Christian Schering</surname>
            , and
            <given-names>Andreas</given-names>
          </string-name>
          <string-name>
            <surname>Heuer</surname>
          </string-name>
          .
          <article-title>The Hydra.PowerGraph System - Building Digital Archives with Directed and Typed Hypergraphs</article-title>
          . Datenbank-Spektrum,
          <volume>17</volume>
          (
          <issue>2</issue>
          ):
          <volume>113</volume>
          {
          <fpage>129</fpage>
          ,
          <year>2017</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          16.
          <string-name>
            <given-names>Luc</given-names>
            <surname>Moreau</surname>
          </string-name>
          and
          <string-name>
            <given-names>Paul T.</given-names>
            <surname>Groth</surname>
          </string-name>
          .
          <article-title>Provenance: An Introduction to PROV</article-title>
          . Morgan &amp; Claypool,
          <year>2013</year>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>