=Paper=
{{Paper
|id=Vol-2126/paper4
|storemode=property
|title=Investigations of Concept Development to Improve Data Quality in Research Information Systems (Untersuchungen zur Konzeptentwicklung für eine
Verbesserung der Datenqualität in
Forschungsinformationssystemen)
|pdfUrl=https://ceur-ws.org/Vol-2126/paper4.pdf
|volume=Vol-2126
|authors=Otmane Azeroual,Gunter Saake,Mohammad Abuosba
|dblpUrl=https://dblp.org/rec/conf/gvd/AzeroualSA18
}}
==Investigations of Concept Development to Improve Data Quality in Research Information Systems (Untersuchungen zur Konzeptentwicklung für eine
Verbesserung der Datenqualität in
Forschungsinformationssystemen)==
Investigations of concept development to improve data quality in research information systems Otmane Azeroual Gunter Saake Mohammad Abuosba Deutsches Zentrum für Hochschul Otto von Guericke Universität Hochschule für Technik und und Wissenschaftsforschung GmbH Magdeburg, Fakultät Informatik Wirtschaft Berlin Schützenstraße 6a, D10117 Berlin P.O. Box 4120, Wilhelminenhofstraße 75a, D12459 D39016 Magdeburg Berlin Azeroual@dzhw.eu Saake@ovgu.de Mohammad.Abuosba@HTW Berlin.de ABSTRACT The implementation of research information systems at German universities and research institutions is currently a topical subject. With their help, the documentation and reporting of the research activities of the respective institution can be supported and a significant part of the data incurring there can be managed. As there are usually many data sources available and the collection, transmission, and integration of research information in different research information systems can lead to different data errors which can have various negative effects on data quality. It is necessary to recognize these errors early and to handle them efficiently, so that users can get better results. For this reason, this paper examines data quality in research information systems and introduces measurement and enhancement methods that enable organizations to secure their quality of data. 30th GI-Workshop on Foundations of Databases (Grundlagen von Datenbanken), 22.05.2018-25.05.2018, Wuppertal, Germany. Copyright is held by the author/owner(s). Untersuchungen zur Konzeptentwicklung für eine Verbesserung der Datenqualität in Forschungsinformationssystemen Otmane Azeroual Gunter Saake Mohammad Abuosba Deutsches Zentrum für Hochschul Otto von Guericke Universität Hochschule für Technik und und Wissenschaftsforschung GmbH Magdeburg, Fakultät Informatik Wirtschaft Berlin Schützenstraße 6a, D10117 Berlin P.O. Box 4120, Wilhelminenhofstraße 75a, D12459 D39016 Magdeburg Berlin Azeroual@dzhw.eu Saake@ovgu.de Mohammad.Abuosba@HTW Berlin.de ABSTRACT Forschungsinformationssysteme ermöglichen eine ganzheitliche Die Implementierung von Forschungsinformationssystemen an Darstellung der Forschungsaktivitäten und -ergebnisse an einer deutschen Hochschulen und Forschungseinrichtungen ist derzeit wissenschaftlichen Einrichtung. Sie bilden die ein aktuelles Thema. Mit ihrer Hilfe können die Dokumentation Forschungsaktivitäten nicht nur für Einrichtungen, sondern auch und Berichterstattung der Forschungsaktivitäten der jeweiligen für Forscher aktuell, zentral und übersichtlich ab. Durch die Einrichtung unterstützt und ein bedeutender Teil der dort zentrale Abbildung im System ist eine Arbeitserleichterung für anfallenden Daten verwaltet werden. Da hierfür meist sehr viele die Forschenden möglich. Daten werden mit dem FIS einmal Datenquellen zur Verfügung stehen und bei der Erfassung, der eingegeben und können mehrfach verwendet werden, z.B. auf Übertragung sowie der Integration von Forschungsinformationen Websites, für Projektanträge oder Berichtsprozesse. Eine in unterschiedlichen Forschungsinformationssystemen doppelte Datenhaltung und damit eine Mehrarbeit für die verschiedene Datenfehler entstehen können, welche vielfältige Anwender soll vermieden werden. negative Wirkungen auf die Datenqualität haben können, ist es Die Bausteine einer FIS-Architektur kann als dreistufiges notwendig, diese Fehler frühzeitig zu erkennen und effizient zu Gebilde gesehen werden. Diese werden mit folgenden behandeln, sodass die Nutzer bessere Ergebnisse erhalten Komponenten unterschieden: können. Aus diesem Grund wird in diesem Beitrag die Datenzugriffsschicht Datenqualität in Forschungsinformationssystemen untersucht Anwendungsschicht sowie Methoden zur Messung und Verbesserung vorgestellt, mit Präsentationsschicht denen Einrichtungen ihre Qualität der Daten sichern können. Die folgende Abbildung (vgl. Abb.1) gibt einen Überblick über Keywords die einzelnen Bausteine und zeigt, welche Komponenten zu Current Research Information Systems (CRIS); welchem Prozessschritt gehören. Forschungsinformationssystem (FIS); Datenmanagement; Forschungsinformationen; Datenqualität; Nutzerakzeptanz; Qualitätsmessung; Qualitätsverbesserung; Qualitätskontrolle 1. EINLEITUNG Das Thema „Forschungsdatenbank und Forschungsinformationssysteme” ist keinesfalls neu. Heutzutage hat sich sowohl in der Praxis als auch in der Forschung der Begriff FIS etabliert. Im internationalen Raum wird für Forschungsinformationssysteme der Begriff des „Current Research Information Systems” (CRIS) verwendet. Unter einem Forschungsinformationssystem wird eine spezialisierte Datenbank oder ein „spezielles föderiertes Informationssystem“ [6] verstanden, mit dessen Hilfe Informationen zu Forschungsaktivitäten und Forschungsergebnissen erhoben, verwaltet und bereitgestellt werden. Die hierbei betrachteten Informationen stellen Metadaten über Forschungsaktivitäten wie z.B. Projekte, Drittmittel, Patente, Partner, Preise, Publikationen, Promotionen und Habilitationen etc. dar und werden als Forschungsinformationen bzw. Forschungsdaten bezeichnet. Abbildung 1: FIS-Architektur (eigene Darstellung) 30th GI-Workshop on Foundations of Databases (Grundlagen von Datenbanken), 22.05.2018-25.05.2018, Wuppertal, Germany. Copyright is held by the author/owner(s). In der Datenzugriffsschicht befinden sich die internen und werden, z.B. insbesondere von Nutzern eines FIS, aber auch vom externen Datenquellen (operative Systeme). Diese Ebene enthält FIS-Administrator. Daten von schlechter Qualität enthalten beispielsweise Datenbestände aus der Verwaltung oder Fehler, welche im FIS analysiert und anschließend durch eine Publikationsrepositorien von Bibliotheken, Identifier wie z.B. Datenbereinigung behoben werden müssen. Im Folgenden wurde ORCID oder bibliographische Daten aus dem Web of Science durch eine Umfrage, die europaweit durchgeführt wurde, die bzw. Scopus etc. typischen Qualitätsprobleme von Daten zum FIS ermittelt (siehe Angebote für die standardisierte Erhebung, Vorhaltung und den Abb. 2). Austausch von Forschungsinformationen in FIS sind das Kerndatensatz-Forschung (KDSF)-Datenmodell und das Common European Research Information Format (CERIF)- Datenmodell [12]. In diesen beiden Modellen werden die Entitäten sowie deren Beziehung zueinander beschrieben. Eine Befüllung des FIS erfolgt über einen klassischen ETL- Prozess. Die Anwendungsschicht enthält das Forschungsinformationssystem und dessen Anwendungen, die die Abbildung 2: Umfrage zu den Datenqualitätsproblemen in auf der zugrundeliegenden Ebene gehaltenen Daten FIS (eigene Darstellung) zusammenführen, verwalten und analysieren. In der Präsentationsschicht sind die zielgruppenspezifischen 3. QUALITÄTSMESSUNG Aufbereitungen und Darstellungen der Analyseergebnisse für den Bevor eine aussagekräftige Messung der Datenqualität Anwender abgebildet. Diese werden mithilfe von den Business- durchgeführt werden kann, müssen die Dimensionen klar Intelligence-Werkzeugen in Form von Berichten verfügbar definiert werden. Dabei müssen die Einrichtungen entscheiden, gemacht. Neben diversen Möglichkeiten des Reportings lassen welche Datenqualitätsdimensionen wichtig sind und wie diese sich hier ebenfalls Portale und Webseiten der Einrichtungen gemessen werden sollen. befüllen. Im Rahmen dieses Beitrags werden nur die vier Datenqualitätsdimensionen (Vollständigkeit, Aktualität, Um ein Forschungsinformationssystem einzuführen, bedeutet das Korrektheit/Fehlerfreiheit und Konsistenz) mit deren einfachen für wissenschaftliche Einrichtungen, ihre benötigten Metriken im Kontext FIS betrachtet (wie in der Tabelle 1 Informationen über Forschungsaktivitäten und dargestellt). Forschungsergebnisse in gesicherter Qualität zur Verfügung zu stellen. Eine einmalige Bereinigung ist dabei nicht ausreichend, Tabelle 1: Dimensionen der Datenqualität im FIS-Kontext Daten müssen fortlaufend gepflegt werden. Die wachsenden (In Anlehnung an [5][10][13][14][18]) Datenmengen und die zunehmende Anzahl an Quellsystemen Datenqualitäts- Definition Metriken wird für Einrichtungen immer mehr zu einer Herausforderung. dimensionen Zum Beispiel können sich manche Datenfehler wie z.B. fehlende Forschungsinform ationen sind Werte, Dubletten, Schreibfehler, fehlerhafte Formatierung und QVollständigkeit = 1 – (Anzahl vollständig, wenn Widersprüche etc. sich über verschiedene Bereiche erstecken und unvollständiger Einheiten) / sie nicht fehlen schwer auffindbar sein [2]. Wenn die Nutzer nicht in der Lage (Anzahl überprüfter und zu den Einheiten) sind, auf die am dringendsten benötigten Informationen Vollständigkeit festgelegten zuzugreifen und schnelle Entscheidungen zu treffen, sinkt der Zeitpunkten in den Wert der verwendeten Daten und das Vertrauen in das FIS und jeweiligen Prozess- Erreichungsgrad = 0 - Schritten zur dessen Akzeptanz. 100% Verfügung stehen. Forschungsinform QKorrektheit = 1 – (Anzahl Vor diesem Hintergrund sollte das Thema Datenqualität mit ationen sind unkorrekter in hoher Priorität behandelt werden. Hierzu werden in diesem Korrektheit / korrekt und Dateneinheiten) / Beitrag Methoden zur Messung verschiedener Dimensionen der Fehlerfreiheit fehlerfrei, wenn sie (Gesamtanzahl Datenqualität und zu deren Verbesserung betrachtet, sodass diese mit der Realität Dateneinheiten) dann an nutzenden Einrichtungen vorgestellt werden können. übereinstimmen. Erreichungsgrad = 0 - 100% 2. DATENQUALITÄTSPROBLEME IN Forschungsinform FORSCHUNGSINFORMATIONSSYSTEME ationen sind QAktualität (W,A) = Daten in einem Datenbanksystem zu erfassen, zu integrieren, zu aktuell, wenn sie Aktualität die tatsächliche e(-decline(A).age(W,A) speichern und zu analysieren, ist an sich ein normaler Vorgang. Eigenschaft des In jeder Einrichtung werden Personaldaten, Informationen zu beschriebenen Erreichungsgrad = 0 - ihren wissenschaftlichen Aktivitäten, Projekten und Objektes zeitnah 100% Publikationen eingegeben und erfasst. Die Verarbeitung und abbilden. Verwaltung dieser Daten müssen in der Regel in guter Qualität sein, damit die Nutzer qualitative Ergebnisse erhalten können. Forschungsinform ationen sind QKonsistenz = 1 – (Anzahl Im Kontext der FIS wird die Datenqualität als die Eignung dieser konsistent inkonsistenter Einheiten) / Daten zur Verwendung bei bestimmten geforderten Konsistenz dargestellt, wenn (Anzahl durchgeführter Verwendungszielen definiert. Diese müssen fehlerfrei, sie fortlaufend auf Konsistenzprüfungen) dieselbe Art und vollständig, korrekt, aktuell und konsistent sein. Anforderungen Weise abgebildet können dabei von unterschiedlichen Beteiligten aufgestellt werden. Erfüllungsgrad = 0 - 100% Diese vier Dimensionen wurden deshalb untersucht, weil sie Einem zentralen FIS liegen die Daten der gesamten zum einen in wissenschaftlichen Veröffentlichungen und in einer Forschungseinrichtungen vor. Aus diesem Grund eignen sich hier internationalen Umfrage, besonders intensiv diskutiert wurden Messungen, die mehrere Bereiche einer Forschungseinrichtung (siehe Abb. 3) und zum anderen, hat sich bei diesen vier betreffen und die miteinander verglichen werden können. Somit ausgewählten Metriken herausgestellt, dass diese wäre hier die Möglichkeit gegeben, verschiedene Quellsysteme außergewöhnlich einfach zu messen sind und eine besonders auf ihre Widerspruchsfreiheit zu prüfen [1]. repräsentative Abbildung der Berichterstattung für die FIS- Im letzten Schritt des FIS-Prozesses wird die Datenpräsentation Nutzer abbilden bzw. zu einer verbesserten (FIS-Frontend) dargestellt. Mittels von Portalen, Reporting und Entscheidungsgrundlage führen [5]. weiteren Front-End-Anwendungen, werden die aus dem System kommenden Informationen visualisiert. Hier werden dem Anwender die aufbereiteten Informationen und Analysen in übersichtlicher Form durch verschiedene Anwendungskomponenten zur Verfügung gestellt. Im Bereich FIS-Frontend können Messungen bzw. Prüfmechanismen durch Personen durchgeführt werden. Im einfachsten Fall werden Untersuchungen der Kennzahlen in Bereichen vorgenommen. Darüber hinaus können Kennzahlen der FIS-Anwendung mit den Abbildung 3: Umfrage der wichtigsten Quellsystemen verglichen werden. In diesem Fall ist eine Person Datenqualitätsdimensionen zur Messung und Prüfung der mit fachlichen und technischen Kenntnissen nötig [1]. Qualität der Daten in FIS (eigene Darstellung) 4. QUALITÄTSVERBESSERUNG Bei den Messpunkten der Datenqualität wird auf die FIS- Aufgrund der Sammlung, Integration und Speicherung von Architektur zurückgegriffen. Mittels dieser werden Messbereiche unterschiedlichen internen Datenquellen der Einrichtungen und aufgezeigt, die für eine Messung und Überwachung der von externen Quellen im FIS sind Probleme, wie in Kapitel 2 Datenqualität geeignet sind. aufgeführt worden ist, zu bewältigen. Nun gilt es, in diesem Die Messmöglichkeiten im FIS befinden sich in folgenden Schritt die Ursachen zu bekämpfen und für die Verbesserung der Bereichen: Datenqualität im FIS zu sorgen. Interne und externe Datenquellen (oder auch Der Prozess der Identifikation und Berichtigung von Fehlern mit Quellsysteme) dem Ziel, die Qualität von vorgegebenen Datenquellen im FIS zu Zentrales Forschungsinformationssystem erhöhen wird als Datenbereinigung (engl. „Data Cleaning“ oder FIS-Frontend „Data Cleansing“) bezeichnet [9][15]. Data Cleansing erfasst alle nötigen Aktivitäten, um „verunreinigte“ Daten wie zum Beispiel, Das FIS sammelt Informationen über die zu Einrichtungen und nicht vollständig, inkorrekt, nicht aktuell, inkonsistent oder ihren Wissenschaftlern affiliierten Forschungsaktivitäten und redundant, zu bereinigen. Der Data Cleansing Prozess lässt sich Forschungsergebnisse durch eine automatisierte grob wie folgt gliedern [9]: Synchronisierung der im Bestand vorhandenen Datenmengen mit verschiedenen externen Datenquellen [8]. Für einen 1. Definieren und Bestimmen des eigentlichen Problems automatisierten Datenimport aus bestehenden Systemen kann bzw. Messkriteriums eine Anbindung von internen, sowie externen 2. Suchen und Identifizieren von fehlerhaften Instanzen Anwendungssystemen realisiert werden [11]. Diese 3. Korrektur der gefundenen Fehler Anwendungssysteme, die zur Erfassung von Forschungsinformationen idealerweise einbezogen werden Im Rahmen der Datenbereinigung werden spezielle Methoden können, sind das Campusmanagement-System sowie das und Technologien innerhalb des Datenbereinigungsprozesses Identitätsmanagement-System als interne Systeme sowie eingesetzt. [16] unterteilen diese in folgende Phasen: öffentliche Publikations- und Projektdatenbanken [11]. Im Fall Syntaxanalyse der Publikationen sind das beispielsweise Web of Science, Scopus oder PubMed, sowie das Finanzsystem der Das Parsing bildet die erste kritische Komponente der Drittmittelverwaltung für die Daten zu Drittmittelprojekten und Datenbereinigung und hilft dem Anwender, die Attribute genauer das Personalverwaltungssystem für Informationen über das zu verstehen und zu transformieren. Dieser Prozess lokalisiert, wissenschaftliche Personal. identifiziert und isoliert einzelne Datenelemente, wie zum Beispiel Namen, Adressen, PLZ und Ort. Im Bereich der Quellsysteme ist eine Kontrolle sehr vorteilhaft, da eine Verbesserung der Datenqualität bereits in diesem Bereich Berichtigung / Standardisierung dafür sorgen würde, dass die Daten für alle Systeme und Hier ist es notwendig, die geparsten Daten auf ihre Korrektheit Bereiche, die sie anschließend nutzen wollen, korrekt sind. zu überprüfen, zu korrigieren und anschließend zu Abgesehen von der technischen Umsetzung wären im Bereich standardisieren. Standardisierung bildet die Voraussetzung für der Quellsysteme Kontrollen bei der Datenerfassung äußerst ein erfolgreiches Matching und es führt kein Weg an der sinnvoll. Hierzu könnten Masken bzw. Formatvorlagen Verwendung einer zweiten verlässlichen Datenquelle vorbei. Für geschaffen werden, wie beispielsweise Datumseingaben Adressdaten empfiehlt sich eine postalische Validierung. (JJJJMMTT) [1]. Anreicherung maschinell und manuell erfolgen. Hier findet keine längere Datenanreicherung bezeichnet den Prozess, der vorhandene Überwachung der Datenqualität statt und die Maßnahmen Daten mit Daten anderer Quellen erweitert. Hier werden werden stets nur akut und punktuell vorgenommen. zusätzliche Daten hinzugefügt um bestehende Informationslücken Pro-aktive Maßnahmen zu schließen. Typische Anreicherungswerte sind demografische, Für wichtige und sich häufig ändernde Daten bieten sich dagegen geografische oder Adressinformationen. proaktive Maßnahmen an. Hier werden vornehmlich Maßnahmen Abgleich zur Beseitigung der Fehlerquellen und zur Verhinderung der Hier gibt es verschiedene Typen von Matching: zum Entstehung solcher Fehler vorgenommen. Es findet eine Reduplizieren, zum Abgleichen gegenüber verschiedenen kontinuierliche Überwachung auf mögliche Fehler statt sowie Datenmengen, zum Konsolidieren oder zum Gruppieren. Die kontinuierliche Ergreifung von Maßnahmen zu deren Beseitigung Anpassung ermöglicht das Erkennen von gleichen Daten. Zum und Verhinderung. Beispiel können Redundanzen erkannt und zu weiteren Diese Bereinigungsmaßnahmen sind nur bedingt für die Informationen verdichtet werden. Verbesserung von unvollständigen, fehlenden, inkorrekten, Zusammenführung inaktuellen oder inkonsistenten Daten einzusetzen. Die Entscheidung für den Einsatz einer bestimmten Maßnahme muss Durch die Zusammenführung werden übereinstimmende von einem Domänenexperten getroffen werden, welcher mit den Datenelemente mit Zusammenhängen erkannt und Geschäftsprozessen seiner Organisation vertraut ist und bewerten zusammengeführt (merge). kann, inwiefern Qualitätsmängel diese negativ beeinflussen All diese Methoden sind wesentlich für die Erreichung und würden [7] [17]. Aufrechterhaltung maximaler Datenqualität im FIS. Durch die Bereinigung werden Fehler bei der Erfassung, Integration und 5. FAZIT Speicherung mehrerer Datenquellen im FIS eliminiert. In der Forschung wird überwiegend von einem direkten positiven Wirkungszusammenhang zwischen Datenqualität und FIS Um die kontinuierliche Überwachung zu behalten, bedarf es zur diskutiert. Viele wissenschaftliche Einrichtungen erkannten die Sicherung, Verbesserung und Steigerung der Datenqualität im Wichtigkeit der Datenqualität für ihre gespeicherten Daten im FIS neben den Methoden des Data Cleansing, bestimmte FIS. Wo auch immer Daten entstehen oder verarbeitet werden, Maßnahmen zu ergreifen. Hierfür werden drei Maßnahmen entstehen auch Datenfehler. Um diese Fehler zu entdecken und betrachtet und die Wahl des optimalen Vorgehens hängt von der zu korrigieren, werden technische und organisatorische Änderungshäufigkeit der Daten und ihrer Bedeutung für den Methoden eingesetzt, die die Fehlerursachen bekämpfen, um für Nutzer ab, wie in Abbildung 4 dargestellt. hohe Datenqualität zu sorgen. Die Sicherung von Datenqualität im FIS lässt in diesem Beitrag darauf schließen, dass die zwei Phasen (Qualitätsdefinition/Qualitätsmessung und Qualitätsverbesserung) der geeignetste Weg zum Erfolg ist (wie in Abbildung 5 veranschaulicht). Abbildung 4: Maßnahmenportfolio (In Anlehnung an [3][17]) Laissez-Faire Beim Laissez-Faire-Prinzip werden die auftretenden Fehler ohne Behandlung hingenommen. Das heißt sie werden schlichtweg ignoriert oder wenn, dann nur nebenbei behoben, um den Geschäftsprozess nicht zu stoppen. Dieses Prinzip gilt allerdings nur für wenige und sich selten ändernde Daten. Abbildung 5: Sicherung von Datenqualität im FIS (eigene Darstellung) Re-aktive Maßnahmen Das dargestellte Modell wird hier analog bei der Datenerfassung Für wichtige und sich nur selten ändernde Daten eignen sich die in die Prozesse des FIS integriert und innerhalb des gesamten reaktiven Maßnahmen. Das reaktive Vorgehen beschreibt die Zyklus, der Messung und Verbesserung, der Daten sichergestellt. Handlungen, die nötigt werden, wenn es einmalig zu einem Mit dessen Umsetzung kann ehemals lästiges Datenqualitätsproblem kommt. Diese Bereinigung kann Qualitätsmanagement zur treibenden Kraft einer Informationsqualität in heterogenen Datenbeständen unter wissenschaftlichen Einrichtung werden. Verwendung eines vollständig webbasierten Werkzeuges. Vieweg+Teubner / GWV Fachverlage GmbH, Wiesbaden, 6. LITERATUR 2009. [1] Apel, D., Behme, W., Eberlein, R. and Merighi, C. 2015. [10] Heinrich, B. and Klier, M. 2009. Die Messung der Datenqualität erfolgreich steuern. Praxislösungen für Datenqualität im Controlling – Ein metrikbasierter Ansatz Business Intelligence-Projekte, 3., überarbeiteten und und seine Anwendung im Kundenwertcontrolling. erweiterten Auflage, dpunkt.verlag, 2015. Controlling & Management, Augsburg, 2009. [2] Azeroual, O. and Abuosba, M. 2017. Improving the Data [11] Herwig, S. and Schlattmann, S. 2016. Eine Quality in the Research Information Systems. International wirtschaftsinformatische Standortbestimmung von Journal of Computer Science and Information Security, Forschungsinformationssystemen, Lecture Notes in 15(11): 82-86, November 2017. Informatics (LNI), Gesellschaft für Informatik, Bonn, 2016. [3] Azeroual, O., Saake, G. and Abuosba, M. 2018. Data [12] IFQ. 2015. Spezifikation des Kerndatensatz-Forschung, Quality Measures and Data Cleansing for Research Berlin, 2015. DOI: http://kerndatensatz- Information Systems. Journal of Digital Information forschung.de/version1/Spezifikation_KDSF_v1.pdf Management, 16(1): 12-21, February 2018. [13] Krcmar, H. 2015. Informationsmanagement. Springer [4] Azeroual, O., Saake, G. and Schallehn, E. 2018. Analyzing Gabler, 2015. data quality issues in research information systems via data [14] Lee, Y. M., Pipino, L.L., Funk, J.D. and Wang, R.Y. 2006. profiling. International Journal of Information Journey to Data Quality, MIT Press, Cambridge, Management, volume 41, pages 50-56, April 2018. DOI: Massachusetts, 2006. https://doi.org/10.1016/j.ijinfomgt.2018.02.007 [15] Naumann, F. and Leser, F. 2007. Informationsintegration: [5] Azeroual, O., Saake, G. and Wastl, J. 2018. Data Architekturen und Methoden zur Integration verteilter und measurement in research information systems: metrics for heterogener Datenquellen. Dpunkt Verlag, 1. Edition, the evaluation of data quality. Scientometrics, volume 116, Oktober 2007. pages 1-20, April 2018. DOI: https://doi.org/10.1007/s11192-018-2735-5 [16] Rahm, E. and Do, H.H. 2000. Data cleaning: Problems and current approaches. IEEE Bulletin of the Technical [6] Conrad, S. 1997. Föderierte Datenbanksysteme: Konzepte Committee on Data Engineering, 23(4), 2000. der Datenintegration. Berlin und Heidelberg 1997. [17] Redman, T. 1996. Data Quality for the Information Age, [7] English, L. P. 1999. Improving Data Warehouse and Norwood 1996. Business Information Quality: Methods for Reducing Costs and Increasing Profits. New York, NY, USA: John Wiley & [18] Wang, R. and Strong, D. 1996. Beyond Accuracy: What Data Sons, Inc., 1999. Quality Means to Data Consumers, in: Journal of Management Information Systems, 12. Jg., 4/1996, S. 5-33. [8] Fondermann, P. and Köppen, D. 2013. Zahlen, Daten, Fakten – ein Forschungsinformationssystem als Grundlage des Qualitätsmanagements für die Forschung am Karlsruher Institut für Technologie (KIT), DOI 10.1515/ bfp- 2013-0026 – Bibliothek, Forschung und Praxis 37(2): 172- 181, Juli 2013. [9] Helmis, S. and Hollmann, R. 2009. Webbasierte Datenintegration – Ansätze zur Messung und Sicherung der