Annotation und Management heterogener medizinischer Studienformulare Victor Christen Institut für Informatik, Universität Leipzig christen@informatik.uni-leipzig.de ABSTRACT eine einheitliche und strukturierte Repräsentation zu ermög- Medizinische Formulare werden für die Dokumentation in- lichen werden die Formulare mit Konzepten von standardi- nerhalb der klinischen Forschung oder der Dokumentation sierten Vokabularen wie z.B. Ontologien annotiert [4]. Onto- von Patientendaten verwendet. Es existiert eine Vielzahl ver- logien sind in der Biomedizin für die Anreicherung von Real- schiedener Formulare, die für verschiedene Nutzungszwecke weltobjekten weit verbreitet. Die Gene Ontology (GO) wird bzw. Anwendungen erstellt werden. Aufgrund der resultie- verwendet, um die Funktionen von Genen und Proteinen zu renden Heterogenität ist eine Vergleichbarkeit, eine studien- beschreiben, mithilfe der Medical Subject Headings (MeSH) übergreifende Analyse oder eine effiziente Suche nicht oh- [8] Ontologie werden wissenschaftliche Publikationen anno- ne weiteres möglich. Um die Interoperabilität der Anwen- tiert, und durch die Annotation mit Konzepten der SNO- dungen, die auf der Auswertung von Formularen basieren, MED CT Ontologie [3] ist eine strukturierte und einheit- zu erhöhen, ist eine einheitliche Annotation von medizini- liche Verwaltung von Patientendaten möglich. Das UMLS schen Formularen mittels einer medizinischen Wissensba- [1] repräsentiert eine biomedizinische Wissensbasis, die mehr sis hilfreich. Eine solche Wissensbasis ist das Unified Me- als 100 biomedizinische Ontologien integriert, wie z.B. SNO- dical Language System(UMLS), welches biomedizinisch re- MED CT, National Cancer Institute Thesaurus(NCIT) oder levante Konzepte umfasst. Diese Arbeit befasst sich mit der MeSH und umfasst ∼ 2.8 Millionen Konzepte. Die verschie- semi-automatischen Annotation von Studienformularen. Ba- denen Anwendungsfälle zeigen das Potential für die Verein- sierend auf einem allgemeinen Matching-Workflow, werden fachung der semantischen Suche und der Datenintegration weitere Lösungsansätze präsentiert, um die Besonderheiten durch die Annotation von Realweltobjekten mittels der Kon- der Annotation von Studienformularen zu behandeln. zepte von Ontologien. Die Annotation von Formularen hat folgenden Mehrwert: Keywords: semantische Annotationen, medizinische For- mulare, klinische Studien, UMLS • Studienübergreifende Analysen Eine studienüber- greifende Analyse umfasst Studien mit einer ähnlichen 1. EINLEITUNG Thematik. Die Identifikation ähnlicher Studien ist mit- Medizinische Formulare werden verwendet, um Patientenda- hilfe der annotierten Formulare bzgl. der Studien effi- ten und resultierende Daten innerhalb einer klinischen Stu- zient und effektiv durchführbar. Ein Beispiel für ei- die zu dokumentieren. So werden Studienformulare für die ne studienübergreifende Analyse ist der Vergleich der Rekrutierung der Probanden der jeweiligen Studien verwen- Wirksamkeit und Sicherheit von medikamentbeschich- det, indem die Ein- und Ausschlusskriterien definiert wer- teten Stents und unbeschichteten Stents für Herzkranz- den. Momentan sind ∼ 180000 Studien auf gefäße [7]. Bei dieser Analyse wurden 9470 Patien- http://clinicaltrials.gov registriert, wobei jede Studie ten von 22 randomisierten kontrollierten Studien und eine Menge von Case Report Forms (CRF) umfasst, um die 182901 Patienten von 34 Beobachtungsstudien betrach- notwendigen Daten zu dokumentieren. Im Allgemeinen wer- tet. Bei der Auswertung der Daten müssen die Antwor- den Formulare einer Studie neu erstellt ohne bereits existie- ten der Fragen der Formulare integriert werden. Die rende Formulare wieder zu verwenden. Annotationen der Formulare können für den Integrati- onsprozess verwendet werden, indem initial durch die Aufgrund der hohen Anzahl heterogener Formulare ist ei- Annotationen ähnliche Items identifiziert werden. Die ne studienübergreifende Analyse oder der Datenaustausch Daten, die die ähnlichen Items betreffen, werden durch komplex und nicht ohne weiteres effizient realisierbar. Um weitere Integrationsschritte vereinheitlicht, so dass ei- ne Analyse möglich ist. • Erstellung von Formularen Bisher werden Formu- lare mit ihren Items für eine durchzuführende Studie neu erstellt. Die Erstellung eines Formulars ist ein auf- wändiger Prozess, da z.B. eine unscharfe Formulierung der Ein- und Ausschlusskriterien zu einer mögl. Menge 27th GI-Workshop on Foundations of Databases (Grundlagen von Daten- an Probanden führt, die für die Studie nicht vorgese- banken), 26.05.2015 - 29.05.2015, Magdeburg, Germany. Copyright is held by the author/owner(s). hen waren. Durch die Identifikation bereits annotier- te Formulare, die der Thematik der durchzuführenden 60 Items Assoziierte UMLS Konzepte Jedoch unterscheiden sich Formulare und Ontologien dahin- Patients with established CRF (1) as an 1 C0022661 Kidney Failure, Chronic indication for the treatment (2) of yes 2 C0039798 therapeutic aspects gehend, dass Formulare nicht formal strukturiert sind und anemia (3) no 3 C0002871 Anemia aufgrund der besseren Verständlichkeit einen höheren Frei- Recombinant textanteil beinhalten. Die bisherigen Ontologie-Matching Ver- 1 C0376541 Patients who have had prior recombinant Erythropoietin fahren unterstützen nur unzureichend das Matching von En- yes erythropoietin (1) treatment whose 2 C0002871 Anemia anemia (2) had never responded (3) no Absent response to titäten mit einem hohen Freitextanteil sowie die Erkennung 3 C0438286 treatment von n:m Korrespondenzen. Ulcerating plaque (1) yes 1 C0751634 Carotid Ulcer Das Ziel unserer Forschung ist die Verbesserung der Qualität der Annotationen. Des Weiteren soll ein Formular Manage- Figure 1: Beispiel für die Annotation der Items eines ment System (FMS) realisiert werden, das die Verwaltung Formulars mit Konzepten des UMLS der Formulare, Ontologien und der berechneten Annotatio- nen ermöglicht. Das FMS soll zusätzlich das Annotations- verfahren beinhalten sowie Funktionalitäten für die Suche, Studie entsprechen oder ähneln, können ähnliche Items Analyse und Verifikation der Annotationen von Formula- bei der Erstellung des neuen Formulars wiederverwen- ren bereitstellen. Für die Verbesserung der Qualität der An- det werden. notationen und der Effizienz der Verfahren sollen folgende Aspekte betrachtet werden. Ein Formular besteht aus einer Menge von Items. Ein Item umfasst eine Frage und die dazugehörigen Antwortmöglich- • Identifikation von signifikanten Termen und zu- keiten. Eine Antwort hat einen Datentyp wie z.B. Boolean sammengehörigen Einheiten Die Fragen innerhalb oder String, bei Freitextantworten, oder kann durch einen eines Formulars sind in natürlicher Sprache formuliert. vordefinierten Bereich wie z.B. das Alter von 0 bis 140 oder Jedoch sind die Konzepte von Ontologien in einer kom- eine vorgegebene Menge, die z.B. die möglichen Sympto- pakten Form beschrieben und auf die relevanten Ter- me definiert, eingeschränkt werden. Bei der Annotation ei- me beschränkt. Somit ist es notwendig innerhalb ei- nes medizinischen Formulars wird jedem Item eine Menge ner Frage die signifikanten Terme zu identifizieren. Des von Konzepten des UMLS zugeordnet, so dass diese seman- Weiteren kann eine Frage aus mehreren semantischen tisch beschrieben sind. Ein Beispiel für die Annotation eines Einheiten bestehen, die jeweils durch ein Konzept be- Formulars für die Ein- und Ausschlusskriterien einer Stu- schrieben werden. Aufgrund dessen ist es notwendig die bzgl. Blutarmut ist in Abb. 1 dargestellt. Das Beispiel diese Wortgruppen zu identifizieren. verdeutlicht die Komplexität der automatischen Identifika- tion von Annotationen, da z.B. wie in Frage 1 signifikante • Wiederverwendung von annotierten Formula- Wortgruppen zu einem Konzept korrespondieren oder die ren Da das UMLS eine hohe Anzahl von Konzepten Frage 3 ein Synonym enthält bzgl. des korrespondierenden umfasst, ist die vollständige Berechnung des kartesi- Konzepts. schen Produkts bzgl. aller Fragen eines Formulars sehr zeitintensiv. Durch die Verwendung bereits annotierter Die Medical Data Models Plattform bietet bereits Möglich- Items ist es möglich, die zeitliche Komplexität zu re- keiten für die Erstellung, die Analyse, den Austausch und duzieren, indem zu dem unannotierten Item ähnliche, die Wiederverwendung von Formularen in einem zentralen bereits annotierte Items ermittelt werden. Die assozi- Metadaten Repository [2]. Aktuell umfasst das Repository ierten Konzepte der annotierten Items sind Kandida- mehr als 9000 Versionen von medizinischen Formularen und ten für die Annotation des unannotierten Items. über 300000 Items. Um die semantische Heterogenität zu re- • Erweiterte Selektionsstrategien Beim Ontologie- duzieren, werden die Formulare mit Konzepten des UMLS Matching wird ein Mapping generiert, wobei durch annotiert. Die Annotation der Formulare ist im MDM bisher Top-k Selektionsstrategien die Korrespondenzen basie- nur manuell durchführbar und somit sind viele Formulare rend auf einer berechneten Ähnlichkeit selektiert wer- nicht bzw. unvollständig annotiert, da dieser Prozess sehr den. Da eine Frage durch mehrere Konzepte beschrie- zeitintensiv ist. ben werden kann, die Konzepte jedoch nicht ähnlich sind, sind solche Selektionsstrategien nicht effektiv. Auf- Die automatische Annotation von Formularen ist thematisch grund dessen sind komplexere Selektionsstrategien er- verwandt mit dem Ontologie-Matching, das eine Menge von forderlich, die n:m Korrespondenzen berücksichtigen. Korrespondenzen, Mapping genannt, zwischen den Konzep- ten von zwei oder mehreren Ontologien generiert. Dabei re- • Verifikationsverfahren Mithilfe eines Expertenkon- präsentiert eine Korrespondenz eine semantische Ähnlich- sortiums soll die Qualität der Annotationen innerhalb keit zwischen zwei Konzepten. Bei der Annotation von For- des FMS durch die unterstützte manuelle Verifikati- mularen werden ebenfalls Korrespondenzen ermittelt, wobei on der ermittelten Annotationen erhöht werden. Des eine Korrespondenz zwischen einem Item und einem Kon- Weiteren ist es möglich, dass ein Experte weitere An- zept ist, welches das Item semantisch beschreibt. Auf dem notationen vorschlagen kann. Zusätzlich soll ein Veri- Gebiet des Ontologie-Matchings existieren eine Vielzahl von fizierungsverfahren realisiert werden, welches die Wi- Verfahren [11], die eine effiziente und effektive Generierung derspruchsfreiheit und die Minimalität der assoziierten eines Ontologie-Mappings realisieren, wie z.B. GOMMA [6]. Konzepte mit berücksichtigt. So ist z.B. eine Menge Aufgrund dessen werden Ansätze des Ontologie-Matchings von Annotationen nicht korrekt, wenn zwei Konzepte für die Annotation von Studienformularen verwendet, wie innerhalb dieser Menge als disjunkt definiert sind, dass z.B. diverse String-Matchverfahren oder Blocking-Techniken. heißt diese zwei Konzepte besitzen keine gemeinsamen 61 Instanz. Ein Annotations-Mapping ist nicht minimal, Input Preprocessing Mapping Postprocessing Output Generation wenn zwei Konzepte dieselbe Thematik beschreiben. Menge von Matching: Annotation Selektion: Formularen Normalisierung: Menge von Mithilfe der is a-Hierarchie und den Disjunktheitsbe- 𝐹1 . . 𝐹𝑛 POS tagging, TF-IDF, Group- Annotation Trigram, based ziehungen innerhalb einer Ontologie sind solche Kon- Tokenisierung, LCS … filtering, -mappings ℳ𝐹1,𝑈𝑀𝐿𝑆 UMLS encoding,... flikte identifizierbar und durch die Anwendung von Threshold, … … ℳ𝐹𝑛 ,𝑈𝑀𝐿𝑆 Auflösungsstrategien zu beheben. • Reduktion der Vergleiche im Annotationspro- Figure 2: Annotations-Workflow zess Aufgrund der hohen Anzahl der Konzepte bei Ontologien ist es sinnvoll die Anzahl der Vergleiche im Annotationsprozess einzuschränken, um eine hohe Effi- den Namen und den Synonymen der Konzepte. Der gene- zienz zu erzielen. Es existieren bereits Verfahren, die ei- relle Workflow für die automatische Annotation ist in Abb. ne Reduktion der Vergleiche ermöglichen wie z.B. Län- 2 dargestellt. Die Eingabe ist eine Menge von Formularen genfilter, PPJoin[12] oder Locality Sensitive Hashing {F1 , F2 , ..., Fn }, das U M LS und die Ausgabe ist eine Men- (LSH) [5]. Als Ziel unserer Forschung sollen ähnliche ge von Annotations-mappings Verfahren in den Annotationsprozess integriert werden {MF1 ,U M LS , MF2 ,U M LS , ..., MFn ,U M LS }. Zu Beginn wer- bzw. neue Verfahren realisiert werden. den im Preprocessing Schritt die Fragen bzw. Attribute der Konzepte normalisiert. Konkret, werden alle nicht relevan- ten Wörter entfernt, dazu gehören Präpositionen, Verben Es wurde begonnen ein automatisches Verfahren für die An- und Stoppwörter, die mithilfe eines Part-of-speech Taggers notation von Formularen zu implementieren. Die Realisie- ermittelt werden. Des Weiteren werden alle Tokens klein ge- rung eines basalen Workflows und erste Erweiterungen wur- schrieben. Um eine effiziente Mapping-Generierung zu er- den in einer eingereichten Publikation Annotating Medical möglichen werden alle Tokens und Trigramme der Attribute ” Forms using UMLS“ beschrieben. Die Ergebnisse verdeutli- der Fragen eines Formulars bzw. eines Konzepts enkodiert. chen die Schwierigkeiten der automatischen Annotation und die Vielfalt der Arten von Formularen. So werden für Formu- Im Schritt Mapping-Generation wird eine Menge von Tupeln lare bzgl. der Qualitätssicherung von medizinischen Geräten der Form (q, cui, sim) durch den Vergleich der Fragen mit gute Resultate erzielt, wohingegen die Qualität der Annota- den Attributen der UMLS Konzepten generiert. Der Ver- tionen für Formulare bzgl. der Ein- und Ausschlusskriterien gleich kann durch verschiedene Match-Verfahren realisiert von Studien ausbaufähig ist. werden wie z.B. Trigramm, TF/IDF oder Longest Common Substring (LCS). Bei einem naiven Ansatz wird das kartesi- Der Aufbau dieser Arbeit ist wie folgt gegliedert. In Ab- sche Produkt bzgl. der Menge der Fragen und der Menge der schnitt 2 wird das Problem der Annotation von Formularen Konzepte berechnet, jedoch kann durch Pruning-Techniken formal definiert. Der basale Workflow für die Identifikation oder partitionsbasiertes Matching die Anzahl der durchzu- der Annotationen ist in Abschnitt 3 erläutert. In Abschnitt 4 führenden Vergleiche reduziert werden [10]. werden die zu realisierenden Erweiterungen für den definier- ten Workflow vorgestellt, um die Qualität der Annotationen In der Postprocessing Phase wird das Mapping durch die zu verbessern und die Effizienz des Verfahrens zu erhöhen. In Anwendung von Aggregations- und Selektionsstrategien ge- Abschnitt 5 wird konzeptionell die Architektur eines FMS neriert. Im Allgemeinen wird eine Mindestähnlichkeit δ für für medizinische Formulare und ihre Annotationen vorge- eine Korrespondenz gefordert, damit diese als korrekt ange- stellt. In Abschnitt 6 wird die Arbeit zusammengefasst. sehen wird. Da es sich um einen semi-automatischen Prozess handelt, werden die identifizierten Annotationen durch einen 2. PROBLEMDEFINITION Experten verifiziert. Das Ziel der semi-automatischen Annotation eines Formu- lars F ist die Bestimmung eines Annotations-Mappings M 4. ANSÄTZE ZUR ERWEITERUNG zwischen den Fragen F = {q1 , q2 , ...qk } des Formulars und DES BASIS-WORKFLOWS den Konzepten U M LS = {cui1 , cui2 , ...cuin } des UMLS. Aufgrund der Besonderheiten bzgl. der Annotation von For- Eine Annotation stellt eine Assoziation zwischen einer Fra- mularen, werden im Folgenden die Schwierigkeiten bzgl. des ge und einem Konzept des UMLS dar, wobei eine Frage mit Annotationsprozesses beschrieben und mögliche Lösungsan- mehreren Konzepten annotiert sein kann. Dabei ist ein Kon- sätze erläutert. zept durch einen Concept Unique Identifier CUI eindeutig identifizierbar und wird durch Attribute wie z.B. einen Na- Vorkommen natürlicher Sprache Im Gegensatz zu On- men oder Synonyme beschrieben. Ein Annotations-Mapping tologien, bei denen die Attribute der Konzepte in einer kom- MF,U M LS ist formal definiert als: pakten Repräsentation dargestellt sind, enthält eine Frage MF,U M LS = {(q, cui, sim)|q ∈ F ∧ cui ∈ U M LS ∧ sim ∈ einen hohen Anteil an Freitext. [0, 1]}. Dabei ist sim ein numerischer Wert, der die Ähnlich- keit zwischen einer Frage q und einem Konzept cui reprä- Ein möglicher Ansatz ist die Identifikation der Schlüssel- sentiert. wörter, die die Frage charakterisieren und ein Konzept des UMLS darstellen. Aufgrund des Vorkommens von Synony- 3. BASIS-WORKFLOW men innerhalb einer Frage, die nicht in einem Konzept des Unser Ansatz für die Identifikation von Korrespondenzen ba- UMLS erfasst sind, ist es nicht möglich durch Stringähnlich- siert auf der Berechnung von Stringähnlichkeitsmaßen zwi- keiten solche Korrespondenzen zu identifizieren. Ein Ansatz schen den Fragen der Items und den Attributen, wie z.B. ist die Verwendung eines Synonymwörterbuchs, das es er- 62 laubt alle Tokens innerhalb einer Frage und eines Konzepts Bitposition 0 1 2 3 4 5 6 7 8 9 10 11 12 13 durch einen Identifier zu ersetzen. Mithilfe des Identifiers P0 cui1,cui2,cui3 0 0 1 0 0 1 0 1 0 0 1 0 1 0 werden Synonyme als gleich angesehen, obwohl die String- P1 cui4,cui5,cui6 1 0 1 1 0 0 0 0 0 1 0 1 0 0 ähnlichkeit gering ist. Das Synonymwörterbuch kann entwe- der durch externe Web-services generiert werden oder durch Question q 0 1 1 0 0 0 0 0 0 0 1 0 0 0 bereits verifizierte Annotationen erstellt werden. |q ˄ P0| q ˄ P0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 |𝑞| =2/3 Komplexe Mappings: Im Gegensatz zu Ontologie-Mappings, q ˄ P1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 |q ˄ P1| =1/3 |𝑞| die im Allgemeinen aus 1:1 Korrespondenzen zwischen den Konzepten bestehen, werden komplexe Fragen in Formu- laren durch mehrere Konzepte inhaltlich beschrieben. Um Figure 3: Beispiel für die Reduktion der Vergleiche solche komplexen Korrespondenzen zu identifizieren, sind mittels Partitionierung und der Repräsentation als die herkömmlichen Selektionsstrategien wie z.B. die Selekti- Bitliste von Trigrammen on der Korrespondenz mit der maximalen Ähnlichkeit oder Top-k nicht ausreichend. Für die Bestimmung dieser Kor- respondenzen sind komplexe Selektionsstrategien oder ent- tion h erstellt wird, eine geforderte relative Überlappung sprechende Vorverarbeitungsschritte sinnvoll. Im Folgenden min overlap[0, 1] erzielt. Die Berechnung der Überlappung wird eine Selektionsstrategie und eine mögliche Vorverarbei- entspricht der AND-Bitoperation. Die relative Überlappung tung erläutert. rel overlap ist der Quotient aus der Anzahl der Überlap- pung und der Anzahl der gesetzten Bits der Frage. Somit Bei der komplexen Selektionsstrategie werden die Korre- wird die Anzahl der Vergleiche für eine Frage auf die An- spondenzen eines berechneten Mappings gefiltert, indem al- zahl der Konzepte beschränkt, die eine Mindestähnlichkeit le berechneten korrespondierenden Konzepte zu einer Fra- bzgl. der Trigramme aufweisen. ge bzgl. ihrer Ähnlichkeit gruppiert werden und pro Gruppe das Konzept als korrekt angesehen wird, welches die höchste Ein Beispiel ist in Abb. 3 dargestellt, dabei wird die Menge Ähnlichkeit sim zu der Frage aufweist. Alle anderen Konzep- der Konzepte U M LS example = {cui1, cui2, ...cui6} und te der Gruppe werden aus dem Mapping MF,U M LS entfernt. eine Frage q betrachtet. Die gegebene Menge wird auf die Dieser Ansatz ist bereits realisiert und in der eingereichten Partitionen P0 und P1 aufgeteilt. Dabei bilden die Trigram- Publikation vorgestellt. me der Konzepte cui1, cui2 und cui3 mittels einer Hash- funktion h auf die Bitpositionen 2, 5, 7, 10, 12 ab. Analog Des Weiteren sind komplexe Korrespondenzen identifizier- wird der Bitlistenvektor für die Partition P1 und die Frage bar, wenn die Frage bzgl. ihres Inhalts separiert wird. Eine q erstellt. Die relative Überlappung der Bitlisten der Frage Wortgruppe oder Teilmenge der Frage repräsentiert dabei q und der Partition P0 ist 23 und für P1 13 . Bei einer gefor- eine semantische Einheit und wird zu einem Konzept ge- derten relativen Überlappung min overlap = 0.5 wird der matcht. Die Identifikation solcher Gruppen ist beispielsweise Vergleich zwischen der Frage und den Konzepten cui4, cui5 durch Named Entity Recognition (NER) Verfahren realisier- und cui6 nicht durchgeführt, da die relative Überlappung bar oder durch eine statistische Erhebung von häufig auftre- rel overlap = 13 ist. tenden Kookkurrenzen innerhalb einer Menge von Formula- ren. Jedoch ist die Reduktion abhängig von der Effektivität der Partitionierung, so dass im ungünstigen Fall die Konzepte Größe der Datenquellen Das UMLS umfasst ∼ 2.8 Mio. aller Partitionen verglichen werden müssen, wenn die Bit- Konzepte, wohingegen ein Formular im Schnitt 50 Fragen listen eine hohe Überlappung untereinander aufweisen. Auf- enthält. Wenn man 100 Formulare annotiert, bedeutet dies, grund dessen, ist eine qualitative Partitionierung bzgl. der dass 14 Milliarden Vergleiche durchzuführen sind. Um einen Ähnlichkeit der Konzepte essentiell. Eine qualitativhochwer- effizienten automatischen Annotationsprozess zu realisieren tige berechnete Partitionierung ist unabhängig von den zu ist es deshalb notwendig unnötige Vergleiche zu vermeiden. annotierenden Formularen, so dass diese für eine Vielzahl von Formularen einsetzbar ist. Ein Ansatz zur Reduktion der Vergleiche ist die Verwendung von Bitlisten. Dabei wird das UMLS in Partitionen aufge- 5. ARCHITEKTUR EINES FORMULAR teilt. Bei der Partitionierung werden alle Konzepte bzgl. MANAGEMENT SYSTEMS (FMS) ihres Namens sortiert und einer Partition mit einer fixen Es ist geplant, ein Managementsystem zu realisieren, das Partitionsgröße (z.B. 100) zugeordnet. Alle Trigramme des die Formulare, Ontologien und die dazugehörigen Annota- Namens und der Synonyme eines Konzepts werden mittels tionen verwaltet. Das FMS soll die Möglichkeit bieten For- einer Hashfunktion h auf eine Bitposition einer Bitliste der mulare strukturiert zu suchen, ermittelte Annotationen zu Länge l abgebildet. Die Trigramme werden tokenweise für verifizieren und neue Formulare zu annotieren. Das Mana- das jeweilige Attribut erzeugt. Eine Bitlistenlänge l = 27000 gementsystem soll Wissenschaftlern die Möglichkeit bieten, ist ausreichend, wenn man ausschließlich kleingeschriebene effizient Formulare zu analysieren und passende Formulare Buchstaben berücksichtigt. Alle Bitlisten der Konzepte einer wiederzuverwenden. Die Architektur umfasst eine Datenhal- Partition werden durch die OR-Bitoperation zu einer Bitliste tungsschicht, eine Service-Schicht und eine Frontend-Schicht aggregiert. Die resultierende Bitliste ist ein Repräsentant der in Form einer Webanwendung(siehe Abb. 4). jeweiligen Partition. Ein Vergleich zwischen einer Frage und den Konzepten einer Partition wird durchgeführt, wenn der Die Datenhaltungsschicht umfasst die Persistierung der For- Bitlistenvektor der Frage, der ebenfalls durch die Hashfunk- mulare, Ontologien und der berechneten sowie vorgeschla- 63 genen Annotationen durch eine relationale Datenbank. Die Frontend Service-Schicht umfasst folgende Module: Import, Annota- Form view Annotation Explorative Verification Import view view search view view ting, Search, Clustering und Verification. API- Call Services • Import Mithilfe des Import Moduls sollen Formula- Annotating Search Clustering Verification Import re in das Repository eingepflegt werden, so dass eine effiziente Suche bzw. Annotation möglich ist. SQL • Annotating Das Annotating-Modul ermöglicht die An- Form -Repository notation der Formulare des Repositories mit gewähl- Forms Ontologies Annotations ten Ontologien. Des Weiteren sollen bereits annotierte Fragen verwendet werden, um unbekannte Fragen zu annotieren. Diesbezüglich ist ein Suchverfahren inner- Figure 4: Architektur eines FMS halb des Search-Moduls notwendig, welches ähnliche Fragen oder Fragmente zu einer gegebenen Frage bzw. Fragments identifiziert. Die Annotationen der identifi- bereitgestellt werden, die Experten erlaubt einzelne Anno- zierten Fragen sind mit hoher Wahrscheinlichkeit eben- tationen zu bewerten. falls Annotationen für die gegebene Frage. Mithilfe der Wiederverwendung bereits existierender Annotationen 6. ZUSAMMENFASSUNG wird der Vergleich mit dem kompletten UMLS vermie- Annotationen sind für die Beschreibung und einheitliche Re- den. präsentation von Formularen essentiell. Durch die Verwen- • Search Um eine strukturierte Suche nach ähnlichen dung von Annotationen wird der Datenaustausch, die Inte- Formularen oder Fragen zu ermöglichen, umfasst das gration von Daten der zugrundeliegenden Formulare und die Search-modul eine Komponente, die basierend auf den Suche vereinfacht. Um einen effektiven und effizienten Anno- Annotationen und der Eingabe einer Menge von Schlüs- tationsprozess zu realisieren, sind die bisherigen Methoden selwörtern eine explorative Suche nach den gewünsch- des Ontologie-Matching nicht ausreichend. In dieser Arbeit ten Formularen bzw. Fragen ermöglicht. Des Weiteren wurde der generelle Workflow für die semi-automatische An- soll dieses Modul eine Komponente umfassen, die eine notation vorgestellt sowie Lösungsansätze präsentiert, die effiziente Suche nach ähnlichen Fragen ermöglicht. Ein die Besonderheiten der Annotation von Formularen behan- naiver Ansatz wäre die Erstellung einer invertierten deln. Um den Nutzen der Allgemeinheit zur Verfügung zu Liste bzgl. der Token oder Wortgruppen einer Frage, stellen, wurde konzeptionell die Architektur eines Formu- um für eine unbekannte Frage, die ähnlichsten Fragen lar Management Systems dargestellt, welches die Möglich- zu ermitteln. keit bietet neben der Annotation, Formulare oder Fragen basierend auf den Annotationen zu suchen oder zu analysie- • Clustering Des Weiteren kann die Effizienz der Su- ren. Aufgrund des automatischen Annotationprozesses soll che durch eine Clusterung der Formulare bzw. Fra- im Gegensatz zur MDM-Plattform die Vielzahl der Formu- gen erhöht werden. In diesem Modul sollen Clustering- lare annotiert sein. Da jedoch ein automatisches Verfahren Verfahren bereitgestellt werden, die basierend auf den keine vollständige Korrektheit gewährleisten kann, soll mit- Annotationen eine Gruppierung der Formulare und Fra- hilfe einer Verification-Komponente ein Expertenkonsortium gen ermöglichen. für die Verifikation mit einbezogen werden. • Verification Da ein automatisches Verfahren keine 7. REFERENCES vollständige Korrektheit gewährleisten kann, soll die- [1] O. Bodenreider. The Unified Medical Language ses Modul die Bewertung von Experten in den Quali- System (UMLS): integrating biomedical terminology. tätssicherungsprozess bzgl. der Annotationen mit ein- Nucleic Acids Research, 32(suppl 1):D267–D270, 2004. beziehen. Ein Experte soll in der Lage sein berechne- [2] B. Breil, J. Kenneweg, F. Fritz, et al. Multilingual te Annotationen zu bewerten oder zu ergänzen. Somit medical data models in ODM format–a novel soll eine stetige Verbesserung der Qualität der Anno- form-based approach to semantic interoperability tationen im System erzielt werden. Des Weiteren soll between routine health-care and clinical research. Appl mithilfe der verifizierten Annotationen die Effektivi- Clin Inf, 3:276–289, 2012. tät und Effizienz des Annotationsprozesses mittels der [3] K. Donnelly. SNOMED-CT: The Advanced Wiederverwendung erhöht werden. Terminology and Coding System for eHealth. Studies in Health Technology and Informatics–Medical and Die Frontend-Schicht wird durch eine Webanwendung re- Care Compunetics 3, 121:279–290, 2006. präsentiert, so dass der Anwender die Möglichkeit hat neue [4] M. Dugas. Missing Semantic Annotation in Databases. Formulare zu importieren, ähnliche Formulare oder Teilfrag- The Root Cause for Data Integration and Migration mente mithilfe einer explorativen Suchfunktion zu ermitteln. Problems in Information Systems. Methods of Der Anwender soll durch die Eingabe eines Suchterms die Information in Medicine, 53(6):516–517, 2014. Möglichkeit haben, die Menge der Formulare mittels der [5] P. Indyk and R. Motwani. Approximate nearest Annotationen weiter einzugrenzen. Ein Ansatz für eine ex- neighbors: Towards removing the curse of plorative Suche mittels einer Tag-Cloud ist in eTACTS [9] dimensionality. In Proceedings of the Thirtieth Annual realisiert. Des Weiteren soll eine Sicht für die Verifikation ACM Symposium on Theory of Computing, STOC ’98, 64 pages 604–613, New York, NY, USA, 1998. ACM. [6] T. Kirsten, A. Gross, M. Hartung, and E. Rahm. GOMMA: a component-based infrastructure for managing and analyzing life science ontologies and their evolution. Journal of Biomedical Semantics, 2(6), 2011. [7] A. J. Kirtane, A. Gupta, S. Iyengar, J. W. Moses, M. B. Leon, R. Applegate, B. Brodie, E. Hannan, K. Harjai, L. O. Jensen, et al. Safety and efficacy of drug-eluting and bare metal stents comprehensive meta-analysis of randomized trials and observational studies. Circulation, 119(25):3198–3206, 2009. [8] H. J. Lowe and G. O. Barnett. Understanding and using the medical subject headings (MeSH) vocabulary to perform literature searches. Journal of the American Medical Association (JAMA), 271(14):1103–1108, 1994. [9] R. Miotto, S. Jiang, and C. Weng. eTACTS: A method for dynamically filtering clinical trial search results. Journal of Biomedical Informatics, 46(6):1060–1067, 2013. [10] E. Rahm. Towards Large-Scale Schema and Ontology Matching. In Z. Bellahsene, A. Bonifati, and E. Rahm, editors, Schema Matching and Mapping, Data-Centric Systems and Applications, pages 3–27. Springer Berlin Heidelberg, 2011. [11] P. Shvaiko and J. Euzenat. A survey of schema-based matching approaches. In Journal on Data Semantics IV, pages 146–171. Springer, 2005. [12] C. Xiao, W. Wang, X. Lin, and J. X. Yu. Efficient similarity joins for near duplicate detection. In Proceedings of the 17th International Conference on World Wide Web, WWW ’08, pages 131–140, New York, NY, USA, 2008. ACM. 65