=Paper=
{{Paper
|id=Vol-1366/paper12.pdf
|storemode=property
|title=Annotation und Management heterogener medizinischer
Studienformulare
|pdfUrl=https://ceur-ws.org/Vol-1366/paper12.pdf
|volume=Vol-1366
|dblpUrl=https://dblp.org/rec/conf/gvd/Christen15
}}
==Annotation und Management heterogener medizinischer
Studienformulare==
<pdf width="1500px">https://ceur-ws.org/Vol-1366/paper12.pdf</pdf>
<pre>
     Annotation und Management heterogener medizinischer
                      Studienformulare

                                                            Victor Christen
                                               Institut für Informatik, Universität Leipzig
                                              christen@informatik.uni-leipzig.de


ABSTRACT                                                                   eine einheitliche und strukturierte Repräsentation zu ermög-
Medizinische Formulare werden für die Dokumentation in-                   lichen werden die Formulare mit Konzepten von standardi-
nerhalb der klinischen Forschung oder der Dokumentation                    sierten Vokabularen wie z.B. Ontologien annotiert [4]. Onto-
von Patientendaten verwendet. Es existiert eine Vielzahl ver-              logien sind in der Biomedizin für die Anreicherung von Real-
schiedener Formulare, die für verschiedene Nutzungszwecke                 weltobjekten weit verbreitet. Die Gene Ontology (GO) wird
bzw. Anwendungen erstellt werden. Aufgrund der resultie-                   verwendet, um die Funktionen von Genen und Proteinen zu
renden Heterogenität ist eine Vergleichbarkeit, eine studien-             beschreiben, mithilfe der Medical Subject Headings (MeSH)
übergreifende Analyse oder eine effiziente Suche nicht oh-                [8] Ontologie werden wissenschaftliche Publikationen anno-
ne weiteres möglich. Um die Interoperabilität der Anwen-                 tiert, und durch die Annotation mit Konzepten der SNO-
dungen, die auf der Auswertung von Formularen basieren,                    MED CT Ontologie [3] ist eine strukturierte und einheit-
zu erhöhen, ist eine einheitliche Annotation von medizini-                liche Verwaltung von Patientendaten möglich. Das UMLS
schen Formularen mittels einer medizinischen Wissensba-                    [1] repräsentiert eine biomedizinische Wissensbasis, die mehr
sis hilfreich. Eine solche Wissensbasis ist das Unified Me-                als 100 biomedizinische Ontologien integriert, wie z.B. SNO-
dical Language System(UMLS), welches biomedizinisch re-                    MED CT, National Cancer Institute Thesaurus(NCIT) oder
levante Konzepte umfasst. Diese Arbeit befasst sich mit der                MeSH und umfasst ∼ 2.8 Millionen Konzepte. Die verschie-
semi-automatischen Annotation von Studienformularen. Ba-                   denen Anwendungsfälle zeigen das Potential für die Verein-
sierend auf einem allgemeinen Matching-Workflow, werden                    fachung der semantischen Suche und der Datenintegration
weitere Lösungsansätze präsentiert, um die Besonderheiten               durch die Annotation von Realweltobjekten mittels der Kon-
der Annotation von Studienformularen zu behandeln.                         zepte von Ontologien. Die Annotation von Formularen hat
                                                                           folgenden Mehrwert:
Keywords: semantische Annotationen, medizinische For-
mulare, klinische Studien, UMLS                                               • Studienübergreifende Analysen Eine studienüber-
                                                                                greifende Analyse umfasst Studien mit einer ähnlichen
1.    EINLEITUNG                                                                Thematik. Die Identifikation ähnlicher Studien ist mit-
Medizinische Formulare werden verwendet, um Patientenda-                        hilfe der annotierten Formulare bzgl. der Studien effi-
ten und resultierende Daten innerhalb einer klinischen Stu-                     zient und effektiv durchführbar. Ein Beispiel für ei-
die zu dokumentieren. So werden Studienformulare für die                       ne studienübergreifende Analyse ist der Vergleich der
Rekrutierung der Probanden der jeweiligen Studien verwen-                       Wirksamkeit und Sicherheit von medikamentbeschich-
det, indem die Ein- und Ausschlusskriterien definiert wer-                      teten Stents und unbeschichteten Stents für Herzkranz-
den. Momentan sind ∼ 180000 Studien auf                                         gefäße [7]. Bei dieser Analyse wurden 9470 Patien-
http://clinicaltrials.gov registriert, wobei jede Studie                        ten von 22 randomisierten kontrollierten Studien und
eine Menge von Case Report Forms (CRF) umfasst, um die                          182901 Patienten von 34 Beobachtungsstudien betrach-
notwendigen Daten zu dokumentieren. Im Allgemeinen wer-                         tet. Bei der Auswertung der Daten müssen die Antwor-
den Formulare einer Studie neu erstellt ohne bereits existie-                   ten der Fragen der Formulare integriert werden. Die
rende Formulare wieder zu verwenden.                                            Annotationen der Formulare können für den Integrati-
                                                                                onsprozess verwendet werden, indem initial durch die
Aufgrund der hohen Anzahl heterogener Formulare ist ei-                         Annotationen ähnliche Items identifiziert werden. Die
ne studienübergreifende Analyse oder der Datenaustausch                        Daten, die die ähnlichen Items betreffen, werden durch
komplex und nicht ohne weiteres effizient realisierbar. Um                      weitere Integrationsschritte vereinheitlicht, so dass ei-
                                                                                ne Analyse möglich ist.
                                                                              • Erstellung von Formularen Bisher werden Formu-
                                                                                lare mit ihren Items für eine durchzuführende Studie
                                                                                neu erstellt. Die Erstellung eines Formulars ist ein auf-
                                                                                wändiger Prozess, da z.B. eine unscharfe Formulierung
                                                                                der Ein- und Ausschlusskriterien zu einer mögl. Menge
27th GI-Workshop on Foundations of Databases (Grundlagen von Daten-             an Probanden führt, die für die Studie nicht vorgese-
banken), 26.05.2015 - 29.05.2015, Magdeburg, Germany.
Copyright is held by the author/owner(s).                                       hen waren. Durch die Identifikation bereits annotier-
                                                                                te Formulare, die der Thematik der durchzuführenden

                                                                      60
                      Items                        Assoziierte UMLS Konzepte               Jedoch unterscheiden sich Formulare und Ontologien dahin-
 Patients with established CRF (1) as an         1 C0022661 Kidney Failure, Chronic
 indication for the treatment (2) of
                                           yes
                                                 2 C0039798 therapeutic aspects
                                                                                           gehend, dass Formulare nicht formal strukturiert sind und
 anemia (3)
                                           no
                                                 3 C0002871 Anemia                         aufgrund der besseren Verständlichkeit einen höheren Frei-
                                                            Recombinant                    textanteil beinhalten. Die bisherigen Ontologie-Matching Ver-
                                                 1 C0376541
 Patients who have had prior recombinant                    Erythropoietin                 fahren unterstützen nur unzureichend das Matching von En-
                                           yes
 erythropoietin (1) treatment whose              2 C0002871 Anemia
 anemia (2) had never responded (3)        no               Absent response to             titäten mit einem hohen Freitextanteil sowie die Erkennung
                                                 3 C0438286
                                                            treatment                      von n:m Korrespondenzen.
 Ulcerating plaque (1)                     yes 1    C0751634 Carotid Ulcer

                                                                                           Das Ziel unserer Forschung ist die Verbesserung der Qualität
                                                                                           der Annotationen. Des Weiteren soll ein Formular Manage-
Figure 1: Beispiel für die Annotation der Items eines                                     ment System (FMS) realisiert werden, das die Verwaltung
Formulars mit Konzepten des UMLS                                                           der Formulare, Ontologien und der berechneten Annotatio-
                                                                                           nen ermöglicht. Das FMS soll zusätzlich das Annotations-
                                                                                           verfahren beinhalten sowie Funktionalitäten für die Suche,
       Studie entsprechen oder ähneln, können ähnliche Items                            Analyse und Verifikation der Annotationen von Formula-
       bei der Erstellung des neuen Formulars wiederverwen-                                ren bereitstellen. Für die Verbesserung der Qualität der An-
       det werden.                                                                         notationen und der Effizienz der Verfahren sollen folgende
                                                                                           Aspekte betrachtet werden.
Ein Formular besteht aus einer Menge von Items. Ein Item
umfasst eine Frage und die dazugehörigen Antwortmöglich-                                    • Identifikation von signifikanten Termen und zu-
keiten. Eine Antwort hat einen Datentyp wie z.B. Boolean                                        sammengehörigen Einheiten Die Fragen innerhalb
oder String, bei Freitextantworten, oder kann durch einen                                       eines Formulars sind in natürlicher Sprache formuliert.
vordefinierten Bereich wie z.B. das Alter von 0 bis 140 oder                                    Jedoch sind die Konzepte von Ontologien in einer kom-
eine vorgegebene Menge, die z.B. die möglichen Sympto-                                         pakten Form beschrieben und auf die relevanten Ter-
me definiert, eingeschränkt werden. Bei der Annotation ei-                                     me beschränkt. Somit ist es notwendig innerhalb ei-
nes medizinischen Formulars wird jedem Item eine Menge                                          ner Frage die signifikanten Terme zu identifizieren. Des
von Konzepten des UMLS zugeordnet, so dass diese seman-                                         Weiteren kann eine Frage aus mehreren semantischen
tisch beschrieben sind. Ein Beispiel für die Annotation eines                                  Einheiten bestehen, die jeweils durch ein Konzept be-
Formulars für die Ein- und Ausschlusskriterien einer Stu-                                      schrieben werden. Aufgrund dessen ist es notwendig
die bzgl. Blutarmut ist in Abb. 1 dargestellt. Das Beispiel                                     diese Wortgruppen zu identifizieren.
verdeutlicht die Komplexität der automatischen Identifika-
tion von Annotationen, da z.B. wie in Frage 1 signifikante                                    • Wiederverwendung von annotierten Formula-
Wortgruppen zu einem Konzept korrespondieren oder die                                           ren Da das UMLS eine hohe Anzahl von Konzepten
Frage 3 ein Synonym enthält bzgl. des korrespondierenden                                       umfasst, ist die vollständige Berechnung des kartesi-
Konzepts.                                                                                       schen Produkts bzgl. aller Fragen eines Formulars sehr
                                                                                                zeitintensiv. Durch die Verwendung bereits annotierter
Die Medical Data Models Plattform bietet bereits Möglich-                                      Items ist es möglich, die zeitliche Komplexität zu re-
keiten für die Erstellung, die Analyse, den Austausch und                                      duzieren, indem zu dem unannotierten Item ähnliche,
die Wiederverwendung von Formularen in einem zentralen                                          bereits annotierte Items ermittelt werden. Die assozi-
Metadaten Repository [2]. Aktuell umfasst das Repository                                        ierten Konzepte der annotierten Items sind Kandida-
mehr als 9000 Versionen von medizinischen Formularen und                                        ten für die Annotation des unannotierten Items.
über 300000 Items. Um die semantische Heterogenität zu re-                                  • Erweiterte Selektionsstrategien Beim Ontologie-
duzieren, werden die Formulare mit Konzepten des UMLS                                           Matching wird ein Mapping generiert, wobei durch
annotiert. Die Annotation der Formulare ist im MDM bisher                                       Top-k Selektionsstrategien die Korrespondenzen basie-
nur manuell durchführbar und somit sind viele Formulare                                        rend auf einer berechneten Ähnlichkeit selektiert wer-
nicht bzw. unvollständig annotiert, da dieser Prozess sehr                                     den. Da eine Frage durch mehrere Konzepte beschrie-
zeitintensiv ist.                                                                               ben werden kann, die Konzepte jedoch nicht ähnlich
                                                                                                sind, sind solche Selektionsstrategien nicht effektiv. Auf-
Die automatische Annotation von Formularen ist thematisch                                       grund dessen sind komplexere Selektionsstrategien er-
verwandt mit dem Ontologie-Matching, das eine Menge von                                         forderlich, die n:m Korrespondenzen berücksichtigen.
Korrespondenzen, Mapping genannt, zwischen den Konzep-
ten von zwei oder mehreren Ontologien generiert. Dabei re-                                    • Verifikationsverfahren Mithilfe eines Expertenkon-
präsentiert eine Korrespondenz eine semantische Ähnlich-                                      sortiums soll die Qualität der Annotationen innerhalb
keit zwischen zwei Konzepten. Bei der Annotation von For-                                       des FMS durch die unterstützte manuelle Verifikati-
mularen werden ebenfalls Korrespondenzen ermittelt, wobei                                       on der ermittelten Annotationen erhöht werden. Des
eine Korrespondenz zwischen einem Item und einem Kon-                                           Weiteren ist es möglich, dass ein Experte weitere An-
zept ist, welches das Item semantisch beschreibt. Auf dem                                       notationen vorschlagen kann. Zusätzlich soll ein Veri-
Gebiet des Ontologie-Matchings existieren eine Vielzahl von                                     fizierungsverfahren realisiert werden, welches die Wi-
Verfahren [11], die eine effiziente und effektive Generierung                                   derspruchsfreiheit und die Minimalität der assoziierten
eines Ontologie-Mappings realisieren, wie z.B. GOMMA [6].                                       Konzepte mit berücksichtigt. So ist z.B. eine Menge
Aufgrund dessen werden Ansätze des Ontologie-Matchings                                         von Annotationen nicht korrekt, wenn zwei Konzepte
für die Annotation von Studienformularen verwendet, wie                                        innerhalb dieser Menge als disjunkt definiert sind, dass
z.B. diverse String-Matchverfahren oder Blocking-Techniken.                                     heißt diese zwei Konzepte besitzen keine gemeinsamen

                                                                                      61
       Instanz. Ein Annotations-Mapping ist nicht minimal,                     Input       Preprocessing     Mapping     Postprocessing      Output
                                                                                                            Generation
       wenn zwei Konzepte dieselbe Thematik beschreiben.                   Menge von
                                                                                                            Matching:
                                                                                                                          Annotation
                                                                                                                          Selektion:
                                                                           Formularen     Normalisierung:                                 Menge von
       Mithilfe der is a-Hierarchie und den Disjunktheitsbe-                 𝐹1 . . 𝐹𝑛      POS tagging,      TF-IDF,       Group-        Annotation
                                                                                                             Trigram,        based
       ziehungen innerhalb einer Ontologie sind solche Kon-                                Tokenisierung,
                                                                                                              LCS …        filtering,
                                                                                                                                          -mappings
                                                                                                                                           ℳ𝐹1,𝑈𝑀𝐿𝑆
                                                                               UMLS         encoding,...
       flikte identifizierbar und durch die Anwendung von                                                                 Threshold,          …
                                                                                                                                …          ℳ𝐹𝑛 ,𝑈𝑀𝐿𝑆
       Auflösungsstrategien zu beheben.

     • Reduktion der Vergleiche im Annotationspro-                                       Figure 2: Annotations-Workflow
       zess Aufgrund der hohen Anzahl der Konzepte bei
       Ontologien ist es sinnvoll die Anzahl der Vergleiche im
       Annotationsprozess einzuschränken, um eine hohe Effi-             den Namen und den Synonymen der Konzepte. Der gene-
       zienz zu erzielen. Es existieren bereits Verfahren, die ei-        relle Workflow für die automatische Annotation ist in Abb.
       ne Reduktion der Vergleiche ermöglichen wie z.B. Län-            2 dargestellt. Die Eingabe ist eine Menge von Formularen
       genfilter, PPJoin[12] oder Locality Sensitive Hashing              {F1 , F2 , ..., Fn }, das U M LS und die Ausgabe ist eine Men-
       (LSH) [5]. Als Ziel unserer Forschung sollen ähnliche             ge von Annotations-mappings
       Verfahren in den Annotationsprozess integriert werden              {MF1 ,U M LS , MF2 ,U M LS , ..., MFn ,U M LS }. Zu Beginn wer-
       bzw. neue Verfahren realisiert werden.                             den im Preprocessing Schritt die Fragen bzw. Attribute der
                                                                          Konzepte normalisiert. Konkret, werden alle nicht relevan-
                                                                          ten Wörter entfernt, dazu gehören Präpositionen, Verben
Es wurde begonnen ein automatisches Verfahren für die An-                und Stoppwörter, die mithilfe eines Part-of-speech Taggers
notation von Formularen zu implementieren. Die Realisie-                  ermittelt werden. Des Weiteren werden alle Tokens klein ge-
rung eines basalen Workflows und erste Erweiterungen wur-                 schrieben. Um eine effiziente Mapping-Generierung zu er-
den in einer eingereichten Publikation Annotating Medical                 möglichen werden alle Tokens und Trigramme der Attribute
                                        ”
Forms using UMLS“ beschrieben. Die Ergebnisse verdeutli-                  der Fragen eines Formulars bzw. eines Konzepts enkodiert.
chen die Schwierigkeiten der automatischen Annotation und
die Vielfalt der Arten von Formularen. So werden für Formu-              Im Schritt Mapping-Generation wird eine Menge von Tupeln
lare bzgl. der Qualitätssicherung von medizinischen Geräten             der Form (q, cui, sim) durch den Vergleich der Fragen mit
gute Resultate erzielt, wohingegen die Qualität der Annota-              den Attributen der UMLS Konzepten generiert. Der Ver-
tionen für Formulare bzgl. der Ein- und Ausschlusskriterien              gleich kann durch verschiedene Match-Verfahren realisiert
von Studien ausbaufähig ist.                                             werden wie z.B. Trigramm, TF/IDF oder Longest Common
                                                                          Substring (LCS). Bei einem naiven Ansatz wird das kartesi-
Der Aufbau dieser Arbeit ist wie folgt gegliedert. In Ab-                 sche Produkt bzgl. der Menge der Fragen und der Menge der
schnitt 2 wird das Problem der Annotation von Formularen                  Konzepte berechnet, jedoch kann durch Pruning-Techniken
formal definiert. Der basale Workflow für die Identifikation             oder partitionsbasiertes Matching die Anzahl der durchzu-
der Annotationen ist in Abschnitt 3 erläutert. In Abschnitt 4            führenden Vergleiche reduziert werden [10].
werden die zu realisierenden Erweiterungen für den definier-
ten Workflow vorgestellt, um die Qualität der Annotationen               In der Postprocessing Phase wird das Mapping durch die
zu verbessern und die Effizienz des Verfahrens zu erhöhen. In            Anwendung von Aggregations- und Selektionsstrategien ge-
Abschnitt 5 wird konzeptionell die Architektur eines FMS                  neriert. Im Allgemeinen wird eine Mindestähnlichkeit δ für
für medizinische Formulare und ihre Annotationen vorge-                  eine Korrespondenz gefordert, damit diese als korrekt ange-
stellt. In Abschnitt 6 wird die Arbeit zusammengefasst.                   sehen wird. Da es sich um einen semi-automatischen Prozess
                                                                          handelt, werden die identifizierten Annotationen durch einen
2.     PROBLEMDEFINITION                                                  Experten verifiziert.
Das Ziel der semi-automatischen Annotation eines Formu-
lars F ist die Bestimmung eines Annotations-Mappings M                    4.     ANSÄTZE ZUR ERWEITERUNG
zwischen den Fragen F = {q1 , q2 , ...qk } des Formulars und                     DES BASIS-WORKFLOWS
den Konzepten U M LS = {cui1 , cui2 , ...cuin } des UMLS.
                                                                          Aufgrund der Besonderheiten bzgl. der Annotation von For-
Eine Annotation stellt eine Assoziation zwischen einer Fra-
                                                                          mularen, werden im Folgenden die Schwierigkeiten bzgl. des
ge und einem Konzept des UMLS dar, wobei eine Frage mit
                                                                          Annotationsprozesses beschrieben und mögliche Lösungsan-
mehreren Konzepten annotiert sein kann. Dabei ist ein Kon-
                                                                          sätze erläutert.
zept durch einen Concept Unique Identifier CUI eindeutig
identifizierbar und wird durch Attribute wie z.B. einen Na-
                                                                          Vorkommen natürlicher Sprache Im Gegensatz zu On-
men oder Synonyme beschrieben. Ein Annotations-Mapping
                                                                          tologien, bei denen die Attribute der Konzepte in einer kom-
MF,U M LS ist formal definiert als:
                                                                          pakten Repräsentation dargestellt sind, enthält eine Frage
MF,U M LS = {(q, cui, sim)|q ∈ F ∧ cui ∈ U M LS ∧ sim ∈
                                                                          einen hohen Anteil an Freitext.
[0, 1]}. Dabei ist sim ein numerischer Wert, der die Ähnlich-
keit zwischen einer Frage q und einem Konzept cui reprä-
                                                                          Ein möglicher Ansatz ist die Identifikation der Schlüssel-
sentiert.
                                                                          wörter, die die Frage charakterisieren und ein Konzept des
                                                                          UMLS darstellen. Aufgrund des Vorkommens von Synony-
3.     BASIS-WORKFLOW                                                     men innerhalb einer Frage, die nicht in einem Konzept des
Unser Ansatz für die Identifikation von Korrespondenzen ba-              UMLS erfasst sind, ist es nicht möglich durch Stringähnlich-
siert auf der Berechnung von Stringähnlichkeitsmaßen zwi-                keiten solche Korrespondenzen zu identifizieren. Ein Ansatz
schen den Fragen der Items und den Attributen, wie z.B.                   ist die Verwendung eines Synonymwörterbuchs, das es er-

                                                                     62
laubt alle Tokens innerhalb einer Frage und eines Konzepts                        Bitposition   0   1   2   3   4   5   6   7   8   9   10 11 12 13
durch einen Identifier zu ersetzen. Mithilfe des Identifiers             P0    cui1,cui2,cui3   0   0   1   0   0   1   0   1   0   0   1   0   1   0
werden Synonyme als gleich angesehen, obwohl die String-
                                                                         P1    cui4,cui5,cui6   1   0   1   1   0   0   0   0   0   1   0   1   0   0
ähnlichkeit gering ist. Das Synonymwörterbuch kann entwe-
der durch externe Web-services generiert werden oder durch                    Question q        0   1   1   0   0   0   0   0   0   0   1   0   0   0
bereits verifizierte Annotationen erstellt werden.                                                                                                      |q ˄ P0|
                                                                                q ˄ P0          0   0   1   0   0   0   0   0   0   0   1   0   0   0      |𝑞|
                                                                                                                                                                 =2/3

 Komplexe Mappings: Im Gegensatz zu Ontologie-Mappings,                         q ˄ P1          0   0   1   0   0   0   0   0   0   0   0   0   0   0
                                                                                                                                                        |q ˄ P1|
                                                                                                                                                                 =1/3
                                                                                                                                                           |𝑞|
die im Allgemeinen aus 1:1 Korrespondenzen zwischen den
Konzepten bestehen, werden komplexe Fragen in Formu-
laren durch mehrere Konzepte inhaltlich beschrieben. Um                 Figure 3: Beispiel für die Reduktion der Vergleiche
solche komplexen Korrespondenzen zu identifizieren, sind                mittels Partitionierung und der Repräsentation als
die herkömmlichen Selektionsstrategien wie z.B. die Selekti-           Bitliste von Trigrammen
on der Korrespondenz mit der maximalen Ähnlichkeit oder
Top-k nicht ausreichend. Für die Bestimmung dieser Kor-
respondenzen sind komplexe Selektionsstrategien oder ent-               tion h erstellt wird, eine geforderte relative Überlappung
sprechende Vorverarbeitungsschritte sinnvoll. Im Folgenden              min overlap[0, 1] erzielt. Die Berechnung der Überlappung
wird eine Selektionsstrategie und eine mögliche Vorverarbei-           entspricht der AND-Bitoperation. Die relative Überlappung
tung erläutert.                                                        rel overlap ist der Quotient aus der Anzahl der Überlap-
                                                                        pung und der Anzahl der gesetzten Bits der Frage. Somit
Bei der komplexen Selektionsstrategie werden die Korre-                 wird die Anzahl der Vergleiche für eine Frage auf die An-
spondenzen eines berechneten Mappings gefiltert, indem al-              zahl der Konzepte beschränkt, die eine Mindestähnlichkeit
le berechneten korrespondierenden Konzepte zu einer Fra-                bzgl. der Trigramme aufweisen.
ge bzgl. ihrer Ähnlichkeit gruppiert werden und pro Gruppe
das Konzept als korrekt angesehen wird, welches die höchste            Ein Beispiel ist in Abb. 3 dargestellt, dabei wird die Menge
Ähnlichkeit sim zu der Frage aufweist. Alle anderen Konzep-            der Konzepte U M LS example = {cui1, cui2, ...cui6} und
te der Gruppe werden aus dem Mapping MF,U M LS entfernt.                eine Frage q betrachtet. Die gegebene Menge wird auf die
Dieser Ansatz ist bereits realisiert und in der eingereichten           Partitionen P0 und P1 aufgeteilt. Dabei bilden die Trigram-
Publikation vorgestellt.                                                me der Konzepte cui1, cui2 und cui3 mittels einer Hash-
                                                                        funktion h auf die Bitpositionen 2, 5, 7, 10, 12 ab. Analog
Des Weiteren sind komplexe Korrespondenzen identifizier-                wird der Bitlistenvektor für die Partition P1 und die Frage
bar, wenn die Frage bzgl. ihres Inhalts separiert wird. Eine            q erstellt. Die relative Überlappung der Bitlisten der Frage
Wortgruppe oder Teilmenge der Frage repräsentiert dabei                q und der Partition P0 ist 23 und für P1 13 . Bei einer gefor-
eine semantische Einheit und wird zu einem Konzept ge-                  derten relativen Überlappung min overlap = 0.5 wird der
matcht. Die Identifikation solcher Gruppen ist beispielsweise           Vergleich zwischen der Frage und den Konzepten cui4, cui5
durch Named Entity Recognition (NER) Verfahren realisier-               und cui6 nicht durchgeführt, da die relative Überlappung
bar oder durch eine statistische Erhebung von häufig auftre-           rel overlap = 13 ist.
tenden Kookkurrenzen innerhalb einer Menge von Formula-
ren.                                                                    Jedoch ist die Reduktion abhängig von der Effektivität der
                                                                        Partitionierung, so dass im ungünstigen Fall die Konzepte
 Größe der Datenquellen Das UMLS umfasst ∼ 2.8 Mio.                    aller Partitionen verglichen werden müssen, wenn die Bit-
Konzepte, wohingegen ein Formular im Schnitt 50 Fragen                  listen eine hohe Überlappung untereinander aufweisen. Auf-
enthält. Wenn man 100 Formulare annotiert, bedeutet dies,              grund dessen, ist eine qualitative Partitionierung bzgl. der
dass 14 Milliarden Vergleiche durchzuführen sind. Um einen             Ähnlichkeit der Konzepte essentiell. Eine qualitativhochwer-
effizienten automatischen Annotationsprozess zu realisieren             tige berechnete Partitionierung ist unabhängig von den zu
ist es deshalb notwendig unnötige Vergleiche zu vermeiden.             annotierenden Formularen, so dass diese für eine Vielzahl
                                                                        von Formularen einsetzbar ist.
Ein Ansatz zur Reduktion der Vergleiche ist die Verwendung
von Bitlisten. Dabei wird das UMLS in Partitionen aufge-                5.      ARCHITEKTUR EINES FORMULAR
teilt. Bei der Partitionierung werden alle Konzepte bzgl.                       MANAGEMENT SYSTEMS (FMS)
ihres Namens sortiert und einer Partition mit einer fixen
                                                                        Es ist geplant, ein Managementsystem zu realisieren, das
Partitionsgröße (z.B. 100) zugeordnet. Alle Trigramme des
                                                                        die Formulare, Ontologien und die dazugehörigen Annota-
Namens und der Synonyme eines Konzepts werden mittels
                                                                        tionen verwaltet. Das FMS soll die Möglichkeit bieten For-
einer Hashfunktion h auf eine Bitposition einer Bitliste der
                                                                        mulare strukturiert zu suchen, ermittelte Annotationen zu
Länge l abgebildet. Die Trigramme werden tokenweise für
                                                                        verifizieren und neue Formulare zu annotieren. Das Mana-
das jeweilige Attribut erzeugt. Eine Bitlistenlänge l = 27000
                                                                        gementsystem soll Wissenschaftlern die Möglichkeit bieten,
ist ausreichend, wenn man ausschließlich kleingeschriebene
                                                                        effizient Formulare zu analysieren und passende Formulare
Buchstaben berücksichtigt. Alle Bitlisten der Konzepte einer
                                                                        wiederzuverwenden. Die Architektur umfasst eine Datenhal-
Partition werden durch die OR-Bitoperation zu einer Bitliste
                                                                        tungsschicht, eine Service-Schicht und eine Frontend-Schicht
aggregiert. Die resultierende Bitliste ist ein Repräsentant der
                                                                        in Form einer Webanwendung(siehe Abb. 4).
jeweiligen Partition. Ein Vergleich zwischen einer Frage und
den Konzepten einer Partition wird durchgeführt, wenn der
                                                                        Die Datenhaltungsschicht umfasst die Persistierung der For-
Bitlistenvektor der Frage, der ebenfalls durch die Hashfunk-
                                                                        mulare, Ontologien und der berechneten sowie vorgeschla-

                                                                   63
genen Annotationen durch eine relationale Datenbank. Die                                                      Frontend
Service-Schicht umfasst folgende Module: Import, Annota-                   Form view
                                                                                            Annotation       Explorative         Verification
                                                                                                                                                Import view
                                                                                              view           search view            view
ting, Search, Clustering und Verification.
                                                                                                                    API- Call

                                                                                                              Services
   • Import Mithilfe des Import Moduls sollen Formula-
                                                                             Annotating           Search      Clustering        Verification    Import
     re in das Repository eingepflegt werden, so dass eine
     effiziente Suche bzw. Annotation möglich ist.                                                                 SQL

   • Annotating Das Annotating-Modul ermöglicht die An-                                                    Form -Repository

     notation der Formulare des Repositories mit gewähl-                                 Forms            Ontologies           Annotations
     ten Ontologien. Des Weiteren sollen bereits annotierte
     Fragen verwendet werden, um unbekannte Fragen zu
     annotieren. Diesbezüglich ist ein Suchverfahren inner-                           Figure 4: Architektur eines FMS
     halb des Search-Moduls notwendig, welches ähnliche
     Fragen oder Fragmente zu einer gegebenen Frage bzw.
     Fragments identifiziert. Die Annotationen der identifi-          bereitgestellt werden, die Experten erlaubt einzelne Anno-
     zierten Fragen sind mit hoher Wahrscheinlichkeit eben-           tationen zu bewerten.
     falls Annotationen für die gegebene Frage. Mithilfe der
     Wiederverwendung bereits existierender Annotationen              6.     ZUSAMMENFASSUNG
     wird der Vergleich mit dem kompletten UMLS vermie-               Annotationen sind für die Beschreibung und einheitliche Re-
     den.                                                             präsentation von Formularen essentiell. Durch die Verwen-
   • Search Um eine strukturierte Suche nach ähnlichen               dung von Annotationen wird der Datenaustausch, die Inte-
     Formularen oder Fragen zu ermöglichen, umfasst das              gration von Daten der zugrundeliegenden Formulare und die
     Search-modul eine Komponente, die basierend auf den              Suche vereinfacht. Um einen effektiven und effizienten Anno-
     Annotationen und der Eingabe einer Menge von Schlüs-            tationsprozess zu realisieren, sind die bisherigen Methoden
     selwörtern eine explorative Suche nach den gewünsch-           des Ontologie-Matching nicht ausreichend. In dieser Arbeit
     ten Formularen bzw. Fragen ermöglicht. Des Weiteren             wurde der generelle Workflow für die semi-automatische An-
     soll dieses Modul eine Komponente umfassen, die eine             notation vorgestellt sowie Lösungsansätze präsentiert, die
     effiziente Suche nach ähnlichen Fragen ermöglicht. Ein         die Besonderheiten der Annotation von Formularen behan-
     naiver Ansatz wäre die Erstellung einer invertierten            deln. Um den Nutzen der Allgemeinheit zur Verfügung zu
     Liste bzgl. der Token oder Wortgruppen einer Frage,              stellen, wurde konzeptionell die Architektur eines Formu-
     um für eine unbekannte Frage, die ähnlichsten Fragen           lar Management Systems dargestellt, welches die Möglich-
     zu ermitteln.                                                    keit bietet neben der Annotation, Formulare oder Fragen
                                                                      basierend auf den Annotationen zu suchen oder zu analysie-
   • Clustering Des Weiteren kann die Effizienz der Su-               ren. Aufgrund des automatischen Annotationprozesses soll
     che durch eine Clusterung der Formulare bzw. Fra-                im Gegensatz zur MDM-Plattform die Vielzahl der Formu-
     gen erhöht werden. In diesem Modul sollen Clustering-           lare annotiert sein. Da jedoch ein automatisches Verfahren
     Verfahren bereitgestellt werden, die basierend auf den           keine vollständige Korrektheit gewährleisten kann, soll mit-
     Annotationen eine Gruppierung der Formulare und Fra-             hilfe einer Verification-Komponente ein Expertenkonsortium
     gen ermöglichen.                                                für die Verifikation mit einbezogen werden.

   • Verification Da ein automatisches Verfahren keine                7.     REFERENCES
     vollständige Korrektheit gewährleisten kann, soll die-          [1] O. Bodenreider. The Unified Medical Language
     ses Modul die Bewertung von Experten in den Quali-                    System (UMLS): integrating biomedical terminology.
     tätssicherungsprozess bzgl. der Annotationen mit ein-                Nucleic Acids Research, 32(suppl 1):D267–D270, 2004.
     beziehen. Ein Experte soll in der Lage sein berechne-
                                                                       [2] B. Breil, J. Kenneweg, F. Fritz, et al. Multilingual
     te Annotationen zu bewerten oder zu ergänzen. Somit
                                                                           medical data models in ODM format–a novel
     soll eine stetige Verbesserung der Qualität der Anno-
                                                                           form-based approach to semantic interoperability
     tationen im System erzielt werden. Des Weiteren soll
                                                                           between routine health-care and clinical research. Appl
     mithilfe der verifizierten Annotationen die Effektivi-
                                                                           Clin Inf, 3:276–289, 2012.
     tät und Effizienz des Annotationsprozesses mittels der
                                                                       [3] K. Donnelly. SNOMED-CT: The Advanced
     Wiederverwendung erhöht werden.
                                                                           Terminology and Coding System for eHealth. Studies
                                                                           in Health Technology and Informatics–Medical and
Die Frontend-Schicht wird durch eine Webanwendung re-                      Care Compunetics 3, 121:279–290, 2006.
präsentiert, so dass der Anwender die Möglichkeit hat neue           [4] M. Dugas. Missing Semantic Annotation in Databases.
Formulare zu importieren, ähnliche Formulare oder Teilfrag-               The Root Cause for Data Integration and Migration
mente mithilfe einer explorativen Suchfunktion zu ermitteln.               Problems in Information Systems. Methods of
Der Anwender soll durch die Eingabe eines Suchterms die                    Information in Medicine, 53(6):516–517, 2014.
Möglichkeit haben, die Menge der Formulare mittels der                [5] P. Indyk and R. Motwani. Approximate nearest
Annotationen weiter einzugrenzen. Ein Ansatz für eine ex-                 neighbors: Towards removing the curse of
plorative Suche mittels einer Tag-Cloud ist in eTACTS [9]                  dimensionality. In Proceedings of the Thirtieth Annual
realisiert. Des Weiteren soll eine Sicht für die Verifikation             ACM Symposium on Theory of Computing, STOC ’98,

                                                                 64
     pages 604–613, New York, NY, USA, 1998. ACM.
 [6] T. Kirsten, A. Gross, M. Hartung, and E. Rahm.
     GOMMA: a component-based infrastructure for
     managing and analyzing life science ontologies and
     their evolution. Journal of Biomedical Semantics, 2(6),
     2011.
 [7] A. J. Kirtane, A. Gupta, S. Iyengar, J. W. Moses,
     M. B. Leon, R. Applegate, B. Brodie, E. Hannan,
     K. Harjai, L. O. Jensen, et al. Safety and efficacy of
     drug-eluting and bare metal stents comprehensive
     meta-analysis of randomized trials and observational
     studies. Circulation, 119(25):3198–3206, 2009.
 [8] H. J. Lowe and G. O. Barnett. Understanding and
     using the medical subject headings (MeSH)
     vocabulary to perform literature searches. Journal of
     the American Medical Association (JAMA),
     271(14):1103–1108, 1994.
 [9] R. Miotto, S. Jiang, and C. Weng. eTACTS: A
     method for dynamically filtering clinical trial search
     results. Journal of Biomedical Informatics,
     46(6):1060–1067, 2013.
[10] E. Rahm. Towards Large-Scale Schema and Ontology
     Matching. In Z. Bellahsene, A. Bonifati, and E. Rahm,
     editors, Schema Matching and Mapping, Data-Centric
     Systems and Applications, pages 3–27. Springer Berlin
     Heidelberg, 2011.
[11] P. Shvaiko and J. Euzenat. A survey of schema-based
     matching approaches. In Journal on Data Semantics
     IV, pages 146–171. Springer, 2005.
[12] C. Xiao, W. Wang, X. Lin, and J. X. Yu. Efficient
     similarity joins for near duplicate detection. In
     Proceedings of the 17th International Conference on
     World Wide Web, WWW ’08, pages 131–140, New
     York, NY, USA, 2008. ACM.


                                                               65

</pre>