=Paper= {{Paper |id=Vol-1366/paper12.pdf |storemode=property |title=Annotation und Management heterogener medizinischer Studienformulare |pdfUrl=https://ceur-ws.org/Vol-1366/paper12.pdf |volume=Vol-1366 |dblpUrl=https://dblp.org/rec/conf/gvd/Christen15 }} ==Annotation und Management heterogener medizinischer Studienformulare== https://ceur-ws.org/Vol-1366/paper12.pdf
     Annotation und Management heterogener medizinischer
                      Studienformulare

                                                            Victor Christen
                                               Institut für Informatik, Universität Leipzig
                                              christen@informatik.uni-leipzig.de


ABSTRACT                                                                   eine einheitliche und strukturierte Repräsentation zu ermög-
Medizinische Formulare werden für die Dokumentation in-                   lichen werden die Formulare mit Konzepten von standardi-
nerhalb der klinischen Forschung oder der Dokumentation                    sierten Vokabularen wie z.B. Ontologien annotiert [4]. Onto-
von Patientendaten verwendet. Es existiert eine Vielzahl ver-              logien sind in der Biomedizin für die Anreicherung von Real-
schiedener Formulare, die für verschiedene Nutzungszwecke                 weltobjekten weit verbreitet. Die Gene Ontology (GO) wird
bzw. Anwendungen erstellt werden. Aufgrund der resultie-                   verwendet, um die Funktionen von Genen und Proteinen zu
renden Heterogenität ist eine Vergleichbarkeit, eine studien-             beschreiben, mithilfe der Medical Subject Headings (MeSH)
übergreifende Analyse oder eine effiziente Suche nicht oh-                [8] Ontologie werden wissenschaftliche Publikationen anno-
ne weiteres möglich. Um die Interoperabilität der Anwen-                 tiert, und durch die Annotation mit Konzepten der SNO-
dungen, die auf der Auswertung von Formularen basieren,                    MED CT Ontologie [3] ist eine strukturierte und einheit-
zu erhöhen, ist eine einheitliche Annotation von medizini-                liche Verwaltung von Patientendaten möglich. Das UMLS
schen Formularen mittels einer medizinischen Wissensba-                    [1] repräsentiert eine biomedizinische Wissensbasis, die mehr
sis hilfreich. Eine solche Wissensbasis ist das Unified Me-                als 100 biomedizinische Ontologien integriert, wie z.B. SNO-
dical Language System(UMLS), welches biomedizinisch re-                    MED CT, National Cancer Institute Thesaurus(NCIT) oder
levante Konzepte umfasst. Diese Arbeit befasst sich mit der                MeSH und umfasst ∼ 2.8 Millionen Konzepte. Die verschie-
semi-automatischen Annotation von Studienformularen. Ba-                   denen Anwendungsfälle zeigen das Potential für die Verein-
sierend auf einem allgemeinen Matching-Workflow, werden                    fachung der semantischen Suche und der Datenintegration
weitere Lösungsansätze präsentiert, um die Besonderheiten               durch die Annotation von Realweltobjekten mittels der Kon-
der Annotation von Studienformularen zu behandeln.                         zepte von Ontologien. Die Annotation von Formularen hat
                                                                           folgenden Mehrwert:
Keywords: semantische Annotationen, medizinische For-
mulare, klinische Studien, UMLS                                               • Studienübergreifende Analysen Eine studienüber-
                                                                                greifende Analyse umfasst Studien mit einer ähnlichen
1.    EINLEITUNG                                                                Thematik. Die Identifikation ähnlicher Studien ist mit-
Medizinische Formulare werden verwendet, um Patientenda-                        hilfe der annotierten Formulare bzgl. der Studien effi-
ten und resultierende Daten innerhalb einer klinischen Stu-                     zient und effektiv durchführbar. Ein Beispiel für ei-
die zu dokumentieren. So werden Studienformulare für die                       ne studienübergreifende Analyse ist der Vergleich der
Rekrutierung der Probanden der jeweiligen Studien verwen-                       Wirksamkeit und Sicherheit von medikamentbeschich-
det, indem die Ein- und Ausschlusskriterien definiert wer-                      teten Stents und unbeschichteten Stents für Herzkranz-
den. Momentan sind ∼ 180000 Studien auf                                         gefäße [7]. Bei dieser Analyse wurden 9470 Patien-
http://clinicaltrials.gov registriert, wobei jede Studie                        ten von 22 randomisierten kontrollierten Studien und
eine Menge von Case Report Forms (CRF) umfasst, um die                          182901 Patienten von 34 Beobachtungsstudien betrach-
notwendigen Daten zu dokumentieren. Im Allgemeinen wer-                         tet. Bei der Auswertung der Daten müssen die Antwor-
den Formulare einer Studie neu erstellt ohne bereits existie-                   ten der Fragen der Formulare integriert werden. Die
rende Formulare wieder zu verwenden.                                            Annotationen der Formulare können für den Integrati-
                                                                                onsprozess verwendet werden, indem initial durch die
Aufgrund der hohen Anzahl heterogener Formulare ist ei-                         Annotationen ähnliche Items identifiziert werden. Die
ne studienübergreifende Analyse oder der Datenaustausch                        Daten, die die ähnlichen Items betreffen, werden durch
komplex und nicht ohne weiteres effizient realisierbar. Um                      weitere Integrationsschritte vereinheitlicht, so dass ei-
                                                                                ne Analyse möglich ist.
                                                                              • Erstellung von Formularen Bisher werden Formu-
                                                                                lare mit ihren Items für eine durchzuführende Studie
                                                                                neu erstellt. Die Erstellung eines Formulars ist ein auf-
                                                                                wändiger Prozess, da z.B. eine unscharfe Formulierung
                                                                                der Ein- und Ausschlusskriterien zu einer mögl. Menge
27th GI-Workshop on Foundations of Databases (Grundlagen von Daten-             an Probanden führt, die für die Studie nicht vorgese-
banken), 26.05.2015 - 29.05.2015, Magdeburg, Germany.
Copyright is held by the author/owner(s).                                       hen waren. Durch die Identifikation bereits annotier-
                                                                                te Formulare, die der Thematik der durchzuführenden

                                                                      60
                      Items                        Assoziierte UMLS Konzepte               Jedoch unterscheiden sich Formulare und Ontologien dahin-
 Patients with established CRF (1) as an         1 C0022661 Kidney Failure, Chronic
 indication for the treatment (2) of
                                           yes
                                                 2 C0039798 therapeutic aspects
                                                                                           gehend, dass Formulare nicht formal strukturiert sind und
 anemia (3)
                                           no
                                                 3 C0002871 Anemia                         aufgrund der besseren Verständlichkeit einen höheren Frei-
                                                            Recombinant                    textanteil beinhalten. Die bisherigen Ontologie-Matching Ver-
                                                 1 C0376541
 Patients who have had prior recombinant                    Erythropoietin                 fahren unterstützen nur unzureichend das Matching von En-
                                           yes
 erythropoietin (1) treatment whose              2 C0002871 Anemia
 anemia (2) had never responded (3)        no               Absent response to             titäten mit einem hohen Freitextanteil sowie die Erkennung
                                                 3 C0438286
                                                            treatment                      von n:m Korrespondenzen.
 Ulcerating plaque (1)                     yes 1    C0751634 Carotid Ulcer

                                                                                           Das Ziel unserer Forschung ist die Verbesserung der Qualität
                                                                                           der Annotationen. Des Weiteren soll ein Formular Manage-
Figure 1: Beispiel für die Annotation der Items eines                                     ment System (FMS) realisiert werden, das die Verwaltung
Formulars mit Konzepten des UMLS                                                           der Formulare, Ontologien und der berechneten Annotatio-
                                                                                           nen ermöglicht. Das FMS soll zusätzlich das Annotations-
                                                                                           verfahren beinhalten sowie Funktionalitäten für die Suche,
       Studie entsprechen oder ähneln, können ähnliche Items                            Analyse und Verifikation der Annotationen von Formula-
       bei der Erstellung des neuen Formulars wiederverwen-                                ren bereitstellen. Für die Verbesserung der Qualität der An-
       det werden.                                                                         notationen und der Effizienz der Verfahren sollen folgende
                                                                                           Aspekte betrachtet werden.
Ein Formular besteht aus einer Menge von Items. Ein Item
umfasst eine Frage und die dazugehörigen Antwortmöglich-                                    • Identifikation von signifikanten Termen und zu-
keiten. Eine Antwort hat einen Datentyp wie z.B. Boolean                                        sammengehörigen Einheiten Die Fragen innerhalb
oder String, bei Freitextantworten, oder kann durch einen                                       eines Formulars sind in natürlicher Sprache formuliert.
vordefinierten Bereich wie z.B. das Alter von 0 bis 140 oder                                    Jedoch sind die Konzepte von Ontologien in einer kom-
eine vorgegebene Menge, die z.B. die möglichen Sympto-                                         pakten Form beschrieben und auf die relevanten Ter-
me definiert, eingeschränkt werden. Bei der Annotation ei-                                     me beschränkt. Somit ist es notwendig innerhalb ei-
nes medizinischen Formulars wird jedem Item eine Menge                                          ner Frage die signifikanten Terme zu identifizieren. Des
von Konzepten des UMLS zugeordnet, so dass diese seman-                                         Weiteren kann eine Frage aus mehreren semantischen
tisch beschrieben sind. Ein Beispiel für die Annotation eines                                  Einheiten bestehen, die jeweils durch ein Konzept be-
Formulars für die Ein- und Ausschlusskriterien einer Stu-                                      schrieben werden. Aufgrund dessen ist es notwendig
die bzgl. Blutarmut ist in Abb. 1 dargestellt. Das Beispiel                                     diese Wortgruppen zu identifizieren.
verdeutlicht die Komplexität der automatischen Identifika-
tion von Annotationen, da z.B. wie in Frage 1 signifikante                                    • Wiederverwendung von annotierten Formula-
Wortgruppen zu einem Konzept korrespondieren oder die                                           ren Da das UMLS eine hohe Anzahl von Konzepten
Frage 3 ein Synonym enthält bzgl. des korrespondierenden                                       umfasst, ist die vollständige Berechnung des kartesi-
Konzepts.                                                                                       schen Produkts bzgl. aller Fragen eines Formulars sehr
                                                                                                zeitintensiv. Durch die Verwendung bereits annotierter
Die Medical Data Models Plattform bietet bereits Möglich-                                      Items ist es möglich, die zeitliche Komplexität zu re-
keiten für die Erstellung, die Analyse, den Austausch und                                      duzieren, indem zu dem unannotierten Item ähnliche,
die Wiederverwendung von Formularen in einem zentralen                                          bereits annotierte Items ermittelt werden. Die assozi-
Metadaten Repository [2]. Aktuell umfasst das Repository                                        ierten Konzepte der annotierten Items sind Kandida-
mehr als 9000 Versionen von medizinischen Formularen und                                        ten für die Annotation des unannotierten Items.
über 300000 Items. Um die semantische Heterogenität zu re-                                  • Erweiterte Selektionsstrategien Beim Ontologie-
duzieren, werden die Formulare mit Konzepten des UMLS                                           Matching wird ein Mapping generiert, wobei durch
annotiert. Die Annotation der Formulare ist im MDM bisher                                       Top-k Selektionsstrategien die Korrespondenzen basie-
nur manuell durchführbar und somit sind viele Formulare                                        rend auf einer berechneten Ähnlichkeit selektiert wer-
nicht bzw. unvollständig annotiert, da dieser Prozess sehr                                     den. Da eine Frage durch mehrere Konzepte beschrie-
zeitintensiv ist.                                                                               ben werden kann, die Konzepte jedoch nicht ähnlich
                                                                                                sind, sind solche Selektionsstrategien nicht effektiv. Auf-
Die automatische Annotation von Formularen ist thematisch                                       grund dessen sind komplexere Selektionsstrategien er-
verwandt mit dem Ontologie-Matching, das eine Menge von                                         forderlich, die n:m Korrespondenzen berücksichtigen.
Korrespondenzen, Mapping genannt, zwischen den Konzep-
ten von zwei oder mehreren Ontologien generiert. Dabei re-                                    • Verifikationsverfahren Mithilfe eines Expertenkon-
präsentiert eine Korrespondenz eine semantische Ähnlich-                                      sortiums soll die Qualität der Annotationen innerhalb
keit zwischen zwei Konzepten. Bei der Annotation von For-                                       des FMS durch die unterstützte manuelle Verifikati-
mularen werden ebenfalls Korrespondenzen ermittelt, wobei                                       on der ermittelten Annotationen erhöht werden. Des
eine Korrespondenz zwischen einem Item und einem Kon-                                           Weiteren ist es möglich, dass ein Experte weitere An-
zept ist, welches das Item semantisch beschreibt. Auf dem                                       notationen vorschlagen kann. Zusätzlich soll ein Veri-
Gebiet des Ontologie-Matchings existieren eine Vielzahl von                                     fizierungsverfahren realisiert werden, welches die Wi-
Verfahren [11], die eine effiziente und effektive Generierung                                   derspruchsfreiheit und die Minimalität der assoziierten
eines Ontologie-Mappings realisieren, wie z.B. GOMMA [6].                                       Konzepte mit berücksichtigt. So ist z.B. eine Menge
Aufgrund dessen werden Ansätze des Ontologie-Matchings                                         von Annotationen nicht korrekt, wenn zwei Konzepte
für die Annotation von Studienformularen verwendet, wie                                        innerhalb dieser Menge als disjunkt definiert sind, dass
z.B. diverse String-Matchverfahren oder Blocking-Techniken.                                     heißt diese zwei Konzepte besitzen keine gemeinsamen

                                                                                      61
       Instanz. Ein Annotations-Mapping ist nicht minimal,                     Input       Preprocessing     Mapping     Postprocessing      Output
                                                                                                            Generation
       wenn zwei Konzepte dieselbe Thematik beschreiben.                   Menge von
                                                                                                            Matching:
                                                                                                                          Annotation
                                                                                                                          Selektion:
                                                                           Formularen     Normalisierung:                                 Menge von
       Mithilfe der is a-Hierarchie und den Disjunktheitsbe-                 𝐹1 . . 𝐹𝑛      POS tagging,      TF-IDF,       Group-        Annotation
                                                                                                             Trigram,        based
       ziehungen innerhalb einer Ontologie sind solche Kon-                                Tokenisierung,
                                                                                                              LCS …        filtering,
                                                                                                                                          -mappings
                                                                                                                                           ℳ𝐹1,𝑈𝑀𝐿𝑆
                                                                               UMLS         encoding,...
       flikte identifizierbar und durch die Anwendung von                                                                 Threshold,          …
                                                                                                                                …          ℳ𝐹𝑛 ,𝑈𝑀𝐿𝑆
       Auflösungsstrategien zu beheben.

     • Reduktion der Vergleiche im Annotationspro-                                       Figure 2: Annotations-Workflow
       zess Aufgrund der hohen Anzahl der Konzepte bei
       Ontologien ist es sinnvoll die Anzahl der Vergleiche im
       Annotationsprozess einzuschränken, um eine hohe Effi-             den Namen und den Synonymen der Konzepte. Der gene-
       zienz zu erzielen. Es existieren bereits Verfahren, die ei-        relle Workflow für die automatische Annotation ist in Abb.
       ne Reduktion der Vergleiche ermöglichen wie z.B. Län-            2 dargestellt. Die Eingabe ist eine Menge von Formularen
       genfilter, PPJoin[12] oder Locality Sensitive Hashing              {F1 , F2 , ..., Fn }, das U M LS und die Ausgabe ist eine Men-
       (LSH) [5]. Als Ziel unserer Forschung sollen ähnliche             ge von Annotations-mappings
       Verfahren in den Annotationsprozess integriert werden              {MF1 ,U M LS , MF2 ,U M LS , ..., MFn ,U M LS }. Zu Beginn wer-
       bzw. neue Verfahren realisiert werden.                             den im Preprocessing Schritt die Fragen bzw. Attribute der
                                                                          Konzepte normalisiert. Konkret, werden alle nicht relevan-
                                                                          ten Wörter entfernt, dazu gehören Präpositionen, Verben
Es wurde begonnen ein automatisches Verfahren für die An-                und Stoppwörter, die mithilfe eines Part-of-speech Taggers
notation von Formularen zu implementieren. Die Realisie-                  ermittelt werden. Des Weiteren werden alle Tokens klein ge-
rung eines basalen Workflows und erste Erweiterungen wur-                 schrieben. Um eine effiziente Mapping-Generierung zu er-
den in einer eingereichten Publikation Annotating Medical                 möglichen werden alle Tokens und Trigramme der Attribute
                                        ”
Forms using UMLS“ beschrieben. Die Ergebnisse verdeutli-                  der Fragen eines Formulars bzw. eines Konzepts enkodiert.
chen die Schwierigkeiten der automatischen Annotation und
die Vielfalt der Arten von Formularen. So werden für Formu-              Im Schritt Mapping-Generation wird eine Menge von Tupeln
lare bzgl. der Qualitätssicherung von medizinischen Geräten             der Form (q, cui, sim) durch den Vergleich der Fragen mit
gute Resultate erzielt, wohingegen die Qualität der Annota-              den Attributen der UMLS Konzepten generiert. Der Ver-
tionen für Formulare bzgl. der Ein- und Ausschlusskriterien              gleich kann durch verschiedene Match-Verfahren realisiert
von Studien ausbaufähig ist.                                             werden wie z.B. Trigramm, TF/IDF oder Longest Common
                                                                          Substring (LCS). Bei einem naiven Ansatz wird das kartesi-
Der Aufbau dieser Arbeit ist wie folgt gegliedert. In Ab-                 sche Produkt bzgl. der Menge der Fragen und der Menge der
schnitt 2 wird das Problem der Annotation von Formularen                  Konzepte berechnet, jedoch kann durch Pruning-Techniken
formal definiert. Der basale Workflow für die Identifikation             oder partitionsbasiertes Matching die Anzahl der durchzu-
der Annotationen ist in Abschnitt 3 erläutert. In Abschnitt 4            führenden Vergleiche reduziert werden [10].
werden die zu realisierenden Erweiterungen für den definier-
ten Workflow vorgestellt, um die Qualität der Annotationen               In der Postprocessing Phase wird das Mapping durch die
zu verbessern und die Effizienz des Verfahrens zu erhöhen. In            Anwendung von Aggregations- und Selektionsstrategien ge-
Abschnitt 5 wird konzeptionell die Architektur eines FMS                  neriert. Im Allgemeinen wird eine Mindestähnlichkeit δ für
für medizinische Formulare und ihre Annotationen vorge-                  eine Korrespondenz gefordert, damit diese als korrekt ange-
stellt. In Abschnitt 6 wird die Arbeit zusammengefasst.                   sehen wird. Da es sich um einen semi-automatischen Prozess
                                                                          handelt, werden die identifizierten Annotationen durch einen
2.     PROBLEMDEFINITION                                                  Experten verifiziert.
Das Ziel der semi-automatischen Annotation eines Formu-
lars F ist die Bestimmung eines Annotations-Mappings M                    4.     ANSÄTZE ZUR ERWEITERUNG
zwischen den Fragen F = {q1 , q2 , ...qk } des Formulars und                     DES BASIS-WORKFLOWS
den Konzepten U M LS = {cui1 , cui2 , ...cuin } des UMLS.
                                                                          Aufgrund der Besonderheiten bzgl. der Annotation von For-
Eine Annotation stellt eine Assoziation zwischen einer Fra-
                                                                          mularen, werden im Folgenden die Schwierigkeiten bzgl. des
ge und einem Konzept des UMLS dar, wobei eine Frage mit
                                                                          Annotationsprozesses beschrieben und mögliche Lösungsan-
mehreren Konzepten annotiert sein kann. Dabei ist ein Kon-
                                                                          sätze erläutert.
zept durch einen Concept Unique Identifier CUI eindeutig
identifizierbar und wird durch Attribute wie z.B. einen Na-
                                                                          Vorkommen natürlicher Sprache Im Gegensatz zu On-
men oder Synonyme beschrieben. Ein Annotations-Mapping
                                                                          tologien, bei denen die Attribute der Konzepte in einer kom-
MF,U M LS ist formal definiert als:
                                                                          pakten Repräsentation dargestellt sind, enthält eine Frage
MF,U M LS = {(q, cui, sim)|q ∈ F ∧ cui ∈ U M LS ∧ sim ∈
                                                                          einen hohen Anteil an Freitext.
[0, 1]}. Dabei ist sim ein numerischer Wert, der die Ähnlich-
keit zwischen einer Frage q und einem Konzept cui reprä-
                                                                          Ein möglicher Ansatz ist die Identifikation der Schlüssel-
sentiert.
                                                                          wörter, die die Frage charakterisieren und ein Konzept des
                                                                          UMLS darstellen. Aufgrund des Vorkommens von Synony-
3.     BASIS-WORKFLOW                                                     men innerhalb einer Frage, die nicht in einem Konzept des
Unser Ansatz für die Identifikation von Korrespondenzen ba-              UMLS erfasst sind, ist es nicht möglich durch Stringähnlich-
siert auf der Berechnung von Stringähnlichkeitsmaßen zwi-                keiten solche Korrespondenzen zu identifizieren. Ein Ansatz
schen den Fragen der Items und den Attributen, wie z.B.                   ist die Verwendung eines Synonymwörterbuchs, das es er-

                                                                     62
laubt alle Tokens innerhalb einer Frage und eines Konzepts                        Bitposition   0   1   2   3   4   5   6   7   8   9   10 11 12 13
durch einen Identifier zu ersetzen. Mithilfe des Identifiers             P0    cui1,cui2,cui3   0   0   1   0   0   1   0   1   0   0   1   0   1   0
werden Synonyme als gleich angesehen, obwohl die String-
                                                                         P1    cui4,cui5,cui6   1   0   1   1   0   0   0   0   0   1   0   1   0   0
ähnlichkeit gering ist. Das Synonymwörterbuch kann entwe-
der durch externe Web-services generiert werden oder durch                    Question q        0   1   1   0   0   0   0   0   0   0   1   0   0   0
bereits verifizierte Annotationen erstellt werden.                                                                                                      |q ˄ P0|
                                                                                q ˄ P0          0   0   1   0   0   0   0   0   0   0   1   0   0   0      |𝑞|
                                                                                                                                                                 =2/3

 Komplexe Mappings: Im Gegensatz zu Ontologie-Mappings,                         q ˄ P1          0   0   1   0   0   0   0   0   0   0   0   0   0   0
                                                                                                                                                        |q ˄ P1|
                                                                                                                                                                 =1/3
                                                                                                                                                           |𝑞|
die im Allgemeinen aus 1:1 Korrespondenzen zwischen den
Konzepten bestehen, werden komplexe Fragen in Formu-
laren durch mehrere Konzepte inhaltlich beschrieben. Um                 Figure 3: Beispiel für die Reduktion der Vergleiche
solche komplexen Korrespondenzen zu identifizieren, sind                mittels Partitionierung und der Repräsentation als
die herkömmlichen Selektionsstrategien wie z.B. die Selekti-           Bitliste von Trigrammen
on der Korrespondenz mit der maximalen Ähnlichkeit oder
Top-k nicht ausreichend. Für die Bestimmung dieser Kor-
respondenzen sind komplexe Selektionsstrategien oder ent-               tion h erstellt wird, eine geforderte relative Überlappung
sprechende Vorverarbeitungsschritte sinnvoll. Im Folgenden              min overlap[0, 1] erzielt. Die Berechnung der Überlappung
wird eine Selektionsstrategie und eine mögliche Vorverarbei-           entspricht der AND-Bitoperation. Die relative Überlappung
tung erläutert.                                                        rel overlap ist der Quotient aus der Anzahl der Überlap-
                                                                        pung und der Anzahl der gesetzten Bits der Frage. Somit
Bei der komplexen Selektionsstrategie werden die Korre-                 wird die Anzahl der Vergleiche für eine Frage auf die An-
spondenzen eines berechneten Mappings gefiltert, indem al-              zahl der Konzepte beschränkt, die eine Mindestähnlichkeit
le berechneten korrespondierenden Konzepte zu einer Fra-                bzgl. der Trigramme aufweisen.
ge bzgl. ihrer Ähnlichkeit gruppiert werden und pro Gruppe
das Konzept als korrekt angesehen wird, welches die höchste            Ein Beispiel ist in Abb. 3 dargestellt, dabei wird die Menge
Ähnlichkeit sim zu der Frage aufweist. Alle anderen Konzep-            der Konzepte U M LS example = {cui1, cui2, ...cui6} und
te der Gruppe werden aus dem Mapping MF,U M LS entfernt.                eine Frage q betrachtet. Die gegebene Menge wird auf die
Dieser Ansatz ist bereits realisiert und in der eingereichten           Partitionen P0 und P1 aufgeteilt. Dabei bilden die Trigram-
Publikation vorgestellt.                                                me der Konzepte cui1, cui2 und cui3 mittels einer Hash-
                                                                        funktion h auf die Bitpositionen 2, 5, 7, 10, 12 ab. Analog
Des Weiteren sind komplexe Korrespondenzen identifizier-                wird der Bitlistenvektor für die Partition P1 und die Frage
bar, wenn die Frage bzgl. ihres Inhalts separiert wird. Eine            q erstellt. Die relative Überlappung der Bitlisten der Frage
Wortgruppe oder Teilmenge der Frage repräsentiert dabei                q und der Partition P0 ist 23 und für P1 13 . Bei einer gefor-
eine semantische Einheit und wird zu einem Konzept ge-                  derten relativen Überlappung min overlap = 0.5 wird der
matcht. Die Identifikation solcher Gruppen ist beispielsweise           Vergleich zwischen der Frage und den Konzepten cui4, cui5
durch Named Entity Recognition (NER) Verfahren realisier-               und cui6 nicht durchgeführt, da die relative Überlappung
bar oder durch eine statistische Erhebung von häufig auftre-           rel overlap = 13 ist.
tenden Kookkurrenzen innerhalb einer Menge von Formula-
ren.                                                                    Jedoch ist die Reduktion abhängig von der Effektivität der
                                                                        Partitionierung, so dass im ungünstigen Fall die Konzepte
 Größe der Datenquellen Das UMLS umfasst ∼ 2.8 Mio.                    aller Partitionen verglichen werden müssen, wenn die Bit-
Konzepte, wohingegen ein Formular im Schnitt 50 Fragen                  listen eine hohe Überlappung untereinander aufweisen. Auf-
enthält. Wenn man 100 Formulare annotiert, bedeutet dies,              grund dessen, ist eine qualitative Partitionierung bzgl. der
dass 14 Milliarden Vergleiche durchzuführen sind. Um einen             Ähnlichkeit der Konzepte essentiell. Eine qualitativhochwer-
effizienten automatischen Annotationsprozess zu realisieren             tige berechnete Partitionierung ist unabhängig von den zu
ist es deshalb notwendig unnötige Vergleiche zu vermeiden.             annotierenden Formularen, so dass diese für eine Vielzahl
                                                                        von Formularen einsetzbar ist.
Ein Ansatz zur Reduktion der Vergleiche ist die Verwendung
von Bitlisten. Dabei wird das UMLS in Partitionen aufge-                5.      ARCHITEKTUR EINES FORMULAR
teilt. Bei der Partitionierung werden alle Konzepte bzgl.                       MANAGEMENT SYSTEMS (FMS)
ihres Namens sortiert und einer Partition mit einer fixen
                                                                        Es ist geplant, ein Managementsystem zu realisieren, das
Partitionsgröße (z.B. 100) zugeordnet. Alle Trigramme des
                                                                        die Formulare, Ontologien und die dazugehörigen Annota-
Namens und der Synonyme eines Konzepts werden mittels
                                                                        tionen verwaltet. Das FMS soll die Möglichkeit bieten For-
einer Hashfunktion h auf eine Bitposition einer Bitliste der
                                                                        mulare strukturiert zu suchen, ermittelte Annotationen zu
Länge l abgebildet. Die Trigramme werden tokenweise für
                                                                        verifizieren und neue Formulare zu annotieren. Das Mana-
das jeweilige Attribut erzeugt. Eine Bitlistenlänge l = 27000
                                                                        gementsystem soll Wissenschaftlern die Möglichkeit bieten,
ist ausreichend, wenn man ausschließlich kleingeschriebene
                                                                        effizient Formulare zu analysieren und passende Formulare
Buchstaben berücksichtigt. Alle Bitlisten der Konzepte einer
                                                                        wiederzuverwenden. Die Architektur umfasst eine Datenhal-
Partition werden durch die OR-Bitoperation zu einer Bitliste
                                                                        tungsschicht, eine Service-Schicht und eine Frontend-Schicht
aggregiert. Die resultierende Bitliste ist ein Repräsentant der
                                                                        in Form einer Webanwendung(siehe Abb. 4).
jeweiligen Partition. Ein Vergleich zwischen einer Frage und
den Konzepten einer Partition wird durchgeführt, wenn der
                                                                        Die Datenhaltungsschicht umfasst die Persistierung der For-
Bitlistenvektor der Frage, der ebenfalls durch die Hashfunk-
                                                                        mulare, Ontologien und der berechneten sowie vorgeschla-

                                                                   63
genen Annotationen durch eine relationale Datenbank. Die                                                      Frontend
Service-Schicht umfasst folgende Module: Import, Annota-                   Form view
                                                                                            Annotation       Explorative         Verification
                                                                                                                                                Import view
                                                                                              view           search view            view
ting, Search, Clustering und Verification.
                                                                                                                    API- Call

                                                                                                              Services
   • Import Mithilfe des Import Moduls sollen Formula-
                                                                             Annotating           Search      Clustering        Verification    Import
     re in das Repository eingepflegt werden, so dass eine
     effiziente Suche bzw. Annotation möglich ist.                                                                 SQL

   • Annotating Das Annotating-Modul ermöglicht die An-                                                    Form -Repository

     notation der Formulare des Repositories mit gewähl-                                 Forms            Ontologies           Annotations
     ten Ontologien. Des Weiteren sollen bereits annotierte
     Fragen verwendet werden, um unbekannte Fragen zu
     annotieren. Diesbezüglich ist ein Suchverfahren inner-                           Figure 4: Architektur eines FMS
     halb des Search-Moduls notwendig, welches ähnliche
     Fragen oder Fragmente zu einer gegebenen Frage bzw.
     Fragments identifiziert. Die Annotationen der identifi-          bereitgestellt werden, die Experten erlaubt einzelne Anno-
     zierten Fragen sind mit hoher Wahrscheinlichkeit eben-           tationen zu bewerten.
     falls Annotationen für die gegebene Frage. Mithilfe der
     Wiederverwendung bereits existierender Annotationen              6.     ZUSAMMENFASSUNG
     wird der Vergleich mit dem kompletten UMLS vermie-               Annotationen sind für die Beschreibung und einheitliche Re-
     den.                                                             präsentation von Formularen essentiell. Durch die Verwen-
   • Search Um eine strukturierte Suche nach ähnlichen               dung von Annotationen wird der Datenaustausch, die Inte-
     Formularen oder Fragen zu ermöglichen, umfasst das              gration von Daten der zugrundeliegenden Formulare und die
     Search-modul eine Komponente, die basierend auf den              Suche vereinfacht. Um einen effektiven und effizienten Anno-
     Annotationen und der Eingabe einer Menge von Schlüs-            tationsprozess zu realisieren, sind die bisherigen Methoden
     selwörtern eine explorative Suche nach den gewünsch-           des Ontologie-Matching nicht ausreichend. In dieser Arbeit
     ten Formularen bzw. Fragen ermöglicht. Des Weiteren             wurde der generelle Workflow für die semi-automatische An-
     soll dieses Modul eine Komponente umfassen, die eine             notation vorgestellt sowie Lösungsansätze präsentiert, die
     effiziente Suche nach ähnlichen Fragen ermöglicht. Ein         die Besonderheiten der Annotation von Formularen behan-
     naiver Ansatz wäre die Erstellung einer invertierten            deln. Um den Nutzen der Allgemeinheit zur Verfügung zu
     Liste bzgl. der Token oder Wortgruppen einer Frage,              stellen, wurde konzeptionell die Architektur eines Formu-
     um für eine unbekannte Frage, die ähnlichsten Fragen           lar Management Systems dargestellt, welches die Möglich-
     zu ermitteln.                                                    keit bietet neben der Annotation, Formulare oder Fragen
                                                                      basierend auf den Annotationen zu suchen oder zu analysie-
   • Clustering Des Weiteren kann die Effizienz der Su-               ren. Aufgrund des automatischen Annotationprozesses soll
     che durch eine Clusterung der Formulare bzw. Fra-                im Gegensatz zur MDM-Plattform die Vielzahl der Formu-
     gen erhöht werden. In diesem Modul sollen Clustering-           lare annotiert sein. Da jedoch ein automatisches Verfahren
     Verfahren bereitgestellt werden, die basierend auf den           keine vollständige Korrektheit gewährleisten kann, soll mit-
     Annotationen eine Gruppierung der Formulare und Fra-             hilfe einer Verification-Komponente ein Expertenkonsortium
     gen ermöglichen.                                                für die Verifikation mit einbezogen werden.

   • Verification Da ein automatisches Verfahren keine                7.     REFERENCES
     vollständige Korrektheit gewährleisten kann, soll die-          [1] O. Bodenreider. The Unified Medical Language
     ses Modul die Bewertung von Experten in den Quali-                    System (UMLS): integrating biomedical terminology.
     tätssicherungsprozess bzgl. der Annotationen mit ein-                Nucleic Acids Research, 32(suppl 1):D267–D270, 2004.
     beziehen. Ein Experte soll in der Lage sein berechne-
                                                                       [2] B. Breil, J. Kenneweg, F. Fritz, et al. Multilingual
     te Annotationen zu bewerten oder zu ergänzen. Somit
                                                                           medical data models in ODM format–a novel
     soll eine stetige Verbesserung der Qualität der Anno-
                                                                           form-based approach to semantic interoperability
     tationen im System erzielt werden. Des Weiteren soll
                                                                           between routine health-care and clinical research. Appl
     mithilfe der verifizierten Annotationen die Effektivi-
                                                                           Clin Inf, 3:276–289, 2012.
     tät und Effizienz des Annotationsprozesses mittels der
                                                                       [3] K. Donnelly. SNOMED-CT: The Advanced
     Wiederverwendung erhöht werden.
                                                                           Terminology and Coding System for eHealth. Studies
                                                                           in Health Technology and Informatics–Medical and
Die Frontend-Schicht wird durch eine Webanwendung re-                      Care Compunetics 3, 121:279–290, 2006.
präsentiert, so dass der Anwender die Möglichkeit hat neue           [4] M. Dugas. Missing Semantic Annotation in Databases.
Formulare zu importieren, ähnliche Formulare oder Teilfrag-               The Root Cause for Data Integration and Migration
mente mithilfe einer explorativen Suchfunktion zu ermitteln.               Problems in Information Systems. Methods of
Der Anwender soll durch die Eingabe eines Suchterms die                    Information in Medicine, 53(6):516–517, 2014.
Möglichkeit haben, die Menge der Formulare mittels der                [5] P. Indyk and R. Motwani. Approximate nearest
Annotationen weiter einzugrenzen. Ein Ansatz für eine ex-                 neighbors: Towards removing the curse of
plorative Suche mittels einer Tag-Cloud ist in eTACTS [9]                  dimensionality. In Proceedings of the Thirtieth Annual
realisiert. Des Weiteren soll eine Sicht für die Verifikation             ACM Symposium on Theory of Computing, STOC ’98,

                                                                 64
     pages 604–613, New York, NY, USA, 1998. ACM.
 [6] T. Kirsten, A. Gross, M. Hartung, and E. Rahm.
     GOMMA: a component-based infrastructure for
     managing and analyzing life science ontologies and
     their evolution. Journal of Biomedical Semantics, 2(6),
     2011.
 [7] A. J. Kirtane, A. Gupta, S. Iyengar, J. W. Moses,
     M. B. Leon, R. Applegate, B. Brodie, E. Hannan,
     K. Harjai, L. O. Jensen, et al. Safety and efficacy of
     drug-eluting and bare metal stents comprehensive
     meta-analysis of randomized trials and observational
     studies. Circulation, 119(25):3198–3206, 2009.
 [8] H. J. Lowe and G. O. Barnett. Understanding and
     using the medical subject headings (MeSH)
     vocabulary to perform literature searches. Journal of
     the American Medical Association (JAMA),
     271(14):1103–1108, 1994.
 [9] R. Miotto, S. Jiang, and C. Weng. eTACTS: A
     method for dynamically filtering clinical trial search
     results. Journal of Biomedical Informatics,
     46(6):1060–1067, 2013.
[10] E. Rahm. Towards Large-Scale Schema and Ontology
     Matching. In Z. Bellahsene, A. Bonifati, and E. Rahm,
     editors, Schema Matching and Mapping, Data-Centric
     Systems and Applications, pages 3–27. Springer Berlin
     Heidelberg, 2011.
[11] P. Shvaiko and J. Euzenat. A survey of schema-based
     matching approaches. In Journal on Data Semantics
     IV, pages 146–171. Springer, 2005.
[12] C. Xiao, W. Wang, X. Lin, and J. X. Yu. Efficient
     similarity joins for near duplicate detection. In
     Proceedings of the 17th International Conference on
     World Wide Web, WWW ’08, pages 131–140, New
     York, NY, USA, 2008. ACM.




                                                               65