<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Segmentierung von Risikostrukturen der Otobasis für die minimal- invasive multi-port Chirurgie</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>M. Becker</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>M. Kirschner</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>G. Sakas</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>TU Darmstadt</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Graphisch-Interaktive Systeme</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Darmstadt</string-name>
        </contrib>
        <contrib contrib-type="editor">
          <string-name>Schlüsselworte: Active Shape Model, Segmentierung, minimal-invasive Chirurgie, Otobasis</string-name>
        </contrib>
      </contrib-group>
      <fpage>208</fpage>
      <lpage>211</lpage>
      <abstract>
        <p>Das Forschungsprojekt MUKNO untersucht einen minimal-invasiven multi-port Ansatz für Operationen an der Otobasis. Eine der größten Herausforderungen dabei besteht darin, die verschiedenen Risikostrukturen wie Gesichtsnerv oder Blutgefäße nicht zu verletzen. Daher ist die Segmentierung dieser anatomischen Strukturen in Bilddaten für die Operationsplanung ein essentieller Schritt. Hierbei sind die geringe Größe der Strukturen, deren hohe Variabilität in Form und Intensität, sowie deren geringer Kontrast eine Herausforderung. Um das „Auslaufen“ der Segmentierung in benachbarte Strukturen zu verhindern und die fehlende Bildinformation zu kompensieren, wird Vorwissen eingesetzt. In dieser Arbeit stellen wir einen Ansatz zur Segmentierung der Risikostrukturen Cochlea, Bogengänge, innere Halsschlagader und Gesichtsnerv in Computertomographiedaten durch ein Probabilistic Active Shape Model vor. Wir testen unseren Ansatz durch Kreuzvalidierung auf 20 bis 42 Computertomographiedatensätzen (je nach Struktur). Die Ergebnisse zeigen eine gute Umrandung der oben genannten Strukturen.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>Problemstellung</title>
      <p>knöcherne Kanal segmentiert. Wir testen unseren Ansatz durch Kreuzvalidierung auf 20 bis 42 CT-Datensätzen (je nach
Struktur).
2</p>
    </sec>
    <sec id="sec-2">
      <title>Material und Methoden</title>
      <p>Das Active Shape Model [5] verwendet Vorwissen in Form eines statistischen Formmodells (SSM), welches die
durchschnittliche Form einer Struktur sowie ihre Variabilität kodiert. Durch dieses Vorwissen wird das Auslaufen in
benachbarte Strukturen reduziert bzw. verhindert. Für die Segmentierung wird zunächst die Durchschnittsform in das Bild
platziert. Dann wird diese entsprechend der Features im Bild (wie z. B. Intensität oder Gradient) deformiert.
Anschließend wird die deformierte Form wieder auf eine Form beschränkt, die plausibel im Sinne des gelernten SSM ist. Der
Schritt der Deformation und der Beschränkung auf plausible Formen wird iteriert. Das Probablistic Active Shape Model
(PASM) [6] ist eine Erweiterung des Active Shape Models, welche eine flexiblere und spezifischere Segmentierung
erlaubt. Im Folgenden werden die einzelnen Schritte des PASM kurz erläutert, für Details verweisen wir auf [5] und [6].
Das SSM wird anhand einer Menge T von Trainingsformen gelernt. Dabei wird jede Form i, d. h. jede anatomische
Struktur, durch einen Vektor xi dargestellt, der die aneinander gehängten 3D-Koordinaten der Punkte auf der Oberfläche
dieser Struktur enthält. In einem ersten Schritt muss die Korrespondenz zwischen den |T| Vektoren erstellt werden, d. h.
der k-te Eintrag (= k-ter 3D Punkt) in xi muss jeweils dem gleichen anatomischen Merkmal über alle Trainingsformen
entsprechen. Dazu wird ein nicht-rigider Meshregistrierungsalgorithmus verwendet. Nach der Korrespondenzerstellung
werden die Eigenvektoren der Trainingsmenge berechnet, sodass jede Form durch die Durchschnittsform plus einer
Linearkombination der Eigenvektoren approximiert werden kann.</p>
      <p>Der Algorithmus wird initialisiert, indem die Durchschnittsform des SSM in das zu segmentierende Bild platziert wird.
Da das PASM ein lokales Suchverfahren ist, muss die Initialisierung ausreichend gut sein. Für die Mehrheit der
Strukturen initialisieren wir das PASM durch Bestimmung der minimalen Boundingbox der Struktur. Dies kann durch
manuelles Anklicken von sechs Punkten in den CT-Schichten erfolgen, die jeweils die minimale und maximale Ausdehnung in
jede der drei Raumrichtungen markieren. Aufgrund der tubularen und gekrümmten Form des Gesichtsnervs, ist die
Boundingbox hier als Initialisierung nicht ausreichend. Daher gibt der Arzt stattdessen drei Punkte durch Klicken in die
Schicht des CT-Bildes vor: am Beginn des mastoidalen Segments, sowie am äußeren und am inneren Facialisknie. Die
Punkte werden jeweils auf der Mittellinie des Gesichtsnervs gewählt.</p>
      <p>Nach der Initialisierung wird die Durchschnittsform möglichst gut an das Bild angepasst. Zunächst werden für jeden
Punkt auf der Kontur der aktuellen Form (d. h. im ersten Schritt die Durchschnittsform) mehrere Punkte entlang der
Oberflächennormalen abgetastet. Die Samples werden mit einem KNN-Klassifizierer, der aus der Trainingsmenge
gelernt wurde, in Hintergrund und Vordergrund klassifiziert. Daraus wird ein Fitnesswert für die Samples berechnet und
die aktuelle Form entsprechend deformiert.</p>
      <p>Für die anschließende Beschränkung der Formen verwendet das PASM (ebenso wie andere Ansätze) einen
Energieminimierungsansatz. Die Energie ist dabei wie folgt definiert: E(x) = α (EBild(x) + ELokal(x)) + EForm(x), wobei der
Parameter α die Energien gewichtet. Die Bildenergie EBild forciert eine gute Anpassung der Kontur an das Bild und die
Energie ELokal(x) sorgt lokal für eine glatte Kontur, da man annehmen kann, dass Organe glatt sind. Die Formenergie
EForm bestraft schließlich die Abweichungen von dem Formmodell.</p>
      <p>Als Fehlermaße verwenden wir die auf der euklidischen Distanz basierenden Maße Average Symmetric Surface
Distance dASSD sowie die maximale Distanz dmax. Sei M die Menge der Punkte, die auf der Oberfläche der manuellen
Segmentierung liegen und S die Menge der Punkte auf der Oberfläche der Segmentierung des PASM. Wir definieren:
3</p>
    </sec>
    <sec id="sec-3">
      <title>Ergebnisse</title>
      <p>Die 42 CT-Daten, die für die Evaluation zur Verfügung standen, haben eine durchschnittliche Voxelgröße (VG) von
0.18 x 0.18 x 0.38 mm3. Für jeden Datensatz haben wir von unseren klinischen Partnern manuell segmentierte
Strukturen. Diese n Datensätze verwenden wir zum einen zum Trainieren des SSM und des lokalen Appearance Models und
zum anderen als Ground Truth zur Evaluierung des PASM. Zur Validierung verwenden wir die einfache
Kreuzvalidierung, d. h. wir trainieren das Modell auf n-1 Daten und testen den Algorithmus auf dem verbleibenden einen Datensatz.
Dies wird n-1 mal wiederholt, sodass auf jedem Datensatz einmal getestet wurde.</p>
      <p>Wir haben eine unterschiedliche Anzahl von Datensätzen für die verschiedenen Strukturen verwendet: Grund dafür ist,
dass die Daten von zwei unterschiedlichen Personen segmentiert wurden und dadurch die manuellen Segmentierungen
nicht immer exakt konsistent sind. Bei der inneren Halsschlagader haben wir nur 22 Daten zum Training und Testen
verwendet, da bei der Hälfte der Daten nur der Strukturteil mit gutem Kontrast segmentiert wurde und damit nur die
Hälfte der Struktur vorlag. Dies führt bei unserem Trainingsalgorithmus jedoch zu Problemen, da dadurch die
Strukturen zu unterschiedlich sind, um eine gute Korrespondenz zu erstellen: die Hälfte der Halsschlagader passt eben nicht zu
der gesamten Halsschlagader. Wir haben das Problem pragmatisch gelöst, indem wir die 22 Datensätze verwendet
haben, bei denen die gesamte innere Halsschlagader vorlag. Ähnlich wurde bei der Cochlea der Übergang zu den
Bogengängen, wo es keinen Kontrast gibt, nicht immer einheitlich eingezeichnet, weshalb wir hier ebenfalls nur 20 Datensätze
verwendet haben. Wir haben verschiedene Parametersettings mit der einfachen Kreuzvalidierung getestet. Die besten
quantitativen Ergebnisse sind in Tabelle 1 abgebildet. Es wurde auf einem Standard Desktop PC (64-bit Windows 7,
Intel Core i7 3770k, 3.5 GHz, 4 Kerne, 32 GB RAM) getestet.</p>
    </sec>
    <sec id="sec-4">
      <title>Cochlea</title>
    </sec>
    <sec id="sec-5">
      <title>Bogengänge</title>
    </sec>
    <sec id="sec-6">
      <title>Gesichtsnerv</title>
    </sec>
    <sec id="sec-7">
      <title>Innere Halsschlagader</title>
      <p>In Abschnitt 3 haben wir die Ergebnisse des Probabilistic Active Shape Model präsentiert. Es fällt dabei auf, dass die
quantitativen Ergebnisse eine gute Average Symmetric Surface Distance aufweisen, jedoch der maximale Fehler
vergleichsweise groß ist. Bei der Cochlea entsteht der maximale Fehlerwert am Übergang zu den Bogengängen, wo es
keinen Kontrast gibt (s. Abb. 1). Hier weichen die Kontur von PASM und manueller Segmentierung voneinander ab, da die
Kontur schwer eindeutig zu definieren ist. Der maximale Fehler liegt folglich für unseren Anwendungsfall in keinem
kritischen Bereich. Ebenso liegt bei der inneren Halsschlagader der maximale Fehler an Start und Ende vor, wo
ebenfalls kein Kontrast vorhanden ist. Der Gesichtsnerv ist durch seine hohe Variabilität in Form und Intensität, geringem
Kontrast sowie dem umgebenden schwammartigen Knochen, die am schwierigsten zu segmentierende Struktur. Der
größte Fehler entsteht am Beginn des Gesichtsnervs (im mastoidalen Segment). In den CT-Daten ist nicht erkennbar, wo
der Gesichtsnerv unten beginnt und hier wird vom PASM in der Regel deutlich weiter segmentiert (s. Abb. 1). Am
äußeren Facialisknie weicht die Segmentierung auch in einigen Fällen von der manuellen Segmentierung ab, da es auch hier
wenig Kontrast gibt. Es bleibt zu untersuchen, wie kritisch diese Abweichung ist. Bewertet man die Ergebnisse visuell,
so sieht man im Allgemeinen eine gute Segmentierung der Risikostrukturen.</p>
      <p>Ein direkter Vergleich der Ergebnisse mit den Resultaten von Noble et al. oder Voormolen et al. ist schwierig, da wir
nicht auf den gleichen Daten trainiert und getestet haben. Vergleicht man die quantitativen Werte dennoch, so erzielen
wir bei Cochlea und Bogengängen einen besseren dASSD-Wert und einen ähnlichen globalen maximalen Fehler wie
Noble et al. [2], sie haben jedoch schlechter aufgelöste Daten (Noble: dASSD = 0.42 mm, max(dmax) = 2.62 mm, VG = 0.352 x
0.4 mm3). Bei der inneren Halsschlagader haben wir einen kleineren dASSD - Wert und einen ähnlichen mittleren
maximalen Fehler, wobei wir deutlich kleinere Voxelgrößen haben (Noble: dASSD ≈ 0.75 mm, dmax ≈ 2.6 mm, VG = 12 x 1.5
mm3) [4]. Wir haben hier keine exakten Angaben, da die Werte von einem Graph abgelesen sind. Mögliche Gründe für
den relativ großen maximalen Fehler bei unseren Segmentierungen sind oben erläutert. Für den Gesichtsnerv haben
Voormolen et al. [1] deutlich bessere Werte (dmax = 0.42 mm, VG = 0.312 x 1 mm3), segmentieren allerdings auch nur
die Mittellinie des Gesichtsnervs. Im Vergleich zu Noble et al. [4] erreichen wir bei dem Gesichtsnerv einen ähnlichen
dASSD - Wert, erhalten jedoch einen größeren maximalen Fehler (Noble: dASSD ≈ 0.2 mm, dmax ≈ 0.75 mm, VG = 0.32 x 0.4
mm3). Dies könnte wie oben beschrieben zum einen daran liegen, dass das PASM in vielen Fällen am Anfang des
Gesichtsnervs deutlich weiter segmentiert als die manuelle Segmentierung (s. Abb. 1). Zum anderen betrachten wir auch
den Teil hinter dem äußeren Facialisknie, was eine weitere Herausforderung darstellt.</p>
      <p>Momentan beschäftigen wir uns mit der Segmentierung der Chorda tympani, der Ossikel sowie des inneren und äußeren
Gehörgangs. Ferner ist es interessant, die bisherigen Segmentierungen intensiver zu untersuchen, z. B. eine gemeinsame
Fehlerbestimmung für Cochlea und Bogengänge durchzuführen und eine Untersuchung der Abhängigkeit der
Gesichtsnervsegmentierung von der Initialisierung. Um den Algorithmus weiter zu automatisieren, ist eine robuste
Detektion der Boundingbox der Strukturen wünschenswert.
5</p>
    </sec>
    <sec id="sec-8">
      <title>Zusammenfassung</title>
      <p>Das Forschungsprojekt MUKNO untersucht einen minimal-invasiven multi-port Ansatz für Operationen an der
Otobasis. Ein wichtiger Schritt dabei ist die Segmentierung der Risikostrukturen. In dieser Arbeit haben wir einen
Ansatz zur Segmentierung der Risikostrukturen Cochlea, Bogengänge, innere Halsschlagader und Gesichtsnerv in
CTDaten mit dem Probabilistic Active Shape Model präsentiert. Die Kreuzvalidierung auf bis zu 42 Daten zeigt eine gute
Umrandung der Risikostrukturen.</p>
      <p>Wir danken unseren klinischen Partnern der HNO-Klinik des Universitätsklinikums Düsseldorf für die manuelle
Segmentierung der Datensätze. Das Projekt wurde gefördert von der Deutschen Forschungsgemeinschaft: FOR 1585; FE
431/13-1.</p>
    </sec>
  </body>
  <back>
    <ref-list />
  </back>
</article>