Problemstellung

Segmentierung von Risikostrukturen der Otobasis für die minimal- invasive multi-port Chirurgie

M. Becker

M. Kirschner

G. Sakas

TU Darmstadt

Graphisch-Interaktive Systeme

Darmstadt

Schlüsselworte: Active Shape Model, Segmentierung, minimal-invasive Chirurgie, Otobasis

208 211

Das Forschungsprojekt MUKNO untersucht einen minimal-invasiven multi-port Ansatz für Operationen an der Otobasis. Eine der größten Herausforderungen dabei besteht darin, die verschiedenen Risikostrukturen wie Gesichtsnerv oder Blutgefäße nicht zu verletzen. Daher ist die Segmentierung dieser anatomischen Strukturen in Bilddaten für die Operationsplanung ein essentieller Schritt. Hierbei sind die geringe Größe der Strukturen, deren hohe Variabilität in Form und Intensität, sowie deren geringer Kontrast eine Herausforderung. Um das „Auslaufen“ der Segmentierung in benachbarte Strukturen zu verhindern und die fehlende Bildinformation zu kompensieren, wird Vorwissen eingesetzt. In dieser Arbeit stellen wir einen Ansatz zur Segmentierung der Risikostrukturen Cochlea, Bogengänge, innere Halsschlagader und Gesichtsnerv in Computertomographiedaten durch ein Probabilistic Active Shape Model vor. Wir testen unseren Ansatz durch Kreuzvalidierung auf 20 bis 42 Computertomographiedatensätzen (je nach Struktur). Die Ergebnisse zeigen eine gute Umrandung der oben genannten Strukturen.

Problemstellung

knöcherne Kanal segmentiert. Wir testen unseren Ansatz durch Kreuzvalidierung auf 20 bis 42 CT-Datensätzen (je nach Struktur). 2

Material und Methoden

Das Active Shape Model [5] verwendet Vorwissen in Form eines statistischen Formmodells (SSM), welches die durchschnittliche Form einer Struktur sowie ihre Variabilität kodiert. Durch dieses Vorwissen wird das Auslaufen in benachbarte Strukturen reduziert bzw. verhindert. Für die Segmentierung wird zunächst die Durchschnittsform in das Bild platziert. Dann wird diese entsprechend der Features im Bild (wie z. B. Intensität oder Gradient) deformiert. Anschließend wird die deformierte Form wieder auf eine Form beschränkt, die plausibel im Sinne des gelernten SSM ist. Der Schritt der Deformation und der Beschränkung auf plausible Formen wird iteriert. Das Probablistic Active Shape Model (PASM) [6] ist eine Erweiterung des Active Shape Models, welche eine flexiblere und spezifischere Segmentierung erlaubt. Im Folgenden werden die einzelnen Schritte des PASM kurz erläutert, für Details verweisen wir auf [5] und [6]. Das SSM wird anhand einer Menge T von Trainingsformen gelernt. Dabei wird jede Form i, d. h. jede anatomische Struktur, durch einen Vektor xi dargestellt, der die aneinander gehängten 3D-Koordinaten der Punkte auf der Oberfläche dieser Struktur enthält. In einem ersten Schritt muss die Korrespondenz zwischen den |T| Vektoren erstellt werden, d. h. der k-te Eintrag (= k-ter 3D Punkt) in xi muss jeweils dem gleichen anatomischen Merkmal über alle Trainingsformen entsprechen. Dazu wird ein nicht-rigider Meshregistrierungsalgorithmus verwendet. Nach der Korrespondenzerstellung werden die Eigenvektoren der Trainingsmenge berechnet, sodass jede Form durch die Durchschnittsform plus einer Linearkombination der Eigenvektoren approximiert werden kann.

Der Algorithmus wird initialisiert, indem die Durchschnittsform des SSM in das zu segmentierende Bild platziert wird. Da das PASM ein lokales Suchverfahren ist, muss die Initialisierung ausreichend gut sein. Für die Mehrheit der Strukturen initialisieren wir das PASM durch Bestimmung der minimalen Boundingbox der Struktur. Dies kann durch manuelles Anklicken von sechs Punkten in den CT-Schichten erfolgen, die jeweils die minimale und maximale Ausdehnung in jede der drei Raumrichtungen markieren. Aufgrund der tubularen und gekrümmten Form des Gesichtsnervs, ist die Boundingbox hier als Initialisierung nicht ausreichend. Daher gibt der Arzt stattdessen drei Punkte durch Klicken in die Schicht des CT-Bildes vor: am Beginn des mastoidalen Segments, sowie am äußeren und am inneren Facialisknie. Die Punkte werden jeweils auf der Mittellinie des Gesichtsnervs gewählt.

Nach der Initialisierung wird die Durchschnittsform möglichst gut an das Bild angepasst. Zunächst werden für jeden Punkt auf der Kontur der aktuellen Form (d. h. im ersten Schritt die Durchschnittsform) mehrere Punkte entlang der Oberflächennormalen abgetastet. Die Samples werden mit einem KNN-Klassifizierer, der aus der Trainingsmenge gelernt wurde, in Hintergrund und Vordergrund klassifiziert. Daraus wird ein Fitnesswert für die Samples berechnet und die aktuelle Form entsprechend deformiert.

Für die anschließende Beschränkung der Formen verwendet das PASM (ebenso wie andere Ansätze) einen Energieminimierungsansatz. Die Energie ist dabei wie folgt definiert: E(x) = α (EBild(x) + ELokal(x)) + EForm(x), wobei der Parameter α die Energien gewichtet. Die Bildenergie EBild forciert eine gute Anpassung der Kontur an das Bild und die Energie ELokal(x) sorgt lokal für eine glatte Kontur, da man annehmen kann, dass Organe glatt sind. Die Formenergie EForm bestraft schließlich die Abweichungen von dem Formmodell.

Als Fehlermaße verwenden wir die auf der euklidischen Distanz basierenden Maße Average Symmetric Surface Distance dASSD sowie die maximale Distanz dmax. Sei M die Menge der Punkte, die auf der Oberfläche der manuellen Segmentierung liegen und S die Menge der Punkte auf der Oberfläche der Segmentierung des PASM. Wir definieren: 3

Ergebnisse

Die 42 CT-Daten, die für die Evaluation zur Verfügung standen, haben eine durchschnittliche Voxelgröße (VG) von 0.18 x 0.18 x 0.38 mm3. Für jeden Datensatz haben wir von unseren klinischen Partnern manuell segmentierte Strukturen. Diese n Datensätze verwenden wir zum einen zum Trainieren des SSM und des lokalen Appearance Models und zum anderen als Ground Truth zur Evaluierung des PASM. Zur Validierung verwenden wir die einfache Kreuzvalidierung, d. h. wir trainieren das Modell auf n-1 Daten und testen den Algorithmus auf dem verbleibenden einen Datensatz. Dies wird n-1 mal wiederholt, sodass auf jedem Datensatz einmal getestet wurde.

Wir haben eine unterschiedliche Anzahl von Datensätzen für die verschiedenen Strukturen verwendet: Grund dafür ist, dass die Daten von zwei unterschiedlichen Personen segmentiert wurden und dadurch die manuellen Segmentierungen nicht immer exakt konsistent sind. Bei der inneren Halsschlagader haben wir nur 22 Daten zum Training und Testen verwendet, da bei der Hälfte der Daten nur der Strukturteil mit gutem Kontrast segmentiert wurde und damit nur die Hälfte der Struktur vorlag. Dies führt bei unserem Trainingsalgorithmus jedoch zu Problemen, da dadurch die Strukturen zu unterschiedlich sind, um eine gute Korrespondenz zu erstellen: die Hälfte der Halsschlagader passt eben nicht zu der gesamten Halsschlagader. Wir haben das Problem pragmatisch gelöst, indem wir die 22 Datensätze verwendet haben, bei denen die gesamte innere Halsschlagader vorlag. Ähnlich wurde bei der Cochlea der Übergang zu den Bogengängen, wo es keinen Kontrast gibt, nicht immer einheitlich eingezeichnet, weshalb wir hier ebenfalls nur 20 Datensätze verwendet haben. Wir haben verschiedene Parametersettings mit der einfachen Kreuzvalidierung getestet. Die besten quantitativen Ergebnisse sind in Tabelle 1 abgebildet. Es wurde auf einem Standard Desktop PC (64-bit Windows 7, Intel Core i7 3770k, 3.5 GHz, 4 Kerne, 32 GB RAM) getestet.

Cochlea Bogengänge Gesichtsnerv Innere Halsschlagader

In Abschnitt 3 haben wir die Ergebnisse des Probabilistic Active Shape Model präsentiert. Es fällt dabei auf, dass die quantitativen Ergebnisse eine gute Average Symmetric Surface Distance aufweisen, jedoch der maximale Fehler vergleichsweise groß ist. Bei der Cochlea entsteht der maximale Fehlerwert am Übergang zu den Bogengängen, wo es keinen Kontrast gibt (s. Abb. 1). Hier weichen die Kontur von PASM und manueller Segmentierung voneinander ab, da die Kontur schwer eindeutig zu definieren ist. Der maximale Fehler liegt folglich für unseren Anwendungsfall in keinem kritischen Bereich. Ebenso liegt bei der inneren Halsschlagader der maximale Fehler an Start und Ende vor, wo ebenfalls kein Kontrast vorhanden ist. Der Gesichtsnerv ist durch seine hohe Variabilität in Form und Intensität, geringem Kontrast sowie dem umgebenden schwammartigen Knochen, die am schwierigsten zu segmentierende Struktur. Der größte Fehler entsteht am Beginn des Gesichtsnervs (im mastoidalen Segment). In den CT-Daten ist nicht erkennbar, wo der Gesichtsnerv unten beginnt und hier wird vom PASM in der Regel deutlich weiter segmentiert (s. Abb. 1). Am äußeren Facialisknie weicht die Segmentierung auch in einigen Fällen von der manuellen Segmentierung ab, da es auch hier wenig Kontrast gibt. Es bleibt zu untersuchen, wie kritisch diese Abweichung ist. Bewertet man die Ergebnisse visuell, so sieht man im Allgemeinen eine gute Segmentierung der Risikostrukturen.

Ein direkter Vergleich der Ergebnisse mit den Resultaten von Noble et al. oder Voormolen et al. ist schwierig, da wir nicht auf den gleichen Daten trainiert und getestet haben. Vergleicht man die quantitativen Werte dennoch, so erzielen wir bei Cochlea und Bogengängen einen besseren dASSD-Wert und einen ähnlichen globalen maximalen Fehler wie Noble et al. [2], sie haben jedoch schlechter aufgelöste Daten (Noble: dASSD = 0.42 mm, max(dmax) = 2.62 mm, VG = 0.352 x 0.4 mm3). Bei der inneren Halsschlagader haben wir einen kleineren dASSD - Wert und einen ähnlichen mittleren maximalen Fehler, wobei wir deutlich kleinere Voxelgrößen haben (Noble: dASSD ≈ 0.75 mm, dmax ≈ 2.6 mm, VG = 12 x 1.5 mm3) [4]. Wir haben hier keine exakten Angaben, da die Werte von einem Graph abgelesen sind. Mögliche Gründe für den relativ großen maximalen Fehler bei unseren Segmentierungen sind oben erläutert. Für den Gesichtsnerv haben Voormolen et al. [1] deutlich bessere Werte (dmax = 0.42 mm, VG = 0.312 x 1 mm3), segmentieren allerdings auch nur die Mittellinie des Gesichtsnervs. Im Vergleich zu Noble et al. [4] erreichen wir bei dem Gesichtsnerv einen ähnlichen dASSD - Wert, erhalten jedoch einen größeren maximalen Fehler (Noble: dASSD ≈ 0.2 mm, dmax ≈ 0.75 mm, VG = 0.32 x 0.4 mm3). Dies könnte wie oben beschrieben zum einen daran liegen, dass das PASM in vielen Fällen am Anfang des Gesichtsnervs deutlich weiter segmentiert als die manuelle Segmentierung (s. Abb. 1). Zum anderen betrachten wir auch den Teil hinter dem äußeren Facialisknie, was eine weitere Herausforderung darstellt.

Momentan beschäftigen wir uns mit der Segmentierung der Chorda tympani, der Ossikel sowie des inneren und äußeren Gehörgangs. Ferner ist es interessant, die bisherigen Segmentierungen intensiver zu untersuchen, z. B. eine gemeinsame Fehlerbestimmung für Cochlea und Bogengänge durchzuführen und eine Untersuchung der Abhängigkeit der Gesichtsnervsegmentierung von der Initialisierung. Um den Algorithmus weiter zu automatisieren, ist eine robuste Detektion der Boundingbox der Strukturen wünschenswert. 5

Zusammenfassung

Das Forschungsprojekt MUKNO untersucht einen minimal-invasiven multi-port Ansatz für Operationen an der Otobasis. Ein wichtiger Schritt dabei ist die Segmentierung der Risikostrukturen. In dieser Arbeit haben wir einen Ansatz zur Segmentierung der Risikostrukturen Cochlea, Bogengänge, innere Halsschlagader und Gesichtsnerv in CTDaten mit dem Probabilistic Active Shape Model präsentiert. Die Kreuzvalidierung auf bis zu 42 Daten zeigt eine gute Umrandung der Risikostrukturen.

Wir danken unseren klinischen Partnern der HNO-Klinik des Universitätsklinikums Düsseldorf für die manuelle Segmentierung der Datensätze. Das Projekt wurde gefördert von der Deutschen Forschungsgemeinschaft: FOR 1585; FE 431/13-1.