Segmentierung von Risikostrukturen der Otobasis für die minimal- invasive multi-port Chirurgie M. Becker, M. Kirschner, G. Sakas TU Darmstadt, Graphisch-Interaktive Systeme, Darmstadt Kontakt: meike.becker@gris.tu-darmstadt.de Abstract: Das Forschungsprojekt MUKNO untersucht einen minimal-invasiven multi-port Ansatz für Operationen an der Otobasis. Eine der größten Herausforderungen dabei besteht darin, die verschiedenen Risikostrukturen wie Gesichts- nerv oder Blutgefäße nicht zu verletzen. Daher ist die Segmentierung dieser anatomischen Strukturen in Bilddaten für die Operationsplanung ein essentieller Schritt. Hierbei sind die geringe Größe der Strukturen, deren hohe Variabilität in Form und Intensität, sowie deren geringer Kontrast eine Herausforderung. Um das „Auslaufen“ der Segmentierung in benachbarte Strukturen zu verhindern und die fehlende Bildinformation zu kompensieren, wird Vorwissen eingesetzt. In dieser Arbeit stellen wir einen Ansatz zur Segmentierung der Risikostrukturen Cochlea, Bogengänge, innere Hals- schlagader und Gesichtsnerv in Computertomographiedaten durch ein Probabilistic Active Shape Model vor. Wir testen unseren Ansatz durch Kreuzvalidierung auf 20 bis 42 Computertomographiedatensätzen (je nach Struktur). Die Ergeb- nisse zeigen eine gute Umrandung der oben genannten Strukturen. Schlüsselworte: Active Shape Model, Segmentierung, minimal-invasive Chirurgie, Otobasis 1 Problemstellung Bei Eingriffen an der Otobasis ist die Schonung von Risikostrukturen wie Gesichtsnerv oder Blutgefäße eine der größ- ten Herausforderungen. Bisher ist der Eingriff stark traumatisch und es werden alle Risikostrukturen freigelegt, um ihre Unversehrtheit sicherzustellen. Das Forschungsprojekt MUKNO untersucht einen minimal-invasiven multi-port Ansatz für Eingriffe an der Otobasis. Hierbei sollen nur noch bis zu drei dünne Bohrkanäle von der Schädeloberfläche bis zum Operationsgebiet gebohrt werden mit dem Ziel, die Traumatisierung zu minimieren. In diesem Fall kann der Arzt die Risikostrukturen nicht mehr zur Orientierung verwenden, weshalb eine Planung der Bohrkanäle basierend auf Compu- tertomographiedaten (CT-Daten) und eine entsprechende Navigation während des Bohrvorgangs nötig ist. Der erste Schritt hierbei ist die Segmentierung der Risikostrukturen, womit wir uns in dieser Arbeit beschäftigen. Dabei gibt es folgende Herausforderungen: Neben der geringen Größe haben einige anatomische Strukturen eine hohe Variabilität in Form und Bildintensität sowie geringen Kontrast zur Umgebung. Beispielsweise hat die innere Hals- schlagader teilweise keine sichtbare Abgrenzung zu benachbarten Strukturen in CT-Daten. Deshalb sind einfache pixel- basierte Verfahren wie Thresholding oder Regiongrowing nicht einsetzbar, wenn man keine hohe Fehlerquote oder auf- wendige manuelle Korrektur in Kauf nehmen möchte. Bessere Ergebnisse versprechen wir uns durch modellbasierte Ansätze. Im Vergleich zur Viszeralchirurgie, wo man eine Fülle von Segmentierungspublikationen finden kann, gibt es nur weni- ge modellbasierte Forschungsarbeiten zur Segmentierung von Strukturen der Otobasis. Voormolen et al. [1] präsentieren einen Ansatz für den Gesichtsnerv mit manueller Initialisierung durch Vorgabe des Start- und Endpunktes. Sie segmen- tieren die Mittellinie des Gesichtsnervs mit Active Appearance Models und legen anschließend eine tubuläre Sicher- heitszone um die Mittellinie mit einem benutzerdefinierten Radius. Noble et al. haben verschiedene Ansätze entwickelt: Sie präsentieren einen atlas-basierten Ansatz für Cochlea, Bogengänge, Ossikel und äußeren Gehörgang [2]. Um spezi- ell die Skala tympani und Skala vestibuli der Cochlea zu extrahieren, verwenden sie ein Active Shape Model, welches auf Micro CT-Daten trainiert wird [3]. Schließlich haben sie einen graph-basierten Ansatz für tubuläre Strukturen ent- wickelt, mit dem sie den Gesichtsnerv, die Chorda sowie die innere Halsschlagader segmentieren [4]. Das Active Shape Model [5] ist ein schnelles und genaues Segmentierungsverfahren, welches häufig und erfolgreich für medizinische Bilddaten eingesetzt wird. Das Probabilistic Active Shape Model (PASM) [6] ist eine Erweiterung dieses Ansatzes, welche eine flexiblere und spezifischere Segmentierung erlaubt. In dieser Arbeit stellen wir unseren Ansatz zur Segmentierung der Risikostrukturen Cochlea, Bogengänge, innere Halsschlagader und Gesichtsnerv in CT-Daten mit Hilfe des PASM vor. Genauer gesagt wird dabei nicht die Struktur selbst, sondern der in den CT-Daten sichtbare 208 knöcherne Kanal segmentiert. Wir testen unseren Ansatz durch Kreuzvalidierung auf 20 bis 42 CT-Datensätzen (je nach Struktur). 2 Material und Methoden Das Active Shape Model [5] verwendet Vorwissen in Form eines statistischen Formmodells (SSM), welches die durch- schnittliche Form einer Struktur sowie ihre Variabilität kodiert. Durch dieses Vorwissen wird das Auslaufen in benach- barte Strukturen reduziert bzw. verhindert. Für die Segmentierung wird zunächst die Durchschnittsform in das Bild platziert. Dann wird diese entsprechend der Features im Bild (wie z. B. Intensität oder Gradient) deformiert. Anschlie- ßend wird die deformierte Form wieder auf eine Form beschränkt, die plausibel im Sinne des gelernten SSM ist. Der Schritt der Deformation und der Beschränkung auf plausible Formen wird iteriert. Das Probablistic Active Shape Model (PASM) [6] ist eine Erweiterung des Active Shape Models, welche eine flexiblere und spezifischere Segmentierung er- laubt. Im Folgenden werden die einzelnen Schritte des PASM kurz erläutert, für Details verweisen wir auf [5] und [6]. Das SSM wird anhand einer Menge T von Trainingsformen gelernt. Dabei wird jede Form i, d. h. jede anatomische Struktur, durch einen Vektor xi dargestellt, der die aneinander gehängten 3D-Koordinaten der Punkte auf der Oberfläche dieser Struktur enthält. In einem ersten Schritt muss die Korrespondenz zwischen den |T| Vektoren erstellt werden, d. h. der k-te Eintrag (= k-ter 3D Punkt) in xi muss jeweils dem gleichen anatomischen Merkmal über alle Trainingsformen entsprechen. Dazu wird ein nicht-rigider Meshregistrierungsalgorithmus verwendet. Nach der Korrespondenzerstellung werden die Eigenvektoren der Trainingsmenge berechnet, sodass jede Form durch die Durchschnittsform plus einer Li- nearkombination der Eigenvektoren approximiert werden kann. Der Algorithmus wird initialisiert, indem die Durchschnittsform des SSM in das zu segmentierende Bild platziert wird. Da das PASM ein lokales Suchverfahren ist, muss die Initialisierung ausreichend gut sein. Für die Mehrheit der Struktu- ren initialisieren wir das PASM durch Bestimmung der minimalen Boundingbox der Struktur. Dies kann durch manuel- les Anklicken von sechs Punkten in den CT-Schichten erfolgen, die jeweils die minimale und maximale Ausdehnung in jede der drei Raumrichtungen markieren. Aufgrund der tubularen und gekrümmten Form des Gesichtsnervs, ist die Boundingbox hier als Initialisierung nicht ausreichend. Daher gibt der Arzt stattdessen drei Punkte durch Klicken in die Schicht des CT-Bildes vor: am Beginn des mastoidalen Segments, sowie am äußeren und am inneren Facialisknie. Die Punkte werden jeweils auf der Mittellinie des Gesichtsnervs gewählt. Nach der Initialisierung wird die Durchschnittsform möglichst gut an das Bild angepasst. Zunächst werden für jeden Punkt auf der Kontur der aktuellen Form (d. h. im ersten Schritt die Durchschnittsform) mehrere Punkte entlang der Oberflächennormalen abgetastet. Die Samples werden mit einem KNN-Klassifizierer, der aus der Trainingsmenge ge- lernt wurde, in Hintergrund und Vordergrund klassifiziert. Daraus wird ein Fitnesswert für die Samples berechnet und die aktuelle Form entsprechend deformiert. Für die anschließende Beschränkung der Formen verwendet das PASM (ebenso wie andere Ansätze) einen Energie- minimierungsansatz. Die Energie ist dabei wie folgt definiert: E(x) = α (EBild(x) + ELokal(x)) + EForm(x), wobei der Para- meter α die Energien gewichtet. Die Bildenergie EBild forciert eine gute Anpassung der Kontur an das Bild und die Energie ELokal(x) sorgt lokal für eine glatte Kontur, da man annehmen kann, dass Organe glatt sind. Die Formenergie EForm bestraft schließlich die Abweichungen von dem Formmodell. Als Fehlermaße verwenden wir die auf der euklidischen Distanz basierenden Maße Average Symmetric Surface Distan- ce dASSD sowie die maximale Distanz dmax. Sei M die Menge der Punkte, die auf der Oberfläche der manuellen Segmen- tierung liegen und S die Menge der Punkte auf der Oberfläche der Segmentierung des PASM. Wir definieren: 3 Ergebnisse Die 42 CT-Daten, die für die Evaluation zur Verfügung standen, haben eine durchschnittliche Voxelgröße (VG) von 0.18 x 0.18 x 0.38 mm3. Für jeden Datensatz haben wir von unseren klinischen Partnern manuell segmentierte Struktu- ren. Diese n Datensätze verwenden wir zum einen zum Trainieren des SSM und des lokalen Appearance Models und zum anderen als Ground Truth zur Evaluierung des PASM. Zur Validierung verwenden wir die einfache Kreuzvalidie- rung, d. h. wir trainieren das Modell auf n-1 Daten und testen den Algorithmus auf dem verbleibenden einen Datensatz. Dies wird n-1 mal wiederholt, sodass auf jedem Datensatz einmal getestet wurde. Wir haben eine unterschiedliche Anzahl von Datensätzen für die verschiedenen Strukturen verwendet: Grund dafür ist, dass die Daten von zwei unterschiedlichen Personen segmentiert wurden und dadurch die manuellen Segmentierungen nicht immer exakt konsistent sind. Bei der inneren Halsschlagader haben wir nur 22 Daten zum Training und Testen verwendet, da bei der Hälfte der Daten nur der Strukturteil mit gutem Kontrast segmentiert wurde und damit nur die Hälfte der Struktur vorlag. Dies führt bei unserem Trainingsalgorithmus jedoch zu Problemen, da dadurch die Struktu- 209 ren zu unterschiedlich sind, um eine gute Korrespondenz zu erstellen: die Hälfte der Halsschlagader passt eben nicht zu der gesamten Halsschlagader. Wir haben das Problem pragmatisch gelöst, indem wir die 22 Datensätze verwendet ha- ben, bei denen die gesamte innere Halsschlagader vorlag. Ähnlich wurde bei der Cochlea der Übergang zu den Bogen- gängen, wo es keinen Kontrast gibt, nicht immer einheitlich eingezeichnet, weshalb wir hier ebenfalls nur 20 Datensätze verwendet haben. Wir haben verschiedene Parametersettings mit der einfachen Kreuzvalidierung getestet. Die besten quantitativen Ergebnisse sind in Tabelle 1 abgebildet. Es wurde auf einem Standard Desktop PC (64-bit Windows 7, In- tel Core i7 3770k, 3.5 GHz, 4 Kerne, 32 GB RAM) getestet. dASSD (in mm) dmax (in mm) Anzahl Daten Zeit (in s) Mittelwert SD Mittelwert SD Mittelwert Cochlea 0.10 0.03 1.08 0.22 20 8 Bogengänge 0.10 0.03 1.17 0.44 42 104 Gesichtsnerv 0.24 0.10 2.07 0.82 42 122 Innere Halsschlagader 0.29 0.09 2.42 0.77 22 166 Tabelle 1: Quantitative Ergebnisse des Probabilistic Active Shape Model im Vergleich zur manuellen Segmentierung. Mittelwert und Standardabweichung (SD) der Average Symmetric Surface Distance dASSD und des maximalen Fehlers dmax über die getesteten Daten sind angegeben. In Abbildung 1 sind Beispiele für die qualitativen Ergebnisse der Cochlea und des Gesichtsnervs abgebildet. Abbildug 1: Beispiele für die Segmentierung der Cochlea sowie des Gesichtsnervs als 3D Modell. Von links nach rechts ist ein Beispiel mit größtem, mittlerem und kleinstem maximalen Fehler abgebildet. Die manuelle Segmentierung ist in rot und das Ergebnis des PASM in grün dargestellt. Ganz rechts ist jeweils eine Schicht der CT-Daten der Segmentierung des PASMs mit mittlerem maximalen Fehler abgebildet. 4 Diskussion In Abschnitt 3 haben wir die Ergebnisse des Probabilistic Active Shape Model präsentiert. Es fällt dabei auf, dass die quantitativen Ergebnisse eine gute Average Symmetric Surface Distance aufweisen, jedoch der maximale Fehler ver- gleichsweise groß ist. Bei der Cochlea entsteht der maximale Fehlerwert am Übergang zu den Bogengängen, wo es kei- nen Kontrast gibt (s. Abb. 1). Hier weichen die Kontur von PASM und manueller Segmentierung voneinander ab, da die Kontur schwer eindeutig zu definieren ist. Der maximale Fehler liegt folglich für unseren Anwendungsfall in keinem kritischen Bereich. Ebenso liegt bei der inneren Halsschlagader der maximale Fehler an Start und Ende vor, wo eben- falls kein Kontrast vorhanden ist. Der Gesichtsnerv ist durch seine hohe Variabilität in Form und Intensität, geringem Kontrast sowie dem umgebenden schwammartigen Knochen, die am schwierigsten zu segmentierende Struktur. Der größte Fehler entsteht am Beginn des Gesichtsnervs (im mastoidalen Segment). In den CT-Daten ist nicht erkennbar, wo der Gesichtsnerv unten beginnt und hier wird vom PASM in der Regel deutlich weiter segmentiert (s. Abb. 1). Am äuße- ren Facialisknie weicht die Segmentierung auch in einigen Fällen von der manuellen Segmentierung ab, da es auch hier 210 wenig Kontrast gibt. Es bleibt zu untersuchen, wie kritisch diese Abweichung ist. Bewertet man die Ergebnisse visuell, so sieht man im Allgemeinen eine gute Segmentierung der Risikostrukturen. Ein direkter Vergleich der Ergebnisse mit den Resultaten von Noble et al. oder Voormolen et al. ist schwierig, da wir nicht auf den gleichen Daten trainiert und getestet haben. Vergleicht man die quantitativen Werte dennoch, so erzielen wir bei Cochlea und Bogengängen einen besseren dASSD-Wert und einen ähnlichen globalen maximalen Fehler wie Nob- le et al. [2], sie haben jedoch schlechter aufgelöste Daten (Noble: dASSD = 0.42 mm, max(dmax) = 2.62 mm, VG = 0.352 x 0.4 mm3). Bei der inneren Halsschlagader haben wir einen kleineren dASSD - Wert und einen ähnlichen mittleren maxi- malen Fehler, wobei wir deutlich kleinere Voxelgrößen haben (Noble: dASSD ≈ 0.75 mm, dmax ≈ 2.6 mm, VG = 12 x 1.5 mm3) [4]. Wir haben hier keine exakten Angaben, da die Werte von einem Graph abgelesen sind. Mögliche Gründe für den relativ großen maximalen Fehler bei unseren Segmentierungen sind oben erläutert. Für den Gesichtsnerv haben Voormolen et al. [1] deutlich bessere Werte (dmax = 0.42 mm, VG = 0.312 x 1 mm3), segmentieren allerdings auch nur die Mittellinie des Gesichtsnervs. Im Vergleich zu Noble et al. [4] erreichen wir bei dem Gesichtsnerv einen ähnlichen dASSD - Wert, erhalten jedoch einen größeren maximalen Fehler (Noble: dASSD ≈ 0.2 mm, dmax ≈ 0.75 mm, VG = 0.32 x 0.4 mm3). Dies könnte wie oben beschrieben zum einen daran liegen, dass das PASM in vielen Fällen am Anfang des Ge- sichtsnervs deutlich weiter segmentiert als die manuelle Segmentierung (s. Abb. 1). Zum anderen betrachten wir auch den Teil hinter dem äußeren Facialisknie, was eine weitere Herausforderung darstellt. Momentan beschäftigen wir uns mit der Segmentierung der Chorda tympani, der Ossikel sowie des inneren und äußeren Gehörgangs. Ferner ist es interessant, die bisherigen Segmentierungen intensiver zu untersuchen, z. B. eine gemeinsame Fehlerbestimmung für Cochlea und Bogengänge durchzuführen und eine Untersuchung der Abhängigkeit der Gesichtsnervsegmentierung von der Initialisierung. Um den Algorithmus weiter zu automatisieren, ist eine robuste De- tektion der Boundingbox der Strukturen wünschenswert. 5 Zusammenfassung Das Forschungsprojekt MUKNO untersucht einen minimal-invasiven multi-port Ansatz für Operationen an der Otobasis. Ein wichtiger Schritt dabei ist die Segmentierung der Risikostrukturen. In dieser Arbeit haben wir einen An- satz zur Segmentierung der Risikostrukturen Cochlea, Bogengänge, innere Halsschlagader und Gesichtsnerv in CT- Daten mit dem Probabilistic Active Shape Model präsentiert. Die Kreuzvalidierung auf bis zu 42 Daten zeigt eine gute Umrandung der Risikostrukturen. 6 Danksagungen Wir danken unseren klinischen Partnern der HNO-Klinik des Universitätsklinikums Düsseldorf für die manuelle Seg- mentierung der Datensätze. Das Projekt wurde gefördert von der Deutschen Forschungsgemeinschaft: FOR 1585; FE 431/13-1. 7 Referenzen [1] E. H. J. Voormolen et al., Determination of a facial nerve safety zone for navigated temporal bone surgery, Neu- rosurgery, 70(1 Suppl Operative) 50-60 (2012). [2] J. H. Noble, R. F. Labadie, O. Majdani, B. M. Dawant, Automatic Identifcation and 3D Rendering of Temporal Bone Anatomy, Otology & Neurotology, 30(4) 436-442 (2009). [3] J. H. Noble, B. M. Dawant, F. M. Warren, R. F. Labadie, Automatic segmentation of intracochlear anatomy in conventional CT, IEEE Transactions on Biomedical Engineering, 58(9) 2625-2632 (2011). [4] J. H. Noble, B. M. Dawant, A new approach for tubular structure modeling and segmentation using graph-based techniques, MICCAI 2011, LNCS 6893, 305-312, Springer, Berlin Heidelberg, (2011) [5] T. F. Cootes, C. J. Taylor, D. H. Cooper, J. Graham, Active shape models - their training and Application, Comput. Vis. Image Underst., 61(1) 38-59 (1995) [6] M. Kirschner, S. Wesarg, Active Shape Models Unleashed, Proceedings of SPIE, 7962(11) 1-9 (2011) 211