Texturextraktion aus endoskopischen Videoaufnahmen für dievirtuelle Endoskopie am Beispiel der Trachea M. Neugebauer¹, R. Gasteiger¹, C. Arens², L. Dornheim¹, B. Preim¹ ¹ Otto-von-Guericke-Universität, Institut für Simulation und Graphik, Magdeburg, Deutschland 2 Universitätsklinikum, Klinik für Hals-, Nasen- und Ohrenheilkunde, Magdeburg, Deutschland Kontakt: mathias.neugebauer@ovgu.de Abstract: Die virtuelle Endoskopie besitzt ein breites Anwendungsspektrum, sei es für die Falldokumentation, Lehrsysteme oder die Planung von Eingriffen. Den Schichtbildern (CT, MR) als Grundlage, liegen aber nur geometrische Informationen ohne qualitative Informationen über die Beschaffenheit der Organwand vor. Am Beispiel der Trachea wurde im Rahmen dieser Arbeit untersucht, wie Texturen aus endoskopischen Videoaufnahmen extrahiert und für die virtuelle Endoskopie genutzt werden können. Als Datengrundlage dienen CT-Schichtbilder und Endoskopie-Videos aus denen das virtuelle Trachea-Modell und die Texturen gewonnen werden. Für die Texturextraktion nutzen wir projektive Texturierung und Textur-Stitching. Neben patientenspezifischen Daten dient ein experimenteller Aufbau zur genaueren Untersuchung des Einflusses von Aufnahme-Parametern. In den vorläufigen Ergebnissen stellt sich die bildbasierte Texturextraktion als vielversprechend dar, der Einsatz spezialisierter Aufnahme-Hardware ist aber wahrscheinlich notwendig, um das Kor- respondenzproblem zwischen Videoaufnahme und 3D-Modell zu lösen. Schlüsselworte: virtuelle Endoskopie, Trachea, Texturierung 1 Problemstellung Bei der virtuellen Endoskopie (VE) wird aus Schichtbildern (z.B. CT oder MR) ein dreidimensionales Modell des be- treffenden Organs (Darm, Trachea, etc.) rekonstruiert. Dann kann an einem Computer mithilfe einer virtuellen Kamera das Organ von innen exploriert werden [1]. Es kann also eine Endoskopie durchgeführt werden, ohne dass der Patient diesem invasiven Eingriff ausgesetzt werden muss. Weiterhin kann das Organ aus Blickwinkeln exploriert werden, die aufgrund räumlicher oder technischer Begrenzungen in einer realen Untersuchung nicht möglich sind. Durch entspre- chende Visualisierungssysteme können Oberflächenbesonderheiten hervorgehoben und zusätzliche Informationen, wie z.B. visuell verdeckte, naheliegende Risikostrukturen, eingeblendet werden. Virtuelle Werkzeuge ermöglichen eine ein- fache Vermessung von Abständen und Größen und wenn die VE mit einem entsprechenden Simulationssystem gekop- pelt ist, können sogar ganze Eingriffe am Computer erprobt werden. Aufgrund dieser vielfältigen Möglichkeiten besitzt die VE ein breites Anwendungsspektrum [2]. Sie kann für die Pati- entenaufklärungen oder für die multimedial erweiterte Falldokumentation genutzt werden. Des Weiteren kann sie im Rahmen von Lehrsystemen für das Training endoskopischer Eingriffe zum Einsatz kommen und zusätzliche Informati- onen für die Therapieplanung und -durchführung liefern [3] [4]. Allerdings hat die klassische VE einen entscheidenden Nachteil. Da als einzige Datenquelle Schichtbilder herangezogen werden, stehen qualitative Informationen über die Beschaffenheit des Organgewebes nur im geringen Maße, meist aber gar nicht zur Verfügung. Am Beispiel der Trachea können z.B. die einzelnen Spangen sehr gut räumlich aus den Schichtbildern rekonstruiert werden, eine Aussage über entzündete Gewebebereiche kann allerdings nicht getroffen werden. Deswegen kann eine VE eine echte Endoskopie weniger ersetzen, sondern durch die oben beschriebenen, zu- sätzlichen Möglichkeiten ergänzen. Ziel dieser Arbeit ist es zu untersuchen, wie aus Filmaufnahmen einer Trachea-Endoskopie Texturen für die Gewebeab- bildung in der VE extrahiert werden können. Die vorgestellten Konzepte zielen dabei auf die Anwendung einer ergän- zenden Falldokumentation (z.B. für eine spätere Diskussion mit Kollegen) und Patientenaufklärung ab. Notwendig da- für ist eine Endoskopie vor dem eigentlichen endoskopischen Eingriff, wor die reale Szene möglichst vollständig auf- genommen wird. Wir konzentrieren uns auf drei übliche Endoskopiewinkel: 0° (in Richtung der Bifurcatio Trachea), 60° (schräg zur Trachea-Wand) und 90° (direkt auf die Trachea-Wand). Ausgehend von diesen Aufnahmen ergeben sich zwei mögliche Texturierungsverfahren: projektive Texturierung und Stitching-Texturen. Parallel zur Untersuchung auf 203 realen Patientendaten wurde ein experimenteller Aufbau geschaffen, der eine genauere Untersuchung des Einflusses verschiedener Aufnahmeparameter auf die Texturqualität erlaubt. 2 Material und Methoden Als Datengrundlage stehen uns CT-Aufnahmen und endoskopische Videos (0°,60°,90°) einer Trachea zur Verfügung. Aus den CT-Schichtbildern muss ein 3D Modell der Trachea rekonstruiert werden. Aus den Filmaufnahmen müssen Frames extrahiert und aufbereitet werden, damit sie für die Texturerzeugung geeignet sind. Dann wird mithilfe der bei- den Texturierungsmethoden ein entsprechend texturiertes 3D Modell für die VE erzeugt. Die Ergebnisse wurden anhand eines Direktvergleichs mit den endoskopischen Filmaufnahmen verglichen. Parallel dazu wurde derselbe Prozess auf einer künstlichen Trachea durchgeführt. Rekonstruktion: Für die Segmentierung der Trachea wird ein Region Growing angewendet. Da sie luftgefüllt ist, weist sie in den CT-Aufnahmen eine homogene Intensität und eine gute Abgrenzung zum umgebenden Gewebe auf. Eine ma- ximal erlaubte Intensitätsabweichung von 1,3% hat sich als gute Parametrisierung erwiesen. Die resultierende Segmen- tierungsmaske wird erweitert (Dilatation mit 3x3 Kernel) und auf den invertierten Original-Datensatz multipliziert. Nun sind nur noch die Trachea und ein kleiner Sicherheitsrand in den Bilddaten vorhanden. Die Bildintensitäten werden zwi- schen 0 und 1 skaliert. Nun kann der Marching Cubes Algorithmus angewendet werden, um aus dem maskierten Bild ein Oberflächenmodell der Trachea zu erzeugen. Ein Iso-Wert von 0.94 liefert ein gutes Ergebnis, mit einer detaillierten Abbildung der Trachea-Spangen (Abb. 1, Mitte). Unerwünscht segmentierte Bereiche (z.B. Mundraum, Bronchialäste) werden in einem 3D-Editor (Blender) mit Standardwerkzeugen entfernt. Video-Aufbereitung: Die zur Verfügung stehenden Videoaufnahmen (Olympus Exera II System, Videoverabeitung: rpScene HD, komprimiert auf 720x544, MP4) bestehen aus Halbbildern, d.h. ein Videoframe besteht aus zwei Bildern, die gerade Scan-Lines aus dem ersten und die ungeraden aus dem zweiten Bild. Dies führt zu horizontalen Streifenarte- fakten. Um einen Video-Frame als Textur nutzbar zu machen, muss ein De-interlacing durchgeführt werden, bei dem die ungeraden Scan-Lines über Interpolation der Farbwerte aufgefüllt werden (Abb. 1, links). Dies wurde mit VirtualDub umgesetzt. Des Weiteren führt die Optik des Endoskops zu einer Kissenverzerrung. Diese wurde über ein Testbild mithilfe eines Bezier-Gitters modelliert. Ein daraus erzeugtes Entzerrungsgitter wird auf alle Frames angewen- det. Abbildung 1: Endoskopie-Frame (links), texturierte, virtuelle Trachea (Mitte), Verzerrungsartefakte und Unschärfe bei projektiver Texturierung (rechts) Projektive Texturierung: Für die projektive Texturierung muss die Ausrichtung und Position der virtuellen Kamera in der virtuellen Trachea der echten Kamera aus den endoskopischen Aufnahmen entsprechen. Für diese korrelierende Ausrichtung wird eine Landmarke benötigt. Dazu können die Bifurcatio Trachea, die Aufspaltung am Ende Trachea, sowie auffällige Spangen genutzt werden. Im aktuellen Verfahren erfolgt die Wahl der Landmarken und die Ausrichtung der virtuellen Kamera manuell. Zwischen den ausgerichteten Kamerapositionen wird linear interpoliert und ggf. weitere Positionen eingefügt, falls die Abweichung zum realen Kamerapfad zu stark ist. Stimmen virtuelles und reales Endoskopiebild überein, wird eine lokale, projektive Parametrisierung erzeugt. Dann wird der aktuelle Video-Frame als Textur verwendet. Die Trachea ist so allerdings nur aus dem aktuellen Blickwinkel visuell korrekt texturiert. Ändert sich der virtuelle Blickwinkel, sieht man deutlich Verzerrungen und falsch texturierte Bereiche (Abb. 1, rechts). Um ei- ne vollständige Texturabdeckung zu erreichen, wird aus weiteren Blickwinkeln lokal projektiv parametrisiert und textu- riert. Die lokalen Texturen werden über manuelles Textur-Painting in eine globale Atlas-Textur mit einer globalen Ober- flächenparametrisierung (Blender: Smart-UV-Project, Feature-Winkel: 66°) überführt. 204 Abbildung. 2: Endoskopie-Frame mit relevantem Ausschnitt (links), Stitching-Textur während Entzerrung (Mitte links), Ausschnitte aus finalem Texturstreifen (Mitte rechts), texturierte Trachea (rechts) Textur-Stitching: Ein weiterer Ansatz ist es, Teile aus den Frames der Endoskopie-Aufnahme auszuschneiden, zu einer Gesamttextur zusammenzufassen und diese dann auf das 3D Modell der Trachea zu übertragen. Pro Frame ist der Teil von Interesse, in dem die Wand detailliert abgebildet ist. Bei 90° Aufnahmen ist es der gesamte Frame. Bei 60°- Aufnahmen, kann aufgrund der perspektivischen Verkürzung entlang der Trachea-Röhre, nur ein peripherer Teil des Frames genutzt werden. Bei 0°-Aufnahmen ist dieser Teil zu klein. Bei der Videoaufnahme wurde das Endoskop lang- sam und gradlinig in die Trachea eingeführt. Bei 60° und 90° Aufnahmen wurde dieser Prozess viermal wiederholt, wo- bei durch 90°-Rotation um die Endoskop-Achse jedes Mal ein anderer Streifen der Tracheawand aufgenommen wurde. Der jeweils interessante Framebereich wird visuell identifiziert und für alle Frames ausgeschnitten (Abb. 2, links). Über ein automatisches RANSAC Image Stitching werden die Ausschnitte zu einem Texturstreifen zusammengefasst. Die perspektivische Verkürzung in den 60°-Aufnahmen sorgt für eine Stitching-Textur bei der jeder neu hinzugefügt Teilab- schnitt größer als der vorherige ist. Deswegen muss der Texturstreifen entsprechend entzerrt werden (ebenfalls durch ein Bezier-Gitter, Abb. 2, Mitte links). Um die Verzerrung zu modellieren, werden Landmarken in die Original- Frameabschnitte manuell eingefügt. Der bearbeitete Texturstreifen kann dann über multiple, projektive Texturierung auf die jeweilige Wandseite der virtuellen Trachea übertragen werden. Dafür wird eine orthographische Projektion verwen- det, deren Blickwinkel zur Wand dem Aufnahmewinkel der Endoskopie entspricht. Experiment: Um genauere Aussagen darüber treffen zu können, wie bestimmte Aufnahmeparameter die Texturqualität beeinflussen, wurde eine künstliche Trachea als zylindrische Röhre modelliert und mit einer Test-Textur ausgekleidet. Die Test-Textur besteht aus drei Bereichen: einem alphanumerisch annotiertem Koordinatengittern (Bereich A), einem Testfotobereich (Bereich B) und einer künstlich erzeugten Gewebetextur (Bereich C). Bereich A dient der Untersuchung der Textur-Verzerrung, Bereich B der Abbildung von Details und Bereich C der Klärung von Problemen, die durch selbstähnliche, detailarme Gewebeschnitte entstehen können. Mit einem Endoskop-Nachbau, der die Fixierung be- stimmter Freiheitsgrade (Rotation, Bewegung) ermöglicht, wurden 0°, 60° und 90°-Aufnahmen angefertigt. Dabei wur- de die Beleuchtung, Schärfe, Bewegungs- und Rotationsgeschwindigkeit der Kamera variiert. 3 Ergebnisse Für die Rekonstruktion standen zwei Trachea-Datensätze zur Verfügung. Beide konnten mit der oben beschriebenen Methode problemlos segmentiert werden. Bei dem ersten Datensatz stellte sich die Trachea mit einem runden Quer- schnitt dar. Dieser entspricht nicht dem Trachea-Querschnitt aus den Videoaufnahmen. Dort wurden immer eine abge- flachte, muskuläre Seite (zur Speiseröhre hin) und ein runder, durch die Spangen stabilisierter Bereich beobachtet. Der zweite Trachea-Datensatz wies diesen charakteristischen Querschnitt auf, allerdings gab es im mittleren Bereich einen Versatz der Schichtbilder. Dies ist auf eine Bewegung des Patienten während der Aufnahme zurückzuführen und führt zu einer deutlich sichtbaren Stufe im rekonstruierten Trachea-Modell. Diese durch Artefakte herbeigeführte, schwache Korrespondenz zwischen virtueller und realer Trachea erschwerte das Herstellen korrespondierender Blickwinkel für die projektiven Texturierung. Nur Teile der Frames konnten über die Platzierung der Kamera in der virtuellen Trachea nachgeahmt werden. Dies war auch nur für die 0°-Aufnahmen mög- lich. Bei den 60°- und 90°-Aufnahmen war zu wenig von der Trachea zu sehen, um die virtuelle Kamera verlässlich auszurichten. Trotzdem konnte aus den 0°-Aufnahmen für einen Teil der Trachea eine flächendeckende Gesamttextur erzeugt werden. Diese war allerdings teilweise stark verzerrt und wies eine deutliche Unschärfe auf. Die Bildqualität der Stitching-Textur war deutlich besser. Allerdings konnte diese nur für 60°- und 90°-Aufnahmen erzeugt werden (Abb. 2, Mitte rechts). Bei 0°-Aufnahmen war der periphere Bildbereich zu klein, um überlagernden Texturteile für das Stitching bereitzustellen. Bei 90°-Aufnahmen wieder zeigten sich verstärkt Glanzartefakte, da das Endoskop-Licht di- rekt auf die feuchte Trachea-Wand schien. Außerdem waren einige Frames sehr unscharf, da die Kamera während der 90°-Aufnahmen zu dicht an die Trachea-Wand geführt wurde. Auch wenn ein größerer Bereich der Wand in der Stitching-Textur sichtbar war, war es nicht immer möglich, ein korrekte Platzierung der Textur auf der virtuellen Tra- 205 chea sicherzustellen. Während die Spangen deutlich im 3D-Modell sowie der Textur hervortraten und eine Ausrichtung ermöglichten, war der muskuläre Bereich sehr glatt, so dass dieser Texturstreifen nicht eindeutig platziert werden konn- te (Abb. 2, rechts). Bei den Experimenten konnten gute Ergebnisse erreicht werden, auch wenn die Kamera schnell bewegt oder nicht fo- kussiert war. Auch die Beleuchtung hatte keinen starken Einfluss auf die Ergebnistextur. Den stärksten Einfluss hatte der Aufnahmewinkel, mit ähnlichen Effekten wie bei den realen Endoskopieaufnahmen. Außerdem stellte die Selbst- ähnlichkeit des alphanumerischen Koordinatengitters und der Gewebetextur ein Problem dar. Beim Stitching wurden nicht benachbarte Teiltexturen falsch zusammengefügt. Dieser Effekt konnte allerdings nicht bei den realen Aufnahmen beobachtet werden. Diese hatten zwar homogen wirkende Bereiche, kleine Gefäße in der Trachea-Wand erlaubten aller- dings trotzdem eine korrekte Texturzuordnung. 4 Diskussion Ausgehend von den vorläufigen Ergebnissen zeigt sich, dass ein vollständig bildbasierter Ansatz auf Basis einer einzel- nen Kamera für die Texturerzeugung nicht zu empfehlen ist. Das größte Problem ist die Korrespondenz zwischen Vi- deoaufnahme und virtueller Trachea. Die Position der Endoskopkamera muss dazu implizit aus den Videoaufnahmen abgeleitet werden. Dies gelingt am besten bei den 0°-Aufnahmen, da diese in jedem Frame einen großen Teil der Tra- chea zeigen. Zusätzlich ist die Bifurkation als wichtige Landmarke in vielen Frames sichtbar. Allerdings sind 0°- Aufnahmen nur für projektives Texturieren geeignet. Da aufgrund der perspektivischen Verkürzung ein kleiner Bildbe- reich aus den Video auf einen vergleichsweise große Wandbereich des virtuellen Modells übertragen wird, ist die Er- gebnistextur unscharf und starke Verzerrungen treten deutlich hervor. Beim Stitching ist die Bildqualität besser, weil die Gesamttextur aus detaillierten Teilbereichen der einzelnen Aufnahmen aufgebaut wird. Allerdings ist es dort trotz einer größeren Textur aufgrund der sich wiederholenden (Spangen) oder nicht vorhandenen (Muskelbereich) Landmarken schwierig, festzustellen, wie die Textur zu platzieren ist. Eine Lösung für das generelle Korrespondenzproblem ist der Einsatz eines Trackingsystems wie z.B. eine Polaris. Entsprechend kalibriert kann sie Informationen über Position und Lage der Kamera zu jedem Video-Frame bereitstellen. Sollte ein solches Tracking-System aufgrund der räumlichen Gegebenheiten im OP-Saal nicht eigensetzt werden können, wäre auch der Einsatz von zwei Endoskopie-Kameras denkbar. Eine 0°-Aufnahme dient zur räumlichen Orientierung und Korrespondenzherstellung, während eine zeitgleich durchgeführte 90°-Aufnahme die detaillierten Texturen liefert. Dies würde auch den Aufnahmeprozess erleichtern und so unscharfen oder fehlenden 90°-Aufnahmen entgegenwirken. Des Weiteren wäre der Einsatz einer Führungsschiene denkbar, um die Abweichung von der Trachea-Mittelachse zu verhindern und den Aufnahmeprozess noch weiter zu er- leichtern. Eine weitere Facette des Korrespondenzproblems ist die geometrische Abweichung zwischen der rekonstruierten und der in den Videoaufnahmen abgebildeten Trachea. Der Patient ist in beiden Aufnahmen in verschiedenen Zuständen, was zu einer veränderten Trachea-Form führen kann. Zusätzlich sind Bewegungsartefakten, die in den Schichtaufnah- men kaum auffallen, deutlich im rekonstruierten Oberflächenmodell der Trachea zu sehen. Somit stammt die aus den Aufnahmen extrahierte Trachea-Textur von einer geometrisch abweichenden Trachea. Dies kann dazu führen, dass die Textur nicht eindeutig platziert werden kann oder das die geometrische Diskrepanz visuelle Artefakte erzeugt und Fehl- interpretationen begünstigt. In diesem Fall wäre es besser, auf patientenindividuelle Geometrie zu verzichten und statt- dessen einen generischen Zylinder anzubieten. Die geometrische Diskrepanz zwischen realer Anatomie und VE- Geometrie wäre leichter nachzuvollziehen. Formvariationen der Trachea-Wand könnten dann nur visuell aus der Textur entnommen werden, was ein Übersehen von Auffälligkeiten begünstigen könnte. Ist der Einsatz patientenindividueller Geometrie zwingend erforderlich, sollte diese nicht aus Schichtbildern, sondern direkt während der Endoskopie gewonnen werden. Diese wäre durch eine zusätzliche, Laser-basierte Tiefenkamera denkbar. Ähnlich wie die Textur könnten die gewonnenen, lokalen Tiefeninformationen zu einem globalen Trachea- Modell zusammengefasst werden. Eine vergleichbare Technik kommt beim KinectFusion-Projekt zu Einsatz, das als Hardware eine Tiefenkamera verwendet. Eine entsprechende Miniaturisierbarkeit der Kameratechniken ist potentiell möglich, wie in Maier-Hein et al. beschrieben [5]. Fazit: Auch wenn bildbasierte Ansätze mit impliziter Positionsbestimmung der Endoskopkamera vielversprechende Er- gebnisse für die VE-Texturierung zeigen, ist die ungenaue Korrespondenz zwischen Videoaufnahme und Trachea- Modell problematisch. Ein Lösungsansatz könnte der Einsatz angepasster Hardware sein, beispielsweise in Form von Tracking-Systemen, multiplen Kameras oder der 3D-Rekonstruktion während der endoskopischen Aufnahme. 5 Referenzen [1] Arno Krüger et al., Sinus endoscopy - application of advanced GPU volume rendering for virtual endoscopy, IEEE Transactions on Visualization and Computer Graphics, 1491-1498, 2008 206 [2] André Neubauer, Stefan Wolfsberger, Virtual endoscopy in neurosurgery: a review, Neurosurgery 72. Supple- ment 1 A97-A106, 2013 [3] Arnulf Ferlitsch, et al., Effect of virtual endoscopy simulator training on performance of upper gastrointestinal endoscopy in patients: a randomized controlled trial, Endoscopy 42.12: 1049, 2010 [4] Junchen Wang, et al., Intravascular catheter navigation using path planning and virtual visual feedback for oral cancer treatment, The International Journal of Medical Robotics and Computer Assisted Surgery 7.2: 214-224, 2011 [5] Maier-Hein et al., Optical techniques for 3D surface reconstruction in computer-assisted laparoscopic surgery, Medical Image Analysis, 17(8), 974-996, 2013 207