Verfahren zur Rekonstruktion von 3D-Szenen

Verfahren zur Rekonstruktion von 

3D-Szenen 

Bachelorarbeit von 

Christian Käser 

An der Fakultät für Informatik 

Institut für Betriebs- und Dialogsysteme, 

Lehrstuhl für Computergrafik 

Beginn: 14. Oktober 2011 

Ende: 12. März 2012 

Erstgutachter: Prof. Dr.-Ing. Carsten Dachsbacher 

Betreuender Mitarbeiter: Dipl.-Inf. Tim Reiner 

KIT – Universität des Landes Baden-Württemberg und nationales Forschungszentrum der Helmholtz-Gesellschaft www.kit.edu

Inhaltsverzeichnis 

1 Einleitung 1 

1.1 Ziel dieser Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 

2 Bisherige Arbeiten und Einsatzgebiete 3 

3 Überblick über verschiedene Typen von 3D-Kamerasystemen und 3D-Scannern 5 

3.1 Passive Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 

3.1.1 Monokulare Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 

3.1.2 Stereoskopische Systeme . . . . . . . . . . . . . . . . . . . . . . . . . 7 

3.2 Aktive Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 

3.2.1 Time of Flight Laserscanner . . . . . . . . . . . . . . . . . . . . . . . 8 

3.2.2 Time of Flight Kameras . . . . . . . . . . . . . . . . . . . . . . . . . 8 

3.2.3 Structured Light Systeme . . . . . . . . . . . . . . . . . . . . . . . . 9 

3.2.3.1 Microsoft Kinect . . . . . . . . . . . . . . . . . . . . . . . . 10 

3.3 Kontaktbasierte 3D-Scanner . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 

4 Verfahren zur Rekonstruktion von 3D-Szenen aus Scannerdaten 13 

4.1 Rekonstruktion von Gebäudefassaden mit Hilfe von Symmetrieeigenschaften 13 

4.1.1 Vorverarbeitung und Kantenerkennung . . . . . . . . . . . . . . . . . 13 

4.1.2 Identifikation von Oberflächen . . . . . . . . . . . . . . . . . . . . . 14 

4.1.3 Zuordnung der Bildpixel zur entsprechenden Oberfläche . . . . . . . 15 

4.1.4 Ausnutzung von Symmetrien zur Rekonstruktion von Details . . . . 15 

4.1.5 Herausarbeiten der Details als Flächen mit Offset . . . . . . . . . . . 16 

4.2 Echtzeitrekonstruktion aus Depth Maps mit Kinect Fusion . . . . . . . . . . 17 

4.2.1 Vorverarbeitung der Scannerdaten . . . . . . . . . . . . . . . . . . . 17 

4.2.2 Tracking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 

4.2.3 Rekonstruktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 

4.2.4 Darstellung der rekonstruierten Szene . . . . . . . . . . . . . . . . . 20 

4.2.5 Segmentierung von beweglichen Szenenkomponenten . . . . . . . . . 21 

4.3 Featurebasiertes Mapping mit einer einzelnen Kamera . . . . . . . . . . . . 21 

4.3.1 Repräsentation der Messunsicherheit durch ein stochastisches Modell 22 

4.3.2 Auswahl und Erkennung von trackbaren Features . . . . . . . . . . . 23 

4.3.3 Tracking von gefundenen Features . . . . . . . . . . . . . . . . . . . 24 

4.3.4 Variation des Verfahrens zur Rekonstruktion von Außenarealen . . . 24 

5 Implementierung auf Enduserhardware 27 

5.1 Zugriff auf die Bilddaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 

5.2 Parallelisierungstechniken zur Beschleunigung . . . . . . . . . . . . . . . . . 28 

5.3 Implementierung eines einfachen Punktwolkenbetrachters . . . . . . . . . . 28 

5.3.1 Die Benutzeroberfläche . . . . . . . . . . . . . . . . . . . . . . . . . 29 

5.3.2 Erzeugung der Punktwolke . . . . . . . . . . . . . . . . . . . . . . . 29 

5.3.3 Mögliche Erweiterungen . . . . . . . . . . . . . . . . . . . . . . . . . 30 

iii

iv Inhaltsverzeichnis 

6 Analyse und Vergleich verschiedener Verfahren 31 

6.1 Limitierungen bei der Rekonstruktion . . . . . . . . . . . . . . . . . . . . . 31 

6.2 Genauigkeit der Rekonstruktion . . . . . . . . . . . . . . . . . . . . . . . . . 32 

6.3 Geschwindigkeit und Echtzeitfähigkeit . . . . . . . . . . . . . . . . . . . . . 33 

6.4 Daraus resultierende Einsatzgebiete . . . . . . . . . . . . . . . . . . . . . . . 34 

7 Zukünftige Anwendungen 37 

7.1 Natural User Interface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 

7.1.1 Skeletal Tracking und Gestensteuerung . . . . . . . . . . . . . . . . 37 

7.1.2 Berührungssteuerung und Multitouch auf beliebigen Oberflächen . . 38 

7.2 Erfassung von Personen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 

7.2.1 Verwendung von Gesichtsscans in Videospielen . . . . . . . . . . . . 39 

7.2.2 Trafficeffiziente Videochats . . . . . . . . . . . . . . . . . . . . . . . 39 

7.2.3 Digitale Umkleidekabinen . . . . . . . . . . . . . . . . . . . . . . . . 40 

7.3 Vereinfachte Akquisition von Modellen . . . . . . . . . . . . . . . . . . . . . 41 

7.3.1 3D-Kopien in Massenproduktion . . . . . . . . . . . . . . . . . . . . 41 

7.3.2 Basis für prozedural erstellte Städte . . . . . . . . . . . . . . . . . . 41 

7.4 3D-Keying als Alternative zum Chroma-Keying . . . . . . . . . . . . . . . . 42 

8 Fazit 43 

Literaturverzeichnis 45 

Bildquellen 47 

iv

1. Einleitung 

(Kurzen Einleitungstext einfügen) ToDo 

1.1 Ziel dieser Arbeit 

Diese Arbeit soll verschiedene Arten von 3D-Scannern sowie verschiedene Algorithmen zur 

Rekonstruktion von Modellen aus den Rohdaten dieser Scanner vorstellen und deren Vorund 

Nachteile insbesondere im Hinblick auf den Einsatz auf Enduserhardware gegenüberstellen. 

Kapitel 2 stellt eine kurze Einführung in die Thematik dar, in der Einsatzgebiete von 

3D-Scannern sowie frühere Arbeiten zum Thema vorgestellt werden. Kapitel 3 soll einen 

kurzen Überblick über die grundlegenden Typen von Kamerasystemen und Scannern zur 

dreidimensionalen Objekterfassung sowie deren Funktionsweise geben. Anschließend werden 

in den Kapiteln 4 und 5 einige Verfahren zur Rekonstruktion von Szenen aus den 

Kamerarohdaten in Theorie und Praxis vorgestellt. Diese werden in 6 im Hinblick auf 

Einsatzgebiet, Geschwindigkeit und Qualität der Rekonstruktion miteinander verglichen. 

Abschließend werden in Kapitel 7 Überlegungen angestellt, inwieweit 3D-Scanner in Zukunft 

beim Endanwender zum Einsatz kommen könnten. 

(Eigene Implementierung an richtiger Stelle einsortieren) ToDo 

1

2. Bisherige Arbeiten und Einsatzgebiete 

(Übernommen aus ” Einführung in die Thematik“. Entsprechend umarbeiten ToDo 

und auf Arbeiten verweisen) 

Im Lauf der letzten Jahre wurden verschiedenste Technologien zur Anfertigung von 3D- 

Scans entwickelt. Wo noch vor kurzem Spezialhardware für mehrere tausend Euro nötig 

war, um wenigstens ein niedrig aufgelöstes Bild zu erhalten, da ist es jetzt – oder zumindest 

in sehr naher Zukunft – möglich, mit einem Mittelklasse-PC und günstigen Scannern oder 

Kameras sehr gute Ergebnisse zu erzielen. 

Mit dem Aufkommen mehr oder weniger bezahlbarer Systeme wurden diese schnell für 

eine Vielzahl von Anwendungen eingesetzt: 

Gestensteuerung 

In der aktuellen Spielekonsolengeneration geht der Trend weg vom klassischen Controller, 

bei dem Aktionen per Tastendruck ausgelöst werden und hin zu einer als natürlicher 

empfundenen Bewegungssteuerung. Während Nintendo und Sony auf Controller mit Beschleunigungssensoren 

und ein sehr rudimentäres optisches Tracking setzen, ist Microsofts 

Kinect eine 3D-Kamera, die den gesamten Körper des Spielers erfasst. Somit kann die 

Spielfigur in begrenztem Umfang auf eine intuitive Weise direkt gesteuert werden. Ähnliche 

Ansätze sind auch für eine berührungslose Steuerung von PCs denkbar. 

Motion Capturing 

Zur Produktion von Videospielen und Animationsfilmen ist die realistische Wiedergabe 

von Bewegungsabläufen oft essentiell. Bis vor wenigen Jahren mussten diese entweder 

von Künstlern aufwändig von Hand erstellt oder aufwänding mittels am Körper eines 

Schauspielers angebrachten Markern und mehreren Kameras erfasst werden. Inzwischen 

gibt es Ansätze auf Basis von 3D-Kameras, die denen zur Gestensteuerung ähneln. Sie 

erlauben es, Bewegungen ohne viel Vorbereitung an jedem beliebigen Ort zu filmen. 

Augmented Reality 

(Sinnvolle Beschreibung ausdenken) ToDo 

Akquisition 

Die manuelle Erstellung von 3D-Modellen ist oft ein aufwändiger Prozess. Daher bietet es 

sich in einigen Fällen an, stattdessen reale Objekte zu scannen und bei Bedarf nachzubearbeiten. 

3

4 2. Bisherige Arbeiten und Einsatzgebiete 

Reproduktion 

Zusammen mit den immer häufiger werdenden 3D-Druckern ermöglichen 3D-Scans eine 

einfache Nachbildung von kleineren Gegenständen zum Beispiel aus Metall oder Kunststoff. 

Zwar ist nicht zu erwarten, dass die entsprechende Druckerhardware in absehbarer Zeit 

günstig genug wird, um für Privatabnehmer attraktiv zu werden, aber es existieren bereits 

einige Websites, deren Betreiber fremde Modelle günstig drucken. 

Robotik 

Für autonome Roboter ist es wichtig, ihre Umgebung einschätzen zu können, um sich zu 

orientieren, freie Lauf- beziehungsweise Fahrwege zu finden und bestimmte Objekte zu 

identifizieren. Viele dieser Aufgaben können durch die Verwendung von 3D-Aufnahmen 

erfüllt werden. 

4

3. Überblick über verschiedene Typen 

von 3D-Kamerasystemen und 

3D-Scannern 

Um Szenen und Objekte dreidimensional zu erfassen, gibt es zahlreiche verschiedene Systeme, 

die alle ihre jeweiligen Stärken und Schwächen aufweisen und sich auf unterschiedliche 

Art in Kategorien einordnen lassen: 

Grad der Interaktion mit der Szene 

Passive Systeme versuchen, aus normalen Farbfotos oder -videos Strukturen und Formen zu 

extrahieren, aus denen dann eine dreidimensionale Repräsentation errechnet wird. Hierbei 

findet keine direkte Interaktion mit der zu erfassenden Szene statt. Aktive optische 

Systeme interagieren dagegen insofern mit der Szene, dass sie diese mit einer LED oder 

einem Laser aktiv beleuchten und das reflektierte Licht erfassen, um daraus direkt die 

Entfernung zu Punkten in der Szene zu bestimmen. Kontaktbasierte Systeme weisen die 

stärkste Interaktion mit der Szene beziehungsweise dem zu vermessenden Objekt auf, da 

es – wie der Name andeutet – direkt berührt wird, um es zu vermessen. Diese Einteilung 

soll als Grundlage für den Aufbau dieses Kapitel dienen. 

Scanner gegenüber Kameras 

Scanner sind dadurch definiert, dass sie immer nur einen Punkt auf einmal erfassen können 

und durch Verschiebung oder Rotation der Messvorrichtung nach einem bestimmten Muster 

nach und nach die komplette Szene abarbeiten. Kameras hingegen nehmen tausende 

Bildpunkte gleichzeitig auf, was einen großen Geschwindigkeitsvorteil darstellt. 

Größe des erfassbaren Bereichs 

Während bestimmte Verfahren selbst auf mehrere hundert Meter Entfernung zu einem 

Objekt noch millimetergenaue Ergebnisse liefern und dadurch geeignet sind, große Areale 

am Stück zu erfassen, sind die meisten Systeme für Entfernungen von einigen Metern konzipiert 

und liefern darüber hinaus entweder nur sehr ungenaue oder gar keine Ergebnisse. 

Um abzuwägen, welche Hardware zum Einsatz kommen soll, gilt es also immer zu berücksichtigen, 

was genau erfasst werden soll und wie der Arbeitsaufwand auf Hard- und 

Software verteilt werden soll. Dabei gilt üblicherweise die Faustregel, dass komplexere 

5

6 3. Überblick über verschiedene Typen von 3D-Kamerasystemen und 3D-Scannern 

Hardware meist simplere Rekonstruktionsverfahren in der Software (siehe auch Kapitel 4) 

ermöglicht. 

3.1 Passive Systeme 

Als passive Systeme sind Kameras zu bezeichnen, die die aufzunehmenden Gegenstände 

weder optisch noch mechanisch selbst beeinflussen. Sie verlassen sich stattdessen ausschließlich 

auf die Verwendung von optischen Sensoren. Da die Szene nicht selbst beleuchtet 

wird, sind derartige Systeme in der Regel stark abhängig von den gegebenen Lichtverhältnissen. 

Bei unzureichender oder räumlich inhomogener Beleuchtung können in der Regel 

nur stark verrauschte oder auch gar keine Ergebnisse erzielt werden. 

3.1.1 Monokulare Systeme 

Die aus Hardwaresicht einfachste Variante zur Rekonstruktion von Szenen besteht darin, 

die Bilddaten einer normalen Foto- oder Videokamera zu analysieren. Entsprechende Verfahren 

können somit auch auf mobilen Plattformen wie etwa Mobiltelefonen zum Einsatz 

kommen. Durch einen hohen Verbreitungsgrad geeigneter Hardware sind derzeit die allermeisten 

Augmented Reality Anwendungen auf dem Markt für den Betrieb mit solchen 

monokularen Systemen ausgelegt. 

Dabei ist je nach Art und Anzahl der zur Verfügung stehenden Aufnahmen zwischen verschiedenen 

Möglichkeiten zum Einsatz von monokularen Systemen zu unterscheiden. Steht 

nur ein einzelnes Foto für die Rekonstruktion zur Verfügung, ist es oft nur möglich, Objekte 

und Strukturen, wie etwa in der Szene angebrachte Marker grob zu erkennen und 

zu isolieren. Um ein echtes dreidimensionales Modell zu erhalten, enthält ein Einzelbild 

aber meist nicht genug Informationen. Allerdings ist es durch zusätzliche Benutzereingaben, 

die weitere Informationen über den Aufbau der Szene liefern, teilweise möglich, 

zumindest ein grobes Modell zu erstellen [1]. Diese Informationen können zum Beispiel 

eine grobe Unterteilung in Quader, Zylinder und andere Primitive, sowie Angaben über 

Symmetrieeigenschaften beinhalten (Siehe auch 4.1). 

Um diese Probleme zu umgehen, werden in der Regel mehrere Bilder verwendet, die die 

Szene aus unterschiedlichen Blickwinkeln zeigen. Mit diesen verschiedenen Ansichten ist 

es dann möglich, mittels sogenannter ” Structure from Motion“ Verfahren (SFM) genauere 

Aussagen über die Räumliche Lage und Ausdehnung der einzelnen Objekte zu machen. 

Dazu ist es allerdings notwendig, dass verschiedene Parameter bekannt sind. Darunter 

fallen etwa die Brennweite des verwendeten Objektivs und die Verschiebung der Kamera 

zwischen den Aufnahmen. Je nach Zusammenhang der Bilder müssen dabei unterschiedliche 

Probleme gelöst werden. Bei Videostreams oder nahe beieinander aufgenommenen 

Einzelbildern ist es verhältnismäßig einfach, Korrespondenzen zwischen den Bildelementen 

zu ermitteln, während für die die Bestimmung der Kamerabewegung nicht genug Anhaltspunkte 

vorliegen, um ein rauschfreies Ergebnis zu erhalten. Das andere Extrem sind 

annähernd willkürlich zusammengestellte Fotosammlungen wie in [2]. Bei diesen liegt das 

Hauptproblem darin, überhaupt Korrespondenzen zwischen den Bildern zu finden, da in 

der Regel vorab nicht einmal ungefähre Schätzungen zur Kameraposition verfügbar sind. 

Außerdem sind in einem solchen Szenario bei weitem nicht alle Parameter bekannt, die 

zur Korrektur der Objektiveigenschaften benötigt werden. Diese müssen daher direkt aus 

den Fotos bestimmt werden. 

Ein weiterer unangenehmer Nebeneffekt bei der Verwendung von mehreren Bildern – egal 

ob nahe beeinander oder nicht – ist eine generelle Anfälligkeit gegenüber Bewegung in der 

Szene. Durch sich verändernde Konturen wird das Finden von Zusammenhängen zwischen 

zwei Bildern erschwert, was im Extremfall dazu führen kann, dass die Kameraposition nicht 

6

3.2. Aktive Systeme 7 

mehr korrekt bestimmt werden kann oder Objekte falsch zueinander zugeordnet werden. 

So könnte zum Beispiel ein vorbeifahrendes Auto, das nur in einigen wenigen Aufnahmen 

zu sehen ist, fälschlicherweise als Teil einer Hauswand erkannt werden. 

3.1.2 Stereoskopische Systeme 

Stereoskopische (oder binokulare) Kamerasysteme bestehen aus zwei Kameras, die gemeinsam 

auf einem Gestell oder in einem Gehäuse montiert sind, und jeweils gleichzeitig Bilder 

aufnehmen. Prinzipiell sind auch größere Kameraverbünde denkbar, dies ist aber eher unüblich. 

Derartige Systeme funktionieren auf der Softwareseite ähnlich, wie wenn man mit 

den im vorherigen Abschnitt beschriebenen monokularen Kamerasystemen mehrere Bilder 

hintereinander an unterschiedlichen Orten aufnimmt. Der Hauptunterschied besteht darin, 

dass zumindest die ungefähre Ausrichtung der Kameras zueinander im Voraus bekannt ist 

und somit nicht aus den Bilddaten berechnet werden muss. Eine entsprechende Berechung 

muss nur noch durchgeführt werden, um die Positionsdaten zu verfeinern, etwa falls die 

Abmessungen der Hardware nicht exakt bekannt sind oder eine Verformung der Hardware 

durch Wärme oder mechanische Spannungen zu befürchten ist. Eine vollständige Positionsbestimmung 

ist nur dann notwendig, wenn mehrere Bildpaare zur Verwendung mit 

SFM Verfahren aufgenommen werden. Dies ist aber wesentlich einfacher als bei monokularen 

Systemen, da zu jedem Zeitpunkt schon eine grobe Rekonstruktion der Szene zur 

Verfügung steht, über die Korrespondenzen leichter gefunden werden können, als mit Einzelbildern. 

Aus ähnlichen Gründen ist die Problematik mit sich bewegenden Szenenteilen 

auch weniger kritisch, da auch deren dreidimensionale Position mit einem einzelnen Bildpaar 

abschätzbar ist und somit die Chance verringert wird, dass sie fehlerhaft mit anderen 

Szenenteilen identifiziert werden. 

Ein weiteres Einsatzgebiet für stereoskopische Kamerasysteme sind Anwendungsszenarien, 

in denen gar keine tatsächliche dreidimensionale Rekonstruktion notwendig ist, sondern 

nur eine dreidimensionale Wiedergabe vorgegebener Kameraeinstellungen erzielt werden 

soll. Prominentestes Beispiel sind die in den letzten Jahren sehr populär gewordenen 3D- 

Kinofilme. Zwar wäre es auch möglich, eigentlich zweidimensionales Bildmaterial so nachzubearbeiten, 

dass zwei Bildspuren zur stereoskopischen Darstellung gewonnen werden 

können, diese wirken aber oft mehr wie eine Sammlung von Pappaufstellern als wie eine 

tatsächlich plastische Szene. Diese Technik wird daher in der Regel nur angewendet, wenn 

bereits zweidimensionales Bildmaterial vorliegt, das weiterverwendet werden soll, etwa bei 

der Aufarbeitung von älteren Filmen zur Wiederveröffentlichung in 3D und in Fernsehern, 

die das zweidimensionale Fernsehsignal in Echtzeit in einen 3D-Film konvertieren. Für die 

Neuproduktion von Filmen ist es dagegen am geschicktesten, stereoskopische Kamerasysteme, 

bei denen der Abstand zwischen den beiden Kameras in etwa dem menschlichen 

Augenabstand entspricht, einzusetzen. Das gewonnene Bildmaterial kann ohne weitere 

Nachbearbeitung stereoskopisch wiedergegeben werden und sorgt für einen wesentlich realistischeren 

Tiefeneindruck. Ähnliche Systeme existieren auch für 3D-Fotografie, sind aber 

wesentlich weniger populär geworden. 

3.2 Aktive Systeme 

Als aktive Systeme werden Kameras und Scanner bezeichnet, die anstatt oder zusätzlich 

zu einem normalen Farbbild eine direkte Tiefenmessung vornehmen. Dazu wird die Szene 

in der Regel gezielt mit einem Infrarotlaser beleuchtet und je nach Kameratyp aus 

verschiedenen Eigenschaften der Reflexion ein Tiefenwert ermittelt. 

Gegenüber passiven Systemen haben aktive Systeme verschiedene Vor- und Nachteile. Da 

meist für jeden Bildpunkt eine eigene Tiefenmessung durchgeführt wird, müssen keine 

7


Tiefenwerte aus explizit identifizierten Bildelementen errechnet werden. Somit ist es ohne 

Probleme möglich, auch Szenen mit wenigen Details zu erfassen. Durch die aktive Beleuchtung 

der Szene können außerdem auch in schlecht beleuchteten Räumen gute Ergebnisse 

erzielt werden. Im Freien kann diese Eigenschaft aber auch schnell zum Nachteil werden, 

falls starkes Sonnenlicht das ausgesendete Infrarotlicht überstrahlt. 

3.2.1 Time of Flight Laserscanner 

Wie der Name bereits verrät, messen Time of Flight Laserscanner – teilweise auch mit dem 

verwandten Begriff LIDAR (LIght Detection And Ranging) bezeichnet – die Entfernung 

d zu einem Objekt über die Zeit t, die ein kurzer Laserimpuls braucht, um die Strecke 

vom Scanner zum Objekt und wieder zurück zu überbrücken. Sobald der Laserimpuls 

abgegeben wird, startet ein Timer, der gestoppt wird, sobald das reflektierte Licht den 

Sensor trifft. Die Entfernung ergibt sich dann mit Hilfe der Lichtgeschwindigkeit c sehr 

einfach aus folgender Formel. 

d = 

Die wesentliche Limitierung von Systemen nach dem Time of Flight Prinzip sind die sehr 

kurzen Zeitintervalle, die auftreten. Um eine Strecke von einem Millimeter hin und zurück 

zu überbrücken, benötigt Licht nur ungefähr 6,7 Picosekunden. Daher müssen sehr schnelle 

Timer und Laser, die in der Lage sind, einen sehr kurzen Impuls abzugeben, eingesetzt 

werden, um präzise Messungen durchzuführen. 

Abhängig von der Wellenlänge und Stärke des eingesetzten Lasers ist es im Gegensatz zu 

den meisten anderen Arten von Systemen möglich, Messungen über sehr lange Distanzen 

bis hin zu einigen Kilometern vorzunehmen, ohne dabei allzuviel an Genauigkeit zu verlieren. 

Bei der Wahl des Lasers muss dabei jedoch darauf geachtet werden, dass dieser für 

die meisten Anwendungen aus Sicherheitsgründen nicht zu stark sein darf, damit er das 

menschliche Auge nicht beschädigt. Gerade Wellenlängen im Infrarotbereich werden zwar 

noch vom menschlichen Auge auf die Netzhaut fokusiert, führen aber nicht mehr zu einem 

Lidschlussreflex, wodurch es zur Erblindung kommen kann. 

Der entscheidende Nachteil bei Laserscannern besteht darin, dass zu jedem Zeitpunkt nur 

die Entfernung zu einem einzigen Punkt gemessen werden kann. Um mehrere Punkte zu 

messen, muss entweder der gesamte Scanner bewegt oder der Laser über einen beweglichen 

Spiegel abgelenkt werden. So sind – ausreichend präzise Mechanik vorausgesetzt – prinzipiell 

beliebig hochauflösende Aufnahmen möglich. Dieser Vorteil wird allerdings mit einer 

längeren Aufnahmedauer erkauft, da es eine gewisse Zeit dauert, die Mechanik zu bewegen. 

Außerdem gilt zu bedenken, dass mechanische Komponenten in der Regel die Robustheit 

eines Geräts beeinträchtigen können, da sie wesentlich anfälliger für Beschädigungen sind, 

als feststehende Bauteile. 

Somit sind Laserscanner insbesondere dann geeignet, wenn entweder nur wenige weitentfernte 

Punkte oder große, statische Szenen, wie etwa Gebäude und Landschaften vermessen 

werden sollen. Sich schnell bewegende Objekte in der Szene werden dagegen unter Umständen 

ähnlich wie bei Fotokameras mit Schlitzverschluss verzerrt dargestellt und eine 

schnelle Bewegung des Scanners kann dazu führen, dass dieser Effekt die gesamte Aufnahme 

betrifft, wodurch diese quasi unbrauchbar wird. 

3.2.2 Time of Flight Kameras 

Ähnlich wie Time of Flight Laserscanner verwenden auch Time of Flight Kameras die 

Zeit, die ein Lichtimpuls benötigt, um den Weg zum Ziel und zurück zu überbrücken zur 

8 

t · c 

2

3.2. Aktive Systeme 9 

Distanzmessung. Statt mit einem fokusierten Laser einen einzelnen Punkt zu beleuchten, 

wird die gesamte Szene auf einmal für einen kurzen Moment beleuchtet. Dies kann zum 

Beispiel mit speziellen Hochgeschwindigkeits-LEDs geschehen. Die Sensorkomponente entspricht 

ungefähr der einer herkömmlichen digitalen Fotokamera, mit dem Unterschied, dass 

jeder Pixel des Sensors statt der Lichtintensität in verschiedenen Wellenlängenbereichen 

die verstrichene Zeit seit dem letzten Lichtimpuls misst. Um Störungen durch einfallendes 

Umgebungslicht zu vermindern, ist die Kamera in der Regel zusätzlich mit einem Bandpassfilter 

ausgestattet, der nur den relevanten Lichtanteil durchlässt. Insgesamt kann also 

vollständig auf anfällige mechanische Komponenten verzichtet werden. Dies begünstigt 

außerdem eine sehr kompakte Bauweise, was dazu führt, dass viele kommerzielle Time of 

Flight Kameras nur in etwa so groß sind, wie eine handelsübliche Webcam. 

Durch die parallele Erfassung aller Bildpunkte zur gleichen Zeit sind sehr hohe Bildwiederholraten 

realisierbar, wodurch ein Einsatz in Echtzeitanwendungen ermöglicht wird. Diese 

hohen Bildwiederholraten können unter anderem auch dazu genutzt werden, mehrere Messungen 

schnell hintereinander durchzuführen und diese dann zu mitteln, um Messrauschen 

zu unterdrücken. Da jeder Pixel im Sensor eine eigene Zähleinheit benötigt und deshalb 

deutlich komplexer ist, als zum Beispiel bei CMOS Bildsensoren, ist die Auflösung im 

Vergleich zu Fotokameras stark beschränkt. So weisen zum Zeitpunkt dieser Ausarbeitung 

kommerziell erhältliche Time of Flight Kameras wie etwa die Fotonic D70 1 und die Soft- 

Kinectic DepthSense DS311 2 typischerweise eine Auflösung von lediglich 160x120 Pixeln 

auf. Schuon et al. nennen in [3] übliche Auflösungen bis 320x240 Pixel. 

Eine weitere Methode zur Distanzmessung besteht darin, statt einzelnen Lichtimpulsen 

ein kontinuierliches, moduliertes Signal auszusenden [4]. Die Distanz d lässt sich dann aus 

der Frequenz fm, mit der das Signal moduliert wird und der Phasenverschiebung φ des 

empfangenen Lichts gegenüber dem ausgesendeten Licht berechnen: 

d = cφ 

4πfm 

Damit können zwar sehr präzise Ergebnisse erreicht werden, aber die maximale Distanz 

dmax, für die korrekte Messungen möglich sind, ist durch die Periodendauer beziehungsweise 

Frequenz der Modulation beschränkt. 

dmax = c 

Damit ergibt sich zum Beispiel für eine Frequenz fm = 50MHz eine maximale Distanz 

dmax ≈ 3m. Distanzen von mehr als dmax werden inkorrekt als d ′ = d mod dmax erfasst. 

3.2.3 Structured Light Systeme 

Als Structured Light Systeme werden Vorrichtungen bezeichnet, die aus einer Projektionseinheit 

und einer Kamera bestehen. Die Projektionseinheit wirft ein bestimmtes Lichtmuster 

auf die Szene, dessen Reflexion von der Kamera aufgenommen wird. Anhand der 

Verzerrung des beobachteten Musters lässt sich – bei bekannter relativer Position von 

Projektor und Kamera zueinander – leicht feststellen, wie die beleuchtete Oberfläche beschaffen 

ist. 

In einer sehr einfachen Variante wird durch eine entsprechende Blende ein einzelner schmaler 

Lichtstreifen projiziert, dessen verzerrtes Ebenbild dann eine (möglicherweise) unterbrochene 

Kurve ist. Dieser Streifen kann bewegt werden, um nach und nach den gesamten 

2fm 

1 http://www.fotonic.com/assets/documents/fotonic_d70_highres.pdf 

2 http://www.softkinetic.com/Portals/0/DEPTHSENSE_DS311_DATAHSHEET_V1.3.pdf 

9

ToDo 

ToDo 


für die Kamera sichtbaren Ausschnitt der Szene abzudecken. In diesem Fall würde es sich 

um eine Mischform aus Scanner und Kamerasystem handeln. Üblicher ist es aber, mehrere 

Lichtstreifen nebeneinander oder andere Lichtmuster, die den gesamten für die Kamera 

sichtbaren Bereich auf einmal abdecken, zu projizieren. Falls die Zuordnung eines beleuchteten 

Pixels im Bild zu einem bestimmten Teil des projizierten Musters nicht eindeutig 

ist, kann durch gezielte Veränderung des Musters im Laufe der Zeit Klarheit geschaffen 

werden. Dazu muss die Blende durch ein kleines Display, wie es auch in Videoprojektoren 

eingesetzt wird, ersetzt werden. Bei Streifenmustern bietet es sich beispielsweise an, die 

Streifen der Reihe nach durchzunummerieren und diese Nummern durch abwechselndes 

Ein- und Ausblenden der einzelnen Streifen darzustellen. 

(Vor- und Nachteile hier sammeln) 

3.2.3.1 Microsoft Kinect 

Abbildung 3.1: Microsoft Kinect [16] 

Ein in den letzten Jahren häufig eingesetztes Structured Light System ist die ursprünglich 

als berührungsloser Spielecontroller für die Xbox 360 konzipierte und von Prime Sense 

entwickelte ” Microsoft Kinect“. Sie wurde am 1. Juni 2009 auf der E3 unter dem Arbeitstitel 

” Project Natal“ vorgestellt und enthält neben der 3D-Kamera auch ein Mikrofonarray 

zur dreidimensionalen Tonerfassung. Bereits wenige Tage nach irher Veröffentlichung im 

November 2010 erschienen erste inoffizielle Treiber für Linux und Microsoft Windows. Im 

Juni 2011 zog Microsoft selbst mit dem offiziellen Kinect SDK nach. Dieses steht derzeit 

für nichtkommerzielle Projekte sowie Forschungszwecke kostenlos zur Verfügung. Am 1. 

Februar 2012 wurde eine neue Version des Kinect SDKs veröffentlicht. Diese erlaubt nun 

auch den Einsatz in kommerziellen Projekten. Gleichzeitig kam eine neue Auflage des Kinect 

Sensors unter dem Namen ” Kinect for Windows“ auf den Markt. Dieser unterscheidet 

sich abgesehen von minimalen Änderungen im Gehäusedesign hardwareseitig nicht von der 

Xbox 360 Version, weist aber eine verbesserte Firmware auf, die verschiedene Stufen der 

Vorverarbeitung optimiert. 

Die Projektionseinheit besteht aus einem Infrarotlaser und einer Lochmaske mit einem 

unregelmäßigen Punktmuster. Als Kamera kommt ein CMOS Sensor hinter einem Infrarotfilter 

zum Einsatz. Das beobachtete Punktmuster (Abbildung 3.2(a)) wird von einem 

Prozessor in der Kinect mit einem Referenzbild verglichen. Die gewonnenen Tiefeninformationen 

werden als 640x480 Pixel großes 12-bit Monochrombild (Abbildung 3.2(b)) über 

USB an die Konsole beziehungsweise den Rechner gesendet. Hierbei bedeutet ein Wert 

von 0, dass keine gültige Tiefeninformation für den entsprechenden Pixel berechnet werden 

konnte, während Werte von 1 bis 4095 die Entfernung in Millimetern angeben. Die 

Bildwiederholfrequenz beträgt im Schnitt 30 Hz. Laut Microsoft können mit dieser Methode 

im Bereich von 1,2 bis 3,5 Metern Entfernung vom Sensor bei der ursprünglichen 

Kinect für die Xbox 360 sowie 0,4 bis 3,5 Metern für die Kinect for Windows sinnvolle 

Tiefeninformationen gewonnen werden (Quelle, z.B. Kinect SDK Programming 

10

3.3. Kontaktbasierte 3D-Scanner 11 

(a) Rohdaten (b) Tiefeninformationen 

Abbildung 3.2: Rohdaten des IR-Sensors der Kinect und die daraus berechneten Tiefeninformationen 

visualisiert über einen Farbverlauf von weiß (nah) nach blau 

(fern) [17, 18] 

Guide). Tests im Rahmen dieser Arbeit haben aber ergeben, dass auch die ursprüngliche 

Kinect schon ab einem Abstand von ca. 0,7 Metern Werte liefert. 

Die Kinect hat außerdem einen RGB-Sensor an Bord, der bis zu 1280x1024 Pixel große 

Farbbilder bei einer Bildwiederholfrequenz von 30 Hz liefert. (ggf. über Zusammenfüh- ToDo 

rung von Farb- und Tiefeninformationen schreiben) 

Die Kinect wurde auf Grund ihrer kompakten Bauform und ihres geringen Preises (ca. 

125 Euro für die ursprüngliche Kinect und ca. 190 Euro für die überarbeitete Kinect for 

Windows, Stand Februar 2012) schnell zur bevorzugten 3D-Hardware sowohl für Hobbyentwickler 

als auch für verschiedene Forschungsgruppen. (Beispiele) ToDo 

3.3 Kontaktbasierte 3D-Scanner 

Neben den vorgestellten optischen Erfassungssystemen gibt es auch nichtoptische Systeme, 

die das zu scannende Objekt mechanisch abtasten. Dazu muss dieses auf einer flachen 

Unterlage platziert und eventuell fixiert werden, damit es während der Erfassung nicht verrutschen 

kann. Anschließend wird es mit einem am Scanner befestigten Berührungssensor 

Punkt für Punkt abgetastet. Die Positionierung des Sensors erfolgt entweder über eine in 

X-, Y- und Z-Richtung bewegliche Apperatur oder über einen Roboterarm mit mehreren 

Gelenken. Letztere Variante ist insbesondere dann von Vorteil, wenn nichtkonvexe Objekte 

gescannt werden sollen. In diesem Fall kann ein ausreichend schlanker und beweglicher 

Roboterarm auch in schmale Hohlräume vordringen und deren Innenseite abtasten. Sobald 

eine Berührung registriert wird, kann aus der Stellung der beweglichen Komponenten des 

Scanners die exakte Position des Sensors bestimmt werden. 

Moderne kontaktbasierte 3D-Scanner erreichen Genauigkeiten im Bereich von wenigen Mikrometern 

und sind somit wesentlich präziser als die meisten optischen Systeme. Allerdings 

leiden sie unter ähnlichen Nachteilen, wie andere Scanner. Da immer nur ein Punkt gleichzeitig 

erfasst werden kann und die mechanische Bewegung des Sensors eine gewisse Zeit 

benötigt, um ein Objekt vollständig zu erfassen, wodurch eine Erfassung von sich bewegenden 

Objekten schwer bis unmöglich wird. Durch den nötigen physikalischen Kontakt zum 

Objekt wird auch die Art der erfassbaren Objekte stark eingeschränkt. Elastische Objekte 

führen eventuell zu fehlerhaften Messungen, da sie sich bei jeder Punktmessung verformen 

11


können. Aus dem gleichen Grund ist auch die Erfassung von zerbrechlichen und sehr wertvollen 

Gegenständen problematisch, da diese dabei dauerhaft beschädigt werden können. 

Ein weiteres Problem ist, dass die maximale Größe des erfassbaren Objekts direkt durch 

die Ausmaße des Scanners vorgegeben ist. Bei Scannern mit frei beweglichem Arm ist es 

unter Umständen noch möglich, große Objekte in mehreren Arbeitsschritten zu scannen, 

zwischen denen es neu ausgerichtet wird. Bei Scannern, die den Sensor entlang von drei 

festen Achsen verschieben, ist dies aber konstruktionsbedingt meistens unmöglich. Eine 

Erfassung ganzer Szenen ist aus naheliegenden Gründen auch nicht möglich. 

Daher werden kontaktbasierte Scanner hauptsächlich in der Industrie genutzt, um stichprobenartig 

zu kontrollieren, ob ein gefertigtes Werkstück die in der Vorlage geforderten 

Maße einhält. Dort ist die Geschwindigkeit zweitrangig und es ist im Voraus planbar, für 

welche Gegenstände der Scanner geeignet sein muss. 

12

4. Verfahren zur Rekonstruktion von 

3D-Szenen aus Scannerdaten 

Da es schwierig bis unmöglich ist, einen Algorithmus zu entwickeln, der alle denkbaren 

Szenen zufriedenstellend rekonstruieren kann, wurde im Lauf der Zeit eine Vielzahl an 

Rekonstruktionsverfahren entwickelt, die jeweils für einen bestimmten Spezialfall optimiert 

sind und für andere Arten von Szenen oder andere Eingabeformate kaum zu gebrauchen 

sind. In den folgenden Abschnitten dieser Ausarbeitung sollen drei sehr unterschiedliche 

dieser anwendungsspezifischen Verfahren im Detail vorgestellt werden. 

4.1 Rekonstruktion von Gebäudefassaden mit Hilfe von Symmetrieeigenschaften 

Bereits 1996 stellten Debevec et al. in [1] ein halbautomatisches Verfahren zur Rekonstruktion 

aus einem oder mehreren Fotos vor, das sich die Tatsache zu nutze macht, dass viele 

Szenen und Objekte aus einfachen geometrischen Primitiven wie Quadern und Pyramiden 

aufgebaut sind, die sich häufig wiederholen oder symmetrisch angeordnet sind. Wenn diese 

Primitive und deren Symmetrieeigenschaften vom Benutzer grob vorgegeben werden, 

werden die Parameter automatisiert verfeinert, bis das gewünschte Ergebnis erreicht wird. 

Damit können bei symmetrischen Gebäuden selbst mit einem einzigen Foto viele Elemente 

rekonstruiert werden. Auch solche, die im Foto gar nicht sichtbar sind. 

Einen ähnlichen Ansatz verfolgt auch ein 2012 vorgestelltes Verfahren von Ceylan et al. 

[5], das im Folgenden näher vorgestellt werden soll. Im Gegensatz zum erstgenannten 

Verfahren muss der Benutzer keinerlei Angaben im Voraus machen, sondern lediglich die 

vom Computer erkannten Bildelemente prüfen und gegebenenfalls Hinweise geben, um 

das rekonstruierte Modell zu verfeinern oder ergänzen. Ein weiterer Unterschied besteht 

darin, dass statt Blockprimitiven Ebenen zur Darstellung von groben Strukturen und eine 

Kombination aus Linien als Konturen und eines Offsetwerts für eine reliefartige Darstellung 

von Details zum Einsatz kommen. (Formulierung im letzten Satz) ToDo 

4.1.1 Vorverarbeitung und Kantenerkennung 

Vor der eigentlichen Rekonstruktion müssen einige Vorverarbeitungsschritte durchlaufen 

werden, um die Linien im dreidimensionalen Raum, aus denen später das Modell rekonstruiert 

wird, zu isolieren. Obwohl nicht alle gewonnenen Informationen sofort benötigt 

13

ToDo 

14 4. Verfahren zur Rekonstruktion von 3D-Szenen aus Scannerdaten 

werden, ist es von Vorteil, so viel wie möglich an Arbeit in den Vorverarbeitungsschritt 

zu verlagern, um dem Benutzer im interaktiven Teil des Verfahrens lange Wartezeiten zu 

ersparen. 

Als Grundlage für die Rekonstruktion müssen für jedes der Eingabebilder Ii sowohl die 

Positionen und Abbildungseigenschaften der verwendeten Kamera als auch die Lage der 

in den Bildern sichtbaren Kanten bestimmt werden. Dabei ist zu beachten, dass im Allgemeinen 

nicht genau bekannt ist, welche Kamera und welches Objektiv verwendet wurden. 

Unter der vereinfachenden Annahme, dass das Bild nicht in sich verzerrt ist, reicht aber 

die Brennweite aus, um die Abbildungsmatrix der Kamera näherungsweise zu bestimmen. 

Ein mögliches Verfahren wird in [6] beschrieben. Im Idealfall lässt sich die Brennweite aus 

den von der Kamera an das Bild angehängte EXIF-Daten auslesen. Ansonsten muss sie 

aus dem Bild selbst oder dem Vergleich mit anderen Bildern bestimmt werden. Dies soll 

aber nicht Teil dieser Ausarbeitung sein. 

Da der Rekonstruktionsalgorithmus hauptsächlich Linien als Eingabe verwendet, müssen 

diese zunächst aus den Eingabebildern extrahiert werden. Zunächst wird mit Hilfe eines 

einfachen Filters zur Kantenerkennung im Bildraum zu jedem Foto eine Grafik erstellt, 

in der ausschließlich die Kanten hervorgehoben sind. Die hervorgehobenen Pixel werden 

anschließend zu zusammenhängenden Konturen gruppiert, welche im letzten Schritt durch 

gerade Linien approximiert werden. Die Implementierung von Ceylan et al. verwendet 

hierzu ein Matlabskript von Peter Kovesi 1 . Da das vorgestellte Rekonstruktionsverfahren 

im Wesentlichen auf nichtorganische Objekte spezialisiert ist, ist eine Approximation der 

Kanten durch gerade Linien unproblematisch. 

Im letzten Vorverarbeitungsschritt werden die zuvor gefundenen zweidimensionalen Linien 

L 2 (Ii) aus den verschiedenen Bildern einander zugeordnet. Dies geschieht als iterativer 

Prozess, in dem in jedem Schritt neue Linienzuordnungen, die korrespondierenden Linien 

L 3 im dreidimensionalen Raum sowie die Kamerapositionen berechnet werden können. 

Hierbei werden Linienpaare schon bei sehr geringen Abweichungen verworfen, um zu verhindern, 

dass falsch erkannte Kanten – wie etwa aus Spiegelungen – die Rekonstruktion 

negativ beeinflussen. Dabei wird in Kauf genommen, dass auch eigentlich valide Kanten 

verloren gehen, da diese in der Regel in späteren Verarbeitungsschritten durch die Ausnutzung 

von Symmetrien oder durch Benutzerinteraktion wiederhergestellt werden können. 

(Falls Zeit ist, Details herausfinden. Das Paper ist da nicht sehr ausführlich) 

4.1.2 Identifikation von Oberflächen 

Bevor Details rekonstruiert werden können, wird zunächst versucht, große Flächen wie etwa 

Wände zu erkennen, auf denen diese Details dann später aufgebracht werden. Kandidaten 

für solche Flächen sind Ebenen, in denen vielen Linien aus L 3 liegen. Um diese Ebenen zu 

identifizieren, wird zunächst für zwei zufällig aus L 3 Linien li = (v1, v2) und lj = (v3, v4) 

geprüft, ob sie in einer Ebene liegen. Dies geschieht, indem für die beiden Vierecken, die 

sich aus den Endpunkten der Linien bilden lassen, jeweils geprüft wird, ob sich deren 

Diagonalen schneiden. Für das erste Viereck sieht die Bedingung folgendermaßen aus: 

� 

v1 + v3 

− 

2 

�⊤ v2 + v4 (v1 − v3) × (v2 − v4) 

· 

≈ 0 

2 �(v1 − v3) × (v2 − v4)� 

Für das mögliche Viereck sind v3 und v4 gerade vertauscht. Es ist zu beachten, dass 

eine gewisse Abweichung toleriert wird, um Rundungs- und Messfehler zu berücksichtigen. 

Wenn auf diese Weise eine Ebene gefunden wird, erfolgt ein Test, ob weitere Linien, die 

1 http://www.csse.uwa.edu.au/~pk/research/matlabfns/#edgelink 

14

4.1. Rekonstruktion von Gebäudefassaden mit Hilfe von Symmetrieeigenschaften 15 

noch keiner Ebene zugeordnet wurden, in der Ebene liegen. Ab einem Grenzwert von etwa 

3 bis 5% aller Linien wird die Ebene zu einer Menge P hinzugefügt und die Linien, die 

den Test bestanden haben, als dieser Ebene zugeordnet markiert. Eine Ausnahme bilden 

Linien, die sich nahe der Grenze zu einer anderen Ebene aus P befinden, da sie zu mehreren 

Ebenen gehören könnten. Dieser Schritt wird wiederholt, bis davon ausgegangen werden 

kann, dass alle wichtigen Oberflächen der Szene erkannt wurden. 

4.1.3 Zuordnung der Bildpixel zur entsprechenden Oberfläche 

Sobald die Lage der Ebenen gefunden ist, gilt es, die Pixel jedes Bildes Ii zu einer dieser 

Oberflächen zuzuordnen und das Bild somit zu segmentieren. Um optimale Ergebnisse zu 

erhalten, ohne zu viele Eingaben vom Benutzer zu verlangen, wird das Bild zunächst mittels 

eines Optimierungsverfahrens für Markov Random Fields [7] und anhand der Schnittgeraden 

der Ebenen automatisch vorsegmentiert. 

Für das MRF Verfahren werden für jede mögliche Zuordnung eines Pixels zu einer Ebene 

zwei Werte zum Bilden einer Kostenfunktion herangezogen, die optimiert werden soll. Der 

erste dieser beiden Werte, der data-term“ Edata beschreibt, wie genau die dreidimensionale 

” 

Position eines Pixels bestimmt werden kann. Da alle für Pixel p, die nicht auf einer in das 

Bild Ii projizierten Linien l ∈ L3→2 liegen, zunächst gar keine Aussage über deren Lage 

i 

relativ zu den Ebenen gemacht werden kann und somit jede Zuordnung als gut angesehen 

wird, wird diesen Pixeln für alle Ebenen Pj ∈ P der Wert Edata(p, Pj) = e0 zugewiesen. 

Für Pixel p ∈ l für ein beliebiges l ∈ L3→2 kann dagegen der Abstand zu einer Ebene Pj 

als Maß für die Güte der Abschätzung verwendet werden. Dieser Abstand wird allerdings 

nicht im dreidimensionalen Raum, sondern im jeweiligen Bildraum gemessen. Dazu wird 

der dreidimensionale Punkt, der laut l dem Pixel p entspricht, zunächst auf die Ebene Pj 

projiziert. Der so erhaltene Punkt p ′ wird dann zurück in das Bild Ii projiziert, um den 

Punkt p ′′ zu erhalten. Wenn die euklidische Distanz d(p, p ′′ ) einen bestimmten Grenzwert r 

überschreitet, kann davon ausgegangen werden, dass die Zuordnung inkorrekt wird. Somit 

wird sie mit hohen Kosten, etwa Edata(p, Pj) = e1 verbunden. Für alle Zuordnungen, für die 

eine Distanz unterhalb des Grenzwertes liegt, werden entsprechend einer passenden Metrik 

Werte zwischen e0 und e1 zugewiesen. Der zweite Wert, der sogenannte smoothness-term“ 

” 

soll dafür sorgen, dass benachbarte Pixel p und q möglichst nur dann auf verschiedenen 

Ebenen liegen, wenn dies durch eine gefundene Kante gerechtfertigt wird. Daher wird 

Esmooth(p, q) = 0 gesetzt, falls sie sich auf zwei Seiten einer Linie l in der Nähe einer Kante 

zwischen zwei Ebenen befinden und ansonsten auf einen höheren Wert entsprechend der 

Glattheit des Bildes an der entsprechenden Stelle. Die sich durch Aufsummierung aus 

diesen Werten ergebende Kostenfunktion wird als Markov Random Field interpretiert und 

dementsprechend minimiert. 

Sobald diese grobe Zuordnung vorgenommen wurde, wird sie weiter verfeinert, indem bei 

der Segmentierung gefundene Grenzen zwischen zwei Ebenen an die zuvor gefundenen 

und ins Bild projizierten Linien aus L 3→2 angeglichen werden, um so besonders unruhige 

Kanten zu glätten. In diesem Schritt hat der Benutzer die Möglichkeit, durch das Einzeichnen 

grober Kantenverläufe die Zuordnung iterativ zu verfeinern und Fehler zu korrigieren. 

Damit kann die Qualität der Segmentierung noch einmal erheblich verbessert werden. 

4.1.4 Ausnutzung von Symmetrien zur Rekonstruktion von Details 

Mit Hilfe der im vorherigen Schritt erfolgten Segmentierung werden nun aus den Eingabebildern 

Texturen für jede Ebene Pj generiert. Diese dienen als direkte Draufsicht, aus 

der in den folgenden Schritten die feineren Details wie zum Beispiel Fenster und Türen 

rekonstruiert werden sollen. Dabei werden alle Bilder berücksichtigt, in denen die jeweilige 

15


Ebene sichtbar ist. Es werden dabei allerdings Bilder bevorzugt, in denen die perspektivische 

Verzerrung gering ist, um auf der Textur unscharfe Bereiche oder von der Seite 

gesehene Elemente nach Möglichkeit zu vermeiden. 

Statt Wiederholungen automatisch zu erkennen, wird der Benutzer aufgefordert, in dem 

entzerrten Bild die groben Umrisse eines sich wiederholenden Elementes von Hand grob 

einzuzeichnen. Dadurch wird insbesondere auf stark spiegelnden Oberflächen eine fehlerhafte 

Erkennung vermieden. Außerdem kann so vermieden werden, dass ganze Gruppen 

von Elementen als ein einzelnes Element angesehen werden. Dies kann bei einer vollautomatischen 

Erkennung schnell passieren und führt unter Umständen zu unbefriedigenden 

Ergebnissen. 

Zu diesen vom Benutzer identifizierten Bildelementen werden nun weitere Entsprechungen 

gesucht. Dies geschieht zunächst, indem die eingezeichneten Linien mit den in das entzerrte 

Bild projizierten Linien aus L ∋ verglichen werden. Dabei wird ein relativ strenger Grenzwert 

für die Erkennung gewählt, um fehlerhafte Zuordnungen zu unterdrücken. Dadurch 

verworfene Elemente werden später wieder hinzugefügt. 

Zur Optimierung der gefundenen Umrisse wird die Annahme gemacht, dass sich wiederholende 

Elemente nach einem festen Muster angeordnet sind. Bei größeren Gebäuden erweist 

sich diese Annahme in der Regel als richtig, da insbesondere Fenster aus praktischen und 

ästhetischen Überlegungen heraus oft sehr regelmäßig angeordnet werden. In den häufigsten 

Fällen ist diese Anordnung ein einfaches ein- oder zweidimensionales Raster. In 

derartigen Rastern lässt sich die Position eines beliebigen Elements durch die wiederholte 

Anwendung einiger weniger Transformationen (eine Translation für eindimensionale Raster, 

zwei verschiedene Translationen für zweidimensionale Raster, in anderen Fällen auch 

Rotationen oder Spiegelungen) so wie derer Inversen aus der Position des vom Benutzer 

ausgewählten Ursprungselements erzeugen. Wichtig dabei ist lediglich, dass dabei die 

Regelmäßigkeit erhalten bleibt, also beispielsweise keine Transformation nur teilweise ausgeführt 

wird. Auf Basis dieser Annahme werden nun ungefähre Werte – also in etwa die 

Abstände zwischen zwei Elementen – für diese Transformationen geschätzt. Sobald diese 

grobe Schätzung erfolgt ist, wird versucht, eventuelle Lücken im Raster zu schließen, die 

durch nicht gefundene oder verworfene Elemente entstanden sind. Hierzu werden nun nicht 

mehr die aus L 3 projizierten, sondern die direkt im entzerrten Bild gefundenen Kanten 

herangezogen und weniger genaue Übereinstimmungen verlangt, um zu verhindern, dass 

Elemente weiterhin fälschlicherweise verworfen werden. Sobald diese Lücken geschlossen 

sind, werden sowohl die Zuordnungen der Elemente zu gefundenen Linien als auch die 

Transformationen iterativ so lange verbessert, bis das Ergebnis ausreichend stark konvergiert 

ist. 

4.1.5 Herausarbeiten der Details als Flächen mit Offset 

Bis jetzt wurden lediglich die Umrisse von strukturellen Elementen der Szene identifiziert. 

Dagegen wurde vernachlässigt, dass es sich dabei in der Regel nicht um flache, ” aufgemalte“ 

Details, sondern um Vertiefungen oder hervorstehende Objekte handelt. Um diese 

Informationen zu erhalten, werden Tiefenwerte innerhalb eines festen Bereichs ausprobiert. 

Diese Werte werden überprüft, indem die um die Tiefeninformation ergänzten Elemente 

aus den Perspektiven der Urpsrungsbilder gerendert und die erzeugten Linien mit den in 

den Bildern vorhandenen verglichen werden. Da es aber gerade bei geringer Auflösung und 

starken Schatten dazu kommen kann, dass keine ausreichende Übereinstimmung gefunden 

wird, hat der Benutzer die Möglichkeit, für ein einzelnes Element den Tiefenwert manuell 

in einem der Bilder einzuzeichnen. Dieser Wert wird dann für alle Wiederholungen dieses 

Elements ebenfalls angewendet. 

16

4.2. Echtzeitrekonstruktion aus Depth Maps mit Kinect Fusion 17 

4.2 Echtzeitrekonstruktion aus Depth Maps mit Kinect Fusion 

Bei ” Kinect Fusion“ handelt es sich um ein 2011 von Newcombe et al. [8, 9] bei Microsoft 

Research entwickeltes Rekonstruktionsverfahren. Es wurde im Wesentlichen für die 

Erfassung von großteils statischen Innenraumszenen mit einer beweglichen Kamera und 

wenigen beweglichen Objekten (siehe 4.2.5) konzipiert. 

Der Algorithmus basiert auf dem ” simultaneous localisation and mapping“ (SLAM) Prinzip. 

Es findet also mit jedem Frame sowohl eine Bestimmung der Kameraposition als auch 

eine Rekonstruktion der Szene statt. Im Gegensatz zu vielen anderen Verfahren setzt Kinect 

Fusion dabei nicht auf die explizite Erkennung von Strukturen zur Bestimmung der 

Kameraposition. Stattdessen wird aus der gesamten Depth Map iterativ die Positionsänderung 

bestimmt (siehe 4.2.2). 

Die in [9] vorgestellte Implementierung setzt weitestgehend auf GPGPU-Techniken, um 

die Berechnungen so stark parallelisieren zu können, dass die komplette Rekonstruktion 

in Echtzeit stattfinden kann. 

Alle im Folgenden verwendeten Bezeichnungen für Variablen, Konstanten und Funktionen 

orientieren sich großteils an der Notation in [9]. Alle Formeln und Codeausschnitte 

in den folgenden Abschnitten sind, soweit nicht anders markiert, ebendaraus zitiert und 

gegebenenfalls umformatiert. 

4.2.1 Vorverarbeitung der Scannerdaten 

Die Tiefeninformationen, die die Kinect zum Zeitpunkt i liefert, liegen zunächst als Depth 

Map Di vor. Für beinahe alle weiteren Verarbeitungsschritte werden die Messpunkte dagegen 

in dreidimensionalen Kamera- oder Weltkoordinaten benötigt. Aus praktischen Gründen 

werden in diesen Koordinatensystemen alle Abstände in Metern angegeben. 

Im ersten Schritt wird zu jedem Pixel Di(u) an der Stelle u = (x, y) ⊤ in der Depth Map 

mit Hilfe der Kameramatrix K des Kinect Tiefensensors ein entsprechender Vertex vi(u) 

in Kamerakoordinaten berechnet. Da sich durch Fertigungstoleranzen die Kameramatrix 

von Kinect zu Kinect unterscheiden kann, wird sie in der Regel im Voraus mittels einer 

manuellen Kalibrierungsroutine bestimmt. 

vi(u) = Di(u) · K −1 ⎛ ⎞ 

x 

· ⎝y⎠ 

1 

Der zweite Schritt besteht darin, aus dem Gradienten der so entstandenen ” Vertex Map“ 

die Normalenvektoren der Oberflächen an den Messpunkten zu bestimmen. 

n ∗ i (u) = (vi(x + 1, y) − vi(x, y)) × (vi(x, y + 1) − vi(x, y)) 

ni(u) = n∗ i (u) 

�n ∗ i (u)� 

Zuletzt werden zu jedem Vertex vi(u) noch dessen Äquivalent in Weltkoordinaten v g 

i (u) 

und der entsprechende Normalenvektor in Weltkoordinaten n g 

i (u) berechnet. Hierzu wird 

die Kameraposition zum Zeitpunkt i mit sechs Freiheitsgraden (dreimal Translation, dreimal 

Rotation) durch die Transformationsmatrix Ti (siehe 4.2.2) dargestellt. 

17


Ti = 

� � 

Ri ti 

0 1 

Hierbei ist Ri eine 3 × 3 Rotationsmatrix und ti ein dreidimensionaler Translationsvektor. 

Somit ergibt sich bei impliziter Konvertierung in homogene vierdimensionale Vektoren 

beziehungsweise zurück: 

v g 

i (u) = Ti · vi(u) 

n g 

i (u) = Ri · ni(u) 

Die komplette Vorverarbeitung ist trivial parallelisierbar und kann daher leicht auf der 

Grafikhardware ausgeführt werden. 

4.2.2 Tracking 

Um Informationen aus mehr als nur einem Frame zur Rekonstruktion der Szene heranziehen 

zu können, muss in jedem Frame die neue Position der Kamera relativ zur Szene 

berechnet werden. Dies führt prinzipiell selbst dann zu besseren Ergebnissen, wenn sowohl 

die Szene als auch die Kamera scheinbar statisch sind. Durch minimalste Bewegungen – 

wie etwa ein leichtes Zittern beim Halten der Kamera – entstehen neue Ansichten auf die 

Szene, die zusätzliche Informationen liefern können. 

Da es sich bei Kinect Fusion um ein Echtzeitverfahren mit angestrebten 30 Frames pro 

Sekunde (hardwareseitige Limitierung) handelt, kann davon ausgegangen werden, dass 

sich die Kameraposition gegenüber dem letzten Frame selbst bei schnellen Bewegungen 

nur wenig ändert. Daher bietet es sich an, die neue Kameraposition Ti zunächst mit der 

alten Kameraposition Ti−1 zu initialisieren und sie dann iterativ anzupassen. Hierzu wird 

der ” iterative closest point“ (ICP) Algorithmus [10] verwendet. Dieser dient eigentlich dazu, 

Objekte aneinander auszurichten, aber da es letztlich nur eine Interpretationsfrage ist, ob 

sich die Szene oder die Kamera bewegt, lässt sich der Algorithmus problemlos anwenden, 

um die Verschiebung der Kamera aus der Änderung der Messdaten zu bestimmen. 

Durch den Einsatz der GPU zur Berechnung ist es im Gegensatz zu vielen anderen Anwendungen 

des ICP Algorithmus’ nicht nötig, vorab eine kleine Menge an Punkten auszuwählen, 

für die die Berechnung durchgeführt wird. Stattdessen ist es möglich, die vollen 

640x480 Pixel der Depth Map zu verwenden, wobei die Arbeit für jeden Pixel in einem 

eigenen GPU Thread stattfindet. Die zweite Herausforderung ist die Zuordnung der einzelnen 

Messpunkte aus dem aktuellen und dem vorherigen Frame zueinander. Durch die 

Annahme, dass sich die Kameraposition zwischen zwei Frames nicht stark ändert und es 

somit zu wenigen Verschattungen durch bisher unbekannte Punkte kommt, bietet sich ein 

einfacher projektiver Ansatz an. 

Es gibt nun zwei grundlegende Möglichkeiten zur Assoziation. Die erste ist ein sogenanntes 

” frame-to-frame tracking“. Dabei wird jeder Vertex aus dem vorherigen Frame in die Depth 

Map des aktuellen Frames projiziert und mit dem zum resultierenden Pixel gehörenden 

Vertex assoziiert. Die alternative besteht darin, die bereits teilweise rekonstruierte Szene 

als Referenz heranzuziehen, statt nur die Depth Map des letzten Frames zu betrachten. 

Experimente in [8] zeigen, dass letztere Variante wesentlich präzisere Ergebnisse liefern. Um 

Fehler durch statistische Ausreißer zu vermeiden, werden in beiden Varianten Vertexpaare 

verworfen, falls sie sich in ihrer Position oder Normale zu stark voneinander unterscheiden. 

Außerdem werden Stellen ignoriert, an der die neue Depth Map keine gültigen Werte 

beinhaltet. 

18

4.2. Echtzeitrekonstruktion aus Depth Maps mit Kinect Fusion 19 

Als Metrik für die Qualität wird die Summe der quadrierten Abstände der neuen Vertices 

zu den Tangentenebenen ihrer Partner gewählt. In [8] wird davon abweichend auf das 

Quadrieren verzichtet. 

E(T ) = � 

�(T vi(u) − v 

u 

Di(u)>0 

g 

i−1 (u)) · ng 

i−1 (u)�2 

Diese Summe kann auf der GPU parallel berechnet werden. In jedem Iterationsschritt wird 

nun eine Transformationsmatrix T gesucht, die E(T ) minimiert. Unter der Annahme der 

kleinen Winkel kann man vereinfachend von sin(θ) ≈ θ ausgehen und das Problem auf 

ein 6 × 6 Lineares Gleichungssystem reduzieren, das auf der CPU mittels einer Cholesky- 

Zerlegung gelöst werden kann. Die resultierende Matrix T wird nun als neuer Wert für Ti 

im nächsten Iterationsschritt gesetzt, der wieder mit der Bildung der Vertexpaare beginnt. 

Um eine konstante Framerate zu garantieren, wird die Anzahl der Iterationen begrenzt. 

4.2.3 Rekonstruktion 

Anders als andere Verfahren repräsentiert Kinect Fusion die rekonstruierte Szene intern 

nicht als Punktwolke oder Polygonnetz, sondern als dreidimensionales Distanzfeld, genauer 

gesagt als ” truncated signed distance field“ (TSDF) [11]. Dabei handelt es sich um 

ein regelmäßiges Gitter mit fester Auflösung, bei dem in jedem Voxel in diesem Gitter 

der Abstand zur nächstgelegenen Oberfläche gespeichert werden. Dabei markieren postive 

Werte Punkte im leeren Raum, während sich Voxel mit negativen Werten im Inneren eines 

Objekts befinden. Oberflächen ergeben sich aus den Nulldurchgängen. In TSDFs wird 

entgegen normalen Distanzfeldern der Wertebereich auf ein Intervall [−µ, µ] und Werte, 

die außerhalb dieses Intervalls liegen, werden durch auf µ beziehungsweise −µ gesetzt. Auf 

diese Art lässt sich unter anderem die Ungenauigkeit der Messung ausdrücken. Wenn man 

µ auf den maximal zu erwartenden Messfehler setzt, liegen Voxel mit einem Wert von µ 

quasi garantiert vor einer Oberfläche, während Voxel mit einem Wert von −µ hinter einer 

Oberfläche liegen. Voxel, deren Werte innerhalb des Intervalls liegen, bilden den tendenziell 

durch Messfehler verfälschten Bereich. 

Die Generierung dieses Distanzfelds ist ein mehrstufiger Prozess. In jedem Frame wird 

zunächst ein neues Distanzfeld aus der gerade aktuellen Depth Map generiert. Dafür wird 

diese zunächst zur Rauschunterdrückung mit Hilfe eines bilateralen Filters geglättet. Gegenüber 

einem einfachen Gauß-Filter werden hierbei nur Oberflächen geglättet, während 

Kanten beibehalten werden. Zwar können so auch kleinere Oberflächendetails verloren gehen, 

aber diese treten durch die Wiederholung in mehreren Frames langsam wieder auf. 

Wie in [9] gezeigt, sind so selbst Vertiefungen von nur einem Millimeter deutlich sichtbar. 

Als nächstes wird anhand der geglätteten Depth Map ein komplett neues Distanzfeld 

für diesen Frame berechnet, das dann Schritt mit dem Distanzfeld aus früheren Frames 

verschmolzen wird. Dazu erhält jeder Voxel zusätzlich zu seinem Abstandswert noch eine 

Gewichtung, die dessen erwartete Genauigkeit angibt. 

Wie auch alle anderen Berechnungen, lassen sich Aufbau und Verschmelzung von Distanzfeldern 

leicht parallelisieren. Für jeden Voxel g wird seine Position in Weltkoordinaten v g 

berechnet, diese mit der Kameramatrix in den Bildraum der Depth Map projiziert und 

damit bestimmt von welchem Pixel p der Depth Map er abgedeckt wird. Liegt er innerhalb 

des Sichtbereichs der Kamera, so werden sein Abstand tsdfi zur gemessenen Oberfläche 

und seine Gewichtung wi bestimmt. 

sdfi = �ti − v g � − Di(p) 

19


tsdfi entsteht aus sdfi durch die Beschränkung auf das Intervall [−µ, µ]. Zur Wahl von wi 

gibt es unterschiedliche Möglichkeiten. Um die Genauigkeit der Messung anzugeben, muss 

wi proportional zu cos(θ) 

Di(p) gewählt werden, wobei θ der Winkel zwischen dem virtuellen 

Strahl von der Kamera zum Punkg vg und der gemessenen Oberflächennormale ni(p) ist. 

Vereinfachend kann aber auch wi = 1 gute Ergebnisse liefern. 

Die Verschmelzung des neuen und des alten Distanzfelds ist eine einfache gewichtete Mittelung 

der Abstände tsdfi und tsdfi−1 sowie eine Aufsummierung der Gewichtungen wi und 

wi−1. Wenn man das dabei resultierende w avg auf einen Maximalwert w max beschränkt, 

werden Änderungen in der Szene schneller in die Rekonstruktion aufgenommen, da ältere 

Messungen nur begrenzten Einfluss haben. 

tsdf avg = tsdfiwi + tsdfi−1wi−1 

wi + wi−1 

w avg = min(w max , wi + wi−1) 

Man beachte, dass die entsprechenden Zeilen im Pseudocode in [9] von der Beschreibung in 

[8] abweichen und vermutlich fehlerhaft sind, da sie dem neuen Distanzfeld eine wesentlich 

zu hohe Gewichtung zuweisen. Würde man die Berechnung derartig durchführen, wäre das 

Ergebnis auf lange Sicht das gleiche, wie wenn man w max = 1 setzt. 

Abschließend werden tsdf avg und w avg als neue Werte in das TSDF geschrieben. 

4.2.4 Darstellung der rekonstruierten Szene 

Die Repräsentation der Szene als Distanzfeld eignet sich gut für ein Rendering durch Ray 

Casting beziehungsweise Ray Marching. Für jeden Pixel wird ein GPU Thread gestartet, 

der einen Sichtstrahl von der Kamera durch die Szene verfolgt, bis ein Übergang von positiven 

zu negativen Abstandswerten – also eine Oberfläche – festgestellt wird. Wenn das 

Distanzfeld verlassen oder ein Übergang von einem negativen zu einem positiven Abstandswert 

festgestellt wird, bevor eine Oberfläche gefunden wurde, kann davon ausgegangen 

werden, dass die Szene an der entsprechenden Stelle noch nicht vollständig rekonstruiert 

wurde. In diesem Fall wird der Sichtstrahl verworfen und der Pixel bleibt unverändert 

beziehungsweise wird mit der Hintergrundfarbe gefüllt. 

Um die Normale an der getroffenen Oberfläche zu bestimmen, wird davon ausgegangen, 

dass diese gerade dem Gradienten des Distanzfeldes entspricht. 

n ∗ (g) = ∇tsdfi(g) 

Zur Verwendung für die Beleuchtungsberechnung muss der so gewonnene Vektor nur noch 

in Weltkoordinaten transformiert und anschließend normalisiert werden. Für komplexere 

Beleuchtungsberechnungen können wie bei anderen Ray Tracing Verfahren Sekundärstrahlen 

verschossen werden, um Reflexionen und Verschattungen zu berücksichtigen. 

Kinect Fusion verzichtet explizit auf Beschleunigungsstrukturen wie KD-Bäume, die man 

sonst in Ray Tracern findet. Sie würden zwar eine Performancesteigerung bei der Darstellung 

bewirken, sind aber in der Regel für weitestgehend statische Szenen optimiert. 

Da sich das Distanzfeld aber mit jedem Frame ändern kann, wäre der Aufwand, jeweils 

die Beschleunigungsstrukturen zu aktualisieren, zu hoch. Da die Werte in einem Distanzfeld 

aber gerade den Abstand zur nächstgelegenen Oberfläche angeben, können im leeren 

Raum Voxel stattdessen schnell durch einfaches einfaches Ray Skipping übersprungen werden, 

indem direkt um die durch µ gegebene Entfernung entlang des Strahls nach vorne 

geschritten wird. 

20

4.3. Featurebasiertes Mapping mit einer einzelnen Kamera 21 

Es ist verhältnismäßig einfach, das Distanzfeld im Rahmen einer Augmented Reality Anwendung 

mit klassischen polygonbasierten Objekten zu kombinieren. Dazu werden diese 

Objekte mit den herkömmlichen Rendermethoden von der Grafikkarte verarbeitet. Statt 

sie aber direkt in den Frame Buffer zu rendern, werden Position, Normale und Farbinformationen 

eigene Texturen (in dieser Arbeit analog zum Deferred Shading als G-Buffer 

bezeichnet) geschrieben, aus denen dann beim Ray Casting gelesen werden kann. Überschreitet 

die Länge eines Strahls den Abstand zwischen der Kamera und dem im G-Buffer 

gespeicherten Oberflächenpunkt, so wird die Strahlverfolgung abgebrochen und stattdessen 

werden die Daten aus dem G-Buffer verwendet. Auch hier können wieder Sekundärstrahlen 

verschossen werden, um Gegenseitige Verschattung und Reflexion der rekonstruierten 

Szene und den dazugerenderten Objekten zu erzielen. 

Auf diese Art kann selbstverständlich nicht nur die aktuelle Ansicht der Kamera nachgebildet 

werden. Es ist genau so gut möglich, beliebige andere Ansichten der Szene zu rendern 

und damit auch Objekte zu zeigen, die momentan nicht von der Kamera gesehen werden. 

Eine weitere Anwendung besteht in der Generierung von Depth Maps für das Tracking der 

Kameraposition (siehe 4.2.2). Gegenüber der tatsächlich im vorherigen Frame von der Kamera 

aufgenommenen Depth Map weisen diese wesentlich weniger Rauschen und Löcher 

auf und verbessern die Ergebnisse des ICP Algorithmus’ enorm. 

4.2.5 Segmentierung von beweglichen Szenenkomponenten 

Das vorgestellte Verfahren nutzt einen neuartigen Ansatz, um bewegliche Objekte innerhalb 

der Szene zu tracken. Dazu wird die Tatsache ausgenutzt, dass die Plausibilitätsprüfung 

des ICP Algorithmus’ (siehe 4.2.2) sich gut eignet, um Abweichungen von der erwarteten 

Geometrie zu identifizieren. Dazu werden alle Punkte, die für das Kameratracking 

zu starke Abweichungen aufweisen, registriert und zu zusammenhängenden Bereichen zusammengefasst. 

Wenn ein Bereich groß genug ist, um davon ausgegen zu können, dass es 

sich nicht nur um eine Ansammlung von Messfehlern handelt, wird er als eigenes Objekt 

separat rekonstruiert und getrackt. 

Diese Methode zur Segmentierung von Szenen führt zu einer äußerst intuitiven Bedienung 

durch den Benutzer. Um ein Objekt vom Rest der Szene zu trennen, muss es nur für einen 

kurzen Moment bewegt werden. Eine manuelle Auswahl des Objektes am Bildschirm und 

eine komplizierte serverseitige Erkennung der Objektgrenzen entfallen gänzlich. 

Auf die gleiche Art kann auch der Benutzer selbst erfasst werden. Zwar ist der ICP Algorithmus 

nur für in sich starre Objekte ausgelegt, aber so lange ein Großteil eines Objekts 

starr bleibt, während sich der Rest bewegt, werden immer noch gute Ergebnisse erzielt. 

Auf diese Weise kann zum Beispiel ohne Probleme der Arm des Benutzers getrackt werden, 

während sich Hand und Finger bewegen. 

Wenn man die Berührungspunkten zwischen zwei separat getrackten Szenenteilen, etwa 

der Hand des Benutzers und dem Hintergrund betrachtet, lässt sich verhältnismäßig leicht 

eine Multitouchsteuerung auf beliebigen Oberflächen realisieren. Vorübergehend verdeckte 

Berührungspunkte können dabei anhand der aus früheren Frames bekannten Szenen- und 

Objektgeometrie abgeschätzt werden. So lange der Benutzer seine Finger nicht einzeln 

bewegt, so lange sie für die Kamera nicht sichtbar sind, ist das Ergebnis ausreichend 

genau. 

4.3 Featurebasiertes Mapping mit einer einzelnen Kamera 

Während die beiden vorherigen Verfahren in sich geschlossene und zu einem gewissen 

Grad vollständige Umgebungsmodelle erzeugen, beschreibt Davison in [12] ein Verfahren, 

21


das lediglich eine relativ begrenzte Anzahl an Features (Merkmalen) als Punktwolke rekonstruiert. 

Wie auch das zuvor vorgestellte Kinect Fusion Projekt handelt es sich hier 

um einen echtzeitfähigen ” simultaneous localisation and mapping“ (SLAM) Ansatz. Allerdings 

wird hier keine Spezialhardware vorausgesetzt, sondern ein einfacher Videostream, 

wie etwa von einer Webcam verwendet. 

4.3.1 Repräsentation der Messunsicherheit durch ein stochastisches Modell 

Da keinerlei externe Sensoren zur Unterstützung verwendet werden und nicht im Voraus 

bekannt ist, wie der Benutzer die Kamera bewegt, sind nicht nur die Positionen der zu 

erfassenden Features unsicher, sondern auch die Position und Geschwindigkeit der Kamera. 

Diese Unsicherheit wird durch ein stochastisches Modell repräsentiert, das implizit die 

Zufallsverteilungen dieser Werte abbildet. Um die Position der Kamera zu modellieren, 

wird davon ausgegangen, dass sie sich die meiste Zeit mit einer annähernd konstanten 

Geschwindigkeit bewegt und auch die Rotationsgeschwindigkeit annähernd konstant ist, 

eine starke Beschleunigung also jeweils unwahrscheinlich ist. Damit wird der Zustand der 

Kamera durch folgenden Vektor repräsentiert: 

⎛ ⎞ 

r 

⎜ 

xv = ⎜q 

⎟ 

⎝v 

⎠ 

ω 

Hierbei beschreibt der Vektor r die Position der Kamera, das Quaternion q ihre Rotation 

gegenüber dem Weltkoordinatensystem, der Vektor v ihre lineare Geschwindigkeit und ω 

ihre Winkelgeschwindigkeit. Somit besteht xv aus insgesamt 13 Komponenten, die jeweils 

reelle Werte annehmen können. Die lineare Beschleunigung a und die Winkelbeschleunigung 

α, die auf die Kamera einwirken, werden jeweils durch eine Gaußverteilung mit dem 

Erwartungswert 0 modelliert. Damit ergibt sich, dass v und ω einem additiven Rauschen 

n unterliegen. 

n = 

� � 

V 

= 

Ω 

Somit ergibt sich der neue Kamerazustand fv als 

� � 

a · ∆t 

α · ∆t 

⎛ 

r 

⎜ 

fv = ⎜ 

⎝ 

′ 

q ′ 

v ′ 

ω ′ 

⎞ 

⎟ 

⎠ = 

⎛ 

r + (v + V ) · ∆t 

⎞ 

⎜ 

⎜q 

× q((ω + Ω) · ∆t) ⎟ 

⎝ v + V ⎠ 

ω + Ω 

wobei q((ω + Ω) · ∆t) das Quaternion darstellt, das durch den Rotationsvektor (ω + Ω) · 

∆t gegeben ist. Das Erweiterte Kalman-Filter (EKF), das die Positionsvorhersagen trifft, 

benötigt außerdem einen Wert Qv für die Unsicherheit der Kameraposition. Diese ergibt 

sich mit der Kovarianzmatrix Pn des Rauschvektors n aus folgender Formel: 

Qv = δfv 

δn Pn 

⊤ 

δfv 

δn 

Wie schnell die Unsicherheit in der Schätzung wächst, hängt also maßgeblich davon ab, 

wie Pn gewählt wird. Für sehr niedrige Werte würde die Unsicherheit nur sehr langsam 

22


wachsen, die Schätzung also als sehr genau angenommen wird. Diese wäre aber nur unter 

der Annahme einer sehr gleichmäßigen Bewegung korrekt, da das Modell hohen Beschleunigungsraten 

eine extrem geringe Wahrscheinlichkeit zuweisen würde. Hohe Werte würden 

diese Beschleunigungen zwar berücksichtigen, aber zu einer schnell steigenden Unsicherheit 

führen, weshalb eine durchgehend sehr präzise Erkennung der Szene nötig wäre, um 

diese wieder zu senken. 

Zusätzlich zum aktuellen Zustand ˆxv der Kamera enthält der aktuelle Zustand ˆx des Gesamtsystems 

auch zu jedem getrackten Feature i dessen aktuellen Zustand ˆyi. Zu dem aus 

Zufallsvariablen bestehenden Vektor ˆx gehört außerdem auch die entsprechende Kovarianzmatrix 

P . 

⎛ ⎞ ⎛ 

ˆxv 

Pxx Pxy1 Pxy2 . . . 

⎜ 

⎜ˆy1 

⎟ ⎜ 

⎟ ⎜Py1x 

Py1y1 

ˆx = ⎜ 

⎝ˆy2 

⎟ , P = ⎜ 

⎠ ⎝ 

. 

Py1y2 . . . 

Py2x Py2y1 Py2y2 

⎞ 

⎟ 

. . . ⎟ 

⎠ 

. . . 

4.3.2 Auswahl und Erkennung von trackbaren Features 

Um durchgehend ein robustes Tracking zu gewährleisten, ohne den benötigten Rechenaufwand 

in die Höhe zu treiben, wird angestrebt, die Anzahl der zu einem beliebigen Zeitpunkt 

getrackten Features immer in einem festen Bereich zu halten. Dieser kann je nach 

benötigter Genauigkeit und verfügbarer Rechenleistung gewählt werden. Sobald die untere 

Grenze dieses Bereiches unterschritten wird, zum Beispiel, weil sich ein Feature nicht 

mehr im Sichtbereich der Kamera befindet, müssen neue Features in der Szene identifiziert 

werden. 

Zur Identifikation von ” interessanten“ Features, also solchen, deren Aussehen charakteristisch 

genug ist, um über mehrere Frames hinweg zuverlässig wiedererkannt zu werden, 

kommt das von Shi und Tomasi in [13] vorgestellte Verfahren zum Einsatz. Die Features 

werden nicht wie bei einigen anderen Verfahren nur durch einen Pixel und seine direkten 

Nachbarn, sondern durch einen Bereich von etwa 9 mal 9 bis 15 mal 15 Pixeln identifiziert. 

Um Rechenzeit zu sparen, ist es in der Regel ausreichend, den Shi-Tomasi Operator 

nicht auf das gesamte Bild, sondern nur auf einen verhältnismäßig kleinen Bildbereich von 

etwa 100 mal 50 Pixeln anzuwenden. Dieser Bereich kann zufällig gewählt werden, sollte 

aber möglichst noch keine anderen Features enthalten, um eine Mehrfacherkennung des 

gleichen Features zu vermeiden. Außerdem wird darauf geachtet, einen Bereich zu wählen, 

der unter der Annahme einer konstant bleibenden Kamerabewegung nicht zu schnell den 

sichtbaren Bildbereich verlässt. 

Da für neue Features zunächst keinerlei Aussage gemacht werden kann, wie weit sie von der 

Kamera entfernt sind, werden sie zunächst nicht durch einen Punkt, sondern eine Halbgerade 

von der Kamera aus repräsentiert. Die Unsicherheit, wo genau auf dieser Halbgeraden 

sich die tatsächliche Position wird durch eine Zufallsverteilung über eine feste Anzahl von 

Punkten auf der Halbgeraden repräsentiert. Dies können zum Beispiel für Innenräume 100 

gleichmäßig verteilte Punkte zwischen 0,5 und 5 Metern von der geschätzten Kameraposition 

zum Zeitpunkt der erstmaligen Erkennung sein. Für größere Szenen müssten diese 

Werte angepasst werden. Jeder dieser Punkte entspricht in den folgenden Frames einer 

elliptischen Suchregion, in der das Feature vermutet wird. Die Wahrscheinlichkeit, dass 

die Position einem dieser Punkte entspricht, wird zunächst als gleichverteilt angenommen 

und jedes Mal, wenn das Feature in folgenden Frames gefunden wurde, anhand der neuen 

Position aktualisiert. Mit der Zeit nähert sich die Verteilungsfunktion einer Gaußverteilung 

um einen Punkt auf der Halbgeraden an, bis dieser Punkt als Featureposition mit durch 

23


eben jene Gaußverteilung beschriebene Unsicherheit angenommen werden kann und die 

Halbgerade verworfen wird. 

4.3.3 Tracking von gefundenen Features 

In jedem Frame wird zunächst mittels eines Erweiterten Kalman-Filters eine Vorhersage 

für die neue Kameraposition getroffen. Aus der vorhergesagten Kameraposition r, der sich 

aus q ergebenden Rotationsmatrix R und der vermuteten Position yi eines Features ergibt 

sich dessen relative Position hL zur Kamera als hL = R(yi − r). Daraus lässt sich 

durch die Projektionsmatrix der Kamera die wahrscheinlichste Position hi des Features im 

Bildraum bestimmen. Zusammen mit der Wahrscheinlichkeitsverteilung für yi kann man 

daraus einen elliptischen Bereich im Bild ableiten, in dem sich das Feature im aktuellen 

Frame mit einer vorher festgelegten hohen Wahrscheinlichkeit befindet. Sofern sich diese 

Ellipse innerhalb der tatsächlichen Bildgrenzen befindt, wird darin das entsprechende 

Feature gesucht, indem die Stelle identifiziert wird, an der die Summe der quadrierten 

Farbdistanzen zum vorher beobachteten Feature minimal ist. Sofern es nicht gelingt, einen 

ausreichend geringen Wert zu erreichen, wird angenommen, dass das Feature derzeit nicht 

sichtbar ist, beispielsweise, weil es von einem anderen Objekt verdeckt wird, oder weil 

zuvor ein nichtstatischer Szenenteil oder eine Spiegelung fälschlicherweise für das Tracking 

ausgewählt wurde. Features, die innerhalb eines bestimmten Zeitraumes bei mindestens 

50 Prozent aller Versuche nicht entdeckt werden können, obwohl sie sich im Sichtbereich 

der Kamera befinden sollten, werden komplett verworfen, da davon auszugehen ist, dass 

sie entweder zu oft von anderen Objekten verdeckt werden oder dass es sich nicht um 

statische Features handelt. 

Für Features, deren Position noch als Verteilung um eine Halbgerade statt um einen Punkt 

herum modelliert wird, findet diese Suche für jeden der zuvor auf dieser Halbgeraden definierten 

Punkte statt. Zur Performanceoptimierung kann die Suche die Punkte nach der 

ihnen zugewiesenen Wahrscheinlichkeiten statt nach ihrer räumlichen Anordnung sortiert 

berücksichtigen. Sollte das Feature gefunden werden, wird die Wahrscheinlichkeitsverteilung 

der Punkte entsprechend angepasst. 

Features, die sich vorübergehend außerhalb des Sichtbereiches der Kamera befunden haben, 

werden automatisch wieder zur Suchmenge hinzugefügt, sobald sich die Kamera wieder 

in ihre Richtung bewegt. Auch wenn dadurch keine neuen Informationen über die 

Position eines Features gewonnen werden können, so können bekannte Features doch dazu 

beitragen, dass die Bewegung der Kamera präziser getrackt wird. Dabei ist es allerdings 

von Vorteil, Features zu ignorieren, die zuvor aus einer stark abweichenden Richtung beobachtet 

wurden, da sich verschiedene Seiten eines Objektes nicht zwingend ähneln und 

das entsprechende Feature sonst fälschlicherweise entfernt würde. 

Sobald die Suche für alle relevanten Features abgeschlossen ist, kann die Schätzung des 

Szenenzustandes (also die Positionen und deren Kovarianzmatrix) entsprechend der neu 

gefundenen Positionen aktualisiert werden. 

4.3.4 Variation des Verfahrens zur Rekonstruktion von Außenarealen 

In [14] haben Clemente et al. verschiedene Verbesserungen für das vorgeschlagene Verfahren 

vorgestellt, mit denen es sich auch für größere Außenareale einsetzen lässt. Da sich 

dadurch aber die Komplexität des Verfahrens stark erhöht und eine umfassende Beschreibung 

den Rahmen dieses Kapitels sprengen würde, beschränkt sich der folgende Absatz 

nur auf einige wenige ausgewählte Änderungen. Für eine vollständige Erläuterung sei die 

Lektüre des genannten Papers empfohlen. 

Da in großen Arealen sehr schnell eine große Anzahl an relevanten Features anfällt, müssen 

Maßnahmen ergriffen werden, um den benötigten Rechenaufwand pro Frame trotzdem in 

24


einem sinnvollen Rahmen zu halten, damit die Echtzeitfähigkeit nicht verloren geht. Deshalb 

besteht eine wichtige Änderung darin, dass die Szene nicht als Ganzes rekonstruiert 

wird, sondern als eine Reihe von einzelnen Teilszenen mit einer fest definierten Anzahl an 

Features. Dabei ist es durchaus möglich und sogar wichtig, dass viele Features in mehreren 

dieser Abschnitte erfasst werden, damit deren relative Position zueinander genauer 

bestimmt werden kann. Das bedeutet insbesondere, dass eine Teilszene sofort als abgeschlossen 

angesehen wird, sobald die vorgesehene Featureanzahl überschritten wird. Die 

neue Teilszene übernimmt bis auf die aktuelle Kameraposition keinerlei Informationen aus 

vorherigen Teilen, damit sich keine Fehler akkumulieren können. Dementsprechend werden 

Koordinaten auch jeweils relativ zur ersten Kameraposition innerhalb einer Teilszene 

angegeben. 

Diese Einzelteile werden nach Ende der Aufnahme in einem Nachbearbeitungsschritt zu 

einer Rekonstruktion der Gesamtszene zusammengesetzt. Dabei tragen Überlappungen 

zwischen den einzelnen Teilen dazu bei, deren Ausrichtung zueinander besser abzuschätzen. 

Dies gilt insbesondere, wenn ein geschlossener Kreis gefunden werden kann, durch den 

Fehler, die sich über die Zeit akkumuliert haben, ausgeglichen werden können. 

(Evtl. mehr) ToDo 

25

5. Implementierung auf Enduserhardware 

5.1 Zugriff auf die Bilddaten 

Wenn keine Echtzeit-Bilddaten verwendet werden, ist der Zugriff trivial. Die Bilder können 

im Voraus per Netzwerk oder mit einem Wechseldatenträger auf den Rechner übertragen 

und dann direkt von der Festplatte aus geöffnet werden. Eine Ausnahme bilden hierbei 

Verfahren wie etwa das ” Building Rome in a Day“ Projekt [2], bei denen so viele Daten 

anfallen, dass ein ganzer Cluster zur Berechnung benötigt wird. In diesem Fall müssen 

Strategien entwickelt werden, um die Bilder möglichst effizient innerhalb des Clusters zu 

verschieben. Dies soll allerdings nicht Thema dieser Ausarbeitung sein. 

Für Echtzeitverfahren wird die Kamera in der Regel direkt über USB oder Firewire, seltener 

auch per Funk angeschlossen. Der Zugriff erfolgt je nach Art der Kamera über verschiedene 

APIs. Die meisten monokularen Kameras können einfach als normale Webcam 

beziehungsweise als generischer AV-Input angesprochen werden. Für spezialisiertere Kamerasysteme 

werden in der Regel vom Hersteller Treiber und ein entsprechendes SDK 

herausgegeben. Beispielhaft sei hier die Microsoft Kinect genannt, da diese derzeit sehr 

populär ist und mehrere verschiedene Treiber angeboten werden. Unter Windows bietet 

es sich an, das offizielle Kinect for Windows SDK zu verwenden, das zusammen mit einem 

Treiber für die Kinect, einer Dokumentation und einigen Beispielen ausgeliefert wird. 

Ein Nachteil an diesem SDK ist, dass es zwingend das Microsoft Visual Studio 2010 oder 

höher voraussetzt. Ältere Versionen oder gar andere Compiler verweigern nach Erfahrung 

des Autors den Dienst. Die Schnittstelle, die sowohl für C++ als auch für C# angeboten 

wird, ist übersichtlich und zuverlässig. Sie bietet direkten Zugriff auf die RGB-Kamera, 

den Tiefensensor, den Motor, über den die Neigung der Kamera eingestellt werden kann, 

das integrierte Mikrofonarray und einige Hilfsfunktionen. 

Wer nicht mit dem Kinect for Windows SDK arbeiten möchte, dem stehen auch zwei 

Open Source Alternativen zur Verfügung. Die OpenKinect Community 1 hat einen selbstentwickelte 

Bibliothek mit dem Namen libfreenect veröffentlicht. Diese funktioniert unter 

Windows, Linux und Mac OS X. Sie darf wahlweise unter der GPL oder der Apache Lizenz 

verwendet werden. Da sie allerdings teilweise per Reverse Engeneering der Hardware 

entstanden ist, ist die genaue rechtliche Lage unklar. 

Eine etwas offiziellere Variante ist das OpenNI Framework 2 . Es darf unter der GPL und der 

LGPL verwendet werden und wird unter anderem von verschiedenen Hardwareherstellern 

1 http://openkinect.org/wiki/Main_Page 

2 http://www.openni.org/ 

27

28 5. Implementierung auf Enduserhardware 

wie etwa Asus mitgetragen, die Kamerasysteme vertreiben, die der Microsoft Kinect sehr 

ähnlich sind. Auch PrimeSense, die Firma, die die Kinect ursprünglich entwickelt hat, ist 

mit an Bord. Hier werden Binärpakete für Windows und Ubuntu Linux angeboten, aber 

es ist problemlos möglich, das Framework unter anderen Linuxdistributionen und unter 

Mac OS X selbst zu kompilieren. 

5.2 Parallelisierungstechniken zur Beschleunigung 

Da ein Großer Teil der Arbeit bei der Rekonstruktion darin besteht, auf großen Datenmengen 

jeweils die gleiche Operation auszuführen, ist es oft verhältnismäßig simpel, diese Arbeit 

zu parallelisieren. Beispiele sind das Vorfiltern von Bildern, eine Kantenerkennung, die 

Aktualisierung vieler Objektpositionen auf einmal oder das Erzeugen eines Distanzfeldes 

aus einer Punktwolke bei Kinect Fusion. Während aktuelle CPUs derzeit zwischen einem 

und acht Threads parallel ausführen können, erreichen moderne Grafikkarten inzwischen 

dutzende oder sogar hunderte von Threads auf einmal – allerdings mit der Einschränkung, 

dass alle den gleichen Code mit unterschiedlichen Daten ausführen, was im aktuellen Fall 

aber gerade das erwünschte Verhalten ist. 

Sowohl NVIDIA als auch AMD bieten für ihre aktuellen Grafikkartengenerationen eine 

General Purpose GPU (GPGPU) Schnittstelle an, mit der Programme unabhängig von 

der sonst üblichen Shader Pipeline auf der GPU ausgeführt werden können. Während 

das AMD Accelerated Parallel Processing (APP) SDK dazu hauptsächlich auf den von 

der Khronos Group entwickelten OpenCL Standard und den zugehörigen C-Dialekt setzt, 

hat NVIDIA mit CUDA eine eigene Grafikkartenarchitektur mit zugehöriger Programmierschnittstelle 

entwickelt. Allerdings wird auch hier zusätzlich OpenCL angeboten, um 

die Kompatibilität zu Grafikkarten anderer Hersteller zu gewährleisten. Somit eignet sich 

OpenCL gut für Software, die vermarktet werden soll, da sie nicht an einen einzelnen Hardwarehersteller 

gebunden ist. Es gilt allerdings zu beachten, dass der volle Funktionsumfang 

von OpenCL nur auf verhältnismäßig neuen Grafikkarten zur Verfügung steht. Bei AMD 

sind das die Radeon Karten ab der HD5000 Serie und bei NVIDIA die GeForce 8 Serie und 

höher sowie die meisten Vertreter der Quadro FX Serie. Für ältere Karten ist OpenCL nur 

unvollständig oder gar nicht implementiert. OpenCL unterstützt für diesen Fall zwar die 

Ausführung auf der CPU (oder anderer Hardware, wie etwa Physikkarten), dies ist allerdings 

wesentlich langsamer. Somit steht nur auf einigermaßen modernen Desktoprechnern 

und einigen wenigen Laptops die nötigen Mittel zur Verfügung, um hochgradig parallel zu 

rechnen. 

Wenn OpenCL verwendet wird, sollte darauf geachtet werden, die Anzahl der Arbeiterthreads 

so anzupassen, dass die GPU vollständig ausgelastet wird, ohne dabei unnötigen 

Verwaltungsoverhead durch zu viele Threads zu erzeugen. Ein gutes Beispiel dafür ist die 

Erzeugung des Distanzfeldes bei Kinect Fusion. Statt jedem Voxel einen eigenen Thread 

zuzuweisen, was bis zu 512 3 = 134217728 Threads führen würde, bearbeitet jeder Thread 

eine ganze Reihe von Voxeln nacheinander. Damit wird die Threadanzahl deutlich reduziert. 

5.3 Implementierung eines einfachen Punktwolkenbetrachters 

Im Rahmen dieser Arbeit wurde eine Anwendung entwickelt, die veranschaulicht, wie man 

mit der Microsoft Kinect prinzipiell Szenen rekonstruieren kann. Da der zur Verfügung 

stehende PC allerdings noch mit einer etwas älteren AMD Radon HD4850 Grafikkarte 

ausgestattet ist, die OpenCL nicht vollständig unterstützt, wurde auf ein komplizierten 

Rekonstruktions- und Trackingalgorithmus verzichtet. Stattdessen wurde ein einfacher Betrachter 

für Punktwolken implementiert. Mit diesem kann anschaulich dargestellt werden, 

28

5.3. Implementierung eines einfachen Punktwolkenbetrachters 29 

wie die Rohdaten, die die Kinect liefert, beschaffen sind und welche räumliche Anordnung 

sich daraus ergibt. 

5.3.1 Die Benutzeroberfläche 

Dem Benutzer wird ein dreigeteiltes Fenster präsentiert, in dem er die drei wichtigsten 

Ansichten der Szene sehen kann. Im linken oberen Feld wird das Bild angezeigt, das die 

RGB-Kamera der Microsoft Kinect liefert. Darunter befindet sich ein Feld, in dem die vom 

Tiefensensor gelieferte und ungefilterte Depth Map als Graustufenbild zu sehen ist. Hierbei 

bedeutet ein heller Grauton, dass der entsprechende Punkt weit vom Sensor entfernt ist 

und ein dunkler Grauton bedeutet, dass der Punkt sich nahe am Sensor befindet. Bereiche, 

in denen keine gültigen Informationen gewonnen werden konnten, etwa weil der minimale 

Abstand zum Sensor unterschritten wurde oder weil es zu Verschattungen durch andere 

Objekte kam, werden schwarz dargestellt. 

Die rechte Hälfte des Fensters zeigt eine Repräsentation der erhaltenen Daten als eingefärbte 

Punktwolke. Die Färbung entspricht dem zugehörigen Pixel im RGB-Bild. Punkte, 

die durch die abweichende Position der beiden Sensoren nicht zu einem Pixel im RGB-Bild 

zugeordnet werden können, werden weiß dargestellt. Der Benutzer hat in diesem Feld die 

Möglichkeit, die Kamera mit der linken Maustaste zu drehen, sie mit der rechten Maustaste 

zu verschieben und mit dem Mausrad zu zoomen. 

Über die Menüleiste oder die Tasten + und - auf der Tastatur ist es möglich, die Kamera 

schrittweise nach oben und unten zu neigen. 

5.3.2 Erzeugung der Punktwolke 

Im Hintergrund läuft ein Thread, der fortwährend bei der Kinect nachfragt, ob neue Farbund 

Tiefeninformationen vorhanden sind. Falls ja, werden diese jeweils in ein Bildobjekt 

kopiert. Diese Bildobjekte werden zunächst an die beiden linken Felder übergeben, damit 

diese sie mittels OpenGL anzeigen können. Falls sich mindestens eines der beiden Bilder 

seit dem letzten Schleifendurchlauf verändert hat, wird nun die Punktwolke neu aufgebaut. 

Dazu wird der Reihe nach über alle Pixel in der Depth Map iteriert. Wenn ein Pixel gefunden 

wird, der keinen gültigen Tiefenwert enthält, wird er einfach übersprungen. Ansonsten 

wird mit einer Hilfsfunktion, die das Kinect for Windows SDK anbietet, aus der x- und 

y-Position sowie dem Tiefenwert bestimmt, welcher Pixel des Farbbildes dem aktuellen 

Pixel in der Depth Map entspricht und entsprechend wird eine Farbe zugewiesen. 

Anschließend wird anhand der Projektionsmatrix des Tiefensensors bestimmt, welchem 

Punkt im dreidimensionalen Raum der aktuelle Pixel entspricht. Ursprünglich wurde dazu 

die Projektionsmatrix aus der Auflösung der Depth Map und dem Öffnungswinkel und dem 

Seitenverhältnis des Tiefensensors (beide sind in den Headern des SDKs angegeben) bestimmt 

und anschließend invertiert. Somit lässt sich die dreidimensionale Position durch 

eine einfache Matrixmultiplikation mit einer anschließenden Skalierung bestimmen. Der 

entsprechende Code befindet sich immer noch im Quelltext des Programms, wird aber 

nicht mehr aufgerufen. Grund dafür ist, dass sich mit dem Wechsel vom Kinect Beta SDK 

zum Kinect for Windows SDK verschiedene Konventionen, darunter auch eines der verwendeten 

Koordinatensysteme, geändert haben. Da inzwischen eine gut funktionierende 

Hilfsfunktion vorhanden ist, die den gleichen Zweck erfüllt, wurde die Variante mit der 

Matrixmultiplikation verworfen. Sie könnte allerdings nützlich werden, wenn die entsprechende 

Berechnung auf die GPU ausgelagert werden sollte. 

Sobald alle Punkte der Punktwolke errechnet wurden, wird diese an das rechte Anzeigefeld 

im Fenster übergeben, wo sie entsprechend der vom Benutzer definierten Kameraposition 

als eine Reihe von einzelnen Pixeln angezeigt wird. Die Vielzahl an eng zusammenliegenden 

Punkten erweckt dabei an vielen Stellen den Eindruck einer durchgehenden Fläche. 

29

30 5. Implementierung auf Enduserhardware 

5.3.3 Mögliche Erweiterungen 

Die vorgestellte Implementierung ist aus Performancegründen sehr simpel gehalten und berücksichtigt 

daher immer nur die in einem einzigen Frame gefundenen Punkte. Im nächsten 

Frame wird die alte Punktwolke komplett verworfen. Um eine tatsächliche Rekonstruktion 

zu realisieren, müssten die Kameraposition getrackt und die Punktwolken mehrerer Frames 

miteinander verschmolzen werden. Einer der denkbaren Ansätze ist das in Kapitel 

4.2 vorgestellte Kinect Fusion Verfahren. Es wäre aber durchaus auch möglich (wenn auch 

wahrscheinlich mit mehr Aufwand verbunden), die Rekonstruktion direkt mit einer Punktwolke 

oder mit einem Gitternetz durchzuführen, statt mit der impliziten Darstellung von 

Oberflächen als Nulldurchgänge in einem Distanzfeld. 

Eine weitere interessante Erweiterung wäre es, nicht nur die Position der Punkte, sondern 

auch ihre Farbe miteinander zu verrechnen, um so im Laufe der Zeit für jeden Punkt seine 

von der Position des Betrachters unabhängige Farbe, also gerade den diffusen Anteil zu erhalten. 

Mit diesem können dann selbst künstliche Beleuchtungsberechnungen durchgeführt 

werden. 

30

6. Analyse und Vergleich verschiedener 

Verfahren 

Die in Kapitel 4 vorgestellten Verfahren sollen nun abschließend hinsichtlich ihrer Stärken 

und Schwächen gegenübergestellt werden. Dabei wird sich zeigen, welches Verfahren 

sich für welchen Anwendungsfall als geeignet erweist und wo noch Verbesserungspotential 

besteht. 

(Vergleich der vorgestellten Verfahren im Hinblick auf Einsatzgebiete und Li- ToDo 

mitierungen) 

6.1 Limitierungen bei der Rekonstruktion 

Alle drei vorgestellten Verfahren stellen bestimmte Anforderungen an die zu rekonstruierende 

Szene. So verlangen alle drei, dass ein Großteil der Szene statisch bleibt, da es sonst 

zu Rekonstruktionsfehlern kommt. Kinect Fusion ist als einziges Verfahren überhaupt in 

der Lage, sich bewegende Objekte als solche zu erkennen. Die anderen beiden ignorieren 

diese Objekte in der Regel einfach. Doch auch Kinect Fusion verlangt, dass diese Objekte 

zumindest in sich zu einem gewissen Grad starr sind. Ansonsten werden sie zwar 

getrackt, aber ihre Verformung wird erst mit einer gewissen Verzögerung (je nach Wahl 

der Gewichtungen) in die Rekonstruktion übernommen. 

Eine weitere gemeinsame Limitierung besteht darin, dass sehr detailarme Ansichten, wie 

etwa ein vollständig leerer Raum nur schwer rekonstruiert werden können. Die Gründe 

hierfür sind allerdings unterschiedlich. Bei Kinect Fusion ergibt sich die Problematik daraus, 

dass selbst dann, wenn nur vorübergehend sehr wenige Details sichtbar sind, der ICP 

Algorithmus fehlerhafte Ergebnisse liefert. Der Extremfall, eine absolut glatte Fläche, führt 

dazu, dass zwar die Rotation des Sensors in zwei Freiheitsgraden, sowie dessen Abstand zur 

Fläche korrekt getrackt werden, aber über die Rotation um die Normale der Fläche und 

die Bewegung parallel zur Fläche keinerlei Aussagen getroffen werden können. Dies führt 

schnell dazu, dass unplausible Kamerapositionen errechnet werden und die Kamera manuell 

an eine bekannte Position bewegt werden muss, damit das Tracking neu initialisiert 

werden kann. Davisons Verfahren kommt zwar mit sehr wenigen Features zum Tracking 

der Kameraposition aus und hat durch die Möglichkeit, alte Features wiederzuerkennen, 

nachdem sie für eine gewisse Zeit nicht sichtbar waren, aber dafür leidet die Rekonstruktion 

unter einem Featuremangel. Da keinerlei Annahmen über die Zwischenräume zwischen 

31

32 6. Analyse und Vergleich verschiedener Verfahren 

zwei identifizierten Features gemacht werden, entstehen große Lücken in der rekonstruierten 

Szene, bei denen im Nachhinein nur schwer entschieden werden kann, ob es sich 

dabei um einen sehr detailarmen Bereich oder um leeren Raum handelt. Das Verfahren 

von Ceylan et al. zur Rekonstruktion von Gebäuden hat konzeptionell noch am wenigsten 

Probleme mit sehr detailarmen Bereichen, da ohnehin davon ausgegangen wird, dass die 

Szene bei grober Betrachtung ohnehin aus großen glatten Flächen zusammengesetzt ist. 

Allerdings kann ein Mangel an auffindbaren Kanten auch hier dazu führen, dass Ebenen 

verworfen werden, da die Anzahl an Linien auf oder nahe dieser Ebenen als Maß für die 

Wahrscheinlichkeit, ob eine Ebene relevant ist, herangezogen wird. 

Dieses Verfahren stellt ansonsten die striktesten Anforderungen an die Szene. Da intern alle 

Objekte aus geraden Linien und glatten Flächen aufgebaut sind, wird eine Rekonstruktion 

von Kurven oder gar organischen Formen stark erschwert. Diese Formen müssten 

vollständig durch Flächen approximiert werden, was bei sehr komplexen Strukturen wie 

zum Beispiel bei Bäumen so gut wie unmöglich ist. Außerdem wird ein hohes Maß an 

Symmetrie vorausgessetzt, um die Vorteile dieses Verfahrens sinnvoll ausschöpfen zu können. 

Für Szenen mit wenigen sich wiederholenden Elementen degeneriert das Verfahren 

zu einem sehr primitiven Structure From Motion Ansatz, zu dem es deutlich effizientere 

Alternativen gibt. Ein großer Vorteil des Verfahrens ist dafür, dass es ohne komplexe Anpassungen 

mit quasi beliebig großen Szenen arbeiten kann, während die anderen beiden 

Verfahren in ihrer Basisversion auf einzelne Räume beschränkt sind. Mit einer ausreichend 

hochauflösenden Kamera lässt sich ein Wolkenkratzer genau so leicht rekonstruieren, wie 

ein dreistöckiges Mehrfamilienhaus. Insbesondere Kinect Fusion ist dagegen sehr stark auf 

kleine Szenen beschränkt. Dies liegt einerseits daran, dass der Kinect Sensor nur eine sehr 

kurze Reichweite hat, innerhalb der er präzise Ergebnisse liefert und zum Anderen, dass 

die Größe des Distanzfeldes im Voraus bekannt sein muss und sich dieses durchgehend 

komplett im Arbeitsspeicher der Grafikkarte befindet. 

6.2 Genauigkeit der Rekonstruktion 

Kinect Fusion ist in der Lage, die Szene bis auf wenige Millimeter genau zu rekonstruieren. 

Zwar enthält die Rekonstruktion zu Beginn noch sehr viel Rauschen, dieses wird 

aber im Laufe der Zeit von selbst weitestgehend eliminiert. In [9] wird gezeigt, dass Kinect 

Fusion sogar in der Lage ist, selbst sehr flache Vertiefungen in Oberflächen, wie etwa eine 

Prägung auf der Seite eines Computergehäuses, korrekt erfassen kann. Durch die implizite 

Repräsentation von Obeflächen als Nulldurchgänge eines Distanzfeldes gehen scharfe Kanten 

allerdings fast vollständig verloren. Dies ist besonders dort gut sichtbar, wo sich viele 

feine Strukturen nahe beienander befinen, wie es etwa bei den Tasten einer Tastatur der 

Fall ist. Auch deutlich sichtbar ist, dass Objekte, die noch nicht durch Bewegung segmentiert 

wurden, scheinbar ineinander übergehen. Das Ergebnis wirkt an manchen Stellen ein 

wenig, als wäre die Szene komplett mit einer Folie überzogen, die schmale Einkerbungen 

verdeckt. Bedingt durch die Verwendung einer Structured Light Kamera im Infrarotbereich 

führen außerdem Objekte, die Infrarotlicht nicht direkt zurückreflektieren oder selbst 

im Infrarotbereich strahlen, zu großflächigen Rekonstruktionsfehlern. Beispielsweise kann 

ein Aquarium weder bei angeschalteter noch bei ausgeschalteter Beleuchtung rekonstruiert 

werden. Statt die Scheiben des Aquariums zu erkennen und das Innere zu ignorieren, 

liefert der Sensor für den entsprechenden Bereich gar keine Tiefeninformationen. 

Tests mit gerenderten Bildern eines 3D-Modells als Eingabe für das Verfahren zur Gebäuderekonstruktion 

in [5] haben ergeben, dass die Abweichung des rekonstruierten Modells 

von der Vorlage fast durchgehend deutlich unter einem halben Prozent der Gesamtgröße 

des Modells liegt. Ein Großteil des Gebäudes weist Abweichungen von ungefähr 0,1 

bis 0,3 Prozent auf, während der Fehler an einigen wenigen Stellen bis auf etwa 0,5 Prozent 

anwächst. Bei einer Gebäudehöhe von etwa 40 Metern wären das also Abweichungen 

32

6.3. Geschwindigkeit und Echtzeitfähigkeit 33 

von 4 bis 20 Zentimetern, was für die meisten Anwendugsfälle durchaus ausreichend sein 

dürfte. Eine Ausnahme bildet das Erdgeschoss des Gebäudes, da dort die Ebenen vom 

Benutzer nicht manuell unterteilt wurden. Die Qualität der Rekonstruktion hängt also 

unter anderem auch davon ab, wie gut die Eingaben des Benutzers sind. Ein auffälliger 

Fehler bei der Rekonstruktion mit echten Fotos ist, dass bei einem der Gebäude die Seitenwand 

und die Unterseite eines Vorsprunges nicht rekonstruiert wurden, da sie zu wenige 

Linien für eine Erkennung als relevante Flächen enthalten. Außerdem wurden an mehreren 

Stellen Fenster, die für den Benutzer sichtbar waren, nicht rekonstruiert, weil sie auf 

Grund der Perspektive nur teilweise sichtbar waren. Beide Fehler lassen sich allerdings verhältnismäßig 

leicht durch manuelles Eingreifen des Benutzers korrigieren, sofern dies von 

der grafischen Benutzeroberfläche unterstützt wird. Es ist desweiteren auf verschiedenen 

Screenshots ersichtlich, dass die Unterteilung der Ebenen in Dreiecke nicht optimal ist und 

für eine spätere Verwendung des Modells gegebenenfalls überarbeitet werden muss. 

Zum SLAM-Verfahren mit einer monokularen Kamera werden leider im ursprünglichen Paper 

keine quantitativen Angaben zur Präzision der Messungen gemacht. Es wird allerdings 

aus den Screenshots deutlich, dass das Verfahren auch bei wenigen sichtbaren Features 

noch eine robuste Vorhersage der Kameraposition und der Featurepositionen leistet. Vorübergehend 

verdeckte oder sich außerhalb des Bildbereiches befindende Features werden 

zuverlässig wiedererkannt, sobald sie wieder sichtbar sind und ein eventuelles Abdriften 

der Kameraposition wird korrigiert, sobald wieder ausreichend bekannte Features gefunden 

werden. 

Etwas anders ist die Lage bei der an größere Szenen angepasste Version. Durch die Unterteilung 

der Szene sind zwar die Einzelteile in sich konsistent, aber beim der Abschätzung 

der Position, Rotation und Skalierung der Teile zueinander sind massive Abweichungen 

von der Realität sichtbar. Diese werden erst dann korrigiert, wenn ein geschlossener Kreis 

im Bewegungspfad der Kamera entdeckt wird. 

Allen drei Verfahren ist gemein, dass für eine Bestimmung des Maßstabes, der in den meisten 

Fällen für die Weiterverarbeitung der erstellten Modelle von Interesse ist, entweder eine 

im Voraus kalibrierte Kamera oder ein in der Rekonstruktion enthaltenes Referenzobjekt 

bekannter Größe benötigt wird. In [12] wird diese Information zum Beispiel dadurch gewonnen, 

dass zu Beginn der Aufnahme ein Blatt Papier in den Sichtbereich der Kamera 

gehalten wird und dessen Eckpunkte manuell als zu trackende Features identifiziert werden. 

6.3 Geschwindigkeit und Echtzeitfähigkeit 

Da das Verfahren von Ceylan et al. mit im Voraus aufgenommenen Einzelbildern arbeitet 

und für mehrere Zwischenschritte eine Hilfestellung durch den Benutzer benötigt, ist eine 

Rekonstruktion in Echtzeit von vorne herein ausgeschlossen. Der Fokus bei der Performanceoptimierung 

liegt ganz klar darauf, die Wartezeiten für den Benutzer während des 

Interaktiven Teils der Rekonstruktion möglichst gering zu halten. Dafür wird auch eine längere 

Vorberechnung im Bereich von bis zu einer Stunde auf einem Rechner mit 24 Kernen 

bei ” 3.33 MHz [sic!]“ (gemeint sind wahrscheinlich 3.33 GHz) bei 20 bis 30 Eingabebildern 

in Kauf genommen. 

Sowohl Kinect Fusion als auch die beiden Varianten des monokularen SLAM Verfahrens 

wurden mit dem Ziel entwickelt, in Echtzeit ausführbar zu sein, also mindestens 30 Frames 

pro Sekunde zu erreichen. Kinect Fusion benötigt dazu auf jeden Fall eine sehr moderne 

Grafikkarte, die sich über CUDA programmieren lässt. In [8] wird angegeben, dass zur 

Berechnung eines einzelnen Frames bei einem würfelförmigen Distanzfeld mit einer Kantenlänge 

von 512 Voxeln etwa 25 Millisekunden benötigt werden. Dabei macht das Aktualisieren 

des Distanzfeldes mit ungefähr 10 Millisekunden den größten Anteil und auch 

33

34 6. Analyse und Vergleich verschiedener Verfahren 

den am stärksten auflösungsabhängigen aus. Die anderen Arbeitsschritte werden kaum bis 

gar nicht von der Größe des Distanzfeldes beeinflusst. Leider gibt es in keinem der beiden 

Kinect Fusion Papers eine Angabe, auf welcher Hardware diese Messung vorgenommen 

wurde. Der einzige Hinweis ist ein Vortrag von David Kim auf dem 28. Chaos Communication 

Congress im Dezember 2011 in Berlin 1 . Dort wird erwähnt, dass der für den Vortrag 

eingesetzte PC ein moderner Gaming Laptop mit einer NVIDIA Grafikkarte mit etwa 500 

Kernen ist. Dementsprechend handelt es sich vermutlich um eine GeForce GTX 480, GTX 

570 oder GTX 580. Ob es sich dabei um das gleiche System handelt, mit dem auch die 

Messungen im Paper vorgenommen wurden, ist nicht bekannt. 

Bei den monokularen SLAM Varianten wurde viel Wert darauf gelegt, die maximale Rechenzeit 

pro Frame unabhängig von der Szenenkomplexität konstant zu halten, weshalb 

sich eine konstante Framerate garantieren lässt. Da sich unter anderem durch die Anzahl 

der gleichzeitig zu trackenden Features problemlos einstellen lässt, ob mehr Wert auf Genauigkeit 

oder Geschwindigkeit gelegt werden soll, lässt sich auch auf schwachen Rechnern 

eine ausreichende Geschwindigkeit erzielen. Auf einem 2.2 GHz Intel Pentium Prozessor 

dauert die Berechnung eines Frames etwa 25 Millisekunden. Bei der überarbeiteten Version 

für größere Szenen wird nur die Berechnung des jeweils aktuellen Szenenteils in Echtzeit 

ausgeführt und benötigt nur wenige Millisekunden pro Frame. Das Zusammenfügen zu 

einer zusammenhängenden Rekonstruktion der gesamten Szene wird nach dem Ende der 

Aufnahme durchgeführt und dauert auf einem Intel Core 2 mit 2.4 GHz etwa im Bereich 

von einer Minute. Die Autoren erwähnen, dass das im Wesentlichen daran liegt, dass 

ein Teil der notwendigen Schritte in Matlab implementiert ist. Sie gehen davon aus, dass 

mit einer effizienten Implementierung in C++ eine Berechnung in Echtzeit machbar sein 

müsste. 

6.4 Daraus resultierende Einsatzgebiete 

Durch die unterschiedlichen Limitierungen, Detailgrade bei der Rekonstruktion und den 

unterschiedlichen Bedarf an Rechenleistung sind die drei Verfahren für sehr unterschiedliche 

Anwendungsfälle geeignet. 

Das Verfahren von Ceylan et al. ist mit Sicherheit das beschränkteste von den dreien. Durch 

die Limitierung auf Szenen mit ausschließlich geraden Linien und einem hohen Grad an 

Symmetrie, ist das Verfahren tatsächlich fast ausschließlich zur Akquisition von Gebäudemodellen 

geeignet. Da das erzeugte Modell relativ detailarm ist und meistens noch manuell 

nachbearbeitet werden muss, ist fraglich, ob sich ein halbautomatisches Rekonstruktionsverfahren 

überhaupt lohnt. Ein geübter Grafiker kann in der Zeit, die für Vorberechnung, 

interaktive Rekonstruktion und Nachbearbeitung des Modells benötigt wird, das gleiche 

Modell auch vollständig von Hand erstellen, sofern ihm die ungefähren Maße zur Verfügung 

stehen. 

Die beiden Varianten des monokularen Verfahrens eigenen sich kaum zur Konstruktion 

eines vollständigen Modells der Szene, da keinerlei Informationen über Oberflächen erfasst 

werden. Die erzeugten Punktwolken können aber zum Beispiel als Navigationsdaten 

für mobile Roboter dienen, für die nur wichtig ist, wo sie sich relativ zu verschiedenen 

Hindernissen und Zielpunkten befinden. Diese Daten müssen nur für die grobe Routenplanung 

ausreichen, da während der Fahrt auch zusätzliche Sensoren zur Vermeidung von 

Kollisionen zum Einsatz kommen können. 

Kinect Fusion lässt sich verhältnismäßig vielseitig einsetzen. So kann es zur Erstellung 

von Modellen für kleine bis mittelgroße Gegenstände dienen, aber auch ganze Räume 

1 http://www.youtube.com/watch?v=bRgEdqDiOuQ 

34

6.4. Daraus resultierende Einsatzgebiete 35 

rekonstruieren und diese Rekonstruktion nutzen, um in Echtzeit zu registrieren, wie der 

Benutzer mit seiner Umgebung interagiert. Dadurch wird sowohl eine Verwendung als 

Eingabegerät als auch für eine Vielzahl von Augmented Reality Anwendungen ermöglicht. 

35

7. Zukünftige Anwendungen 

Dieses Kapitel soll verschiedene Ideen präsentieren, wie die in den vergangenen Kapiteln 

vorgestellten Techniken zur dreidimensionalen Erfassung und Rekonstruktion in Zukunft 

genutzt werden könnten. Zu einigen dieser Ideen existieren bereits Versuche und Prototypen 

im Wissenschaftlichen Rahmen, während andere bestenfalls als Konzepte zu bezeichnen 

sind. (Überarbeiten) ToDo 

7.1 Natural User Interface 

Unter dem Begriff ” Natural User Interface“ (NUI) werden verschiedene Ansätze zusammengefasst, 

die die Bedienung von Computern so direkt und intuitiv wie möglich gestalten 

sollen. Insbesondere fallen darunter Bewegungs- und Berührungsgesteuerte Systeme. Diese 

könnten in Zukunft durch eine volle dreidimensionale Rekonstruktion des Benutzers und 

seiner Umgebung wesentlich akkurater ausfallen. 

7.1.1 Skeletal Tracking und Gestensteuerung 

Bereits 2003 veröffentlichte Sony mit der EyeToy Kamera und den dazugehörigen Spielen 

für die PlayStation 2 erste kommerziell erfolgreiche Anwendungen mit Gestensteuerung. 

Da die Kamera allerdings ausschließlich ein Farbbild und keine 3D-Scans lieferte, war 

sie für präzise Eingaben gerade bei schlechten Lichtverhältnissen zu unzuverlässig. Auch 

wurde in den meisten Anwendungen nur Bewegung als solche erkannt und kaum zwischen 

einzelnen Körperteilen unterschieden. 

Die Microsoft Kinect war ursprünglich auch hauptsächlich für die Steuerung von Videospielen 

konzipiert worden. Sie besitzt bereits firmmwareseitig einen Skeletal Tracking Algorithmus, 

der aus den Farb- und Tiefenbildern die Position von bis zu vier Benutzern 

und detailierte Informationen über die Positionen zwanzig verschiedener Körperteile – etwa 

Kopf, Schultern, Ellbogen, Handgelenken und Händen – von bis zu zwei Benutzern 

extrahieren kann. Allerdings neigt dieser Algorithmus dazu, bei nur teilweise sichtbaren 

Personen und Personen am Rand des Aufnahmebereichs unsinnige Posen mit verknoteten 

oder zu kurzen Gliedmaßen auszugeben, statt das Tracking abzubrechen. In seltenen 

Fällen werden auch Gegenstände fälschlicherweise als Personen erkannt (Abbildung 7.1). 

Daher sollte immer zusätzlich eine Plausibilitätsprüfung stattfinden. 

Es gibt inzwischen auch Versuche, einzelne Finger zu tracken. (Vernünftige Quelle su- ToDo 

chen. Bis jetzt nur Youtube Videos von Hobbyentwicklern gefunden. Weder 

37

ToDo 

38 7. Zukünftige Anwendungen 

Abbildung 7.1: Fehlerhafte Personenerkennung durch die Microsoft Kinect. Das Aquarium 

in der linken unteren Bildecke wird fälschlicherweise als Person erkannt. 

Desweiteren reicht die Ansicht des Oberkörpers allein nicht für ein Tracking 

aus. 

Erklärung, wie es funktioniert, noch wissenschaftliche Veröffentlichungen) Die 

vorgestellten Rekonstruktionsmethoden oder jedenfalls ähnliche Verfahren könnten dazu 

beitragen, wesentlich rauschfreiere und damit präzisere Informationen über die Fingerpositionen 

des Benutzers zu erhalten, als bisher möglich. Somit wäre es möglich, nicht nur 

Spiele, sondern auch Anwendungssoftware sinnvoll durch Gesten zu steuern. Beispielsweise 

könnte Präsentationssoftware davon profitieren, dass der Anwender sie frei im Raum 

stehend durch subtile Gesten steuert. (ggf. mehr) 

7.1.2 Berührungssteuerung und Multitouch auf beliebigen Oberflächen 

In [9] wird bereits angedeutet, dass sich die getrennte Rekonstruktion von Objekten in einer 

Szene nutzen ließe, um deren Berührungspunkte zu ermitteln. Das dortige Anwendungsbeispiel 

ist die Erkennung der Fingerpositionen des Benutzers, um eine berührungsbasierte 

Steuerung auf beliebigen Oberflächen zu realisieren. 

Eine Perfektionierung dieser Technologie könnte die Art, wie viele Anwendungen bedient 

werden, nachhaltig verändern und verschiedene Eingabegeräte obsolet machen. Gegenstände 

könnten durch einfaches Antippen ausgewählt werden, etwa um Informationen darüber 

auf dem Bildschirm anzeigen zu lassen. Leinwände und Monitore quasi beliebiger Größe 

könnten kostengünstig mit einer Multitouch Funktion ähnlich wie bei aktuellen Mobiltelefonen 

und Tablet PCs ausgerüstet werden. Allerdings muss nicht immer gänzlich auf 

ein Eingabegerät verzichtet werden. So könnten etwa teure Grafiktabletts dadurch ersetzt 

werden, dass die Kamera eine Stiftspitze – etwa von einem Kugelschreiber ohne Mine – auf 

einem quasi beliebig großen Blatt Papier oder direkt auf der Tischplatte trackt. Bei ausreichend 

genauer Rekonstruktion wäre es sogar prinzipiell möglich, die Verformung einer 

Stift- oder Pinselspitze an die Anwendung zu senden, um so zum Beispiel die Strichdicke 

zu beeinflussen. 

Um diese Ziele zu erreichen, gibt es noch einige Hürden zu bezwingen. So müssen auch 

teilweise verdeckte Finger zuverlässig und präzise getrackt werden und zufällige Berührungen 

dürfen nicht zu ungewollten Eingaben führen. Auch muss eine Berührung mit den 

Fingerspitzen zuverlässig von Berührungen mit dem Rest der Hand unterschieden werden. 

38

7.2. Erfassung von Personen 39 

7.2 Erfassung von Personen 

Obwohl sich diese Arbeit hauptsächlich mit der Rekonstruktion von Szenen und in sich 

starren Objekten befasst, lassen sich verschiedene Ansätze auch auf die Erzeugung akkurater 

dreidimensionaler Modelle von Personen übertragen. Dabei sind allerdings besondere 

Anpassungen vorzunehmen, um auch feinere Details, besonders im Gesicht nachzubilden, 

um Grenzen zwischen Haut und Kleidung als solche zu erkennen und um zu berücksichtigen, 

dass ein Großteil des menschlichen Körpers nicht starr, sondern weich verformbar 

ist. 

7.2.1 Verwendung von Gesichtsscans in Videospielen 

Viele moderne Videospiele – insbesondere Onlinerollenspiele – bieten dem Spieler an, das 

Aussehen seines Charakters nach seinen Wünschen anzupassen. Auf diese Weise soll sowohl 

eine emotionale Bindung zum Charakter hergestellt als auch die Wiedererkennbarkeit 

von Spielern in Onlinespielen gewährleistet werden. Allerdings werden dazu insbesondere 

für die Gesichtszüge meist nur einige wenige Vorlagen angeboten, die sich eventuell noch 

mit Schiebereglern in begrenztem Umfang anpassen lassen. Damit lassen sich bestimmte 

Gesichter nur mit viel Zeitaufwand oder unter Umständen auch gar nicht nachbilden. 

In [15] stellen Zollhöfer et al. ein Verfahren vor, mit dem sich innerhalb von wenigen Sekunden 

Gesichter anhand von 3D-Scans zu rekonstruieren. Dazu wird ein generisches Gesichtsmodell 

automatisch so verformt, dass es einer aufgenommenen Punktwolke möglichst 

genau entspricht, ohne dabei durch Rauschen entstandene Fehler zu übernehmen. Damit 

bleiben zwar immer noch einige der Einschränkungen des manuellen Ansatzes, da besonders 

ungewöhnliche Gesichtsmerkmale wie etwa Verletzungen nicht nachgebildet werden 

können, aber durch die Automatisierung können immerhin wesentlich mehr Freiheitsgrade 

in wesentlich weniger Zeit präzise eingestellt werden. 

Abbildung 7.2: Gesichtsrekonstruktion durch Anpassung eines generischen Modells an 

Messdaten eines 3D-Scanners. [19] 

Es wäre denkbar, diesen Ansatz in Zukunft mit den vorgestellten Verfahren zur Objektrekonstruktion 

zu kombinieren, um zunächst ein möglichst rauschfreies Basismodell zu 

generieren und auf dieses dann eine automatisch erzeugte Bump Map Textur mit weiteren 

Details aufzutragen. So wäre es jedem Spieler möglich, innerhalb von Sekunden und ohne 

explizite Interaktion ein individuelles Gesicht für seine Spielfigur zu erstellen, das dann auf 

Wunsch weiter bearbeitet oder mit Freunden getauscht werden kann. 

7.2.2 Trafficeffiziente Videochats 

Während durch moderne DSL-Anschlüsse und moderne Kompressionsalgorithmen Voiceover-IP 

Gespräche auch mit mehreren Personen alltäglich geworden sind, reicht die Bandbreite 

selbst für hochauflösende Videochats mit nur zwei Teilnehmern nach wie vor nicht 

immer aus. 

39


Hochqualitative Rekonstruktionsverfahren könnten dazu beitragen, die benötigte Bandbreite 

drastisch zu reduzieren. Statt tatsächlich Videodaten zu übertragen, würde jeder 

Benutzer vor dem ersten Gespräch mit Hilfe einer 3D-Kamera ein detailiertes Modell von 

sich selbst erstellen, das er im Folgenden als eine Art Avatar verwenden kann. Im Gegensatz 

zu herkömmlichen virtuellen 3D-Chaträumen wie etwa Second Life, in denen sich der 

Benutzer einen Avatar aus vorgefertigten Komponenten zusammenstellen kann, wäre es 

hier problemlos möglich, auch individuelle Details wie Gesichtszüge, Frisur und Kleidung 

akkurat nachzubilden, ohne dem Benutzer künstlerisches Können abzuverlangen. 

Dieser Avatar würde beim ersten Verbindungsaufbau zum Gegenüber übertragen. Danach 

müsste die 3D-Kamera nur noch Gestik und Mimik des Benutzers verfolgen, damit diese 

als Animationsdaten zum Gesprächspartner gesendet werden können, um auf dessen 

Rechner den Avatar entsprechend zu verformen. Mit einem skelett- und morphingbasierten 

Animationssystem könnte die benötigte Bandbreite so selbst bei mehreren hundert 

Datenpunkten auf wenige Kilobyte pro Sekunde reduziert werden. Somit wäre der verursachte 

zusätzliche Traffic durch die einmalige Übertragen des Avatars schon nach wenigen 

Minuten aufgewogen. 

Zwar wäre ein gerendertes Abbild mit heutigen Renderingmethoden sicherlich optisch von 

einer tatsächlichen Videoübertragung zu unterscheiden, aber da die Grafikkarte während 

typischer Anwendungsszenarien für Videochats ohnehin kaum ausgelastet ist und außer 

den Avataren der Gesprächspartner (und gegebenenfalls dem eigenen) keine weiteren aufwändigen 

Modelle dargestellt werden müssen, können auch komplexe Renderingverfahren 

zum Einsatz kommen, die für die Darstellung ganzer Szenen zu aufwändig wären. Außerdem 

ist nicht zu unterschätzen, dass die akkurate Wiedergabe von Gestik und Mimik auch 

vom Computer gerenderte Modelle bis zu einem gewissen Grad lebendig wirken lassen 

kann. 

7.2.3 Digitale Umkleidekabinen 

Das Modegeschäft ist einer der wenigen Bereiche, in denen der Einkauf online immer 

noch umständlicher ist, als im Laden. Der Hauptgrund dafür ist, dass die Ware nicht im 

Voraus anprobiert werden kann. Oft kommt es vor, dass Kleidung, die auf dem Foto vielversprechend 

aussah, am eigenen Körper vollkommen anders wirkt und zurückgeschickt 

werden muss. Auch in Kaufhäusern wäre es sowohl aus Zeit- als auch aus Hygienegründen 

wünschenswert, wenn vor der eigentlichen Anprobe in der Umkleidekabine schon eine 

Vorauswahl getroffen werden könnte. 

Die Lösung für dieses Problem versprechen inzwischen verschiedenste Anbieter sogenannter 

” digitaler Umkleidekabinen“. Dabei handelt es sich um Software, die das gewünschte 

Kleidungsstück über ein per Webcam aufgenommenes Foto oder Video legt. Das Ergebnis 

wirkt aber in den meisten Fällen platt und unrealistisch, da nur die ungefähre Körperhaltung, 

aber nicht die Körperform berücksichtigt wird. Mit detailierten 3D-Scans des 

Kunden könnte stattdessen die genaue Lage und Bewegung des Stoffs simuliert werden, 

um ihm so ein möglichst akkurates Bild davon zu liefern, wie die Ware an ihm aussieht. Ein 

weiterer Vorteil an einer vollen Rekonstruktion besteht darin, dass der Benutzer sich auch 

in Echtzeit von hinten betrachten kann, da die virtuelle Kamera frei in der rekonstruierten 

Szene bewegt werden kann. 

Die Herausforderung dabei besteht unter Umständen darin, die Rekonstruktionsverfahren 

so weit zu verbessern, dass sie die Kleidung, die der Kunde aktuell trägt, vom Körper losgelöst 

behandeln kann. Ansonsten wäre es nur möglich, die Anwendung in Unterwäsche oder 

mit eng anliegender Kleidung zu bedienen, wenn die Simulation nicht verfälscht werden 

soll. Dies kann und sollte aber nicht in allen Anwendungsfällen vorausgesetzt werden. 

40

7.3. Vereinfachte Akquisition von Modellen 41 

7.3 Vereinfachte Akquisition von Modellen 

Der offensichtlichste Nutzen von 3D-Scannern und 3D-Kameras besteht darin, die erzeugten 

Modelle auch tatsächlich so zu verwenden, wie man es mit von Hand erstellten Modellen 

auch tun würde. Dies schließt insbesondere das Rendern in Filmen, Spielen und anderen 

3D-Anwendungen ein, aber auch zum Beispiel das Drucken mit einem 3D-Drucker. Natürlich 

wird dies auch heute schon teilweise umgesetzt, aber das volle Potential wird immer 

noch nicht ausgeschöpft. Richtig eingesetzt, können 3D-Scanner sehr viel Aufwand bei der 

Erstellung von Modellen sparen und zudem auch zu besseren Ergebnissen führen, wenn 

eine manuelle Vermessung eines Objekts mit Maßband und Messschieber oder auch das 

Arbeiten mit Fotoreferenzen sich als schwierig erweist, etwa weil das zu modellierende 

Objekt eine sehr ungewöhnliche und komplexe Form aufweist. 

7.3.1 3D-Kopien in Massenproduktion 

Derzeit genießen verschiedenste Arten von 3D-Druckern rasch steigende Popularität. Zwar 

sind derartige Geräte für die meisten Privatverbraucher noch deutlich zu sperrig und zu 

teuer, aber in Internet gibt es inzwischen verschiedene Anbieter, die hochgeladene Modelle 

gegen eine geringe Gebühr in verschiedensten Materialien drucken. In der Regel handelt es 

sich um verschiedene Kunststoffe und Metalle, aber auch ausgefallene Materialien wie zum 

Beispiel Schokolade werden angeboten. Es ist abzusehen, dass derartige Dienste mit den 

sinkenden Anschaffungs- und Betriebskosten und zunehmend kleiner werdenden Druckern 

in naher Zukunft auch in klassischen Copyshops angeboten werden könnten. Voraussetzung 

dafür ist allerdings, dass die Anfertigung der zu druckenden Modelle wesentlich vereinfacht 

wird. Derzeit wird ein Großteil davon noch von Hand vermessen und in CAD-Programmen 

nachgebildet. 

Mit kostengünstigen 3D-Scannern und robusten Rekonstruktionsalgorithmen könnten aber 

zumindest Gegenstände, bei denen alle wichtigen Strukturen von außen sichtbar sind, Innerhalb 

von weniger als einer Minute vom Computer erfasst werden, um sie dann nach 

einer rudimentären manuellen Nachbearbeitung in Kleinserien zu replizieren. So ist es 

möglich, Vorlagen aus leicht zu bearbeitenden Materialien wie etwa Ton oder Modelliermasse 

anzufertigen und daraus Kunststoffteile in Stückzahlen anzufertigen, für die sich die 

Herstellung einer Form für Spritzgussmaschinen finanziell nicht lohnen würde. Desweiteren 

wäre es problemlos möglich, Kopien anzufertigen, die von der Vorlage in der Größe 

abweichen. 

7.3.2 Basis für prozedural erstellte Städte 

Für Filme, Videospiele und einige andere Anwendungen werden häufig große Stadtpanoramen 

als Kulisse benötigt. Wo früher ein gemaltes Bild im Hintergrund ausreichte, um 

die Illusion einer Großstadt aufrecht zu erhalten, verlangen moderne Actionsequenzen mit 

imposanten Kamerafahrten in der Regel ein dreidimensionales Modell der Stadt. Da die 

Erstellung eines solchen Modelles in den allermeisten Fällen zu zeitaufwändig und damit 

zu teuer ist, wurden in der Vergangenheit Verfahren entwickelt, um prozedural zufällige 

Städte zu erzeugen. Sie bestehen aus Gebäuden, die nach einer festen Vorschrift angeordnet 

und selbst wiederum nach bestimmten Vorschriften aus Einzelteilen zusammengesetzt 

sind. Während für die Anordnung der Gebäude meist auch eher simple Verfahren zu glaubwürdigen 

Ergebnissen führen, erweist sich die Beschreibung von prozeduralen Modellen für 

einzelne Gebäude oft als schwierig, wenn diese abwechslungsreich, aber nicht unrealistisch 

aussehen sollen. 

Es wäre durchaus denkbar, Rekonstruktionen von echten Gebäuden (siehe 4.1) als Basis 

für diese prozeduralen Modelle heranzuziehen. Ein erster Schritt wäre, sie manuell in Einzelteile 

zu zerlegen, die dann als Rohmaterial für neue Gebäude dienen. Es wäre aber auch 

41

ToDo 


interessant, diesen Schritt auch zu automatisieren und dabei auch automatisch erkennen zu 

lassen, nach welchen Mustern die tatsächlichen Gebäuden aufgebaut sind. Das in Kapitel 

4.1 vorgestellte Verfahren nutzt ohnehin schon Informationen über den Aufbau von Gebäuden 

aus einzelnen, symmetrisch angeordneten Elementen. Diese Informationen könnten 

durchaus genutzt werden, um daraus allgemeinere Regeln zum Aufbau von Gebäuden zu 

abstrahieren. Damit wäre es möglich, vollautomatisch aus einer Reihe an Fotos erst entsprechende 

3D-Modelle zu erstellen und dann daraus eine ganze Stadt zu rekombinieren, 

die dem realen Vorbild stilistisch zwar stark ähnelt, aber nicht exakt gleich aussieht. 

7.4 3D-Keying als Alternative zum Chroma-Keying 

Für viele Filmproduktionen ist es nötig, Bildelemente freizustellen, um sie anschließend 

mit getrennt aufgenommenen oder computergenerierten Elementen zu kombinieren. Die 

wohl häufigste Anwendung dafür ist das Kombinieren von realen Schauspielern mit einem 

computergenerierten Hintergrund. Das derzeit am häufigsten verwendete Verfahren dafür 

ist das sogenannte Chroma-Keying, bei dem die Schauspieler vor einem einfarbigen Hintergrund, 

je nach Farbe zum Beispiel Bluescreen oder Greenscreen genannt, aufgenommen 

werden. Das Freistellen der Schauspieler erfolgt dann – vereinfacht ausgedrückt – indem 

sämtliche Pixel, deren Farbe der vorgegebenen Hintergrundfarbe ähnlich genug sind, entfernt 

werden. 

Obwohl sich Chroma-Keying seit langem als Standardverfahren etabliert hat, erweist es 

sich gerade im Amateurbereich oft als zu aufwändig. Um eine fehlerfreie Erkennung zu 

gewährleisten, muss ein ausreichend großer, faltenfreier und gleichmäßig ausgeleuchteter 

Screen zur Verfügung stehen. Bei der Wahl einer geeigneten Farbe gilt es insbesondere 

zu beachten, eine Farbe zu wählen, die im Vordergrund möglichst wenig vorkommt, um 

einen guten Kontrast zu erhalten. Es wäre also nur schwer möglich, je eine Person mit 

roter, grüner und blauer Kleidung gleichzeitig mittels Chroma Keying freizustellen. Eine 

weitere Schwierigkeit besteht darin, dass sich eine indirekte Beleuchtung des Vordergrundes 

durch vom Screen reflektiertes Licht oft nicht vermeiden lässt und daher eine störende 

Farbverfälschung verursacht, die unter Umständen nachträglich digital entfernt werden 

muss. 

Keying mittels 3D-Kameras kann diese Probleme im Wesentlichen eliminieren, indem anhand 

einer dreidimensionalen Rekonstruktion der Szene entschieden werden kann, welche 

Pixel im Farbbild zum Vordergrund gehören und welche zum Hintergrund. Derzeitige 3D- 

Kameras bieten in der Regel noch eine zu niedrige Auflösung für eine sinnvolle Anwendung, 

da schon wenige falsch identifizierte Pixel unangenehm auffallen können. Mit verbesserter 

Hardware sowie angepassten Rekonstruktionsverfahren könnte dies aber bald möglich 

sein. Wichtig ist hier weniger eine zu einhundert Prozent akkurate Rekonstruktion der 

Szene als eine pixel- oder sogar subpixelgenaue Identifikation einzelner Szenenelemente 

im Farbbild. Denkbar wäre eine Kombination aus dreidimensionaler Rekonstruktion und 

Kantenerkennung im Farbbild. 

Mit einem derartigen Keying-Verfahren wäre es möglich, Rohdaten für zusammengesetztes 

Filmmaterial vor beliebigen Hintergründen und bei quasi beliebiger Beleuchtung aufzunehmen. 

Dadurch könnten sich auch für professionelle Filmdrehs Produktionskosten drastisch 

verringern, da es nicht mehr nötig wäre, große Sets komplett mit einem Screen auszustatten. 

Da es bei vorhandener Hardware im Wesentlichen keinen Mehraufwand bedeutet, 

Tiefeninformationen zu erfassen, ist es durchaus auch denkbar, diese grundsätzlich immer 

mit aufzunehmen. So ist es auch noch nach dem eigentlichen Dreh ohne Probleme möglich, 

den Hintergrund einer Szene auszutauschen. 

(Mehr Brainstorming) 

42

8. Fazit 

Obwohl auf dem Gebiet des maschinellen Sehens und der 3D-Szenenrekonstruktion in 

den letzten Jahren sehr große Fortschritte gemacht wurden, gibt es noch eine Vielzahl an 

Problemen zu lösen. Die momentanen Verfahren sind nach wie vor stark auf einzelne Anwendungsfälle 

spezialisiert und liefern außerhalb dieser meist nur äußerst unbefriedigende 

Ergebnisse. Wenn das endgültige Ziel lautet, eine annähernd beliebig große dynamische 

Szene in Echtzeit zu rekonstruieren, so ist der Grundstein zwar bereits gelegt, aber insbesondere 

die derzeit noch bestehenden Beschränkungen in der Aufnahmequalität von 3D- 

Kameras und in den Möglichkeiten der Parallelverarbeitung stellen ein großes Hindernis 

dar, das vermutlich auch mit verbesserten Algorithmen kaum zu überwinden ist. 

43

Literaturverzeichnis 

[1] Paul E. Debevec, Camillo J. Taylor, and Jitendra Malik. Modeling and rendering 

architecture from photographs: a hybrid geometry- and image-based approach. In 

Proceedings of the 23rd annual conference on Computer graphics and interactive techniques, 

SIGGRAPH ’96, pages 11–20, New York, NY, USA, 1996. ACM. 

[2] Sameer Agarwal, Noah Snavely, Ian Simon, Steven M Seitz, and Richard Szeliski. 

Building rome in a day. 2009 IEEE 12th International Conference on Computer 

Vision, (Iccv):72–79, 2009. 

[3] Sebastian Schuon, Christian Theobalt, James Davis, and Sebastian Thrun. Highquality 

scanning using time-of-flight depth superresolution. 2008 IEEE Computer 

Society Conference on Computer Vision and Pattern Recognition Workshops, pages 

1–7, 2008. 

[4] S. Burak Gokturk, Hakan Yalcin, and Cyrus Bamji. A time-of-flight depth sensor 

- system description, issues and solutions. In Proceedings of the 2004 Conference 

on Computer Vision and Pattern Recognition Workshop (CVPRW’04) Volume 3 - 

Volume 03, pages 35–, Washington, DC, USA, 2004. IEEE Computer Society. 

[5] Duygu Ceylan, Niloy J. Mitra, Hao Li, Thibaut Weise, and Mark Pauly. Factored 

facade acquisition using symmetric line arrangements. Computer Graphics Forum 

(Proc. EG’12), 31(1), May 2012. 

[6] Noah Snavely, Steven M. Seitz, and Richard Szeliski. Photo tourism: exploring photo 

collections in 3d. In ACM SIGGRAPH 2006 Papers, SIGGRAPH ’06, pages 835–846, 

New York, NY, USA, 2006. ACM. 

[7] Vladimir Kolmogorov. Convergent tree-reweighted message passing for energy minimization. 

IEEE Trans. Pattern Anal. Mach. Intell., 28:1568–1583, October 2006. 

[8] Richard A. Newcombe, Shahram Izadi, Otmar Hilliges, David Molyneaux, David Kim, 

Andrew J. Davison, Pushmeet Kohli, Jamie Shotton, Steve Hodges, and Andrew W. 

Fitzgibbon. Kinectfusion: Real-time dense surface mapping and tracking. In ISMAR, 

pages 127–136. IEEE, 2011. 

[9] Shahram Izadi, David Kim, Otmar Hilliges, David Molyneaux, Richard Newcombe, 

Pushmeet Kohli, Jamie Shotton, Steve Hodges, Dustin Freeman, Andrew Davison, 

and Andrew Fitzgibbon. Kinectfusion: real-time 3d reconstruction and interaction 

using a moving depth camera. In Proceedings of the 24th annual ACM symposium 

on User interface software and technology, UIST ’11, pages 559–568, New York, NY, 

USA, 2011. ACM. 

[10] Szymon Rusinkiewicz and Marc Levoy. Efficient variants of the ICP algorithm. In 

Third International Conference on 3D Digital Imaging and Modeling (3DIM), June 

2001. 

45

46 Literaturverzeichnis 

[11] Brian Curless and Marc Levoy. A volumetric method for building complex models 

from range images. In Proceedings of the 23rd annual conference on Computer graphics 

and interactive techniques, SIGGRAPH ’96, pages 303–312, New York, NY, USA, 

1996. ACM. 

[12] Andrew J. Davison. Real-time simultaneous localisation and mapping with a single 

camera. In Proceedings of the Ninth IEEE International Conference on Computer 

Vision - Volume 2, ICCV ’03, pages 1403–, Washington, DC, USA, 2003. IEEE Computer 

Society. 

[13] Jianbo Shi and Carlo Tomasi. Good features to track. In 1994 IEEE Conference on 

Computer Vision and Pattern Recognition (CVPR’94), pages 593 – 600, 1994. 

[14] Laura A. Clemente, Andrew J. Davison, Ian D. Reid, José Neira, and Juan D. Tardós. 

Mapping large loops with a single hand-held camera. In Wolfram Burgard, Oliver 

Brock, and Cyrill Stachniss, editors, Robotics: Science and Systems. The MIT Press, 

2007. 

[15] Michael Zollhöfer, Michael Martinek, Günther Greiner, Marc Stamminger, and Jochen 

Süßmuth. Automatic reconstruction of personalized avatars from 3d face scans. 

Computer Animation and Virtual Worlds, 22(2-3):195–202, 2011. 

46

Bildquellen 

[16] Evan-Amos. Xbox 360 kinect standalone. Wikimedia Commons 1 , 2011. 

[17] Kolossos. Kinect2 ir image. Wikimedia Commons 2 , CC-BY-SA 3 , 2011. 

[18] Kolossos. Kinect2 deepmap. Wikimedia Commons 4 , CC-BY-SA 5 , 2011. 

[19] Michael Zollhöfer, Michael Martinek, Günther Greiner, Marc Stamminger, and Jochen 

Süßmuth. Automatic reconstruction of personalized avatars from 3d face scans. 

Computer Animation and Virtual Worlds, 22(2-3):195–202, 2011. 

1 http://commons.wikimedia.org/wiki/File:Xbox-360-Kinect-Standalone.png 

2 http://commons.wikimedia.org/wiki/File:Kinect2-ir-image.png 

3 http://creativecommons.org/licenses/by-sa/3.0/deed.en 

4 http://commons.wikimedia.org/wiki/File:Kinect2-deepmap.png 

5 http://creativecommons.org/licenses/by-sa/3.0/deed.en 

47

Erklärung 

Ich versichere, dass ich die Arbeit ohne fremde Hilfe und ohne Benutzung anderer als 

der angegebenen Quellen angefertigt habe, und dass die Arbeit in gleicher oder ähnlicher 

Form noch keiner anderen Prüfungsbehörde vorgelegen hat und von dieser als Teil einer 

Prüfungsleistung angenommen wurde. Alle Ausführungen, die wörtlich oder sinngemäßübernommen 

wurden, sind als solche gekennzeichnet. 

Karlsruhe, den 12. März 2012 

(Christian Käser)

Verfahren zur Rekonstruktion von 3D-Szenen

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?