Diplomarbeit - Faculty of Computer Science - Technische Universität ...

TECHNISCHE UNIVERSITÄT DRESDEN 

Fakultät Informatik 

Institut für Software- und Multimediatechnik 

Professur für Computergraphik und Visualisierung 

Diplomarbeit 

Merkmalsbasiertes Morphing 

im Kontext einer webbasierten Bildergalerie 

Vorgelegt von: Christian Schubert 

Matrikelnummer: 3234139 

Abgabedatum: 31.12.2012 

Verantwortliche Hochschullehrer: 

Prof. Dr. rer. nat. Stefan Gumhold 

Betreuer: 

Dipl.-Bioinf. Marcel Spehr, Professur für Computergraphik und Visualisierung

Selbständigkeitserklärung 

Hiermit erkläre ich, dass die vorliegende Arbeit selbständig, unter Angabe aller Zitate und 

nur unter Verwendung der angegebenen Literatur und Hilfsmittel durch mich angefertigt 

wurde. 

Dresden, den 31.12.2012 

v

Inhaltsverzeichnis 

1 Einleitung 1 

1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 

1.2 Ziele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 

1.3 Struktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 

2 Grundlagen 4 

2.1 Bilder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 

2.2 Morphing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 

2.2.1 Warping . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 

2.2.2 Blending . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 

2.2.3 Komposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 

2.3 Warping-Ansätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 

2.3.1 Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 

2.3.2 Strukturbasierte Methoden . . . . . . . . . . . . . . . . . . . . . . 9 

2.3.2.1 Gitternetze . . . . . . . . . . . . . . . . . . . . . . . . . . 9 

2.3.2.2 Dreiecksnetze . . . . . . . . . . . . . . . . . . . . . . . . . 10 

2.3.3 Strukturfreie Methoden . . . . . . . . . . . . . . . . . . . . . . . . 10 

2.3.3.1 Feldbasiertes Warping . . . . . . . . . . . . . . . . . . . . 11 

2.3.3.2 Kurvenbasiertes Warping . . . . . . . . . . . . . . . . . . 12 

2.3.4 Weitere Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 

2.4 Anwendungsgebiete und -beispiele . . . . . . . . . . . . . . . . . . . . . . 13 

2.4.1 Anwendungsgebiete . . . . . . . . . . . . . . . . . . . . . . . . . . 13 

2.4.2 Software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 

2.4.3 Filme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 

2.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 

3 Forschungsarbeiten 18 

3.1 Image Morping for Space-Time Interpolation . . . . . . . . . . . . . . . . 18 

3.1.1 Beschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 

3.1.2 Inhalt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 

3.1.3 Prozessübersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 

3.1.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 

3.2 Silhouette-Aware Warping for Image-Based Rendering . . . . . . . . . . . 21 

vii

3.2.1 Beschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 

3.2.2 Inhalt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 



3.3 Photo Tourism: Exploring Photo Collections in 3D . . . . . . . . . . . . . 27 

3.3.1 Beschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 

3.3.2 Inhalt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 



3.4 Vergleich und Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 


4 Konzeption 34 

4.1 Ziel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 

4.2 Zielkriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 

4.3 Allgemeiner Lösungsansatz . . . . . . . . . . . . . . . . . . . . . . . . . . 35 

4.4 Interpolationsansätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 

4.4.1 Baryzentrische Interpolation . . . . . . . . . . . . . . . . . . . . . 38 

4.4.2 Bilineare Interpolation . . . . . . . . . . . . . . . . . . . . . . . . . 39 

4.4.3 Shepard-Interpolation . . . . . . . . . . . . . . . . . . . . . . . . . 40 

4.4.4 Gauß-Interpolation . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 

4.4.5 Bilaterale Interpolation . . . . . . . . . . . . . . . . . . . . . . . . 42 

4.5 Gesamtstruktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 

4.6 Vorverarbeitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 

4.6.1 Import . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 

4.6.1.1 Bildimport . . . . . . . . . . . . . . . . . . . . . . . . . . 46 

4.6.1.2 Grapherzeugung . . . . . . . . . . . . . . . . . . . . . . . 46 

4.6.1.3 Korrespondenzdetektion . . . . . . . . . . . . . . . . . . . 47 

4.6.2 Datenaufbereitung . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 

4.6.2.1 Bildanpassung . . . . . . . . . . . . . . . . . . . . . . . . 48 

4.6.2.2 Bildmodifikation . . . . . . . . . . . . . . . . . . . . . . . 49 

4.6.2.3 Triangulierung . . . . . . . . . . . . . . . . . . . . . . . . 49 

4.6.3 Datenerzeugung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 

4.6.3.1 Feldvorverarbeitung . . . . . . . . . . . . . . . . . . . . . 51 

4.6.3.2 Feldgenerierung . . . . . . . . . . . . . . . . . . . . . . . 51 

4.6.3.3 Feldnachbereitung . . . . . . . . . . . . . . . . . . . . . . 55 

4.6.4 Export . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 

4.6.4.1 Bildexport . . . . . . . . . . . . . . . . . . . . . . . . . . 56 

4.6.4.2 Feldexport . . . . . . . . . . . . . . . . . . . . . . . . . . 56 

4.6.4.3 Galerie-Export . . . . . . . . . . . . . . . . . . . . . . . . 56 

4.7 Präsentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 

viii

4.7.1 Import . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 

4.7.2 Navigation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 

4.7.3 Rendering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 

4.7.3.1 Blending . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 

4.7.3.2 Morphing - Standard . . . . . . . . . . . . . . . . . . . . 59 

4.7.3.3 Morphing - Adaptiv . . . . . . . . . . . . . . . . . . . . . 59 


5 Implementierung 62 


5.2 Datenformate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 

5.2.1 P3P-Format . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 

5.2.1.1 Struktur . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 

5.2.1.2 Generierung . . . . . . . . . . . . . . . . . . . . . . . . . 64 

5.2.2 WGL-Format . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 

5.2.2.1 Struktur . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 

5.2.3 Korrespondenzfeld-Formate . . . . . . . . . . . . . . . . . . . . . . 67 

5.3 MorphGraphMaker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 

5.3.1 Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 

5.3.2 Systemanforderungen . . . . . . . . . . . . . . . . . . . . . . . . . 69 

5.3.3 Bibliotheken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 

5.3.4 Struktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 

5.3.5 Datenschicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 

5.3.6 Import . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 

5.3.7 Datenerzeugung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 

5.3.8 Export . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 

5.3.9 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 

5.3.10 Betriebsmodi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 

5.3.10.1 Dialog-Modus . . . . . . . . . . . . . . . . . . . . . . . . 80 

5.3.10.2 Batch-Modus . . . . . . . . . . . . . . . . . . . . . . . . . 85 

5.4 WebGLallery . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 

5.4.1 Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 

5.4.2 Systemanforderungen . . . . . . . . . . . . . . . . . . . . . . . . . 92 

5.4.3 Bibliotheken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 

5.4.4 Struktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 

5.4.5 Module . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 

5.4.5.1 Import . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 

5.4.5.2 Archiv . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 

5.4.5.3 Selektionsmodus . . . . . . . . . . . . . . . . . . . . . . . 95 

5.4.5.4 Präsentationsmodus . . . . . . . . . . . . . . . . . . . . . 95 

5.4.5.5 Renderer . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 

ix

5.4.6 Bildübergang & Morphing . . . . . . . . . . . . . . . . . . . . . . . 98 

5.4.7 Benutzeroberfläche . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 

5.4.7.1 Selektionsmodus . . . . . . . . . . . . . . . . . . . . . . . 99 

5.4.7.2 Präsentationsmodus . . . . . . . . . . . . . . . . . . . . . 100 


6 Evaluation 102 

6.1 Ziel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 

6.2 Vorgehensweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 

6.3 Rahmenbedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 

6.4 Szene 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 

6.4.1 Beschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 

6.4.2 Interpolationsverfahren . . . . . . . . . . . . . . . . . . . . . . . . 105 

6.4.3 Konfigurationsparameter . . . . . . . . . . . . . . . . . . . . . . . . 105 

6.4.4 Vorverarbeitung/Zwischenergebnisse . . . . . . . . . . . . . . . . . 105 

6.4.5 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 

6.4.6 Auswertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 

6.5 Szene 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 

6.5.1 Beschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 




6.5.5 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 

6.5.6 Auswertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 

6.6 Szene 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 

6.6.1 Beschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 




6.6.5 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 

6.6.6 Auswertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 

6.7 Problemanalyse - Bilaterale Interpolation . . . . . . . . . . . . . . . . . . 118 

6.7.1 Inhomogenes Warping . . . . . . . . . . . . . . . . . . . . . . . . . 119 

6.7.2 Bilaterale Gewichtung . . . . . . . . . . . . . . . . . . . . . . . . . 119 

6.7.3 Inverse Mapping . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 

6.8 Gesamtauswertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 


7 Ergebnisse und Ausblick 123 

7.1 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 

7.2 Alternativer Lösungsansatz . . . . . . . . . . . . . . . . . . . . . . . . . . 125 

x

7.3 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 

xi

1 Einleitung 

1.1 Motivation 

Die digitale Bild-Metamorphose, welche im Allgemeinen als Morphing bezeichnet wird, 

findet heutzutage in allen Industrie-, Medien- sowie Wissenschaftsbereichen Anwendung, 

wo ein fließender Übergang zwischen zweidimensionalen Bilddaten erforderlich ist. 

Dabei ist durch die Vielzahl an verschiedenen Morphing-Verfahren, welche sich allesamt 

hinsichtlich ihrer Geschwindigkeit, Stabilität und Flexibilität voneinander unterscheiden, 

sowohl ein spezialisierter als auch ein generalisierter Einsatz möglich. Besonders in der 

Film- und Videoindustrie erfreut sich das Morphing seit langer Zeit sehr großer Beliebtheit 

und zählt heute mit zu den meistverbreiteten Effekten überhaupt, wenn es darum geht, 

Verwandlungen von Objekten oder Individuen bildlich darzustellen. Ein sehr bekanntes 

Beispiel hierfür stellt das populäre Musikvideo von Michael Jackson’s „Black or White“ 

aus dem Jahre 1991 dar (siehe Abb 1.1). 

Abb. 1.1: Black or White - Musikvideo [MJJL91] 

Der Großteil der heute verfügbaren Morphing-Verfahren arbeitet, mit Ausnahme einiger 

spezialisierter Ansätze, überwiegend zweidimensional in der Bildebene. Probleme bei der 

Darstellung klassischer Tiefenphänomene wie Verdeckung oder Tiefenparallaxe werden oft 

dadurch umgangen, indem man bei der Wahl der Bildmotive größere Tiefenunterschiede 

vermeidet. 

Gerade aber für die Darstellung dreidimensionaler Szenen ist die Berücksichtigung der 

genannten Phänomene essentiell, damit für den Betrachter ein räumlicher Eindruck 

entstehen kann und er somit das Gesehene als „natürlich“ empfindet. Die Entwicklung 

entsprechender 3D-basierter Morphing-Ansätze stellt diesbezüglich neben weiteren 

Aspekten (u.a. höhere Flexibilität, Genauigkeit) seit einigen Jahren einen bedeutenden 

Forschungs- und Entwicklungsschwerpunkt dar. 

1

1 Einleitung 

1.2 Ziele 

Das primäre Ziel dieser Arbeit ist die Konzeption und Entwicklung einer Softwarelösung, 

die das Betrachten beliebiger, zweidimensionaler Bilddaten unter Anwendung 

verschiedener Morphing-Techniken innerhalb einer webbasierten Umgebung ermöglicht. 

Desweiteren soll untersucht werden, inwiefern sich klassische Morphing-Ansätze in Verbindung 

mit zusätzlich gewonnenen Tiefeninformationen für den interpolierten Bildübergang 

nutzen lassen und ob damit bekannte Aspekte der räumlichen Darstellung (z.B. tiefenabhängige 

Verdeckung, perspektivische Verzerrungen) realisierbar sind. 

Bezüglich der Zielstellung existieren verschiedene Aufgabenbereiche, welche im Folgenden 

kurz erläutert werden. 

• Recherche 

Gängige Ansätze des zweidimensionalen Morphings sollen recherchiert und kurz 

vorgestellt werden. 

• Akquisition 

Es sollen sowohl synthetische als auch fotobasierte Bilddaten für die Entwicklung 

und Evaluation verwendet werden. 

• Vorverarbeitung 

Es soll eine Applikation entwickelt werden, die die für das Morphing benötigten 

Daten aus einem gegebenen Bilddatensatz extrahiert, verarbeitet und in Form einer 

Bildergalerie mitsamt Zusatzdaten verfügbar macht. 

• Visualisierung 

Es soll ein Webfrontend entwickelt werden, das als eigenständiges Bildportal fungiert 

und somit das Betrachten von Bildern unter Verwendung verschiedener Morphing- 

Ansätze in Echzeit ermöglicht. 

• Evaluation 

Die Ergebnisse dieser Arbeit sollen nachfolgend evaluiert und bewertet werden. 

1.3 Struktur 

Im zweiten Kapitel werden zunächst die Grundlagen des Morphings schrittweise erarbeitet 

und vertieft. Der Fokus des dritten Kapitels liegt auf der Betrachtung und Analyse 

thematisch verwandter Arbeiten sowie einer anschließenden Gegenüberstellung. Im vierten 

Kapitel wird das Konzept der angestrebten Softwarelösung hinsichtlich Inhalt und 

Struktur präsentiert und erläutert. Die programmtechnische Umsetzung auf Basis des 

vorgestellten Konzeptes ist Gegenstand des fünften Kapitels. Im Mittelpunkt des sechsten 

2

1.3 Struktur 

Kapitels steht die Evaluation der Softwarelösung anhand verschiedener Beispielszenarien. 

Das siebte Kapitel schließt diese Arbeit mit einer kritischen Betrachtung der eigenen 

Ergebnisse und einem Ausblick auf zukünftige Entwicklungen ab. 

3

2 Grundlagen 

2.1 Bilder 

Die Grundlage für jede Form von Morphing bilden zweidimensionale, pixelbasierte Bilder, 

weshalb deren Definition das Fundament für die weiterführenden Ansätze und Methoden 

darstellt. 

Ein zweidimensionales Bild definiert eine Abbildung I(⃗x), die einen Vektor ⃗x ∈ R 2 auf 

einen Intensitäts- bzw. Farbwert c ∈ R abbildet [CL11]. 

I : R 2 → R 

c = I(⃗x) 

Im Allgemeinen besitzt ein Bild eine rechteckige Struktur mit einer bestimmten Höhe und 

Breite, wodurch die Definitionsmenge der Abbildung I(⃗x) auf eine Untermenge P ⊂ R 2 

beschränkt wird. 

Ein digitales Bild besitzt darüber hinaus eine reguläre Gitterstruktur, die somit eine 

diskrete Quantisierung im Zuge der Abbildung von ⃗x nach c sowie gegebenfalls zusätzliche 

Filtermaßnahmen (z.B. Bilineare Filter) ermöglicht. 

2.2 Morphing 

Das Morphen von Bildern setzt sich grundlegend aus den beiden Teilschritten Warping 

und Blending (auch Cross-Dissolving genannt) zusammen, die dabei kontinuierlich in 

beliebig kleinen Teilschritten ausgeführt werden. Während Warping Formen und Geometrien 

innerhalb eines Bildes verändert, wird über das anschließende Blending der finale 

Intensitätswert für jeden Bildpunkt individuell berechnet [BN92, GW98]. 

Morphing = Warping + Blending 

4

2.2 Morphing 

2.2.1 Warping 

Hauptaufgabe des Warpings ist das Verformen des Quell- und Zielbildes, sodass eine 

größtmögliche optische Übereinstimmung im Bildraum entsteht. Der Fokus liegt dabei 

auf der Abbildung T , die vor dem Auslesen des Intensitätswertes c auf einen gegebenen 

Vektor ⃗x ∈ R 2 ausgeführt wird. 

T : R 2 → R 2 

c = I(T (⃗x)) 

2.2.2 Blending 

Blending beschreibt den Vorgang, bei dem mehrere Intensitäts- bzw. Farbwerte aus verschiedenen 

Quellen miteinander kombiniert werden. Für den einfachen Fall, dass nur zwei 

Bilder gemischt werden sollen, vereinfacht sich die Berechnung zu einer Linearkombination 

unter Verwendung eines Parameters α ∈ [0..1] [PD84]. 

I(⃗x) = α · I 1 (⃗x) + (1 − α) · I 2 (⃗x) 

Abgesehen von der hier abgebildeten Blending-Vorschrift, welche u.a die Grundlage für 

das bekannte Alpha-Blending bildet, gibt es noch eine Vielzahl weiterer Verfahren zur 

Komposition von Farbwerten (z.B. additives Blending). Da in der Regel aber beim Wechsel 

von einem Quellbild I 1 zu einem Zielbild I 2 ein möglichst fließender und natürlicher 

Übergang angestrebt wird, sind diese im Kontext des Morphings von geringerer Bedeutung. 

2.2.3 Komposition 

Wie eingangs erwähnt, findet für die finale Intensitätswertberechnung die Kombination 

der Warping- und Blending-Schritte unter Berücksichtigung eines Parameters t ∈ [0..1] 

statt. Dabei wird zur Generierung eines Zwischenbildes I t eine gewicht- und invertierbare 

Warping-Funktion T sowohl auf das Quellbild I 1 als auch das Zielbild I 2 angewendet, 

sodass nachfolgend die ausgelesenen Intensitätswerte mittels Blending kombiniert werden 

können. Zur Veranschaulichung sind in Abbildung 2.1 die einzelnen Zwischenschritte 

exemplarisch dargestellt. 

I t ( x) ⃗ = (1 − t) · I 1 (Tt 

−1 (⃗x)) + t · I 2 (T 1−t (⃗x)) 

Unter der Annahme, dass sich der Parameter t gleichmäßig nach Eins entwickelt, wird 

über die angegebene Formel ein rein lineares Morphing durchgeführt. Obwohl dies für 

5

2 Grundlagen 

Abb. 2.1: Black or White - Teilschritte für t = 0.5 [CL12, MJJL91] 

die meisten Anwendungsfälle ausreichend sein dürfte, ist darüber hinaus eine zusätzliche 

Übergangskontrolle durch Einbindung einer Transitionsfunktion D möglich [GW98]. 

Dabei wird t, das als reeller Kontrollparameter fungiert, auf einen Parameter t ′ ∈ [0..1] 

abgebildet (siehe auch Abb. 2.2). 

D : [0..1] → [0..1] 

t ′ = D(t) 

Abb. 2.2: Transitionsfunktionen zur Abbildung von t auf t ′ (von links nach rechts): 

D(t) = t, D(t) = t 2 , D(t) = t (1/(1+sin(t∗π))) , D(t) = 1 2 + 1 2cos(π(t + 1)) 

6

2.3 Warping-Ansätze 


Warping gilt im Kontext des Morphings als der komplizierteste Teilschritt für die Berechnung 

des finalen Bildes, denn durch dieses wird die Grundlage für ein nahtloses Blending 

geschaffen. Darüber hinaus stellt es im Bereich der Bildverarbeitung ein komplexes 

Forschungsfeld dar, das bisweilen auch als Image Transformation bzw. Bildregistrierung 

bezeichnet wird. 

Da in diesem Bereich eine Vielzahl von Ansätzen existiert, die auf Basis unterschiedlicher 

Strukturen und Algorithmen die Transformation von Bildern erlauben, soll im Folgenden 

ein grundlegender Überblick über bekannte Ansätze gegeben werden. 

2.3.1 Klassifikation 

Abb. 2.3: Parametrisiertes Warping - Beispiele [CL11] 

Grundsätzlich wird beim Warping zwischen parametrisierten und nichtparametrisierten 

Methoden unterschieden [GM98]. 

• Parametrisiertes Warping 

In diesen Bereich fallen parametrisierte Abbildungen, welche global auf das gesamte 

Bild angewendet werden. Die Grundlage entsprechender Abbildungen bildet dabei 

stets eine begrenzte Anzahl von Parametern, woraus sich die charakteristischen 

Abbildungseigenschaften sowie eine Dimensionsbegrenzung des Parameterraums 

ergeben. Wie in Abbildung 2.3 dargestellt, zählen unter anderem lineare und affine 

Transformationen zu dieser Klasse [GM98, CL11]. 

• Nichtparametrisiertes Warping 

Alle Abbildungen aus dieser Klasse operieren nicht global unter Verwendung bestimmter 

Kontrollparameter, sondern transformieren jeden Punkt im Bildraum 

individuell. Entsprechende Methoden erlauben die lokale Auswertung bestimmter 

Charakteristika pro Bildpunkt, was zu einer weitaus höheren Flexibilität und somit 

einem breiteren Einsatzspektrum führt. 

Im Kontext des hier besprochenen Morphings für zweidimensionale Bilder definiert 

sich das nichtparametrisierte Warping demnach über eine Abbildung U : R 2 → R 2 , 

7

2 Grundlagen 

die für jeden Vektor ⃗x ∈ R 2 einen Translationsvektor bereitstellt. Auf Basis dessen 

ergibt sich die weiter oben erwähnte Warping-Abbildung T (siehe 2.2.1) [CL11]. 

T : R 2 → R 2 

U : R 2 → R 2 

T (⃗x) = ⃗x + U(⃗x) 

Bedingt durch die vielen Einsatzmöglichkeiten und Ansätze im Bereich des nichtparametrisierten 

Warpings ist es sinnvoll, zusätzlich weitere Klassifikationen und Betrachtungen 

durchzuführen. 

Eine weitere Kategorisierung ergibt sich aus der Unterscheidung nach vorwärts und 

rückwärts gerichtetem Warping (Forward Mapping bzw. Inverse Mapping) [CDK99, 

FDBF06, CL12]. 

• Forward Mapping 

Bei dieser Klasse von Abbildungen wird jeder Bildpunkt im Ausgangsbild I 1 unter 

Einsatz von T so transformiert, dass sich am Ende das Zielbild I 2 ergibt (siehe Abb. 

2.4). 

⃗x ′ = T (⃗x) 

I 2 (⃗x ′ ) = I 1 (⃗x) 

• Inverse Mapping 

Im Gegensatz zum vorherigen Ansatz geht man hier den umgekehrten Weg. Ausgehend 

vom Zielbild I 2 , wird für jeden Bildpunkt an der Position ⃗x über die inverse 

Abbildung T −1 der Intensitätswert in I 1 an der Position ⃗x ′ ausgelesen (siehe Abb. 

2.5). 

⃗x = T −1 (⃗x ′ ) 

I 2 (⃗x ′ ) = I 1 (⃗x) 

In der Praxis kommt vergleichsweise oft Inverse Mapping zum Einsatz, da bei der 

vorwärts gerichteten Abbildung unter Umständen Lücken im Zielbild entstehen können 

und darüber hinaus wegen potentieller Mehrfachbelegung für jeden Pixel im Zielbild ein 

Akkumulationspuffer benötigt wird. 

8


Abb. 2.4: Schema - Forward Mapping [CL11] 

Abb. 2.5: Schema - Inverse Mapping [CL11] 

2.3.2 Strukturbasierte Methoden 

Das Hauptmerkmal bei dieser Familie von Warping-Verfahren ist das Verformen von 

Bildflächen mittels topologisch starrer Strukturen innerhalb des Bildraums. Im Allgemeinen 

handelt es sich dabei um Netzstrukturen, die sich aus Kanten und Knoten 

zusammensetzen. 

2.3.2.1 Gitternetze 

Abb. 2.6: Gitterbasiertes Warping: Korrespondierende Gitterstrukturen [FDBF06] 

Wie in Abbildung 2.6 dargestellt, wird bei gitterbasierten Verfahren ein beliebiges 

Gitternetz verwendet, um darüber das Warping zu realisieren. Die Gitterknoten werden 

9

2 Grundlagen 

dabei auf markante Bildbereiche („Features“) gelegt, um so eine Approximation der 

Konturen und Strukturen im Ausgangs- und Zielbild zu erreichen. Für die Interpolation 

der Differenzvektoren wird in der Regel die bilineare Interpolation verwendet, da aufgrund 

der gitterbasierten Quantisierung ein Bildpunkt immer nur einem Gitterfeld zugeordnet 

werden kann. Eine Erweiterung dieses Ansatzes stellt der Einsatz sogenannter B-Spline- 

Patches dar [Wol96, GW98, GS98]. 

2.3.2.2 Dreiecksnetze 

Den Kern beim Warping mittels Dreiecksnetzen stellt die Partitionierung des Gesamtbildes 

in unterschiedlich große Dreiecksflächen dar. Diese wurden im Vorfeld auf Basis 

automatisch oder manuell gesetzter Kontrollpunkte unter Anwendung eines geeigneten 

Triangulationsverfahrens (z.B. Delaunay-Triangulierung) erzeugt. 

Die Interpolation verhält sich bei diesem Ansatz analog zum gitternetzbasierten Warping, 

wobei zur Vektorberechnung eines Punktes innerhalb eines Dreiecks in der Regel die 

baryzentrische Interpolation verwendet wird [FDBF06]. 

Abb. 2.7: Dreiecksbasiertes Warping: Dreiecks-zu-Dreiecks-Korrespondenz in beiden 

Bildern 

Bei diesem Ansatz ist es essentiell, dass eine durchgehende Dreiecks-zu-Dreiecks- 

Korrespondenz vorliegt (siehe Abb. 2.7). Im Detail bedeutet dies, dass für jedes 

Korrespondenz-Tripel sowohl im Ausgangs- als auch im Zielbild ein Dreieck erzeugt 

wird. Dadurch ergibt sich für beide Netze eine identische Topologie, wodurch die Bilder 

affin aufeinander abgebildet werden können. [ACOL00, CL11] 

2.3.3 Strukturfreie Methoden 

Warping-Ansätze dieser Kategorie zeichnen sich in erster Linie dadurch aus, dass sie ohne 

eine diskrete Unterteilung des Bildraumes arbeiten und das Warping eines Punktes ohne 

räumliche Zuordnung geschieht. Analog zu den strukturbasierten Verfahren gibt es hier 

10


korrespondierende Kontrollpunkte im Bildraum des Ausgangs- und Zielbildes, welche 

jedoch nicht topologisch geordnet sind. 

2.3.3.1 Feldbasiertes Warping 

Abb. 2.8: Feldbasiertes Warping: Korrespondierende Kontrolllinien [CL12] 

Das zentrale Element dieses durch Beier und Neely [BN92] entwickelten Algorithmus 

bilden korrespondierende Kontrolllinien (siehe Abb. 2.8), die affin aufeinander abgebildet 

werden. Während Bildpunkte, welche direkt auf den Linien liegen, unmittelbar transformiert 

werden können, ergeben sich die Abbildungen für alle anderen Punkte durch die 

gewichteten Summen der Transformationen aller umgebenden Linienpaare [BN92,GW98]. 

Abb. 2.9: Beier-Neely Algorithmus: Berechnung von Punkt X ′ [BN92, CL12] 

Zu beachten ist, dass das feldbasierte Warping nach dem rückwärts gerichteten Abbildungsprinzip 

(Inverse Mapping) arbeitet und demnach stets vom Zielbild ausgegangen 

wird. Im ersten Schritt werden für einen Punkt X die relativen Koordinaten u i und v i 

zu jeder Linie L i berechnet. Durch diese Koordinaten, die als konstant vorausgesetzt 

werden, wird im Quellbild für jede Linie L i die transformierte Punktposition X ′ i und 

anschließend der Differenzvektor D i = X ′ i − X i berechnet. Den Abschluß bildet die 

11

2 Grundlagen 

gewichtete Summierung aller Differenzvektoren unter Berücksichtigung des orthogonalen 

Abstandes zwischen einer Linie L i und dem Punkt X sowie der Linienlänge im Zielbild 

(siehe auch Abb. 2.9). 

2.3.3.2 Kurvenbasiertes Warping 

Eine weitere Form des Warpings stellt der Einsatz stetig differenzierbarer Funktionen 

dar, durch die sehr fließende und weiche Bewegungen im Bild realisiert werden können. 

Die Grundlage bildet dabei stets eine Menge von Stützstellen, die sich z.B aus einer 

automatischen oder auch manuellen Extraktion von korrespondierenden Punkten in den 

Quellbildern ergibt. 

Ein bekanntes Beispiel stellen radiale Basisfunktionen (Radial Basis Functions, RBF) 

[FDBF06, CK08] dar. Wie in Abbildung 2.10 dargestellt, sind diese radialsymmetrisch 

und ergeben durch gewichtetes Summieren eine harmonisch verlaufende Kurve bzw. 

Oberfläche, die alle Stützstellen interpoliert. 

Abb. 2.10: Radiale Basisfunktionen: 1D-Interpolation [FDBF06] 

Eine Funktion f(x), die alle N gegebenen Stützstellen interpoliert, ergibt sich aus der 

Linearkombination von N radialen Basisfunktionen mit jeweils eigenem Zentrum c i und 

einem individuellen Gewichtungsfaktor w i . 

r i = x − c i 

N∑ 

f(x) = w i ϕ(r i ) 

i=1 

Obwohl sich grundsätzlich jede radialsymmetrische Funktion ϕ(r) als Basisfunktion 

(auch Kernel genannt) eignet, gibt es einige Funktionstypen, die sich aufgrund ihrer 

12

Eigenschaften besonders hierfür anbieten [CK08, SASEJK09]. 

• Gaußsche RBF: ϕ(r) = e −(cr)2 

• Multiquadric RBF: ϕ(r) = √ 1 + (cr) 2 

1 

• Inverse Multiquadrics RBF: ϕ(r) = √ 

1+(cr) 2 

• Thin Plate Spline: ϕ(r) = r 2 ln r 

2.4 Anwendungsgebiete und -beispiele 

Nachdem eine passende Basisfunktion gewählt wurde, ist es notwendig, für alle N 

Basisfunktionen die zugeordneten Gewichtungsfaktoren w i zu finden. Dies erreicht man 

durch Aufstellen und Lösen eines Gleichungssystems mit N Unbekannten unter Beachtung 

der Interpolationsbedingung f(x i ) = y i mit i ∈ {1, .., N}. 

2.3.4 Weitere Methode 

Neben den hier vorgestellten Verfahren gibt es noch eine Vielzahl von Ansätzen, durch 

die ebenfalls ein Warping bzw. eine Bildregistrierung realisiert werden kann. Dazu zählen 

unter anderem Energie-Minimierungs-Methoden [SYLKYCJHSYS96, GW98], Multilevel- 

Freiformdeformationen (MFFD) [LCS95] oder auch einfache, distanzbasierte Verfahren 

zur Interpolation der k-nächsten Stützstellen (z.B. Shepard-Interpolation [She68]). All 

diese Methoden haben gemein, dass sie im Normalfall auf bereits bekannten Techniken 

aufbauen und dadurch oft eine hybride Charakteristik aufweisen. So ist es möglich, dass 

sie bis zu einem bestimmten Grad strukturgebunden arbeiten können und darüber hinaus 

Methoden des strukturfreien Warpings verwenden (z.B. farbabhängige Bildraumaufteilung 

mit anschließender Freiformdeformation). 

Einen anderen Ansatz stellt die Verwendung des Optischen Flusses dar, der unter 

optimalen Bedingungen für ein gegebenes Bildpaar ein Differenzvektorfeld berechnet und 

dadurch ein individuelles Verzerren auf Bildpunktebene ermöglicht [SM07, WTP + 09]. 


2.4.1 Anwendungsgebiete 

Neben der Film- und Unterhaltungsindustrie, die das wichtigste Einsatzgebiet darstellt, 

gibt es diverse andere Bereiche, wo die Verwendung von Morphing Vorteile hinsichtlich 

13

2 Grundlagen 

der Ausgabequalität und/oder dem Arbeitsaufwand mit sich bringt. 

• Medizin und Biologie (z.B. CT/MRT-Aufnahmen) 

• Kartografie (z.B. stufenlose Kartendarstellung) 

• Meteorologie (z.B. Wetterphänomene visualisieren) 

• Materialforschung (z.B. grafische Simulation von Materialprozessen) 

• Foto- und Bildverarbeitung 

2.4.2 Software 

Zum gegenwärtigen Zeitpunkt existiert eine Vielzahl von Programmen, welche das Morphing 

von Bildern und Videos auf unterschiedlichen Plattformen erlauben. Neben proprietärer 

Software existiert dabei eine Reihe von Open Source- und Freeware-Anwendungen, 

die entweder separat oder in Verbindung mit anderen Programmen nutzbar sind. 

Proprietär 

• FantaMorph (Abrosoft) 1 

• Photo Morpher (Morpheus) 2 

• FaceMorpher (Luxand Development) 3 

• MorphMan (Stoik) 4 

• Fun Morph (ZEALLSOFT Inc.) 5 

Freeware/Open Source 

• WinMorph (DebugMode) 6 

• FotoMorph (Digital Photo Software) 7 

• Sqirlz Morph (Xiberpix) 8 

1 http://www.fantamorph.com/index.html, Zugriff am 2.9.2012 

2 http://www.morpheussoftware.net/, Zugriff am 2.9.2012 

3 http://www.luxand.com/, Zugriff am 2.9.2012 

4 http://www.stoik.com/products/video/STOIK-MorphMan/, Zugriff am 2.9.2012 

5 http://www.zeallsoft.com/fun-morph.html, Zugriff am 2.9.2012 

6 http://www.debugmode.com/winmorph/, Zugriff am 2.9.2012 

7 http://www.diphso.no/FotoMorph.html, Zugriff am 2.9.2012 

8 http://www.xiberpix.net/SqirlzMorph.html, Zugriff am 2.9.2012 

14


2.4.3 Filme 

Der Einsatz von Morphing ist heutzutage in vielen Bereichen weit verbreitet und insbesondere 

für Filmproduktionen steht eine Vielzahl verschiedener Verfahren zur Verfügung, 

um so bestmöglich Deformationen und Verwandlungen von Objekten oder Individuen 

darzustellen. Diesbezüglich werden im Folgenden einige bedeutende Produktionen kurz 

vorgestellt. 

• Hunger 

„Hunger“ ist ein kanadischer Kurzfilm aus dem Jahre 1974, welcher unter Regie von 

Peter Foldes produziert wurde und zum Zeitpunkt seiner Veröffentlichung verschiedene 

Preise gewinnen konnte (u.a. Cannes Film Festival 1974). Die Animationen 

im Film basieren komplett auf dem Morphen der Konturlinien, welche vorwiegend 

vor einfarbigen Hintergründen dargestellt werden (siehe Abb. 2.11). Er zählt zu den 

ersten computeranimierten Filmen überhaupt [NRCoC, NFBoC]. 

Abb. 2.11: Hunger (1974) [NFBoC] 

• Willow 

Der Fantasyfilm „Willow“ von 1988 gilt heute als der erste Film, in dem neben diversen 

anderen Spezialeffekten auch erstmalig Morphing zum Einsatz kam. Die enthaltene 

Morphing-Sequenz ist vergleichsweise kurz (siehe Abb. 2.12), galt aber dennoch zum 

damaligen Zeitpunkt als revolutionär und wegweisend. [GLRHJJNW88, fil]. 

Abb. 2.12: Willow (1988) [GLRHJJNW88] 

• Black or White 

Im Musikvideo zu Michael Jackson’s „Black or White“, das im Jahre 1991 veröffentlicht 

wurde, kommt eine Morphing-Sequenz vor, die auch heute noch in Arbeiten zum 

15

2 Grundlagen 

Thema Morphing referenziert wird. In der Sequenz sind die Gesichter von Personen 

unterschiedlicher Ethnien zu sehen, welche den Betrachter anlächeln und sich passend 

zur Musik bewegen. Dabei wird in unregelmäßigen Abständen unter Anwendung 

von Gesichts-Morphing zwischen den verschiedenen Personen gewechselt(siehe Abb. 

2.13), wodurch harte Schnitte vermieden werden und die zentrale Botschaft des 

Liedes, dass alle Menschen gleich sind, unterstrichen wird [MJJL91]. 

Abb. 2.13: Black or White (1991) [MJJL91] 

• Terminator 2: Judgment Day 

Der Actionfilm „Terminator 2“ aus dem Jahr 1992 galt zum Zeitpunkt seiner Veröffentlichung 

als der Film mit den meisten und besten visuellen Effekten in der 

Filmindustrie. Erstmalig wurden dabei in größerem Umfang computergenerierte 

Spezialeffekte (sog. CGI-Effekte) zur Darstellung von Personen, Umgebungen sowie 

unnatürlichen Phänomenen (siehe Abb. 2.14) eingesetzt. [JCWWJSAGAH92]. 

Abb. 2.14: Terminator 2: Judgment Day (1992) [JCWWJSAGAH92] 

• Matrix 

1999 stellte der Film „The Matrix“ aufgrund der enthaltenen Spezialeffekte einen weiteren 

Meilenstein in der Filmindustrie dar. Ein Grund hierfür war unter anderem der 

häufige Einsatz der sogenannten „Bullet Time“ (siehe Abb. 2.15), wodurch vorallem 

schnelle Ereignisse (z.B. Sprünge, Explosionen) in ihrer Bedeutung unterstrichen und 

vom Betrachter besser wahrgenommen werden. Charakteristisch für diesen Effekt 

ist die beträchtliche Verlangsamung bzw. das Einfrieren der Filmzeit, während die 

Kamera auf ein bestimmtes Objekt/Akteur fokussiert ist und sich unabhängig von 

der Zeit bewegt [PDGS, AWLWJS99]. 

16

2.5 Zusammenfassung 

Abb. 2.15: The Matrix (1999) [AWLWJS99] 


Im Zuge dieses Kapitels wurden alle fundamentalen Aspekte des Morphings, welche 

für diese Arbeit von Relevanz sind, schrittweise erarbeitet. Beginnend mit der Definition 

von Bildern und Morphing, wurden anschließend grundlegende Warping-Methoden, 

Softwarelösungen sowie bekannte Anwendungsbeispiele vorgestellt und erörtert. 

17

3 Forschungsarbeiten 

Im Mittelpunkt dieses Kapitels steht die Betrachtung von drei wissenschaftlichen Arbeiten, 

welche thematisch eng mit der hier vorliegenden Arbeit verwandt sind. Neben einer 

inhaltlichen und strukturellen Betrachtung geht es hierbei insbesondere um das Aufzeigen 

und Erörtern der zentralen Lösungsansätze, auf denen die Arbeiten aufbauen. 

3.1 Image Morping for Space-Time Interpolation 

3.1.1 Beschreibung 

Der inhaltliche Schwerpunkt der im Jahr 2007 durch Timo Stich und Marcus Magnor 

veröffentlichten Arbeit „Image Morping for Space-Time Interpolation„ [SM07] liegt auf der 

Präsentation eines wahrnehmungsbasierten Morphing-Ansatzes zur Darstellung komplexer 

Szenen. Unter Beachtung psychovisueller Faktoren ermöglicht die vorgestellte Methode 

das Morphen von Bildsequenzen, welche sowohl große Tiefenunterschiede als auch Objektverdeckungen 

aufweisen. Zudem ist der Ansatz weder von einer im Vorfeld durchgeführten 

Kamerakalibrierung noch von einer dreidimensionalen Szenenrekonstruktion abhängig, 

wodurch er sich für das Morphen beliebig akquirierter Bilddaten eignet. 

3.1.2 Inhalt 

Den Anfang der Arbeit bildet eine kompakte Einführung in die grundlegenden Aspekte 

des Morphings, der sich ein Überblick über die visuelle Wahrnehmung des Menschen 

anschließt. Im Fokus stehen dabei der Formpfad (form pathway) und der Bewegungspfad 

(motion pathway), welche beide durch das visuelle Zentrum des menschlichen Gehirns 

wahrgenommen werden und für das Erkennen einer physikalisch plausiblen Bewegung 

gleichermaßen notwendig sind. Der Formpfad bezeichnet dabei das Wahrnehmen von 

markanten Eigenschaften (z.B. der Kontur) bei aufeinanderfolgenden Einzelbildern, 

worüber Objekte letztlich wiedererkannt werden. Der Bewegungspfad hingegen basiert auf 

der Analyse des Optischen Flusses und dem Vergleichen mit bekannten Bewegungsmustern 

(z.B. Rotation, der menschliche Gang). Beide Faktoren sind demnach für das menschliche 

Sehen und Verstehen essentiell. 

18

3.1 Image Morping for Space-Time Interpolation 

Abb. 3.1: Links Ausgangsbild, rechts Zielbild [SM07] 

Nach Betrachtung der psychovisuellen Aspekte wird der Einsatz des Optischen Flusses im 

Kontext des Morphings erläutert. Dieser wird in einem nachgeschalteten Verarbeitungsschritt 

zur Korrektur von fehlerhaften Warping-Vektoren verwendet, damit so die effektive 

Bilddifferenz minimiert werden kann. Magnor und Stich weisen diesbezüglich darauf hin, 

dass die alleinige Anwendung des Optischen Flusses nicht für das Warping geeignet ist 

und vorallem bei großen Bilddifferenzen sowie Verdeckungen fehlerhaft arbeitet. 

Abb. 3.2: Fehlermaske (fehlerhafte Bereiche sind weiß) [SM07] 

Die Klassifizierung der Bilddifferenz ist ein weiterer Aspekt der hier vorgestellten Arbeit. 

Die Basis hierfür bilden dabei stets das Ausgangs- und Zielbild (siehe Beispiel 3.1), welche 

beide in den CIELAB-Farbraum übertragen werden. Zusätzlich wird das Ausgangsbild 

mittels vorberechneter Warping-Daten auf das Zielbild abgebildet. Im Anschluss daran 

wird die Differenz zwischen beiden Bildern berechnet und in einer monochromen Maske 

(siehe Abb. 3.2) gespeichert. 

Die erzeugte Fehlermaske dient als Datengrundlage für das sogenannte nichtlineare 

Blending, das nun zum Einsatz kommt. Im Kern findet dabei pro Bildpunkt ein adaptives 

Blending der Quellfarben mittels einer speziellen Logistikfunktion (Sigmoidfunktion) 

statt, welche neben dem eigentlichen Blendingparameter t den vorberechneten Fehlerwert 

nutzt. Daraus resultiert ein nahezu lineares Blending für Bildbereiche mit geringem 

19


Fehlerwert, während besonders fehlerhafte Bereiche stark verzögert mit einem schnellen 

Sprung geblendet werden (siehe Abb. 3.3). An diesem Punkt wird den Erkenntnissen 

über die visuelle Wahrnehmung beim Menschen Rechnung getragen, da aus Sicht der 

Autoren Ghosting-Artefakte und Farbsprünge negativer gewertet werden als ein optischer 

Stillstand. 

Den Abschluss der Arbeit bildet eine Vorstellung der prototypischen Implementierung 

sowie eine Auswertung der erzielten Ergebnisse. 

Abb. 3.3: Vergleich - links lineares Blending, rechts adaptives Blending [SM07] 

3.1.3 Prozessübersicht 

Der durch Stich und Magnor vorgestellte Lösungsansatz basiert auf einer Abfolge inhaltlich 

voneinander getrennter Teilschritte, welche im Folgenden aufgelistet werden. 

1. Feature- und Korrespondenzdetektion 

Erkennen von Merkmalen und Ermitteln der darauf basierenden Korrespondenzen 

im Ausgangs- und Zielbild. 

2. Feature-Animation 

Vorberechnung des Warpings mittels der Methode von Beier und Neely [BN92], 

wobei anstelle einer linearen Positionsinterpolation ein Rigid-As-Possible-Ansatz 

(siehe Alex et al. 2000 [ACOL00]) genutzt wird. 

3. Feature-Gewichtung 

Berechnung der Feature-Gewichtung auf Grundlage unterschiedlicher Faktoren (z.B. 

Abstand, Farbdifferenz). 

20

3.2 Silhouette-Aware Warping for Image-Based Rendering 

4. Prewarping 

Prewarping der beiden Quellbilder mittels vorberechneter Interpolationsgewichte 

und Warping-Daten. 

5. Optischer Fluss 

Berechnung des Optischen Flusses sowie die anschließende Korrektur der vorläufigen 

Warping-Vektoren. 

6. Fehlermaske 

Generierung einer monochromen Differenzmaske im CIELAB-Farbraum auf Basis 

der gewarpten Quellbilder. 

7. Warping 

Warping der Quellbilder sowie der Fehlermaske als erster Schritt im Morphing- 

Prozess. 

8. Blending 

Adaptives Blending des Ausgangs- und Zielbildes mithilfe der Fehlermaske unter 

Verwendung einer nichtlinearen, parametrisierten Logistikfunktion. 

3.1.4 Zusammenfassung 

Der in dieser Arbeit präsentierte Ansatz zur interpolierten Bildsynthese erlaubt die 

Darstellung von komplex aufgebauten Szenen, indem er die psychovisuellen Aspekte 

der menschlichen Wahrnehmung aktiv ausnutzt und adaptiv auf Pixelebene arbeitet. 

Er ermöglicht dadurch das Morphen von Bildsequenzen mit häufigen Objektverdeckungen 

und Tiefensprüngen, ohne dass störende Bildfehler (z.B. Ghosting-Artefakte) die 

Gesamtwirkung beeinträchtigen. 



Gegenstand der 2011 durch Chaurasia, Sorkine und Drettakis veröffentlichten Arbeit 

„Silhouette-Aware Warping for Image-Based Rendering“ [CSD11] ist die Präsentation eines 

Multiframe-basierten Morphing-Ansatzes. Unter Verwendung von kalibrierten Bildern 

sowie daraus extrahierten Punktwolken ermöglicht das Verfahren Silhouetten-erhaltendes 

Morphing von Szenen mit häufigen Objektverdeckungen und Tiefensprüngen. 

21


3.2.2 Inhalt 

Beginnend mit einer thematischen Einführung, findet zunächst eine grundlegende Betrachtung 

verschiedener Teilbereiche des bildbasierten Renderns (Image-based Rendering, 

IBR) statt. Unter anderem wird ein kurzer Überblick über die Bereiche Bildinterpolation 

und Warping gegeben, wobei hier neben Methoden und Anwendungsmöglichkeiten auch 

die Entwicklungen der letzten Jahre aufgezeigt werden. 

Abb. 3.4: Übersicht über die zentralen Teilschritte des vorgestellten Ansatzes [CSD11] 

Nachfolgend wird mit einer Übersicht über das entwickelte Verfahren mitsamt der dazugehörigen 

Teilschritte die Grundlage für den Rest der Arbeit gelegt. Im Fokus stehen 

dabei die drei zentralen Teilschritte Vorverarbeitung, Silhouetten-sensitives Warping 

und Rendering, welche aufeinander aufbauen und somit sequentiell ausgeführt werden 

müssen (siehe auch Abb. 3.4). Zu beachten ist, dass das Verfahren aufgrund der jeweiligen 

Teilschritte als Eingabedaten sowohl kalibrierte Bilder (inklusive Mehrfachansichten) als 

auch dichte 3D-Punktwolken vorraussetzt. 

Das Ziel der Vorverarbeitung ist die Bereitstellung von bildabhängigen Tiefeninformationen 

unter Berücksichtigung dominanter Bildflächen und Silhouetten. Im ersten Schritt 

findet eine manuelle Markierung der Silhouetten statt, da aus Sicht der Autoren automatisierte 

Algorithmen häufig zuviele bzw. falsche Konturen finden und die dadurch 

notwendigen Korrekturen noch zeitaufwendiger sind. Im Anschluss daran erfolgt eine bildabhängige 

Punktselektion auf Basis der gegebenen dreidimensionalen Punktwolke sowie 

den Kalibrierungsdaten. Hauptbestandteil des Selektionsprozesses ist eine Punktreduktion, 

bei der mittels konfigurierbarem Point-Splatting nur soviel Punkte auf die Bildebene 

abgebildet werden, dass eine bildfüllende Darstellung erreicht wird. Um Überdeckungen 

von Vordergrund- und Hintergrundpunkten sowie Tiefeninkonsistenz zu vermeiden, wird 

sowohl das Entfernen falsch zugeordneter Punkte als auch das Mitteln der Tiefenwerte 

auf Basis der markierten Silhouetten durchgeführt. Den Abschluß der Vorverarbeitung 

bildet das automatisierte Auffüllen leerer Bildbereiche mit zusätzlichen Stützpunkten 

und das optionale, manuelle Entfernen falscher Korrespondenzen. 

Das nachfolgende Image-Warping wird unter Berücksichtigung vorhandener Silhouetten 

22


durchgeführt und stellt im Kontext des vorgestellten Ansatzes den wichtigsten Zwischenschritt 

dar. Ihm zugrunde liegt eine Menge von Einzelbildern für die Darstellung der 

gleichen Szene sowie die vorverarbeiteten Punktwolken. 

Ziel ist es, eine Warpingfunktion W zu finden, welche alle einbezogenen Bilder bestmöglich 

und plausibel für das nachfolgende Blending verzerrt. Dazu wird zunächst über jedes 

Bild ein regelmäßiges Dreiecksgitter mit einer ausreichend hohe Vertex-Dichte gelegt. Als 

Nächstes werden die Energie-Funktionen E p , E s und E b definiert, die allesamt auf der 

Methode der kleinsten Quadrate aufbauen und als Nebenbedingungen für das Finden der 

optimalsten Warping-Funktion W : R 2 → R 2 benötigt werden. 

Abb. 3.5: Silhouetten-abhängige Unterteilung des vorhandenen Dreiecksnetzes [CSD11] 

Der Energie-Term E p dient als Kriterium für die Erhaltung der identischen Punktpositionen 

im dreidimensionalen Raum. Konkret bedeutet das für ein selektiertes Bild I i , dass 

jeder 3D-Punkt p ∈ P i und der korrespondierende 2D-Punkt q ∈ Q i unter Berücksichtigung 

der bildabhängigen Projektion C i auch nach dem Warping korrespondieren. 

Der Term E s fungiert als Kriterum für die Erhaltung der Formähnlichkeit. Bezogen 

auf das erzeugte Dreiecksnetz, versucht man darüber eine Warping-Funktion W mit 

der Eigenschaft der geringstmöglichen Dreiecksverzerrung und der maximalen lokalen 

Formerhaltung zu finden. 

Dem letzten Energieterm E b kommt eine besondere Bedeutung zu, da dieser als Hauptkriterium 

für die Erhaltung der Silhouetten während des Warping-Prozesses dient. Vorbedingung 

hierfür ist aber eine Modifikation des Dreiecksgitters, das entlang der markierten 

Kontur-Kanten zusätzlich mehrfach unterteilt werden muss (siehe Abb. 3.5). Die bei 

der Tesselierung erzeugten Dreiecke dienen als „elastisches“ Band und werden nicht 

vom Ähnlichkeitserhaltungs-Term E s berücksichtigt. Alle drei vorgestellten Energieterme 

werden nachfolgend gewichtet und zu einem Term E zusammengefasst. 

E(W ) = w p E p + w s E s + w b E b 

Die lineare Gleichung ∇E(W ) = 0 wird nun entsprechend des Minimierungsprinzips 

unter Verwendung eines geeigneten Gleichungsauflösers für das Finden der optimalsten 

23


Warpingfunktion W verwendet. Nach Abschluss dieses Schrittes besitzt jedes Eingabebild 

I i ein individuell angepasstes Dreiecksgitter sowie ein vorberechnetes Linearsystem, das 

zur Laufzeit für die Berechnung der Warpingfunktion W unter Berücksichtigung der 

interpolierten Projektion C n verwendet wird. 

Abb. 3.6: Rendering: (a) Warping (b) Texturkomposition (c) Blending (d) Bildoptimierung 

mittels Poisson-Synthese [CSD11] 

Den finalen Verarbeitungsschritt stellt das eigentliche Rendering dar. Hierbei werden 

zunächst die vier optimalsten Ansichten selektiert, um so eine stabile Berechnungsgrundlage 

zu schaffen. Anschließend findet das blickpunktabhängige Warping aller Bilder unter 

Verwendung der im Vorfeld berechneten Linearsysteme statt (erste Phase in Abbildung 

3.6). Ergebnis dieser Bildregistrierung ist die projektive Abbildung unterschiedlicher 

3D-Punkte mit gleicher Raumposition auf dieselbe 2D-Position im Ausgabebild. 

Der nächste Schritt ist das individuelle Blending der Quellbilder pro Bildpunkt. Dazu 

wird eine Auswahl der zwei besten Bilder mittels Raycasting durchgeführt, welches als 

Ergebnis den Winkel zwischen dem Raycasting-Strahl und dem Blickpunkt-Strahl im 

Quellbild I i sowie die Art der Trefferfläche zurückliefert (siehe Abb. 3.7). Auf Basis dessen 

findet die Berechnung eines Fehlerwertes statt, über den die Auswahl der beiden Bilder 

mit dem geringsten Fehler umgesetzt wird. 

Dieser Zwischenschritt resultiert in zwei Texturen R 0 und R 1 , die pro Bildpunkt die 

Farben und Blend-Gewichte des besten und zweitbesten Quellbildes enthalten. Das 

Ergebnis der Blend-Phase ist eine Textur R, die sich aus dem Überblenden von R 0 und 

R 1 ergibt (siehe Phase c in Abbildung 3.6). 

Da innerhalb der geblendeten Textur R räumliche Diskontinuitäten (z.B. Quellbild- 

Ränder) vorliegen können, wird in der letzten Phase eine Poisson-Synthese zur Bildoptimierung 

eingesetzt. Grundlage dafür bilden eine von R 0 abgeleitete Gradienten-Textur G 

sowie eine Divergenz-Textur divG. Beide Texturen werden nun für das iterative Lösen der 

Poisson-Gleichung ∇ 2 R ′ = divG in Abhängigkeit von ∇R ′ | B0 = 0 eingesetzt, wobei R ′ die 

optimierte Ausgabetextur und B 0 die Flächenränder in R 0 beschreibt. Das Ergebnis sind 

weiche Übergänge in kritischen Bereichen und eine Reduktion von Ghosting-Artefakten. 

24


Abb. 3.7: Links Strahlentest zur Bildauswahl, rechts gewarptes Bild mit elastischem Band 

(rot) und Freiflächen (blau) [CSD11] 

Der Vorstellung der einzelnen Prozessschritte schließt sich eine allgemeine Ergebnisbetrachtung 

an. Unter anderem wird aufgezeigt, dass im Vergleich zu vorherigen Arbeiten 

die Szenenrekonstruktion bekannter Testdatensätze deutlich weniger Speicher benötigt. 

Zusätzlich befinden sich im gleichen Abschnitt Informationen über das verwendete 

Testsystem sowie dazugehörige Leistungswerte. 

Den Abschluss bildet eine kurze Zusammenfassung der wichtigsten Aspekte und Eigenschaften 

des Verfahrens sowie nachfolgend ein Ausblick auf zukünftige Herausforderungen 

im Bereich des bildbasierten Renderings. 


Der Prozessablauf des beschriebenen Verfahrens zeichnet sich durch eine Reihe von 

Einzelschritten aus, die thematisch von einander getrennt sind und sukzessive aufeinander 

aufbauen. Die folgende Auflistung soll einen grundlegenden Überblick über die 

vorhandenen Teilschritte geben und diese kurz charakterisieren. 

1. Bildakquisition 

Gewinnung von kalibrierten Bilddaten, wobei durch die Multiframe-Eigenschaft des 

Verfahrens eine möglichst große Anzahl von Bildern einer Szene benötigt wird. 

2. Punktwolken-Generierung 

Globale Erzeugung einer dichten 3D-Punktwolke. 

3. Silhouetten-Extraktion 

Manuelle oder automatisierte Erfassung von dominanten Flächen und Konturen. 

4. Punktselektion 

Blickpunktabhängige Selektion von 3D-Punkten pro Quellbild sowie Einfügen zusätzlicher 

Punkte bei Leerflächen. 

25


5. Warping-Netz 

Erzeugung eines Dreiecksnetzes für jedes Quellbild I i . 

6. Warping-Energiefunktionen 

Bildabhängige Initialisierung der Energie-Funktionen E p , E s und E b als Kriterien 

für ein optimales Warping. 

7. Warping-Vorberechnung 

Berechnung einer optimalen Warping-Funktion W nach der Methode der kleinsten 

Quadrate mittels eines geeigneten Gleichungsauflösers. Zwischenspeichern des 

berechneten Linearsystems. 

8. Quellbild-Selektion 

Auswahl der vier geeignetsten Bilder, um darauf basierend das Rendering durchzuführen. 

9. Warping 

Bildregistrierung mittels Warping auf Basis des interpolierten Blickpunktes C n . 

10. Blending-Preprocessing 

Geometriebasiertes Raycasting zur Fehlerwertberechnung. Pro Bildpunkt Caching 

des besten und zweitbesten Quellbildpixels sowie der dazugehörigen Blend-Gewichte 

in den Texturen R 0 und R 1 . 

11. Blending 

Erzeugen des Ausgabebildes R durch Überblenden der Texturen R 0 und R 1 . 

12. Optimierung 

Optimierung und Korrektur von Blendfehlern durch eine Poisson-Synthese. Die 

Gradienten- und Divergenz-Texturen von R 0 dienen dabei als Berechnungsgrundlage. 


Das in dieser Arbeit vorgestellte Morphing-Verfahren ermöglicht eine fortschrittliche 

Form der interpolierten Bildsynthese unter Erhaltung aller relevanten Silhouetten. Auf 

Basis von kalibrierten Bilddaten wird zunächst ein mehrstufiger Prozess durchlaufen, 

welcher sowohl Konturen als auch Tiefenunterschiede berücksichtigt. Im Anschluss daran 

ist eine interpolierte Darstellung von nahezu jedem beliebigen Blickpunkt innerhalb der 

Szene möglich, ohne dass dabei Verdeckungsfehler auftreten. 

26

3.3 Photo Tourism: Exploring Photo Collections in 3D 



Im Fokus der 2006 veröffentlichten Arbeit „Photo Tourism: Exploring Photo Collections 

in 3D“ [ea06] steht die Präsentation einer komplexen Visualisierungslösung, die das 

interaktive Navigieren und Darstellen beliebiger Bildmengen einer Szene innerhalb einer 

dreidimensionalen Umgebung ermöglicht. 

3.3.2 Inhalt 

Nach einer thematischen Einführung in den Bereich der bildbasierten Modellierung 

und Darstellung von Szenen stellen die Autoren zunächst die Datenvorverarbeitung 

des Systems vor. Im Mittelpunkt steht dabei die geometrische Rekonstruktion einer 

Szene auf Basis einer ungeordneten Bildmenge, die manuell oder per Web-Anbindung 

(u.a. zu FlickR 1 ) erzeugt wurde. Im ersten Schritt werden die Bildmerkmale (Features) 

mittels des SIFT-Operators [Low04] gesucht und darauf aufbauend über den RANSAC- 

Algorithmus [FB87] Korrespondenzen ausfindig gemacht. Letztere werden, sofern sie über 

mehr als zwei Bilder bestehen, in sogenannten Tracks organisiert (siehe Abb.3.8). 

Abb. 3.8: Quellbildmenge (links), Korrespondenzen (mitte), rekonstruierte Szene (rechts) 

[ea06] 

Im nächsten Schritt wird nun die eigentliche Rekonstruktion der Szene mittels einer 

Technik namens Structure from Motion(SfM ) realisiert. Im Kern handelt es sich dabei 

um nichtlineares Minimierungsproblem, das in diesem Fall iterativ berechnet wird. Als 

initiales Bildpaar wird das mit den meisten Korrespondenzen ausgewählt, da dies als 

die stabilste Berechnungsgrundlage gilt und so degenerierte Ergebnisse vermieden werden 

können. Schrittweise werden weitere Kameras der Optimierung hinzugefügt und 

parallel die äußeren Kameraparameter (d.h. Position, Orientierung usw.) durch die DLT- 

Methode (Direct Linear Transform) [HZ04] initialisiert. Die inneren Kameraparameter 

1 http://www.flickr.com/, Zugriff am 6.11.2012 

27


(z.B. Brennweite) werden primär mittels DLT geschätzt und über Zusatzinformationen 

aus den gegebenen Bilddateien (z.B. EXIF-Tags) ergänzt. Die geometrische Rekonstruktion 

erfolgt durch Hinzunahme der im Vorfeld erzeugten Tracks, wobei nur solche in 

die Berechnung einfließen, welche von mindestens einer bereits rekonstruierten Kamera 

erfasst werden. Wie in Abbildung 3.8 dargestellt, ist das Ergebnis im Idealfall eine dichte, 

räumliche Punktwolke sowie vollständige Kameraparameter für alle Ansichten. 

Den Abschluss der Vorverarbeitungsphase bildet die absolute Ausrichtung aller Raumdaten, 

wobei optional eine Georegistrierung der Szene über GPS-Daten (z.B. GPS-Tags) 

oder manuelle Eingaben durchgeführt werden kann. Die Registrierung ist notwendig, 

wenn der Einsatz einer interaktiven Navigationshilfe in Form einer Minikarte (siehe 

Abb.3.9) gewünscht wird. 

Abb. 3.9: Minikarte (mit grünem Standortsymbol) als Navigationshilfe [ea06] 

Hauptmerkmal der Präsentationsphase ist das interaktive Durchwandern und Entdecken 

der rekonstruierten 3D-Szene. Die Darstellung erfolgt dabei über einen zentralen Viewport, 

worüber sowohl die erzeugte Punktwolke als auch die eingebetteten Ansichten in 

Form von Bildebenen abgebildet werden. 

Für die Navigation stehen die Modi Freiflug, Ansichtsbasiert und Objektbasiert zur Auswahl. 

Der erste Modus ermöglicht das freie Erkunden der Szene, ohne dass Ansichten 

exklusiv im Viewport dargestellt werden. Der ansichtsbasierte Modus beinhaltet das 

Selektieren und Bewegen zwischen den expliziten Ansichten. Der objektbasierte Modus 

erlaubt hingegen die Auswahl und Darstellung von im Vorfeld identifizierten und 

annotierten Objekten über mehrere Ansichten hinweg. 

Der Wechsel zwischen den Ansichten kann über unterschiedliche Ansätze erfolgen. Zentraler 

Bestandteil ist dabei in jedem Fall die Sichttransformation durch lineares Interpolieren 

der Kamera zwischen dem Ausgangs- und Zielbild. Dabei ist zu beachten, dass das System 

die Position, die Orientierung und den Blickwinkel der Kamera getrennt voneinander 

interpoliert, um so degenerierte Transformationen zu vermeiden. Für die Berechnung von 

Zwischenbildern stehen zwei Verfahren zur Auswahl. 

• Planares Morphing 

Ausgehend von zwei Kameras C j und C k , wird eine Ebene durch planares Approxi- 

28


mieren der gemeinsamen Tracks erzeugt. Auf diese Ebene werden die beiden Bilder 

I j und I k projiziert und in Abhängigkeit von der Kamerabewegung linear geblendet. 

• Trianguliertes Morphing 

Zunächst findet in der Vorverarbeitungsphase eine Projektion aller Punkte, die 

durch die Kameras C j bzw. C k erfasst werden, sowie eine anschließende Delaunay- 

Triangulierung im Bildraum statt. Da im Allgemeinen nicht alle Bereiche einer 

Ansicht durch die Triangulierung abgedeckt werden können, wird zusätzlich ein 

reguläres Gitternetz eingefügt und die Gitterknoten, welche außerhalb der konvexen 

Hülle liegen, der Triangulierung hinzugefügt. 

Da jeder Punkt im Bildraum auch eine dreidimensionale Position benötigt, wird 

diese mittels Raycasting auf der gemeinsamen Ebene von C j und C k berechnet. 

Danach werden die räumlichen Netzmodelle durch Übertragen der Triangulierung 

für die Start- und Zielansicht erzeugt. Den Abschluss der Vorverarbeitung bildet das 

projektive Texturieren der Netzmodelle. Während des Bildwechsels werden nun die 

beiden Dreiecksnetze auf Basis der interpolierten Kameraparameter gerendert und 

abschließend die erzeugten Ansichten linear geblendet. 

Nachdem in den bisherigen Abschnitten der Fokus auf dem Import, der Aufbereitung 

und der Präsentation der Bilddaten lag, erläutern die Autoren im letzten Teil der Arbeit 

Möglichkeiten, wie bereits fertig rekonstruierte Szenen erweitert werden können. 

Eine Variante ist das Hinzufügen von neuen Bildern, ohne dass ein erneuter Durchlauf 

der Vorverarbeitungsphase notwendig ist. Hierzu wechselt der Nutzer in einen Übersichtsmodus, 

wo er die Szene von oben betrachtet und zusätzliche Bilder durch Drag’n’Drop 

hinzufügen kann. Falls ein Bild eingefügt wurde, werden wiederum Bildmerkmale mittels 

SIFT ermittelt und Korrespondenzen in den 20 nächsten Ansichten in der Szene 

gesucht. Anschließend werden die Kameraparameter des hinzugefügten Bildes auf Basis 

der selektierten Ansichten neu berechnet. 

Die bildübergreifende Annotation von Objekten ist eine weitere Option, eine bestehende 

Szene zu ergänzen. Zuallererst wird dazu ein Objekt in der aktuellen Ansicht selektiert 

und über einen Eingabedialog mit Metadaten (z.B. Text, Weblinks) versehen. Nachfolgend 

werden dann diese Informationen durch das System auf alle Ansichten übertragen, welche 

exakt das gleiche Objekt abbilden. Zusätzlich zu der hier beschriebenen Methode gibt es 

die Möglichkeit, durch die Anbindung an bekannte Bildportale wie FlickR automatisiert 

Annotationen in das System zu übertragen. 


Da der Bildwechsel im beschriebenen System auch mittels bildbasiertem Morphing 

möglich ist, soll im Folgenden ein Überblick über dafür notwendigen Teilschritte gegeben 

werden. 

29


1. Bildakquisition 

Akquisition von Bilddaten einer Szene aus verschiedenen Quellen, wobei sowohl unkalibrierte 

als auch kalibrierte Fotos möglich sind (offline oder per Web-Anbindung). 

2. Feature- und Korrespondenzdetektion 

Automatisiertes Finden von Bildmerkmalen mittels des SIFT-Operators [Low04]. 

Anschließend werden mittels des RANSAC-Algorithmus [FB87] Korrespondenzen 

zwischen Bildpaaren gesucht und diese für multiple Bilder in sogenannten Tracks 

organisiert. 

3. Szenenrekonstruktion 

Rekonstruktion der Kameraparameter sowie der 3D-Positionen aller Tracks. Optional 

findet eine Linienrekonstruktion innerhalb der Szene statt. 

4. Punktprojektion 

Projektion aller Punkte, die durch die Start- bzw. Zielkamera erfasst werden. 

5. Triangulierung 

Auf Basis der projizierten Punkte wird im Bildraum eine Delaunay-Triangulierung 

durchgeführt. 

6. Planares Gitternetz 

Einfügen eines regelmäßigen Gitters, wo jeder Knoten außerhalb der konvexen Hülle 

des Dreiecksnetzes der Triangulierung hinzugefügt wird. Die 3D-Position wird durch 

Raycasting auf der Tracks-Ebene (approximiert alle gleichzeitig sichtbaren Punkte) 

gewonnen. 

7. Räumliches Dreiecksnetz 

Auf Basis der im Bildraum durchgeführten Triangulierungen wird für die Start- und 

Zielansicht jeweils ein korrespondierendes, dreidimensionales Netzmodell erzeugt. 

8. Projektive Texturierung 

Ausgehend vom jeweiligen Blickpunkt, werden mittels projektiver Texturierung 

die Texturkoordinaten für die dreidimensionalen Netze der Start- und Zielansicht 

berechnet. 

9. Sichtinterpolation 

Während des Bildübergangs werden die Kameraposition, die Orientierung sowie der 

Blickwinkel getrennt voneinander interpoliert. 

10. Rasterisierung 

Über den interpolierten Blickpunkt werden die Dreiecksnetze getrennt voneinander 

gerendert und zwischengespeichert 

11. Blending 

Entsprechend des relativen Abstandes der interpolierten Kameraposition zur Startund 

Zielposition, werden die gerenderten Zwischenansichten linear geblendet. 

30

3.4 Vergleich und Bewertung 


Snavely et al. haben in dieser Arbeit ein sehr flexibles und komplexes Visualisierungssystem 

vorgestellt, das die Akquisition, Rekonstruktion sowie Darstellung von komplexen 

Szenen auf Basis von unstrukturierten Bildmengen erlaubt. Die Fähigkeit, beliebige 

Bilder einer Szene für die räumliche Rekonstruktion der Geometrie- und Kameradaten 

verwenden zu können, macht das System vielseitig einsetzbar. Durch die integrierte 

Web-Anbindung an bekannte Bildportale wie FlickR ist es zudem eine schnelle und 

effiziente Bildakquisition möglich. 

Die Präsentation der Bilddaten erfolgt durch eine Einbettung in die rekonstruierte Szene, 

sodass intuitiv zwischen den verschiedene Ansichten navigiert werden kann. Der Bildwechsel 

erfolgt dabei über einen hybriden Ansatz, der neben der kontinuierlichen Interpolation 

der Kameraparameter auch ein merkmals- und strukturbasiertes Morphing umfasst. 

3.4 Vergleich und Bewertung 

Nachdem in diesem Kapitel drei aktuelle wissenschaftliche Arbeiten aus dem Bereich 

des Morphings vorgestellt und inhaltlich beschrieben wurden, erfolgt nun in Tabelle 3.1 

eine Gegenüberstellung der präsentierten Ansätze. Durch diesen Vergleich soll sowohl ein 

kompakter Überblick über die Eigenschaften und Fähigkeiten der entwickelten Ansätze 

als auch eine möglichst umfassende Bewertungsgrundlage geschaffen werden. 

Es ist ersichtlich, dass die von Timo Stich und Marcus Magnor vorgestellte Methode 

bezüglich der Komplexität einfacher aufgebaut ist als die beiden anderen Ansätze. Die 

Anzahl der Vorverarbeitungsschritte ist weitaus geringer, da weder Kalibrierungsdaten 

noch extrahierte Raumdaten zum Einsatz kommen. Um dennoch eine ansprechende 

Interpolation von Bildern zu erreichen, nutzen die Autoren für das Blending Erkenntnisse 

und Techniken aus der Wahrnehmungspsychologie. 

Eine fortschrittlichere Methode wird in der Arbeit „Silhouette-Aware Warping for Image- 

Based Rendering“ verwendet, weshalb hier weitaus mehr und auch deutlich komplexere 

Teilschritte für die Generierung von Zwischenansichten notwendig sind. Das Ergebnis ist 

eine Silhouetten-erhaltende Bildsynthese von nahezu jedem beliebigen Blickpunkt aus, 

ohne dass beachtenswerte Bildfehler bei Objektverdeckungen oder Tiefensprüngen auftreten. 

Als nachteilig ist der hohe Aufwand für die Gewinnung geeigneter Bilddatensätze zu 

sehen, da in jedem Fall eine Kamerakalibrierung durchgeführt werden muss. 

Das durch Snavely et al. vorgestellte System „Photo Tourism“ stellt, bezogen auf seine 

Morphing-Fähigkeiten, einen Kompromiss aus Einfachheit und Komplexität dar. Die 

größte Stärke liegt in der Verwendung beliebiger Quelldaten, wodurch die Akquisition 

einer Szene direkt und auch webgestützt durchgeführt werden kann. Darüber hinaus 

31


werden aus den Quellbildern Kamera- und Geometriedaten gewonnen und aktiv für die 

Sichtinterpolation beim Bildwechsel verwendet. Aus Sicht der Autoren kann es, bedingt 

durch nicht erfasste Punkte und fehlerhafte Geometriedaten, aber dennoch bei der Darstellung 

zu Fehlern kommen. 

Die eigentliche Bildberechnung erfolgt ohne Berücksichtigung von Sillhoueten oder Tiefenebenen, 

wodurch das System hinsichtlich seiner Morphing-Eigenschaften weniger 

leistungsfähig ist als die Lösung von Chaurasia et al. 


Der Fokus dieses Kapitels lag auf der Betrachtung und Analyse von drei wissenschaftlichen 

Arbeiten, die sich mit dem Morphing zweidimensionaler Bilddaten unter Beachtung 

tiefenräumlicher Faktoren auseinandersetzen. Die Arbeiten wurden hinsichtlich ihres 

Inhalts betrachtet, analysiert sowie die zentralen Lösungsansätze in Stichpunktform 

herausgearbeitet. Anschließend fand eine Gegenüberstellung sowie eine abschließende 

Bewertung der Arbeiten statt. 

32


Image Morping for 

Space-Time Interpolation 

[SM07] 

Silhouette-Aware 

Warping for Image- 

Based Rendering 

[CSD11] 

Photo Tourism: Exploring 

Photo Collections 

in 3D [ea06] 

Autoren Stich, Magnor Chaurasia, Sorkine, Drettakis 

Snavely, Seitz, Szeliski 

Quellbilder beliebig kalibriert beliebig 

Szenenrekonstrwolken, 

nein Mesh 

ja, Kameradaten, Punkt- 

wolken, Mesh 

ja, Kameradaten, Punkt- 

Prozess sequentiell, einfach sequentiell, komplex sequentiell, komplex 

Bilder pro 2 >= 4 >= 2 

Übergang 

Warping über Flussfelder, Inverse- 

Mapping 

blickpunktabhängig, 

interpolierte Projektion, 

kein Warping, sondern 

blickpunktabhängiges 

Forward-Mapping Mesh-Rendering 

Blending einfach, adaptives Blending 

komplex, Raycasting, einfach, lineares Polygon- 

über Fehlermaske Fehlerwertberechnung, Blending, distanzabhän- 

Texture-Blending gig 

Verdeckungstoleranz 

gering (bei Multilayer- sehr hoch durchschnittlich (abhän- 

Umsetzung eher möglich) 

gig von Szene) 

Blickpunkt festgelegt (interpoliert) variabel, abhängig von variabel, Bildsynthese bei 

Datensatz 

Bildpaaren 

Vorteile flexibel, beliebige Bilder, Erhaltung von Konturen, 

flexibel, beliebige Bilder, 

einfach, Refinement über 

Tiefenschichten, Ver- 

echte Sichtinterpolation 

Optischen Fluss 

deckungen möglich 

Nachteile ohne Bildtiefe, Verdeckung 

aufwendige Bildakquisiti- 

Konturen werden igno- 

kritisch, nutzt nur on, manuelle Konturmarriert, 

Verdeckung kritisch, 

Blending 

kierung, komplex kein Warping 

Tab. 3.1: Vergleich - Forschungsarbeiten 

33

4 Konzeption 

Den Kern dieses Kapitels bildet die strukturelle und inhaltliche Konzeption der in 

dieser Arbeit angestrebten Programmlösung. Beginnend mit der Zieldefinition und der 

Erläuterung der relevanten Zielkriterien, wird anschließend der zentrale Lösungsansatz 

sowie die dazugehörigen Teilbereiche schrittweise vorgestellt und erläutert. 

4.1 Ziel 

In Anlehnung an das Projekt Photo Tourism (siehe Unterkapitel 3.3), dessen Schwerpunkt 

auf der bildbasierten Rekonstruktion und Visualisierung von Szenen liegt, soll in der 

hier vorliegenden Arbeit eine Softwarelösung konzipiert und entwickelt werden, die das 

Generieren und Präsentieren von Bildergalerien innerhalb einer webbasierten Umgebung 

ermöglicht. 

Da zudem bildbasiertes Morphing einen zentralen Bestandteil dieser Arbeit darstellt, sollen 

Bildübergänge während der Präsentation stets unter Anwendung eines entsprechenden 

Verfahrens durchgeführt werden. Daraus ergibt sich die Notwendigkeit, dass die für das 

Morphing notwendigen Daten zur Laufzeit permanent verfügbar sein müssen und somit 

bereits im Vorfeld zu generieren sind. 

4.2 Zielkriterien 

Im Folgenden werden die dem Konzept zugrunde liegenden Zielkriterien aufgelistet und 

beschrieben. 

• Flexibilität 

Die angestrebte Programmlösung sollte ein hohes Maß an Flexibilität bezüglich 

Quelldaten und Verarbeitungsmethoden aufweisen, um so ein möglichst großes 

Einsatzspektrum zu erreichen. 

• Modularer Aufbau 

Durch einen modularen Aufbau sollen Erweiterungen und Modifikationen der Programmlösung 

schnell und einfach umzusetzen sein. 

34

4.3 Allgemeiner Lösungsansatz 

• Separate Vorverarbeitung 

Die Erzeugung von Galeriedaten sollte getrennt von der Visualisierung stattfinden, 

damit hohe Systemanforderungen und Latenzen zur Laufzeit vermieden werden 

können. 

• Webbasierte Präsentation 

Die Präsentation der Bildergalerien soll über ein eigenes Webfrontend unter Einsatz 

moderner Web-Technologien stattfinden. 

• Morphing 

Die Thematik Morphing als Schwerpunkt dieser Arbeit steht sowohl bei der Vorverarbeitung 

als auch bei der Visualisierung im Fokus. Die programmseitige Integration 

entsprechender Ansätze und Technologien ist dabei ausdrücklich erwünscht. 

• Beliebige Quelldaten 

Da Erzeugen von Bildergalerien sollte sowohl mit kalibrierten als auch unkalibrierten 

Quellbildern möglich sein. 

• Konfigurierbarkeit 

Es sollte innerhalb der Programmlösung eine Vielzahl von Einstellungsmöglichkeiten 

existieren, um sowohl auf die Erzeugung als auch Darstellung aktiv Einfluss nehmen 

zu können. 

• Tiefeninformationen 

Sofern für einen gegebenen Bilddatensatz dreidimensionale Geometrie- und Kameradaten 

vorliegen, sollte deren Verwendung möglich sein. 


Ausgangspunkt des Lösungsansatzes bildet eine unsortierte Menge von Bildern, die 

einer gemeinsamen Szene entstammen. Im ersten Schritt wird darauf aufbauend eine 

Graphenstruktur etabliert (siehe Abb. 4.1). Das ist notwendig, da die statischen Nachbarschaftsbeziehungen 

die Grundlage für die nachfolgende Vorverarbeitung bilden und 

darüber hinaus für das Navigieren innerhalb der Galerie notwendig sind. 

Abb. 4.1: Strukturierung einer Bildmenge als Graph 

35

4 Konzeption 

Nachdem durch das Anlegen des Graph die Bildmenge strukturiert wurde, findet die 

weitere Verarbeitung kantenorientiert (d.h. pro Bildpaar) statt. Dieser Umstand ergibt 

sich aus der Tatsache, dass zwei unterschiedliche Bilder I a und I b durch höchstens eine 

Kante verbunden sein können und diese deshalb die strukturelle Grundlage für den 

Bildübergang darstellt. Da dieser gemäß der Zielkriterien mittels Morphing realisiert 

werden soll und demnach eine entsprechende Datengrundlage benötigt wird, werden 

anschließend Verfahren zur Merkmals- und Korrespondenzdetektion auf das Bildpaar 

(I a , I b ) angewandt. 

Ein weiteres Kriterium stellt die prozesstechnische Nutzung von Tiefeninformationen 

dar, weshalb anschließend ggf. vorhandene Raum- und Kameradaten importiert und dem 

aktuellen Bildpaar zugewiesen werden. Im Idealfall existieren für jedes Bildpaar (I a , I b ) 

nach Abschluss der initialen Verarbeitungsstufe vollständige Kameradaten (Position, 

Blickrichtung und -winkel) sowie eine Menge von Korrespondenzpaaren mit dazugehörige 

dreidimensionalen Positionsdaten. 

Abb. 4.2: Bildpaar (I a , I b ) mit Korrespondenzen (farbig), erzeugtes Korrespondenzfeld F 

Ziel des nächsten Schrittes ist die Generierung eines dichten Korrespondenzfeldes F , über 

das eine räumliche Relation zwischen allen Bildpunkten im Ausgangsbild I a und Zielbild 

I b hergestellt wird (siehe Abb. 4.2). Falls die Bedingung I a (p) = I b (p ′ ) erfüllt ist, ergibt 

sich F (p) aus der räumlichen Differenz der beiden Punkte. 

F : R 2 → R 2 

F (p) = p ′ − p 

Die Erzeugung eines dichten Korrespondenzfeldes stellt in erster Linie ein nichtriviales, 

räumliches Interpolationsproblem dar. Die gefundenen Korrespondenzpunkte mit 

den dazugehörigen Differenzvektoren dienen dabei als Stützpunkte. In dieser Stufe der 

Vorverarbeitung wird nun unter Anwendung geeigneter Verfahren an jedem Punkt im 

36


Korrespondenzfeld ein Vektor d ∈ R 2 unter Beachtung der k nächsten Stützstellen 

berechnet. 

Sei nun C k = {c 1 , ..., c k } die Menge der k nächsten Korrespondenzpunkte und U k = 

{u 1 , ..., u k } die Menge der damit assoziierten Differenzvektoren, so ergibt sich d für den 

Punkt p als Linearkombination aller u i ∈ U k 

k∑ 

d = w i ∗ u i 

i=1 

Die Menge C k , die sich durch Anwendung eines deterministischen KNN-Algorithmus 

(metrikbasiert, i.A. Euklidische Metrik) ergibt, wird aufgrund der Verortung im Bildraum 

i.d.R. als fix betrachtet. Aus diesem Grund liegt der Schwerpunkt bei der Interpolation 

auf der optimalen Wahl und Anwendung eines geeigneten Verfahrens (siehe auch 2.3) zur 

Berechnung der Faktoren w i . Als zentraler Bestandteil der Konzeption werden potentiell 

verwendbare Interpolationsansätze im nachfolgenden Unterkapitel gesondert betrachtet. 

Nachdem für ein Bildpaar (I a , I b ) das Korrespondenzfeld F berechnet wurde, wird 

anschließend das Ausgangs- und Zielbild vertauscht und auf gleiche Weise das inverse 

Feld F −1 generiert. Dieser Prozess der Felderzeugung wird für alle Kanten im Bildgraph 

wiederholt. 

Den nächsten und letzten Schritt im Gesamtprozess bildet nun die Präsentation der 

Bildergalerie. Basierend auf dem Bildgraph mitsamt seiner Daten (v.a. Bilder, Korrespondenzfelder) 

wird die Bildergalerie initialisiert und durch die Wahl eines beliebigen 

Bildes I a zum damit assoziierten Graphknoten gesprungen. Unter der Annahme, dass 

eine Verbindung zu weiteren Knoten besteht und ein Bildwechsel nach I b erfolgen soll, 

wird nun die grafische Umsetzung der Transition mittels Morphing betrachtet. 

Mit der Initialisierung des Bildwechsels werden einmalig alle benötigten Morphing-Daten 

der verwendeten Graphkante geladen und bereitgestellt. Hinzu kommt die Initialisierung 

des Transitionsparameters t ∈ [0, 1] mit Null, da dieser zyklisch während des Bildwechsels 

inkrementiert wird und numerisch den Fortschritt repräsentiert. 

Pro Zyklus wird zunächst das Warping auf Basis der Korrespondenzfelder F und F −1 

durchgeführt. Die Warping-Funktion T ist dabei wie folgt definiert: 

T : R 2 → R 2 

T (x) = x + F (x) 

Analog wird T −1 definiert, wobei hier das inverse Feld F −1 zum Einsatz kommt wird. 

T −1 : R 2 → R 2 

T −1 (x) = x + F −1 (x) 

37

4 Konzeption 

T und T −1 ermöglichen ein bijektive Abbildung für das Bildpaar (I a , I b ), falls gilt: 

∀x ∈ R 2 : 

I a (x) = I b (T (x)) 

I b (x) = I a (T −1 (x)) 

Man beachte, dass der dargestellte Fall äußerst unwahrscheinlich ist, denn dies würde 

eine Eins-zu-Eins Relation für jeden Pixel im Ausgangs- und Zielbild vorraussetzen. 

Das eigentliche Warping erfolgt nach dem Prinzip des Inverse Mappings, bei dem für jeden 

Bildpunkt an einer Stelle p ∈ R 2 mittels der Abbildungen T und T −1 die Intensitätswerte 

c a und c b im Ausgangs- und Zielbild ausgelesen werden. Der Transitionsparameter t dient 

hier zusätzlich als Skalierungsfaktor für die Feldvektoren in T und T −1 . 

c a = I a (Tt 

−1 (p)) = I a (p + t ∗ F −1 (p)) 

c b = I b (T 1−t (p)) = I b (p + (1 − t) ∗ F (p)) 

Nach dem Auslesen wird als letzter Schritt die Berechnung des Intensitätswertes mittels 

Blending durchgeführt. Wie bereits in den Grundlagen beschrieben, ergibt sich der resultierende 

Wert aus der Linearkombination von c a und c b , wobei der Transitionsparameter 

t als Gewichtungsfaktor dient. 

c = (1 − t) ∗ c a + t ∗ c b 

4.4 Interpolationsansätze 

Im Lösungsansatz wurde bereits deutlich gemacht, dass die Erzeugung eines dichten 

Korrespondenzfeldes auf der Interpolation verteilter Stützpunkte beruht. In diesem 

Zusammenhang sollen Verfahren betrachtet werden, die hierfür geeignet sind. Ausgangspunkt 

ist dabei ein beliebiger Punkt p ∈ R 2 . Mit Ausnahme der ersten beiden Ansätze ist 

C k = {c 1 , ..., c k } die Menge der k nächsten Stützstellen und U k = {u 1 , ..., u k } die Menge 

der Stützwerte (in diesem Fall Differenzvektoren). 

4.4.1 Baryzentrische Interpolation 

Die baryzentrische Interpolation ist ein bekanntes Interpolationsverfahren, dass auf einem 

im Vorfeld erzeugten Dreiecksnetz basiert. Die Grundlage für die Triangulierung bildet 

die Menge der Korrespondenzenpunkte C. 

Zuerst ist ein Punkt-in-Dreiecks-Test notwendig, um so das umschließende Dreieck 

38


△c 1 c 2 c 3 zu erhalten. Sofern noch keine baryzentrischen Koordinaten durch den Test 

vorliegen, werden im nächsten Schritt die Flächeninhalte der aufgespannten Teildreiecke 

und des kompletten Dreiecks berechnet (siehe Abb. 4.3). 

A = area(△c 1 c 2 c 3 ) 

A i = area(△c j c k p) 

Abb. 4.3: Baryzentrische Interpolation - Schema 

Der interpolierte Wert d ergibt sich durch die Linearkombination aller drei Stützwerte 

auf Basis der baryzentrischen Koordinaten, welche über die Flächenverhältnisse der 

Teildreiecke zum Gesamtdreieck berechnet werden. 

4.4.2 Bilineare Interpolation 

d = b 1 ∗ u 1 + b 2 ∗ u 2 + b 3 ∗ u 3 

b i = A i 

A 

Neben der baryzentrischen Interpolation existiert mit der bilinearen Interpolation eine 

weitere strukturbasierte Methode, um einen Punkt p in der Ebene zu interpolieren. 

Die Grundlage hierfür bildet eine Gitterstruktur, die in diesem Fall den Bildraum in 

achsenausgerichtete Rechtecke aufteilt. 

Die mit den Gitterknoten verbundenen Differenzvektoren dienen für die bilineare Interpolation 

als Stützwerte und müssen nach der Gittergenerierung auf Basis der k nächsten 

Stützstellen für jeden Gitterknoten individuell berechnet werden. 

39

4 Konzeption 

Abb. 4.4: Bilineare Interpolation - Schema 

Sei nun der p = (x, y) der Punkt, dessen Differenzvektor d interpoliert werden soll. Dann 

ergibt sich für vier Gitterknoten g 11 = (x 1 , y 1 ), g 21 = (x 2 , y 1 ), g 12 = (x 1 , y 2 ) und g 22 = 

(x 2 , y 2 ) und deren Differenzvektoren u 11 , u 21 , u 12 und u 22 folgende Interpolationsvorschrift: 

α = x 2 − x 

x 2 − x 1 

β = y 2 − y 

y 2 − y 1 

d 1 = αu 11 + (1 − α)u 21 

d 2 = αu 12 + (1 − α)u 22 

d = βd 1 + (1 − β)d 2 

Die Berechnung setzt voraus, dass die Bedingungen x 1


flächendeckende Interpolation von Mess- und Höhenwerten eingesetzt wird. 

Die Berechnung der Einflussfaktoren basiert auf der Annahme, dass die Bedeutung eines 

Stützpunktes sich umgekehrt proportional zur Distanz zwischen dem Stützspunkt und 

dem zu interpolierenden Punkt verhält. Daraus ergibt sich folgende Berechnungsvorschrift: 

d = 

k∑ 

i=1 

w i = 

w i 

∑ kj=1 

w j 

u i 

1 

‖c i − p‖ θ 

Der Parameter θ beeinflusst die Abnahme der Gewichtungsfaktoren und somit die 

Glattheit der interpolierten Fläche. Im Allgemeinen wird θ = 2 verwendet. 

4.4.4 Gauß-Interpolation 

Analog zur Shepard-Interpolation stellt die Gauß-Interpolation (nicht identisch zur Gaußschen 

RBF) ein distanzbasiertes Gewichtungsverfahren dar. Anstelle die Abstände direkt 

in die Berechnung einfließen zu lassen, nutzt das Verfahren die bekannte Gauß-Funktion, 

um einen glatte und harmonische Interpolation zu realisieren. 

Bevor eine Gewichtung mittels der Gauß-Funktion geschehen kann, muss zunächst der 

Intervalparameter σ berechnet werden. Dieser ist i.d.R. vom Distanzinterval der betrachteten 

Stützstellen abhängig und sollte demnach so gewählt werden, dass die Stützstellen 

mit zunehmenden Abstand entsprechend geringer gewichtet werden. Die Verwendung 

einer fixen Maximaldistanz (z.B. 5% der Bilddiagonale) ist durchaus möglich, kann aber 

zu Problemen bei weit auseinander liegenden Stützpunkten (zuviel Nullgewichte) führen. 

Stattdessen ist es besser, den maximalen Abstand r max für die Menge der Stützstellen 

C k zu ermitteln und diesen für die näherungsweise Berechnung von σ zu verwenden. 

σ = (2r max − 1) 

7 

Darauf aufbauend ist die unnormalisierte Gauß-Funktion G definiert, wobei r i den 

relativen, euklidischen Abstand von p zur Stützstelle c i repräsentiert: 

G : R → [0, 1] 

−r 

i 

2 

G(r i ) = e 2σ 2 

Wie man in Abbildung 4.5 erkennen kann, erfolgt die Gewichtsverteilung insbesondere 

im Intervall [−r max , r max ]. 

41

4 Konzeption 

Abb. 4.5: Unnormalisierte Gauß-Funktion G für r max = 11.0 

Der interpolierte Wert d berechnet sich aus der Linearkombination der gegebenen Stützwerte 

u i mithilfe der Gewichtungsfaktoren w i , die sich aus der Abbildung von r i mittels 

G ergeben. Den Abschluss der Berechnung bildet die Normalisierung von d über die 

Summe aller Gewichte w i . 

d = 

k∑ 

i=1 

w i 

∑ kj=1 

w j 

u i 

w i = G(r i ) 

4.4.5 Bilaterale Interpolation 

Im Gegensatz zu den bisher vorgestellten Ansätzen, welche in erster Linie auf Basis 

der räumlichen Struktur und Distanz arbeiten, werden bei der bilateralen Interpolation 

weitere Bildinformationen für die Gewichtung verwendet. Aufgrund dieser Erweiterung 

um zusätzliche Faktoren (z.B. Farbe, Bildtiefe) ist es tendenziell leichter, bildspezifische 

Eigenheiten bei der Interpolation zu berücksichtigen und korrekt wiederzugeben. 

Die Grundlage bildet die bilaterale Filterung aus dem Bereich der Bildverarbeitung 

[PKTD07, DD02], welche im Gegensatz zu anderen Verfahren (z.B. Box-Filter, Gauß- 

Filter) adaptiv arbeitet und individuell auf Bildpunktebene glättet. Wie man in Abbildung 

4.6 sehen kann, erlaubt der bilaterale Bildfilter das Weichzeichnen von Flächen, ohne 

dass deren Konturen verwischen. 

Ein bilateraler Filter nutzt für die Gewichtung neben der räumlichen Distanz zwischen 

zwei Punkten auch deren Farb-/Intensitätsdifferenz. Motivation hierfür ist die Annahme, 

dass Punkte mit gleichem oder sehr ähnlichem Farbton zu einer gemeinsamen Fläche 

gehören und dementsprechend stärker voneinander beeinflusst werden als verschiedenfarbige 

Punkte. Da innerhalb einer Bildszene mehrere getrennte Flächen mit gleichem 

Farbton auftreten können, muss zudem der räumliche Abstand als weiterer Faktor in die 

Gewichtung einfließen. 

42


Abb. 4.6: Bilateraler Filter - Beispiel [SP07] 

Abb. 4.7: Bilateraler Bildfilter - Schema [DD02] 

Zentrales Element bei der Berechnung der Gewichte ist auch hier die eindimensionale Gauß- 

Funktion, über die unter Anwendung der Intervalparamter σ s und σ r die Distanzwerte 

transformiert und nachfolgend multipliziert werden. Die Berechnungsvorschrift für die 

bilaterale Interpolation eines Punktes p anhand der Nachbarpunkte q i ∈ S lautet wie 

folgt: 

I ′ p = 

1 ∑ 

G σs (‖p − q‖)G σr (|I p − I q |)I q 

W p 

q∈S 

Die Komposition und Funktionsweise des bilateralen Filters ist in Abbildung 4.7 schematisch 

dargestellt. Man sieht, dass vorallem im Bereich der Plateau-Kante die Amplitudendifferenz 

zwischen dem betrachteten Punkt und seiner Umgebung entscheidend für die 

Komposition des finalen Filter-Kernels ist. 

43

4 Konzeption 

Abb. 4.8: Bilaterale Interpolation - Beispiel: p wird aufgrund 

der gleichen Farbe stärker von c 1 und c 2 beeinflusst 

als von c 3 

Das Prinzip der bilateralen Interpolation auf Basis verteilter Stützpunkte verhält sich 

nun analog zum bilateralen Filter. Das Fundament bilden erneut die Mengen C k und U k , 

in denen die k nächsten Stützstellen respektive die damit assoziierten Differenzvektoren 

enthalten sind. Ausgehend von einem Punkt p ergibt sich unter Hinzunahme eines Bildes 

I : R 2 → R folgender Interpolationsansatz: 

d = 

1 

∑ kj=1 

w j 

k∑ 

w i u i 

i=1 

w i = G σs (‖p − c i ‖)G σr (|I(c i ) − I(p)|) 

Die unnormalisierte Funktion G σs ist identisch mit G bei der Gauß-Interpolation, da sich 

hier das Teilgewicht aus der relativen Distanz ergibt. Die Gauß-Funktion G σr verwendet 

hingegen die absolute Farb-/Intensitätsdifferenz als Funktionsargument und gibt einen 

entsprechenden Faktor im Intervall [0, 1] zurück. 

Zu beachten ist, dass die Berechnung der Teilgewichte nicht zwangsläufig über die Gauß- 

Funktion erfolgen muss, sondern ggf. andere Methoden (z.B. inverse Distanzgewichtung) 

hierfür verwendet werden können. Darüber hinaus können neben der Farbdifferenz auch 

andere Distanzmetriken wie zum Beispiel die Tiefendifferenz in die Interpolation einfließen. 

Wie man am Beispiel in Abbildung 4.8 erkennen kann, stellt die bilaterale Interpolation 

für die Erzeugung dichter Korrespondenzfelder einen vielversprechenden Ansatz dar und 

wird deshalb im weiteren Verlauf dieser Arbeit gesondert betrachtet. 

4.5 Gesamtstruktur 

Gemäß der Zielkriterien orientiert sich der Lösungsansatz an einer Aufteilung in die 

Teilbereiche Vorverarbeitung und Präsentation. Der Grund hierfür ist die aufwändige 

Erzeugung der Galerie- und Morphing-Daten, die durch variable Bildmerkmale (z.B. 

Auflösung ) sowie der verwendeten Interpolationsmethoden stark variieren kann. 

44

4.6 Vorverarbeitung 

Abb. 4.9: Gesamtstruktur 

Wie in Abbildung 4.9 dargestellt, stellt die Vorverarbeitung die erste Phase im Gesamtprozess 

dar. Die Bilddaten sowie gegebenfalls vorhandene Raumdaten dienen dabei als 

Eingabe und werden über einen mehrstufigen Prozess zur einer Bildergalerie mitsamt 

Zusatzdaten verarbeitet und persistent gespeichert. 

Die Präsentation der Daten erfolgt zeitlich versetzt in einer webbasierten Umgebung. Im 

Gegensatz zur Vorverarbeitung werden in dieser Phase keine expliziten Daten erzeugt 

oder gespeichert, sodass allein das Navigieren und Erkunden im Vordergrund steht. 

Abb. 4.10: Gesamtstruktur - Details 

Der gesamte Prozess erfolgt, ausgehend von den Rohdaten bis hin zum fertig gerenderten 

Bild, weitestgehend sequentiell (mit Ausnahme der Navigation). Dabei werden verschiedene 

Zwischenstationen (siehe Abb.4.10) innerhalb der beiden Teilbereiche durchlaufen 

und die resultierenden Daten unidirektional weitergeleitet. Eine Rückkopplung von der 

Präsentation zur Vorverarbeitung existiert nicht. 


Gemäß der Abbildung 4.11 besteht die Vorverarbeitungs aus vier Prozessstufen, die in 

sequentieller Reihenfolge ausgeführt werden. Jede Stufe setzt sich wiederum aus einer 

unterschiedlichen Anzahl von Unterstufen zusammen, die für die Umsetzung der einzelnen 

Teilaufgaben zuständig sind. Aufgrund der damit einhergehenden Komplexität werden 

im Folgenden die Vorverarbeitungsstufen separat vorgestellt und erläutert. 

45

4 Konzeption 

Abb. 4.11: Vorverarbeitung - Struktur 

4.6.1 Import 

Die erste Stufe im Vorverarbeitungsprozess stellt der Datenimport dar. Durch ihn wird 

die Datenbasis für die angestrebte Galerie in Form von Bild- und Raumdaten, Bildkorrespondenzen 

sowie dem eigentlichen Bildgraph geschaffen (siehe Abb. 4.12). 

Abb. 4.12: Import - Struktur 

4.6.1.1 Bildimport 

Bilder sind das zentrale Element im hier vorgestellten Ansatz, weshalb zunächst zweidimensionale 

Bilddaten eingelesen und dekodiert werden müssen. Hierbei wird davon 

ausgegangen, dass die Bilder in Dateiform auf dem ausführenden System gespeichert sind 

und der Nutzer diese im Zuge der Vorverarbeitung eingibt. Im Kontext des Bildgraph 

stellen die eingelesenen Bilder die Menge der Graphknoten dar. 

4.6.1.2 Grapherzeugung 

Auf Basis der Knotenmenge erfolgt nun die Generierung eines gerichteten Bildgraph. Wie 

bereits im Lösungsansatz (siehe 4.3) beschrieben, sollen hierbei alle vorhandenen Knoten 

durch Kanten verbunden werden, um später das Navigieren innerhalb der Bildergalerie zu 

ermöglichen. Zusätzlich dienen die gerichteten Kanten intern als Träger für Zusatzdaten. 

46


Das Anlegen der Kanten kann sowohl manuell über den Nutzer als auch automatisiert 

über Bilderkennungsverfahren erfolgen. Zyklen und mehrfach angebundene Knoten sind 

dabei problemlos möglich, da das System nicht auf Traversierung angewiesen ist. 

4.6.1.3 Korrespondenzdetektion 

Durch das Anlegen der Graphkanten sind dem System die Nachbarschaftbeziehungen 

zwischen den Bildern bekannt, sodass nun die Suche nach korrespondierenden Bildteilen 

erfolgen kann. Dies geschieht unter der Annahme, dass zwei benachbarte Bilder ähnliche 

Bildstrukturen aufweisen und möglichst die gleiche Szene darstellen. 

Abb. 4.13: Korrespondierendes Punktpaar (rot markiert) mit 3D-Position 

Anstelle komplette Bildteile in Relation zueinander zu stellen, verwendet der Ansatz 

sog. homologe Punkte, die im Ausgangs- und Zielbild auf dieselbe Stelle innerhalb der 

Szene verweisen. Sofern zusätzliche Raumdaten vorliegen, wird versucht, dem Korrespondenzpaar 

zusätzlich eine Position im dreidimensionalen Raum zuzuweisen (siehe Abb. 

4.13). Für den Fall eines dichten Positionsfeldes (3D-Position pro 2D-Pixel) geschieht 

dies durch direktes Indizieren. Falls stattdessen nur wenige Stützpunkte im Bildraum 

eine 3D-Position besitzen, wird eine Interpolation auf Basis einer NNS durchgeführt. 

Es gibt unterschiedliche Möglichkeiten, Korrespondenzen zu erhalten. Die Einfachste 

ist das manuelle Definieren, wobei die Koordinaten im Ausgangs- und Zielbild paarweise 

angegeben werden müssen. Im Gegensatz dazu ist die automatisierte Erkennung 

von Bildmerkmalen und -korrespondenzen unter Einsatz spezialisierter Verfahren (z.B. 

SIFT-Algorithmus [Low04] mit RANSAC [FB87]) heutzutage bereits Standard und wird 

deshalb im vorgestellten Ansatz unterstützt. 

47

4 Konzeption 

Abb. 4.14: Datenaufbereitung - Struktur 

4.6.2 Datenaufbereitung 

Nach Abschluss des Imports liegt ein vollständiger Bildgraph vor, weshalb grundsätzlich 

mit der Generierung von bildbezogenen Zusatzdaten begonnen werden kann. Bevor dies 

geschieht, muss für jede Graphkante eine Aufbereitung der zugrundeliegenden Bilder 

durchgeführt werden. Dies ist notwendig, da der hier verfolgte Ansatz heterogene Bilder 

(z.B. verschiedene Bildgrößen) erlaubt und ohne entsprechende Anpassungen fehlerhafte 

Daten entstehen könnten. Um dem entgegen zu wirken, erfolgt gemäß der Abbildung 4.14 

eine squentielle Aufbereitung in drei getrennten Phasen. Anzumerken ist hierbei, dass ab 

dem Zeitpunkt der Aufbereitung alle Bildoperationen (z.B. Lesen/Schreiben, Filtern) auf 

Kopien der Originaldaten ausgeführt werden. 

4.6.2.1 Bildanpassung 

Abb. 4.15: Beispiel - Bildanpassung 

In diesem Schritt werden das Ausgangsbild I a und das Zielbild I b einer Kante so skaliert 

und ausgerichtet, dass beide Bilder am Ende die gleiche Bildgröße besitzen und dennoch 

der Bildinhalt ungestaucht darin enthalten ist (siehe Abb.4.15). Der Hauptgrund hierfür 

ist der Umstand, dass die Vektorkoordinaten der Korrespondenzfelder im Intervall [−1, 1] 

liegen und das Warping bei gleichgroßen Bildern demnach einfacher umzusetzen ist. 

48


Abb. 4.16: Bildmodifikation - Original (a), nach Glättung (b), nach Segmentierung (c) 

Die Grundlage für die Anpassung bildet die maximale Bildhöhe h max beider Bilder, 

die zur Berechnung der neuen, maximalen Bildbreite w max unter Beachtung der Seitenverhältnisse 

verwendet wird. Danach findet das uniforme Hochskalieren der Bilder 

I a und I b mit dem Skalierungsfaktor hmax 

h a 

bzw. hmax 

h b 

statt, wobei die dazugehörigen 

Korrespondenzkoordinaten gleichermaßen skaliert werden. Den Abschluss bildet das 

Hinzufügen von Farbrändern sowie die horizotale Translation der Korrespondenzen zum 

Bildzentrum, falls gilt w max > w a bzw. w max > w b . 

4.6.2.2 Bildmodifikation 

Nachdem die Quellbilder auf die gleiche Größe gebracht und ausgerichtet wurden, erfolgt 

nun die Modifikation der Bildinhalte. Dies ist notwendig, da einige Interpolationsverfahren 

(z.B. Bilaterale Interpolation) auch Farbdifferenzen für die Gewichtung der Stützpunkte 

betrachten. Daraus ergibt sich die Anforderung, dass die eingesetzten Bilder möglichst 

rauschfrei sind und über wenige homogene Farbflächen den ursprünglichen Bildinhalt 

vereinfacht wiedergeben. 

Wie man in Abbildung 4.16 sieht, erfolgt die Modifikation in zwei aufeinanderfolgenden 

Schritten. Zunächst wird eine Glättung der Bilder durchgeführt, wodurch Bildrauschen 

sowie sonstige Artefakte (z.B. große Farbvarianz) reduziert werden. Hierbei kommt ein 

kantenerhaltender Filter (z.B Bilateraler Filter, Medianfilter) zum Einsatz, sodass unterschiedliche 

Bildbereiche auch nach der Glättung weiterhin scharf voneinander abgegrenzt 

sind. Danach werden die geglätteten Bilder unter Anwendung einer geeigneten Methode 

in getrennte Segmente untergliedert, die markante, zusammenhängende Bildflächen über 

unikate Farben darstellen. 

4.6.2.3 Triangulierung 

Den letzten Abschnitt der Aufbereitungsphase bildet die bildraumbasierte Triangulierung 

der Korrespondenzen im Ausgangs- und Zielbild. Dieser Schritt ist notwendig, da für 

49

4 Konzeption 

die Generierung der Korrespondenzfelder die baryzentrischen Interpolation eingesetzt 

werden kann und dadurch valide Dreiecksnetze im Bildraum benötigt werden. Ein weiterer 

Grund ist der fakultative Einsatz von Tiefeninformationen, die analog zur Farbe für die 

Feldinterpolation von Interesse sind. 

Die Erzeugung der Dreiecksnetze erfolgt über die bekannte Delaunay-Triangulation, 

wobei nur die Korrespondenzpunkte im Ausgangsbild für das Aufstellen der Netztopologie 

verwendet werden. Anschließend wird durch sukzessives Iterieren über die Dreiecksmenge 

mithilfe der Korrespondenzen im Zielbild ein äquivalentes Netz erzeugt. Sofern dreidimensionale 

Positionsdaten vorliegen, erstellt diese Methode in gleicher Weise ein räumliches 

Dreiecksnetz (Mesh, siehe auch Abb. 4.17). 

Abb. 4.17: Triangulierung: Korrespondierende Dreiecke 

4.6.3 Datenerzeugung 

Da mit Beendigung der vorherigen Stufe die Grundlage für die Erzeugung der angestrebten 

Korrespondenzfelder geschaffen wurde, kann dies nun in dieser Stufe geschehen. 

Analog zur Datenaufbereitung durchläuft jede Kante insgesamt drei Phasen (siehe Abb. 

4.18), wobei die mittlere Phase Feldgenerierung den eigentlichen Schwerpunkt des Vorverarbeitungsprozesses 

darstellt. 

Abb. 4.18: Datenerzeugung - Struktur 

50


Für die nachfolgenden Ausführungen wird vorausgesetzt, dass neben Korrespondenzen 

im Bildraum auch dreidimensionale Raumdaten (d.h. Kameraparameter, 3D- 

Punktpositionen) vorliegen. Obwohl Letztere keine absolute Notwendigkeit darstellen, 

wird der Vollständigkeit halber von deren Existenz ausgegangen. 

4.6.3.1 Feldvorverarbeitung 

Der Fokus der Feldvorverarbeitung liegt auf dem Gewinnen von Tiefeninformationen 

anhand der gegebenen Kameraparameter und der rekonstruierten Szenengeometrie. Hierzu 

wird, ausgehend vom Blickpunkt von I a /I b , pro Bildpunkt Raycasting nach dem First- 

Hit-Prinzip in der Szene angewandt und die Raumtiefe in einem eigens dafür angelegten 

Puffer gespeichert (siehe Beispiel in Abb. 4.19). 

Abb. 4.19: Raycasting bei ideal rekonstruiertem Mesh (a) invertierte Tiefenmaske (b) 

Für den Fall, dass das Raycasting für einen Pixel fehlschlägt (z.B. durch Ungenauigkeit, 

fehlende Dreiecke), wird die Tiefe auf Basis der umgebenden Bildpunkte bilateral interpoliert 

und dadurch die Lücke geschlossen. 

Die generierten Tiefeninformationen werden nach Beendigung des Raycastings auf Basis 

der maximalen und minimalen Tiefe normalisiert und in einer Tiefenmaske Z : R 2 → [0, 1] 

gespeichert (Null entspricht der Minimaltiefe). Da im Regelfall variierende Blickpunkte 

für beide Quellbilder vorliegen, muss das Raycasting für jedes Bild einzeln durchgeführt 

werden. Die resultierenden Bildtiefen werden in den Tiefenmasken Z a und Z b gespeichert. 

4.6.3.2 Feldgenerierung 

Nachdem sämtliche Grunddaten (u.a. Farb- und Tiefeninformationen) bereits in den 

vorherigen Stufen aus unterschiedlichen Quellen gewonnen wurden, erfolgt an dieser 

Stelle nun die eigentliche Erzeugung der dichten Korrespondenzfelder F und F −1 . Die 

folgenden Ausführungen beziehen sich auf das Erstellen des Feldes F , denn abgesehen vom 

51

4 Konzeption 

Abb. 4.20: Die durch Punktabtastung 

berechneten Farbdifferenzen 

führen dazu, dass a 2 höher 

gewichtet wird als a 1 

Vertauschen der Quellbilder I a und I b und der dazugehörigen Korrespondenzpositionen 

sind die einzelnen Prozessschritte bei beiden Feldern identisch. 

Zuallererst ist es notwendig, dass F die Differenzvektoren der Korrespondenzen zugewiesen 

werden. Grundlage hierfür ist die Menge der Korrespondenztupel C = 

{(a 1 , b 1 ), ..., (a n , b n )} und die Menge der Korrespondenzpunkte A = {a 1 , ..., a n } im Bild 

I a . 

∀(a i , b i ) ∈ C : 

F (a i ) = b i − a i 

Im nächsten Teilschritt geht es darum, dass an jeder Position im Feld F ein Differenzvektor 

berechnet und eingefügt wird. Um dies zu realisieren, wird für jeden Punkt 

p ∈ R 2 ∧p/∈A eine Interpolation der Differenzvektoren auf Basis der Menge der k nächsten 

Korrespondenzpunkte A k = {a 1 , ..., a k } durchgeführt. 

F (p) = 

∀p ∈ R 2 ∧ p/∈A : 

1 

∑ kj=1 

w j 

k∑ 

w i F (a i ) 

i=1 

An dieser Stelle kommen die bereits besprochenen Interpolationsmethoden (siehe 4.4) 

zum Einsatz, denn durch sie sollen die Gewichte w i möglichst optimal berechnet werden. 

Grundsätzlich beinhaltet die Konzeption ein Vielzahl von Gewichtungsansätzen (z.B. 

baryzentrisch, bilinear, Gauß), welche in diesem Kontext einzeln aufgeführt und erläutert 

werden müssten. Stattdessen beschränken sich die folgenden Ausführungen aus diversen 

Gründen (u.a. Übersicht, Komplexität) auf die bilaterale Interpolation, da diese durch 

die Einbindung von Farb- und Tiefeninformationen am vielversprechendsten ist. 

Entsprechend der Definition ergibt sich das Gewicht w i für einen Stützpunkt a i aus dem 

Produkt zweier Teilgewichte w si und w ri . Diese fußen auf der räumlichen und farblichen 

52


Distanz am Punkt a i , wobei beide Metriken zusätzlich über eine unnormalisierte Gauß- 

Funktion transformiert werden. 

w si = G σs (‖a i − p‖) 

w ri = G σr (|I(a i ) − I(p)|) 

Durch die im Vorfeld erzeugte Tiefenmaske Z ist es darüber hinaus möglich, die Tiefendifferenz 

zwischen p und a i in die Berechnung einfließen zu lassen. 

w zi = G σz (|Z(a i ) − Z(p)|) 

Die Berechnungsvorschrift für das Gewicht w i eines Stützpunktes a i lautet demnach: 

w i = w si · w ri · w zi 

Besonders kritisch ist an dieser Stelle die Wahl der Intervalparameter σ s , σ r und σ z , 

denn diese steuern das Abbildungsverhalten der Gauß-Funktionen G σs , G σr und G σz . 

Die Verwendung fixer Intervalle ist grundsätzlich möglich, hat aber den Nachteil, dass 

somit keine adaptive Gewichtung der k verteilten Stützstellen möglich ist. Stattdessen 

ist es sinnvoll, vor der Gewichtung die maximalen Distanzen zu ermitteln und darauf 

basierend entsprechende Intervalparameter zu berechnen. 

Gemäß der obigen Definition basieren die Teilgewichte w ri und w zi bisher nur auf den 

direkten Farb- bzw. Tiefendifferenzen. Für den Fall, dass I a aus wenigen, großflächigen 

Farbsegmenten besteht und die Stützstellen gleichmäßig in geringen Abständen verteilt 

sind, ist diese Herangehensweise grundsätzlich legitim. 

Sobald jedoch die genannten Bedingungen nicht erfüllt werden (z.B. hohe Segmentdichte), 

führt diese Methode zu fehlerhaften Ergebnissen. Das liegt daran, dass Farb- 

/Tiefensprünge auf der Strecke zwischen p und a i nicht berücksichtigt werden können 

und somit u.U. gänzlich unterschiedliche Bildbereiche als eine Fläche interpretiert werden. 

In Abbildung 4.20 ist eine solche Situation schematisch dargestellt. 

Einen besseren Ansatz stellt das äquidistante Abtasten der Verbindungslinie zwischen a i 

und p dar, denn dadurch können Farb-/Tiefensprünge zwischen beiden Punkten für die 

nachfolgende Gewichtung registriert und berücksichtig werden (siehe Abb. 4.21). 

Die Differenzen werden an jedem abgetasteten Punkt lokal berechnet und zu einer Gesamtdifferenz 

aufsummiert, aus der sich am Ende durch das Mitteln über die Streckenlänge 

bzw. die Anzahl Samples ein Durchschnittswert ergibt. Sei S = {s 1 , ..., s n } die Menge 

der Abtastpunkte zwischen p und a i , so lautet die Gewichtungsvorschrift für w ri und 

wie folgt: 

w zi 

53

4 Konzeption 

Abb. 4.21: Äquidistantes Abtasten der 

Farben auf den Verbindungslinien 

zwischen p und a 1 /a 2 

w ri = G σr ( 

w zi = G σz ( 

n∑ 

j=1 

n∑ 

j=1 

|I(s j ) − I(p)| 

) 

n 

|Z(s j ) − Z(p)| 

) 

n 

Wie man sehen kann, ergeben sich die Differenzen an einem Abtastpunkt s j aus der 

relativen Distanz zum Farb- bzw. Tiefenwert am Ausgangspunkt p. 

Eine weitere Möglichkeit besteht darin, die Gradienten zwischen zwei aufeinanderfolgenden 

Abtastpunkten zu summieren, sodass sich die durchschnittliche Differenz aus der 

gemittelten Summe der Abweichungen ergibt. 

w ri = G σr ( 

w zi = G σz ( 

n∑ 

j=2 

n∑ 

j=2 

|I(s j ) − I(s j−1 )| 

) 

n − 1 

|Z(s j ) − Z(s j−1 )| 

) 

n − 1 

Die erste Gewichtungsvariante mit den zu p relativen Differenzen führt dazu, dass sich 

andersfarbige Bildflächen in direkter Weise negativ auf den Einfluss von a i auswirken. 

Dies ist auf den ersten Blick sinnvoll, da andersfarbige Flächen im Allgemeinen andere 

Objekte einer Szene beschreiben. Wenn jedoch die farblich ähnlichsten Punkte 

(bzgl. durchschnittliche Farbdifferenz) gleichzeitig am weitesten entfernt sind und die 

unähnlichsten Punkte in direkter Nachbarschaft liegen, kann dies zu Problemen bei der 

Interpolation führen (z.B. viele Nullgewichte). 

Die Verwendung der Gradienten erscheint in dieser Hinsicht weitaus stabiler, weil hier die 

Schwankungen auf der Abtastlinie die Gewichtung beeinflussen und demnach Nullgewichte 

unwahrscheinlich sind. Einziger Nachteil beim diesem Ansatz ist der Umstand, dass die 

54


Farbe und Tiefe von p weniger beachtet werden. Die hier konzipierte Lösung ermöglicht 

grundsätzlich beide Varianten, nutzt jedoch für die bilaterale bzw. trilaterale Interpolation 

standardmäßig den letztgenannten Gewichtungsansatz. 

Nachdem das Korrespondenzfeld F vollständig mit Vektoren besetzt wurde, wird der 

gleiche Prozess für das inverse Feld F −1 auf Basis des Zielbildes I b und der umgekehrten 

Korrespondenzmenge C ′ = {(b 1 , a 1 ), ..., (b n , a n )} wiederholt. 

4.6.3.3 Feldnachbereitung 

Nachdem die Korrespondenzfelder F und F −1 generiert wurden, sind anschließend weitere 

Maßnahmen erforderlich, um die Daten nutzbar zu machen. 

Ein zentraler Punkt ist das Erzeugen von sog. Fehlermasken, in denen pro Bildpunkt 

im Ausgangs-/Zielbild ein absoluter Fehlerwert numerisch gespeichert wird. Jener Wert 

beschreibt im Kern die Farbdifferenz zwischen zwei Bildern an einem Punkt p, wobei für 

den Vergleich die originalen Quellbilder I a und I b verwendet werden. 

Das Hauptziel bei der Verwendung von Fehlermasken ist das Festhalten von Bildfehlern, 

die durch das Warping entstanden sind, sodass diese kritischen Bereiche beim Morphing 

berücksichtig werden können. 

Die Fehlermaske E beschreibt gemäß der vorherigen Definition die Differenz zwischen 

dem gewarpten Ausgangsbild I a und dem originalen Zielbild I b . Das Warping erfolgt über 

das bekannte Inverse Mapping, bei dem sich der Farbwert an einem Punkt p durch das 

Auslesen von I a an einer zuvor um F −1 (p) verschobenen Position ergibt. E ist demnach 

wie folgt definiert: 

E : R 2 → R 

∣ 

E(p) = ∣I b (p) − I a (p + F −1 (p)) ∣ 

Zugunsten einer leichteren Verwendung werden die Fehlerwerte nach der Generierung von 

E zusätzlich auf Basis des Minimal- und Maximalfehlers normalisiert. Die Berechnung 

von E −1 erfolgt auf dem gleichen Weg, weshalb letztlich nur I a /I b sowie F /F −1 zu 

vertauschen sind. 

Den finalen Schritt der Nachbereitung stellt die Normalisierung der Korrespondenzfelder 

F und F −1 dar, durch die alle Koordinaten in den Interval [−1, 1] abgebildet werden. 

Analog zu den Fehlermasken ergibt sich daraus der Vorteil, dass die Differenzvektoren 

beim nachfolgenden Export auflösungsunabhängig gespeichert und bei der Präsentation 

flexibler eingesetzt werden können (z.B. bei variierenden Bildgrößen). 

55

4 Konzeption 

Abb. 4.22: Export - Struktur 

4.6.4 Export 

Der Export der generierten Galerie inklusive aller Bild- und Felddaten schließt als letzte 

Stufe den Vorverarbeitungsprozess ab. Wie man in Abbildung 4.22 erkennen kann, erfolgt 

dies aufgrund unterschiedlicher Datenstrukturen und -formate in drei Zwischenschritten. 

4.6.4.1 Bildexport 

Die im Zuge des Imports eingelesenen Bilder werden in diesem Schritt unter Verwendung 

eines Skalierungsfaktors entsprechend reskaliert (u.U. bei großen Bildern notwendig) 

und auf Basis des ursprünglichen Bildformats im zuvor angelegten Galerieverzeichnis 

persistent gespeichert. 

4.6.4.2 Feldexport 

Die Ausgabe der Morphing-Daten erfolgt durch das Iterieren über die Kanten des 

Galeriegraph. Da die zuvor erzeugten Daten direkt an die Graphkanten geknüpft sind, 

erlaubt dies das direkte Beziehen und Rausschreiben der Daten. Die Kodierung erfolgt in 

Abhängigkeit vom jeweiligen Feldtyp und dem verwendeten Datenformat. 

4.6.4.3 Galerie-Export 

Nachdem bereits die Bild- und Felddaten exportiert wurden, erfolgt in diesem Schritt die 

Ausgabe der zugrundeliegenden Graphenstruktur. Hierbei werden nicht nur die Knoten 

und Kanten hinsichtlich ihrer Relation zueinander gespeichert, sondern gleichzeitig die 

damit verknüpften Bilder und Felder auf Basis der verwendeten Ausgabepfade semantisch 

eingebunden. Das Ergebnis ist eine textbasierte Datei (z.B. XML), über die sowohl der 

Graph rekonstruiert als auch die damit assoziierten Daten geladen werden können. 

56

4.7 Präsentation 

Abb. 4.23: Präsentation - Struktur 


Wie man in Abbildung 4.23 erkennen kann, ist diese Phase im Gegensatz zur Vorverarbeitung 

vergleichsweise einfach aufgebaut. Im Kern besteht sie aus den drei Teilbereichen 

Import, Navigation und Rendering, welche zusammen das Navigieren und Betrachten von 

Bildern innerhalb einer Bildergalerie ermöglichen. 

4.7.1 Import 

Im Zuge des Datenimports wird der erzeugte Graph mitsamt Zusatzdaten sequentiell 

aus externen Dateien eingelesen und rekonstruiert. Sofern in dieser Phase keine Fehler 

auftreten, ist die Datenbasis identisch mit der nach Abschluss der Vorverarbeitung. 

4.7.2 Navigation 

Der rekonstruierte Graph, der bereits zum Zeitpunkt der Vorverarbeitung die grundlegende 

Struktur darstellte, dient auch bei der Präsentation als zentrale Datenstruktur. 

Auch hier entsprechen die Knoten den Bildern innerhalb der Galerie, zwischen denen sich 

der Nutzer mittels der inzidenten Kanten bewegt. 

Die Traversierung erfolgt nichtdeterministisch durch den Betrachter, indem dieser markierte 

Bildbereiche (Hotspots) selektiert und dadurch den Wechseln zu einem adjazenten 

Knoten auslöst (siehe Abb. 4.24). 

4.7.3 Rendering 

Das Rendering, d.h. der Darstellungprozess der Bilder, kann auf zwei unterschiedlichen 

Wegen erfolgen. Befindet sich der Anwender im Graph direkt an einem Knoten, so wird 

57

4 Konzeption 

Abb. 4.24: Navigation - Bildknoten mit Hotspots 

das damit verknüpfte Bild als Standbild ohne Modifikation dargestellt. Einzig die sog. 

Hotspots sind in diesem Zustand sichtbar, da darüber die Navigation erfolgen muss. Dem 

gegenüber steht die Visualisierung des Bildwechsels, die über einen separaten Renderpfad 

unter Verwendung von Morphing realisiert wird. 

Wie bereits im allgemeinen Lösungsansatz (siehe 4.3) beschrieben, erfolgt das grundlegende 

Morphing auf Basis der dichten Korrespondenzfelder in Verbindung mit einem 

Transitionsparameter t ∈ [0, 1]. Dieser wird pro Zeiteinheit (i.d.R. Sekunden) um einen 

festen Wert inkrementiert und dient der Kontrolle des Morphing-Vorgangs. 

Die grafische Darstellung des Bildwechsels kann nun über unterschiedliche Methoden 

erfolgen, welche nachfolgend kurz vorgestellt und erläutert werden. Folgenden Daten 

dienen dabei als Berechnungsgrundlage: 

• Ausgangsbild I a , Zielbild I b 

• Transitionsparameter t 

• Korrespondenzfeld F , inverses Korrespondenzfeld F −1 

• Fehlermaske E, inverse Fehlermaske E −1 

4.7.3.1 Blending 

Die finale Bildfarbe c ergibt sich durch Blenden der Farben im Ausgangs- und Zielbild 

an der Position p . 

c = (1 − t) · I a (p) + t · I b (p) 

58


4.7.3.2 Morphing - Standard 

Bei dieser Methode erfolgt die Berechnung der finalen Bildpunktfarbe an der Position 

p zweistufig. Zunächst werden zwei neue Positionen p a und p b berechnet, indem die 

aktuelle Position p über zwei Vektoren aus den Korrespondenzfeldern verschoben wird. 

Anschliessend werden I a und I b an den Positionen p a und p b ausgelesen und die Farbwerte 

über t geblendet. 

p a = p + t · F −1 (p) 

p b = p + (1 − t) · F (p) 

c = (1 − t) · I a (p a ) + t · I b (p b ) 

4.7.3.3 Morphing - Adaptiv 

Aufbauend auf der vorherigen Methode, kommt hier ein erweiterter Ansatz auf Basis 

des von Stich und Magnor [SM07] vorgestellten adaptiven Blendings zum Einsatz. Auch 

hier werden zunächst p a und p b berechnet, um darüber auf das Ausgangs- und Zielbild 

zugreifen zu können. Darüber hinaus werden die im Vorfeld berechneten Bildfehler e a und 

e b über die Fehlermasken E und E −1 bezogen, um so das adaptive Blending realisieren 

zu können. Beide Werte ergeben zusammen den absoluten Bildfehler e ∈ [0, 1]. 

e a = E −1 (p a ) 

e b = E(p b ) 

e = (1 − t) · e a + t · e b 

Man beachte, dass E die Fehlermaske des Zielbildes darstellt und deshalb die gleiche 

Position p b wie beim Auslesen des Zielbildes I b verwendet wird. Analog verhält es sich 

mit E −1 und p a . 

Nachdem nun der Bildfehler für p vorliegt, soll darüber das Blenden der Ausgangsund 

Zielfarbe beeinflusst werden. Grundlage hierfür ist die Aussage von Timo Stich, 

dass ein Stillstand im Bild als weniger störend empfunden wird als etwaige Bildfehler 

(z.B. Ghosting). Ziel ist es also, fehlerhafte Bildteile möglichst lange im Ruhezustand zu 

bewahren und erst im Bereich von t = 0.5 zu blenden. Die Grundlage hierfür bildet die 

Sigmoidfunktion S e , die in Abhängigkeit von e Werte aus dem Bereich [−1, 1] verzögert 

abbildet (siehe Abb. 4.25). 

59

4 Konzeption 

S : [−1, 1] → [−1, 1] 

(− |x| · (1 + e)) 

S e (x) = sgn(x) 

(− |x| − e) 

Abb. 4.25: Sigmoidfunktion S e (x): e = 100 (blau), e = 1 (grün), e = 0,1 (rot), e = 0,01 

(violett) 

Obwohl die Funktion verhältnismäßig einfach aufgebaut ist, erfüllt sie unabhängig von e 

die folgenden drei Grundbedingungen: 

S e (−1) = −1 

S e (0) = 0 

S e (1) = 1 

Durch S e ist es nun möglich, den Parameter t auf Basis des berechneten Bildfehlers 

an der Postion p auf ein t ′ abzubilden. Dazu muss zuerst der Fehlerwert e nichtlinear 

1 

auf einen Intervall [ 

max S 

, max S ] abgebildet werden, wobei max S eine manuell definierte 

Konstante darstellt (i.d.R. max S = 100). Aus dieser Abbildung ergibt sich e mod , dass 

anstelle von e innerhalb der Sigmoidfunktion eingesetzt wird. Zusätzlich ist es nowendig, 

dass der Transitionsparameter t auf ein t mod ∈ [−1, 1] abgebildet wird. 

e mod = 

max s 

(max 2 s ) e 

t mod = 2t − 1 

60


Die Abbildung von t mod mittels S emod 

Bereich [0, 1] ergibt t ′ . 

und die anschließende Normalisierung auf den 

t ′ = 0.5 · S emod (t mod ) + 0.5 

Da anstelle von t nun t ′ für das Blenden der Farben verwendet wird, ergibt sich daraus 

folgenden Berechnungsvorschrift für die Farbe c an der Position p: 

c = (1 − t ′ ) · I a (p a ) + t ′ · I b (p b ) 


In diesem Kapitel wurde schrittweise ein Softwarekonzept erarbeitet und erläutert, dass 

die Präsentation beliebiger Bilddaten innerhalb einer webbasierten Umgebung ermöglicht. 

Der Anforderung des fließenden Bildübergangs mittels Morphing wurde durch die Einführung 

und Integration dichter Korrespondenzfelder Rechnung getragen, wobei neben der 

Anwendung insbesondere die für die Generierung erforderlichen Interpolationsverfahren 

untersucht wurden. Bedingt durch die Aufteilung in Vorverarbeitungs- und Präsentationsphase, 

wurde die Struktur und Funktionsweise getrennt voneinander dargelegt und 

beschrieben. 

61

5 Implementierung 

Schwerpunkt dieses Kapitels ist die Präsentation der prototypischen Implementierung, 

die auf Basis der Konzeption realisiert wurde. Neben der Beschreibung der allgemeinen 

Lösungsstruktur sowie der eingesetzten Datenformate werden die Implementierungen der 

beiden Teilbereiche Vorverarbeitung und Präsentation hinsichtlich ihrer Struktur und 

Funktionsweise detailliert vorgestellt und erläutert. 

5.1 Gesamtstruktur 

Wie man in Abbildung 5.1 erkennen kann, ist die prototypische Implementierung sehr 

stark an die Konzeption im vorherigen Kapitel angelehnt. Auf der linken Seite befindet 

sich der MorphGraphMaker (kurz: MGM ), der für die Generierung der Bildergalerien 

sowie der dazugehörigen Daten zuständig ist. Die Vorverarbeitung findet zeitlich versetzt 

und „offline“ (d.h. außerhalb der Web-Umgebung) statt. Auf der rechten Seite ist die 

sogenannte WebGLallery dargestellt, wo die erzeugten Galerien innerhalb des Webbrowsers 

„online“ präsentiert werden. 

Abb. 5.1: Implementierung - Vorverarbeitung und Präsentation 

62

5.2 Datenformate 


Im Zuge der Implementierung kamen neben konventionellen Datenformaten auch selbstentwickelte 

Dateiformate zum Einsatz. Letztere bilden durch ihre Verwendung bei der 

Vorverarbeitung und der Präsentation das Fundament für die Interoperabilität der beiden 

Applikationen. 

5.2.1 P3P-Format 

Das Hauptziel bei der Konzeption und Entwicklung des P3P-Formats war die blickpunktabhängige 

Rekonstruktion synthetischer 3D-Szenen auf Bildpunktebene. Das Format 

wird durch folgende Merkmale charakterisiert: 

• binäres Datenformat 

• framebasierte Struktur 

• Kameraparameter pro Frame 

• 3D-Position pro Pixel 

5.2.1.1 Struktur 

Wie in Abbildungen 5.2 dargestellt, setzt sich eine P3P-Datei aus einem obligatorischen 

Header und einer beliebigen Anzahl Frames zusammen. Dabei ist zu beachten, dass die 

Frame-Größe im Header festgelegt wird und somit für alle Frames identisch ist. 

Abb. 5.2: P3P-Datei - Grundstruktur 

Ein P3P-Frame besteht aus einem Header, einer Bitmaske und sowie einer Punktliste (siehe 

Abb. 5.3), wobei letztere bezüglich ihrer Länge variabel ist und gegebenfalls komplett 

fehlt. Der Header enthält neben essentiellen Kameradaten (u.a. Position, Richtung, 

Öffnungswinkel) Informationen über die Bitmaskengröße sowie die Punktlistenlänge. Die 

Bitmaske dient der Markierung aller Pixel, für die eine dreidimensionale Raumposition 

vorliegt. Die Anzahl der markierten Bitmaskenfelder muss demnach identisch zur Länge 

der nachfolgenden Punktliste sein. 

63


Abb. 5.3: P3P-Frame - Aufbau 

5.2.1.2 Generierung 

Die Erzeugung einer P3P-Datei erfolgt innerhalb des Grafikprogramms Autodesk 3ds 

Max über ein eigens dafür entwickeltes Skript, das in der Skriptsprache MAXScript 

programmiert wurde (siehe Abb. 5.4). 

Im Zentrum der Generierung steht das dreidimensionale Raycasting, das nach dem First- 

Hit-Prinzip arbeitet. Ausgehend von einem beliebigen Kamera-Objekt wird dabei pro 

Bildpunkt ein Strahlenschnitttest innerhalb der Szene durchführt und beim erstmaligen 

Auftreffen auf einer polygonalen Oberfläche die Schnittposition gespeichert. Im Idealfall 

existiert nach erfolgtem Raycasting ein vollbesetztes Positionsraster, das als räumliches 

Tiefenabbild der jeweiligen Ansicht dient. 

Abb. 5.4: P3P-Format: Ausgeführtes Exportskript in Autodesk 3ds Max 

64


5.2.2 WGL-Format 

Das Speichern der im Kontext dieser Arbeit erzeugten Galerien erfolgt über das interne 

WGL-Format, das als Bindeglied zwischen der Vorverarbeitung und der Präsentation 

fungiert und somit für die notwendige Interoperabilität sorgt. Die Hauptmerktmale sind: 

• XML-basiertes Datenformat 

• flexible Graphenstruktur 

• multiple Datensets pro Kante 

• generische Datentypen 

5.2.2.1 Struktur 

Wie Eingangs erwähnt, baut das WGL-Format auf der Auszeichnungssprache XML auf. 

Zum einen erlaubt dies die textuelle Darstellung von Bildergalerien, zum anderen sind so 

beliebige Erweiterungen des Formats mit geringem Aufwand möglich. 

Wie man in Listing 5.1 erkennen kann, besteht eine WGL-Datei aus einer Vielzahl von 

XML-Elementen, die zusammen eine Hierarchie ergeben. Den Ursprung bildet dabei 

immer das Wurzelelement graph, dem zwei Listen (nodes,edges) für die Knoten und 

Kanten sowie eine optionale Beschreibung (desc) untergeordnet sind. 

Während die Knoten (node) ohne Subelemente sequentiell aufgelistet werden, besitzen 

Kanten (edge) im Allgemeinen spezielle Container-Elemente (fieldset). Diese enthalten 

Deskriptoren für Parameter und Texturen, die für das spätere Morphing beim Bildwechsel 

benötigt werden. Die komplette Elementliste des WGL-Formats ist in Tabelle 5.1 

abgebildet. 

65


 

 

 

 

 

 

 

 

 

< fieldset id=" Barycentric "> 

< texture id=" warpX " url ="X. png " isFloat =" true "/> 

< texture id=" warpY " url ="Y. png " isFloat =" true "/> 

< texture id="d" url =" depth . png " isFloat =" false "/> 

 

 

 

 

 

Listing 5.1: Exemplarische WGL-Datei 

Element Beschreibung Attribute 

graph Wurzelelement und Container für Graphelemente 

name 

desc 

zentrales Beschreibungselement einer text, date 

Galerie 

nodes Container für alle Knoten — 

node Knoten, repräsentiert Quellbild id, url 

edges Container für alle Kanten — 

edge 

Kante, beschreibt zugleich den Link im from, to, x, y, radius 

Ausgangsbild (inkl. Pixelposition und 

Radius) 

fieldset Feldset einer Kante, pro Kante sind id 

multiple Sets möglich 

texture Textur-Element einer Kante id, url, isFloat 

(FloatTexture-Flag) 

param generisches Parameter-Element einer id, value (Float) 

Kante 

Tab. 5.1: Elemente des WGL-Formats 

66


5.2.3 Korrespondenzfeld-Formate 

Das Speichern der Korrespondenzfelder erfolgt durch spezielle Kodierverfahren, welche in 

eigens dafür entwickelten Exportmodulen implementiert sind. Dabei nutzt die Mehrzahl 

der Module das bekannte ARGB-Farbformat zur Ausgabe, da sich so die Vorteile verlustfreier 

Kompressionstechniken (z.B. beim PNG-Format) für einen schnellere Datentransfer 

nutzen lassen und zugleich auf Anwenderseite diverse Programme und Bibliotheken 

zum Laden und Visualisieren der Felddaten existieren. Es folgt eine Auflistung der 

implementierten Kodierverfahren. 

• ARGB: Die Feldvektoren werden in das ARGB-Format umkodiert, wobei hier nur 

die rote und grüne Komponente genutzt werden. Das Mapping von 32 Bit Float auf 

8 Bit Integer pro Vektorkomponente verursacht einen deutlichen Genauigkeitsverlust, 

wodurch diese Methode nur in Ausnahmefällen und bei sehr geringen Bildauflösungen 

(weniger als 128 x 128 Pixel) praktikabel ist. 

• ARGB-Splitting: Hauptmerkmal dieses Ansatzes ist das kombinierte Speichern 

der beiden Vektorkomponenten X und Y als 32-Bit Wert im Ausgabepuffer. Im 

konkreten Fall werden die X-Komponente auf das obere Datenwort (Alpha-Rot) und 

die Y-Komponente auf das untere Datenwort (Grün-Blau) verteilt, sodass sich pro 

Komponente eine Genauigkeit von 16 Bit (inklusive Vorzeichenbit) ergibt. 

Für die meisten Einsatzszenarien ist diese Methode ausreichend, da sie einen guten 

Kompromiss aus Genauigkeit sowie Speicher- und Transferaufwand darstellt. 

• RGB-Separiert: Diese Methode exportiert nahezu verlustfrei Felddaten, indem 

diese auf die RGB-Kanäle zweier ARGB-Bilder aufgeteilt werden und dadurch pro 

Vektor 6 Byte zur Verfügung stehen. Die Interpretation eines Pixels erfolgt in diesem 

Fall nicht nach dem ARGB-Schema, sondern als vorzeichenbehaftete Ganzzahl 

mit 24 Bit Genauigkeit (ohne Alpha). Im Detail findet also für jede normalisierte 

Vektorkomponente eine Abbildung von [−1..1] nach [ 0..2 24] statt. 

Obwohl mit der Aufteilung der Korrespondenzfelder ein höherer Speicher-, 

Verwaltungs- und Transferaufwand einhergeht, wurde diese Methode für nahezu alle 

erzeugten Bildergalerien verwendet. 

• HSV: Die Vektoren des Korrespondenzfeldes werden zunächst in den HSV-Farbraum 

übertragen, sodass pro Pixel nachfolgend der Rotationswinkel (Hue) und die Vektorlänge 

(Saturation) vorliegt. Der optional konfigurierbare Helligkeitswert (Value) 

ist für alle Pixel identisch und standardmäßig auf V = 1.0 gesetzt. Nach erfolgter 

HSV-Transformation wird das Flussfeld in das gängige ARGB-Farbmodell übertragen 

und als Bilddatei abgespeichert. Analog zum ARGB-Export kommt es auch hier 

zu Genauigkeitsverlusten, weshalb diese Method primär für die Feldvisualisierung 

eingesetzt wird. 

67


Zur Veranschaulichung der hier vorgestellten Kodierungsansätze wurde exemplarisch 

ein Flussfeld auf Basis zweier synthetischer Renderbilder erzeugt (siehe Abb. 5.5, ohne 

einfache ARGB-Kodierung). 

Abb. 5.5: Korrespondenzfeld-Kodierung: Ausgangs- und Zielbild (1, 2), HSV-Kodierung 

(3), RGB-Separierung (4, 5), ARGB-Splitting (6) 

5.3 MorphGraphMaker 

Im Folgenden wird das Vorverarbeitungsprogramm MorphGraphMaker (MGM) bezüglich 

seiner Eigenschaften, Strukturen sowie Funktionen vorgestellt und erörtert. 

5.3.1 Eigenschaften 

Da es sich bei dem MGM um eine vergleichsweise komplexe Anwendung handelt, deren 

Funktionsumfang sich auf den ersten Blick nur schwer erkennen lässt, soll die nachfolgende 

Auflistung einen ersten Eindruck über die Fähigkeiten und Eigenschaften vermitteln. 

• Win32-Anwendung 

• implementiert in C++ 

68


• Mehrkernunterstützung 

• zwei Betriebsmodi: Dialog, Batch 

• semiautomatische Galerie-Generierung 

• drei verschiedene Import-Module 

• unterstützt gängige Bildformate 

• multiple Prozesskonfigurationen möglich 

• automatische Feature-/Korrespondenzdetektion 

• optionales Refinement durch Optischen Fluss 

• optionale Nutzung von Tiefeninformationen 

• diverse Debug-Optionen 

5.3.2 Systemanforderungen 

• Microsoft Windows 

Bei der MGM-Applikation handelt es sich um eine native Win32-Anwendung, wodurch 

die Ausführung nur auf entsprechenden Betriebssystemen möglich ist. Unterstützt 

werden alle Windows-Versionen ab Windows XP SP3 (32/64 Bit). 

• Mehrkernprozessor 

Obwohl der MGM auch auf Einkernprozessoren lauffähig ist, sollte das zugrundliegende 

System mindestens zwei Prozessorkerne besitzen. 

• 4 GB Hauptspeicher 

Das verwendete System sollte idealerweise über mindestens 4 GB Hauptspeicher 

verfügen, denn bei der Verarbeitung hoch aufgelöster Bilder (>= 4K) müssen im 

Allgemeinen mehr als 2 GB durch den MGM allokiert werden ( LARGEADDRESS- 

Modus ist aktiv). 

• MS Visual C++ 2010 SP1 Runtimes 

Da der MGM innerhalb der IDE MS Visual Studio 2010 SP1 in der Sprache 

C++ entwickelt wurde, benötigt das Anwendersystem in jedem Fall entsprechende 

Laufzeitbibliotheken. 

5.3.3 Bibliotheken 

Es folgt eine Auflistung aller Programmbibliotheken, die bei der Entwicklung des Morph- 

GraphMakers zum Einsatz kamen. 

69


• OpenCV 2.4 1 

OpenCV ist eine frei verfügbare Programmmbibliothek, deren Fokus auf den Bereichen 

Bilderkennung und -verarbeitung liegt. Das Projekt wurde 1999 durch Intel 

initiiert und wird seit einigen Jahren allein durch das Unternehmen Willow Garage 

gewartet und weiterentwickelt. Die Bibliothek zeichnet sich durch ihren großen Funktionsumfang, 

die Unterstützung von Mehrkernprozessoren sowie die Verfügbarkeit in 

unterschiedlichen Programmiersprachen aus (u.a. C/C++, Java, Python). 

• Boost 23 

Boost ist eine frei verfügbare, sehr umfangreiche Sammlung von Programmbibliotheken, 

welche die unterschiedlichsten Bereiche (u.a. Speicherverwaltung, Multithreading, 

Graphensysteme) der Programmentwicklung in der Sprache C++ abdeckt. Die Entwicklung 

Begann 1998 und wird bis zum heutigen Tage kontinuierlich fortgesetzt, 

wobei einige Elemente mittlerweile in den offiziellen Standard C++ 11 aufgenommen 

wurden sind. 

• PCL 4 

Schwerpunkt der quelloffenen PCL (Point Cloud Library) ist die Generierung sowie 

Verarbeitung von n-dimensionalen Punktwolken unter Verwendung unterschiedlichster 

Algorithmen und Datenstrukturen. Zusätzlich enthält die Bibliothek spezialisierte 

Module zur Flächenrekonstruktion, Dateneingabe und -ausgabe sowie Visualisierung. 

Analog zu OpenCV wird diese Bibliothek durch das Unternehmen Willow Garage 

gepflegt und ständig weiterentwickelt. 

• FLANN 5 

FLANN (Fast Library for Approximate Nearest Neighbors) ist eine frei verfügbare 

Bibliothek zur Suche der k nächsten Nachbarn in mehrdimensionalen Vektorräumen. 

Sie unterliegt einer ständigen Weiterentwicklung (aktuelle Version 1.7.1 6 ) und wird 

mittlerweile durch verschiedene Bibliotheken (u.a. PCL) eingebunden. Neben der 

Programmiersprachen C++ werden auch C, Python und MATLAB unterstützt 

[ML09]. 

• TTL 7 

Die TTL (Triangulation Template Library) ist eine generische, quelloffene Bibliothek 

zur Erzeugung von Dreiecksnetzen auf Basis des Delaunay-Verfahrens. Darüber 

hinaus ist es möglich, bereits bestehende Netze zu modifizieren sowie Traversierungsund 

Suchmethoden darauf anzuwenden. 

1 http://opencv.willowgarage.com/wiki/, Zugriff am 4.9.2012 

2 http://www.boostpro.com/boost-libraries/history/, Zugriff am 4.9.2012 

3 http://www.boost.org/, Zugriff am 4.9.2012 

4 http://pointclouds.org/, Zugriff am 4.9.2012 

5 http://people.cs.ubc.ca/~mariusm/index.php/FLANN/FLANN, Zugriff am 4.9.2012 

6 Stand: 4.9.2012 

7 http://www.sintef.no/Projectweb/Geometry-Toolkits/TTL/, Zugriff am 4.9.2012 

70


• FreeImage 8 

Die Open-Source Bibliothek FreeImage unterstützt eine sehr große Anzahl von 

Bildformaten, welche über diese sowohl geladen als auch gespeichert werden können. 

Sie ist plattformunabhängig und für diverse Programmiersprachen verfügbar (u.a. 

C++, Delphi, C# ). 

• FLTK 1.3.x 9 

Der Fokus der Bibliothek FLTK (Fast Light ToolKit) liegt auf der schnellen Entwicklung 

und Darstellung von komplexen Nutzerdialogen unter Einbindung der 

OpenGL-Schnittstelle. Als Cross-Platform-Bibliothek unterstützt sie diverse Betriebssysteme 

(u.a. Windows, Linux, Apple OS X) sowie Programmiersprachen (u.a. 

C/C++, Perl, Python). 

• Image Quality Assessment (IQA) 10 

Den Schwerpunkt dieser kompakten C-Bibliothek bilden verschiedene Algorithmen 

zur Berechnung von Bildmetriken. Mittels einfach gehaltener Schnittstellen ist es 

dabei möglich, neben bekannten Algorithmen (u.a. MSE, PSNR) auch fortschrittliche 

Verfahren wie SSIM oder MS-SSIM für das Messen der Bilddifferenz zu verwenden. 

• CGV-Framework 1112 

Das CGV-Framework ist ein internes Framework des Lehrstuhls für Computergrafik 

und Visualisierung der TU Dresden, das kontinuierlich durch Prof. Dr. rer. nat. 

Stefan Gumhold sowie Mitarbeiter des CGV-Lehrstuhl weiterentwickelt wird. Neben 

einer umfassenden Mathebibliothek bietet es unter anderem ein flexibles PlugIn- 

Framework, GPU-Berechnungsschnittstellen (u.a für CUDA) sowie stereographisches 

Rendering. 

5.3.4 Struktur 

In Abbildung 5.6 ist die Gesamtstruktur des MGM dargestellt, wie sie auch in der 

praktischen Implementierung vorliegt. In Anlehnung an die Konzeption stehen auch hier 

die drei Bereiche Import, Data Creation und Export im Fokus, da diese zusammen den 

kompletten Vorverarbeitungsprozess ergeben. Sie alle fußen auf dem Data Layer, der 

die elementaren Bestandteile des Galeriegraph bereitstellt. Ein weiterer Teilbereich, der 

unabhängig vom Rest innerhalb des MGM existiert, ist die Evaluation. Diese dient einzig 

dem Vergleich von Bilddaten und ist deshalb nicht Kernbestandteil des Vorverarbeitung. 

8 http://freeimage.sourceforge.net/index.html, Zugriff am 4.9.2012 

9 http://www.fltk.org/, Zugriff am 4.9.2012 

10 http://tdistler.com/iqa/, Zugriff am 5.10.2012 

11 http://www.inf.tu-dresden.de/index.php?node_id=468/, Zugriff am 4.9.2012 

12 http://cgv.inf.tu-dresden.de/cgvhelp/doc/html/a00001.html, Zugriff am 4.9.2012 

71


Abb. 5.6: MorphGraphMaker - Gesamtstruktur 

Zu beachten ist, dass bei der nachfolgenden Vorstellung und Beschreibung der einzelnen 

Teilbereiche bewusst abstrahiert und auf komplexe Klassendiagramme verzichtet 

wurde. Diese Herangehensweise war unumgänglich, da eine exakte inhaltliche und strukturelle 

Wiedergabe aus Platz- und Zeitgründen nicht möglich gewesen wäre und die 

Übersichtlichkeit sehr darunter gelitten hätte. 

5.3.5 Datenschicht 

Abb. 5.7: Datenschicht - Struktur 

Die Datenschicht bildet die Grundlage für nahezu alle anderen Teilbereiche des MGM. 

Sie enthält Klassendefinitionen für die Verwaltung und Bearbeitung des Bildergraph, 

der einzelnen Elemente (Knoten, Halbkanten) sowie der untergeordneten Basisdaten 

(Bilder, Korrespondenzlisten usw.). Obwohl der Graph unmittelbar bei Prozessbeginn 

instanziiert und initialisiert wird , werden einige der zugeordneten Datencontainer (z.B. 

Mesh-Container) erst zu einem späteren Zeitpunkt mit Daten befüllt. 

72


5.3.6 Import 

Abb. 5.8: Importmodul - Struktur und Teilbereiche 

Die erste Stufe des Vorverarbeitungprozess ist bekanntlich der Datenimport, über den 

die Grundlage für alle weiteren Operationen geschaffen wird. Da der MGM möglichst 

flexibel hinsichtlich der Dateneingabe sein soll, wurden drei unterschiedliche Modi in die 

Anwendung integriert. 

• Default-Modus 

Import von beliebigen Bildern ohne Tiefeninformationen 

• P3P-Modus 

Import einer P3P-Datei sowie der dazugehörigen Rendersequenz 

• Brachmann-Modus 

Import einer LNK.-Datei (siehe Diplomarbeit E. Brachmann [eB12]) 

Nachdem der gewünschte Modus über einen Parameter eingestellt wurde, werden die 

gegebenen Rohdaten (Bilder, Graph-Definition usw.) über das entsprechende Import- 

Submodul eingelesen und aufbereitet. 

Zuallererst wird auf Basis der externen Graph-Definition der Bildergraph aufgestellt. 

Dabei werden die eingelesenen Bilder in Knotenstrukturen gespeichert, welche über 

manuell definierte Halbkanten (d.h. Angabe von Ausgangs- und Zielknoten) miteinander 

verbunden sind. Anschließend wird mittels OpenCV der SIFT-Algorithmus für jeden 

Bildknoten durchlaufen und die daraus resultierende Merkmalsmenge (Features) für 

die nachfolgende Korrespondenzdetektion mittels des RANSAC -Algorithmus verwendet. 

Man beachte, dass gemäß der Abbildung 5.8 durch den Brachmann-Importer importierte 

Daten die beiden genannten Zwischenstufen nicht durchlaufen müssen. Grund hierfür ist 

der Umstand, dass dieser bereits fertige Bildergraphen einliest und diese mitsamt der 

dazugehörigen 2D/3D-Korrespondenzen bereitstellt. 

73


Im nächsten Zwischenschritt werden die Quellbilder sowie deren Features ausgerichtet und 

reskaliert, sodass für die weitere Verarbeitung gleichgroße und unverzerrte Bilder vorliegen 

(siehe Konzept, Abschnitt 4.6.2.1). Den Abschluss bildet die Generierung des Dreiecksnetzes 

(Mesh, siehe Datenschicht 5.7) im Bild- und Objektraum (falls 3D-Positionsdaten 

vorliegen). Hierzu wird für jede Halbkante im Graph mit Hilfe der TTL-Bibliothek 

eine Delaunay-Triangulierung auf der Menge der Korrespondenzpunkte im Ausgangsbild 

durchgeführt. Danach werden die äquivalenten Netze im Bildraum des Zielbildes sowie 

im dreidimensionalen Objektraum mithilfe der Korrespondenzen erzeugt. 

Implizit werden nach der Triangulierung durch das Mesh-Modul verschiedene Beschleunigungsdatenstrukturen 

(Quadtrees, Octrees) angelegt, damit die nachfolgende Feldgenerierung 

möglichst verzögerungsfrei ablaufen kann (siehe Abb. 5.9). 

Abb. 5.9: Mesh-Rekonstruktion: Ausgangsbild (1), Dreiecksnetz im Bildraum 

(2), Mesh im Objektraum (3), Octree mit Polygon-Patches (4) 

5.3.7 Datenerzeugung 

Die Generierung der Felddaten beginnt zunächst mit der Modifikation der Quellbilder. 

Diese werden im ersten Schritt auf Basis des von OpenCV bereitgestellten bilateralen 

74


Abb. 5.10: Datenerzeugung - Struktur und Teilbereiche 

Filters unter Erhaltung von Details und Konturen geglättet. Daraufhin wird ein Medianfilter, 

dessen Kernelgröße konfigurierbar ist, auf die Bilder angewandt, um so an möglichst 

große, gleichfarbige Flächen zu gelangen. Zusätzlich ist es möglich, die Bilder durch die 

integrierte Bildsegmentierung, die auf der Arbeit von Achanta et al. 13 [RAASKS + 12] 

basiert, in einfarbige Bildsegmente zu zerlegen (siehe Abb.5.11). Anschließend werden 

die Quellbilder in den LAB-Farbraum übertragen, in dem sich Farbabstände deutlich 

besser und intuitiver berechnen lassen als im additiven Farbraum (d.h. im RGB-Modell). 

Den nächsten Zwischenschritt stellt die Erzeugung der Tiefenmasken dar. Hierzu wird, 

ausgehend vom jeweiligen Blickpunkt, pro Pixel ein Strahl in die dreidimensionale Szene 

geschickt, der mit dem erzeugten Dreiecksnetz auf eine mögliche Kollision geprüft wird. 

Aus Perfomancegründen erfolgt dieser Dreiecks-Strahl-Test im internen Octree des Mesh- 

Objektes. 

Abb. 5.11: Bildmodifikation (links nach rechts): Original, geglättet, segmentiert 

Wie schon in der Konzeption beschrieben, bildet der nachfolgende Teilschritt Field 

Creation den Kern der Datenerzeugung. Zunächst werden die Differenzvektoren der 

Korrespondenzen direkt in das Feld übertragen, da hier keinerlei zusätzliche Berechnungen 

notwendig sind. Im Anschluss daran kommt es zur Berechnung der Differenzvektoren für 

jeden einzelnen Punkt im Bildraum, der kein Korrespondenzpunkt ist. 

13 http://ivrg.epfl.ch/supplementary_material/RK_SLICSuperpixels/, Zugriff am 17.12.2012 

75


Das Fundament dafür bildet eine Suchstruktur in Form eines KD-Baumes, der vor dem 

Interpolationsprozess unter Verwendung der PCL-Bibliothek generiert wird. Mithilfe 

dieses Suchbaumes werden für jeden Bildpunkt die k nächsten Stützstellen und deren 

euklidische Distanzen im Bildraum ermittelt, sodass anschließend die Interpolation der 

Differenzvektoren durchgeführt werden kann. Die hierfür notwendigen Algorithmen sind, 

wie man in Abbildung 5.12 sieht, in sogenannten Interpolationsmodulen (kurz: IPM) 

implementiert. 

Abb. 5.12: Datenerzeugung - Interpolationsmodule 

• Base: Basismodul für alle Implementierungen 

• Barycentric: Baryzentrische Interpolation über Punkt-In-Dreieck-Test 

• Shepard: einfache Shepard-Interpolation (Distanz) 

• ShepardColor: Bilaterale Shepard-Interpolation (Farbe, Distanz) 

• Gauss: einfache Gauss-Interpolation (Distanz) 

• GaussColor: Bilaterale Gauss-Interpolation (Farbe, Distanz) 

Sofern die Nutzung von Tiefeninformationen gewünscht ist, können die aufgelisteten 

Verfahren diese in die Interpolation mit einbinden. Im Falle der GaussColor-Interpolation 

würde jene demnach die drei Faktoren Distanz, Farbdifferenz und Tiefendifferenz zur 

Stützstellengewichtung einsetzen. 

Für die Berechnung der Farbdifferenz ist bekanntlich ein äquidistantes Abtasten der 

Verbindungslinien zwischen dem aktuellen Punkt und den Stützstellen erforderlich, weshalb 

zunächst ein entsprechendes Verfahren benötigt wird. An dieser Stelle kommt der 

Bresenham-Algorithmus zum Einsatz, denn dieser ermöglicht effizientes Linienrastern 

und bildet aufgrund seiner Diskretisierungmethode die ideale Grundlage für das Abtasten 

der Linien. 

Die Auswertung entlang der Linien erfolgt dabei zweistufig. Zuerst wird der Farbwert 

an der aktuellen Position im Bild ausgelesen. Anschließend wird der CIEDE2000- 

Farbabstand 14 zum vorherigen Abtastpunkt oder alternativ zum Ausgangspunkt berechnet. 

Standardmäßig nutzt der MGM den ersten Ansatz, während die Berechnung 

14 http://www.ece.rochester.edu/~gsharma/ciede2000/ciede2000noteCRNA.pdf, Zugriff am 

17.12.2012 

76


der absoluten Farbdistanz explizit aktiviert werden muss. In jedem Fall werden die 

Differenzen akkumuliert und am Ende der Durchschnitt ermittelt. 

Das Ermitteln der Tiefendifferenz erfolgt analog zur Farbdifferenz, wobei hier die Berechnung 

deutlich einfacher ausfällt. Die Bildtiefe ist ein einfacher Skalarwert im Intervall 

[0, 1] und deshalb ergibt sich der Abstand aus der absoluten Differenz zweier Tiefenwerte. 

Nachdem die Feldgenerierung unter Anwendung der gewählten Interpolationsmethode 

abgeschlossen wurde, erstellt die Anwendung darauf basierend sogenannte Fehlermasken. 

Hierzu werden die Quellbilder anhand der dichten Korrespondenzfelder temporär 

gewarpt und daraufhin mit dem jeweils entgegengesetzten Bild pixelweise über die 

CIEDE2000-Methode verglichen (siehe Abb. 5.13). Die daraus erzeugten Skalarfelder 

werden anschließend auf Basis der minimalen und maximalen Bildfehler normalisiert und 

im letzten Schritt zusammen mit den Korrespondenzfeldern ausgegeben. 

Abb. 5.13: Fehlermaske: Ausgangs- und Zielbild, generierte Fehlermaske (invertiert) 

5.3.8 Export 

Zu Beginn werden die eingehenden Galeriedaten durch das Submodul Init/Binding 

zwischengespeichert und in eine generische Datenstruktur übertragen. Darüber hinaus 

werden zusätzliche Bibliotheken (u.a. TinyXML, FreeImage) eingebunden und initialisiert. 

Anschließend findet die Ausgabe über die entsprechenden Submodule (siehe Abb. 5.14) 

statt. Hierbei ist es möglich, dass durch die Deaktivierung einzelner Submodule die 

Ausgabe ganz oder teilweise unterbunden wird (sinnvoll, wenn z.B. nur die Galeriestruktur 

benötigt wird). Für die nachfolgenden Ausführungen sind alle Module aktiviert. 

In der ersten Stufe werden die originalen Galeriebilder durch das Image Export-Modul 

dupliziert und die Kopien in das entsprechende Zielverzeichnis übertragen. Hierzu werden 

77


Abb. 5.14: Exportmodul - Struktur und Teilbereiche 

diese mittels der Bibliothek FreeImage geladen, ggf. reskaliert und anschließend unter 

gleichem Namen gespeichert. Im Anschluss daran wird die Ausgabe des Graph über 

das Graph Export-Modul realisiert. Die Graphenstruktur wird zunächst intern in eine 

DOM-kompatible Knotenhierarchie übertragen, die dem allgemeinen Grundaufbau einer 

WGL-Datei entspricht. Sofern dabei keine Fehler auftreten, wird über die Bibliothek 

TinyXML eine XML-Datei angelegt und die DOM-Struktur darin gespeichert. 

Im letzten Teilschritt werden die erzeugten Korrespondenzfelder über das Field Export-Modul 

je nach Einstellung umkodiert und in einem beliebigen Rasterdatenformat 

gespeichert. Entsprechend der verschiedenen Feldformate (siehe auch 5.2.3) existieren 

innerhalb des MGM Klassen, die die Verfahren implementieren (siehe Abb. 5.15). 

Abb. 5.15: Klassenhierarchie - Feldexport 

5.3.9 Evaluation 

Aufgrund der Tatsache, dass die Notwendigkeit nach einem generischen Werkzeug zum 

Bildvergleich erst gegen Ende der Entwicklungsphase aufkam, wurde das hierfür implementierte 

Modul als nachträgliche Erweiterung in den MGM integriert. Dieser Umstand 

wirkt sich direkt auf den Aufbau des Moduls aus, denn im Gegensatz zu den anderen 

78


Abb. 5.16: Evaluation - Struktur 

Komponenten existiert hier keine Abhängigkeit zu einem bestehenden Bildergraph. 

Gemäß der Abbildung 5.16 existieren auf der linken Seite zwei Submodule, die für die 

Initialisierung zuständig sind. Die obere Komponente dient der globalen Initialisierung, 

während im JobInit-Submodul die Evaluations-Aufträge (Jobs) erstellt und verwaltet 

werden. Auf der rechten Seiten ist die Hauptkomponente abgebildet, in der die eigentliche 

Evaluation stattfindet. An dieser Stelle wird die externe IQA-Bibliothek eingebunden, 

da diese eine Reihe von Algorithmen (z.B. SSIM, MSE) zum Vergleich von Bildern 

bereitstellt. 

Bevor man eine Menge von Bildern miteinander vergleichen kann, muss das Modul zuerst 

global initialisiert werden. Hierzu gibt man den verwendeten Algorithmus und die zu 

vergleichenden Farbkanäle an. Die Liste der verfügbaren Algorithmen lautet dabei wie 

folgt: 

• MSE - Mean Squared Error 

• PSNR - Peak Signal-to-Noise Ratio 

• SSIM - Structural SIMilarity 

Folgende Farbkanal-Einstellungen sind möglich: 

• R: nur rote Farbkanäle vergleichen 

• G: nur grüne Farbkanäle vergleichen 

• B: nur blaue Farbkanäle vergleichen 

• ALL: alle Farbkanäle vergleichen 

Der globalen Initialisierung schließt sich das Hinzufügen der einzelnen Jobs an. Jeder Job 

besteht aus einem Referenzbild und einer Liste von Bildern, die mit dem Referenzbild 

verglichen werden. Während der Evaluation wird schrittweise über die Jobliste iteriert 

79


und die jeweiligen Bilder separat mit dem assoziierten Referenzbild verglichen. Dabei ist 

zu beachten, dass jeder Algorithmus seinen eigenen Werteintervall für die Angabe der 

Bilddifferenzen nutzt. Die Evaluationsdaten werden in einer Ergebnisliste gespeichert, die 

nach Abschluss des Prozesses zurückgegeben wird. Optional ist ein Export als CSV-Datei 

möglich. 

5.3.10 Betriebsmodi 

Der Betrieb des MGM ist in zwei unterschiedlichen Modi möglich. Auf der einen Seite 

gibt es den klassischen Dialog-Modus, wo der Nutzer über eine graphische Schnittstelle 

alle relevanten Einstellungen vornimmt, und auf der anderen Seite einen speziellen Stapelverarbeitungmodus 

(Batch-Modus), der allein über textbasierte Konfigurationsdateien 

betrieben wird. 

5.3.10.1 Dialog-Modus 

Der Dialog-Modus ist standardmäßig im MGM voreingestellt und stellt einen direkten 

und einfachen Weg dar, komplette Bildergalerien auf Basis beliebiger Eingabebilder 

zu erstellen. Wie man in Abbildung 5.17 sehen kann, zeichnet er sich durch eine klar 

strukturierte Oberfläche, vordefinierte Parameter sowie Informationstexte aus. 

Auf der rechten Seite des Hauptfensters befinden sich die globalen Programmeinstellungen, 

die für alle internen Verarbeitungschritte des MGM relevant sind und möglichst zuerst 

gesetzt werden sollten. Es folgt eine Auflistung aller globalen Konfigurationsfelder. 

• Import Mode 

Verwendeter Import-Modus des Programms. Standardmäßig auf „Default“ (nur 

Bilddaten) gestellt. Weitere Optionen sind „P3P“( Renderbilder plus dazugehörige 

P3P-Datei) und „Brachmann“ (komplette Bildergraphen). 

• Source File 

Quelldatei, die im P3P- bzw. Brachmann-Modus zum Starten der Verarbeitung 

zwingend benötigt wird. 

• Image Scale 

Bildskalierung der Quellbilder sowie der erzeugten Texturen in Abhängigkeit von 

der originalen Bildgröße (Angabe in Prozent) 

• Nearest Feature Count 

Anzahl der k nächsten Stützstellen für einen Punkt p. Sowohl für die Vorverarbeitung 

als auch die eigentliche Datenerzeugung relevant. 

• Thread Count 

Anzahl der Prozess-Threads, die für die Datengenerierung verwendet werden. 

80

• Quadtree: Max. Triangles 

Maximale Anzahl an Dreiecken pro Endknoten im Quadtree. 

• Octree: Max. Triangles 

Maximale Anzahl an Dreiecken pro Endknoten im Octree. 


Abb. 5.17: MGM - Hauptdialog 

Die oberen beiden Bereiche „Nodes“ und „Edges“ dienen der Definition des Bildergraph. 

Durch Anklicken der jeweiligen Schaltfläche ist es möglich, neue Knoten und Kanten 

zu erstellen und zu verwalten. Während das Erzeugen von Knoten über das Laden von 

Bildern stattfindet, werden Kanten innerhalb eines minimalen Dialogs durch Angabe des 

Start- und Zielknotens erzeugt. 

Einen weiteren wichtigen Bereich stellt die Konfigurationsliste auf der linken Seite dar, 

da hier der Nutzer hier die Möglichkeit hat, beliebig viele Konfigurationen für die 

Berechnung der Morphing-Daten anzulegen. Während im oberen Teil alle vorhandenen 

Konfigurationen aufgelistet werden, zeigt das untere Feld die Einstellungen der aktuell 

selektierten Konfiguration. 

Neben den Schaltflächen „Remove“ und „Clear“, über die bestehende Konfigurationen 

entfernt werden, erfolgt das Erstellen bzw. Modifizieren mithilfe eines separaten Dialogs 

(siehe Abb. 5.18), der über „New“ bzw. „Modify“ geöffnet wird. 

81


In jenem Dialog sind die beiden Felder „ID“ und „File Suffix“ besonders wichtig, da 

über sie die Identifikation der Konfigurationen innerhalb und außerhalb des MGM 

realisiert wird. Eine Mehrfachverwendung der beiden Attribute ist nicht möglich und 

wird durch die Anwendung unterbunden. Die nächsten beiden Felder dienen der Auswahl 

der zu verwendenden Interpolations- und Extrapolationsmethoden für das Erstellen der 

Korrespondenzfelder. 

• BARYCENTRIC 

Auf Basis des erzeugten Dreiecksnetzes wird jeder Datenpunkt innerhalb eines 

Dreiecks baryzentrisch interpoliert. Diese Methode ist sehr schnell, erzeugt aber 

keine weichen Interpolationsverläufe und ist nicht für die Extrapolation außerhalb 

des Netzes einsetzbar. 

• GAUSS 

Die Interpolation der k nächsten Korrespondenzpunkte erfolgt über die Gauss- 

Funktion, welche auf Basis der maximalen Distanz eine Normalverteilung der Gewichte 

realisiert. Obwohl diese Methode schnell und glättend arbeitet, können dennoch 

Unregelmäßgkeiten und Wellenstrukturen auftreten. 

• GAUSSCOLOR 

Diese Methode interpoliert die k nächsten Korrespondenzpunkte bilateral auf Basis 

der räumlichen Distanz im Bildraum und der akumulierten Farbdifferenz. Man 

beachte, dass der Berechnungsaufwand pro Punkt sehr hoch ist (von k abhängig) 

und dadurch größe Verzögerungen auftreten können. 

• SHEPARD 

Die Interpolation der k nächsten Stützstellen findet über die Inverse Distanzgewichtung 

statt, welche gemeinhin auch als Shepard-Interpolation bezeichnet wird. 

Diese Methode ist sehr schnell, erzeugt aber unter Umständen Felder mit radialen 

Strukturen und Rauschen. 

• SHEPARDCOLOR 

Aufbauend auf der Shepard-Methode, wird bei diesem bilateralen Interpolationsansatz 

zusätzlich die akkumulierte Farbdistanz für die Gewichtung der k nächsten 

Features verwendet. Die Eigenschaften sind ähnlich zu denen der Shepard-Methode, 

wobei die Ausführungsgeschwindigkeit teilweise deutlich niedriger ausfallen kann. 

• GRIDMESH 

Das bei Initialisierung erzeugte Gitternetz wird dazu verwendet, an jeder beliebigen 

Position im Bildraum eine bilineare Interpolation der an den Gitterknoten 

vorberechneten Differenzvektoren durchzuführen. Zu beachten ist, dass die Abbildungsgenauigkeit 

sowohl von der Zellengröße (im Dialog-Modus 10 x 10 Pixel) als 

auch der Anzahl der k nächsten Features abhängig ist. 

82


Das Feld „Relative Filter Size“ dient dem Einstellen des Weichzeichnungsfilters, durch den 

kleinere Unregelmäßigkeiten (z.B. Bildrauschen) schon im Vorfeld ausgeglichen werden 

können. Der Schalter „Use depth information“ ermöglicht die Einbindung von Tiefeninformationen, 

sofern diese zum Zeitpunkt der Berechnung vorliegen. 

Am unteren Ende des Dialogs befinden sich Konfigurationsfelder, über die eine nachträgliche 

Feldkorrektur auf Basis des Optischen Flusses aktiviert werden kann. Falls 

dieser zum Einsatz kommen soll, hat man hier die Möglichkeit, die relative Größe des 

Berechnungsfensters („Refine Window Scale“) sowie die Anzahl der Stufen („Refine 

Levels“) und Iterationen („Refine Iterations“) anzupassen. 

Abb. 5.18: MGM - Prozesskonfiguration 

Abb. 5.19: MGM - Exportkonfiguration 

In Abbildung 5.19 sind die Exporteinstellungen abgebildet, die sich im mittleren Bereich 

des Hauptdialogs befinden. Neben der Auswahl des Kodierungstyps (siehe auch 5.2.3) 

sowie des Dateiformats findet hier die Eingabe des Galerienamens sowie zusätzlicher 

83


Informationen (u.a. Titel und Datum) statt. Darüber hinaus ist es möglich, durch Angabe 

eines validen Pfades im Feld „Current OutDir“ anstelle des aktuellen Arbeitsverzeichnisses 

ein anderes Verzeichnis für die Ausgabe einzustellen. 

Unterhalb der Exporteinstellungen befindet sich der Debug-Bereich, der diverse Ausgabeoptionen 

zur Visualisierung und Evaluation der internen Prozessverarbeitung bereithält. 

Falls die Ausgabe von grafischen Testdaten erwünscht ist, müssen zunächst der Basisdateiname 

sowie optional ein Ausgabeverzeichnis angegeben werden. Danach wählt man 

die gewünschten Einstellungen aus, durch die später pro Kante des Bildergraph ein 

individuelles Doppelbild (Start- und Zielbild nebeneinander) im JPEG-Format erzeugt 

wird. Es folgt eine Auflistung aller möglichen Ausgabeoptionen. 

Abb. 5.20: MGM - Evaluationsdialog 

84

• Nodes Images: nur Ausgangs- und Zielbild 


• Corresponding Features: Korrespondenzlinien in Start- und Zielbild 

• Triangles: Korrespondierende Dreiecksnetze im Start- und Zielbild 

• Triangle Correspondences: Dreieckskorrespondenzen im Start- und Zielbild 

• Extrapol. Grid: Extrapolations-Gitternetz in Start- und Zielbild 

• Extrapol. Triangles: Extrapolations-Dreiecksnetz in Start- und Zielbild 

• Extrapol. Triangles: Quadtrees im Start- und Zielbild 

• Warped Images: Start- und Zielbild original und nach dem Warping 

• Mod. Source Images: Präparierte Start- und Zielbilder für Verarbeitung 

• Spatial Mesh as OBJ: Export der rekonstruierten 3D-Netze im .OBJ-Format 

Im unteren rechten Bereich des Hauptdialogs befinden sich die vier zentralen Schaltflächen 

des MGM. Neben den Schaltflächen „Start“ und „Exit“, die die Prozessausführung 

respektive das Programmende bewirken, gibt es zusätzlich „Log“ und „Evaluation“. 

Mittels „Log“ öffnet sich ein nonmodaler Dialog, der alle Statusmeldungen des Programm 

mitgeschreibt und chronologisch geordnet präsentiert. Über den Button „Evaluation“ 

öffnet sich ein weiterer Dialog (siehe Abb. 5.20), der die Ananlyse von Bilddifferenzen 

ermöglicht und vom Hauptprogramm unabhängig ist. 

Innerhalb dieses Evaluationsdialogs ist auf der linken Seite eine Liste von Einträgen zu 

sehen, wobei jeder Eintrag aus einem generischen Zeitparameter und einem Bildpaar 

besteht (das erste Bild ist stets das Referenzbild). Auf der rechten Seite des Dialog 

befinden sich neben den für die Liste relevanten Schaltflächen „Add“, „Remove“ und 

„Clear“ einige Konfigurationsfelder. Das Feld „CSV File“ enthält den Ausgabepfad der zu 

erzeugenden CSV-Datei. Über „Column ID“ ist der Name der Tabellenspalte einzugeben, 

in der letztlich alle Evaluationsergebnisse enthalten sind. Die Felder „Algorithm“ und 

„Color Channels“ werden für die Auswahl des einzusetzenden Bilddifferenz-Algorithmus 

sowie der betrachteten Farbkanäle genutzt. 

5.3.10.2 Batch-Modus 

Im Gegensatz zum Dialog-Modus nutzt der Batch-Modus des MGM keinerlei grafische 

Benutzeroberfläche und wird allein über textbasierte Konfigurationsdateien gesteuert. 

Obwohl dies auf Anwender ohne Fachkenntnisse zunächst umständlich und wenig intuitiv 

wirkt, ergeben sich daraus diverse Vorteile. 

• Schnelle und direkte Verwendung der Anwendung 

• Größerer Einfluss auf den Prozessablauf 

85


• Einfache Reproduktion identischer Daten durch Batchdateien 

• Keine Nutzeraktionen/-eingaben im Programm notwendig 

• Sowohl Produktion als auch Evaluation batchfähig 

• Multipler Datenexport möglich 

Um den Batch-Modus zu starten, muss der MGM unter Angabe spezieller Argumente 

aufgerufen werden. Das erste Argument beschreibt den internen Prozessmodus und 

lautet entweder „-PROD“ (für Datenproduktion, Galerie-Erzeugung) oder „-EVAL“ (für 

Evaluation). Das zweite Argument stellt einen relativen oder absoluten Pfad zur einer 

vorhandenen Batchdatei dar. Im Fall einer Falscheingabe gibt die Anwendung beim 

Programmstart eine entsprechende Meldung aus und beendet sich. 

Nachfolgend ist zu beachten, dass die Indizierung der Sektions- und Parameternamen in 

den Batchdateien stets nullbasiert erfolgt. 

Sofern über den Batch-Modus eine Galerie inklusive aller dazugehörigen Daten erzeugt 

werden soll, muss zuvor eine prozessbeschreibende Batchdatei angelegt werden. Diese ist im 

Kern eine Initialisierungsdatei und setzt sich demnach aus einer Menge von Wertepaaren, 

welche in Sektionen eingeordnet sind, zusammen. In Listing 5.2 ist exemplarisch eine 

einfache Batchdatei abgebildet. 

86


[ HEADER ] 

mode = P3P 

path = test . p3p 

nearestFeatCount =7 

threadCount =4 

qtMaxTriangles =20 

qtMaxDepth =7 

otMaxTriangles =20 

otMaxDepth =7 

extraCellWidth =20 

extraCellHeight =20 

imageScale =100 

exporterCount =1 

configCount =1 

[ GRAPH ] 

nodeCount = 2 

node0 = " test1 . jpg " 

node1 = " test2 . jpg " 

edgeCount = 1 

edge0 = node0 # node1 

[ DEBUG ] 

baseFilename = testImage 

outDir = debugDir 

drawImages =1 

drawFeatures =0 

drawTriangles =1 

drawTriangleCorrespond =0 

drawExtraGrid =0 

drawExtraTriangles =0 

drawImages =0 

drawQuadTrees =0 

drawWarpedImages =1 

drawSourceImages =1 

exportMeshAsOBJ =1 

useImagesAsBackGround =1 

Listing 5.2: Produktions-Batchdatei 

[ EXPORTER0 ] 

outDir =c:/ myGalleries 

baseName = Scene0Test 

exportGallery =1 

exportTextures =1 

title = holidays 2012 

desc = some nice holidays 

date =11 -6 -2012 

format = JPG 

type = HSV 

[ CONFIG0 ] 

id= bary 

fileSuffix = bary 

interpolMode = BARYCENTRIC 

extrapolMode = SHEPARD 

filterSize =0.05 

usingDepth =0 

segmentImages =1 

segmentCompactness =10 

segmentMinSize =0.02 

refineMorphOF =1 

refineWindowOF =0.05 

refineLevelsOF =3 

refineInterationsOF =3 

gradientSampling =1 

In der HEADER-Sektion werden allgemeine Einstellungen, analog zu den globalen Feldern 

im Dialog-Modus, vorgenommen. Die dabei verwendeten Parameter sind in Tabelle 5.2 

abgebildet. 

87


Parameter 

mode 

path 

nearestFeatCount 

threadCount 

qtMaxTriangles 

qtMaxDepth 

otMaxTriangles 

otMaxDepth 

extraCellWidth 

extraCellHeight 

imageScale 

exporterCount 

configCount 

Beschreibung 

Importmodus (DEFAULT, P3P oder BRACHMANN) 

Dateipfad für Zusatzdaten (P3P/BRACHMANN-Modus) 

Anzahl der k nächsten Features 

Anzahl der verwendeten Threads 

Höchstzahl an Dreiecken pro Blattknoten im Quadtree 

Max. Tiefe des Quadtrees 

Höchstzahl an Dreiecken pro Blattknoten im Octree 

Max. Tiefe des Octrees 

Pixelbreite der Gitterzellen 

Pixelhöhe der Gitterzellen 

Prozentuale Skalierung von Quellbildern und Ausgabedaten 

Anzahl der Export-Konfigurationen 

Anzahl der Export-Konfigurationen 

Tab. 5.2: Batch-Modus: Globale Parameter 

Die Definition des Galeriegraph erfolgt innerhalb der separaten GRAPH-Sektion (bzgl. 

Parameter siehe Tabelle 5.3). 

Parameter Beschreibung 

nodeCount Anzahl Bildknoten im Graph 

edgeCount Anzahl Kanten im Graph 

nodeN Dateipfad eines Bildknoten N (mit N ∈ {0, .., nodeCount − 1}) 

edgeM Format „nodeX#nodeY“ (mit M ∈ {0, .., edgeCount − 1}) 

Tab. 5.3: Batch-Modus: Graphparameter 

Die Ausgabe von Testdaten wird über die DEBUG-Sektion (siehe Listing 5.2) konfiguriert. 

Alle Parameter mit einem „draw“ als Präfix dienen als Schalter für die Ausgabe der 

damit assoziierten Debug-Daten und sind gleichbedeutend zu den Debug-Optionen im 

Dialog-Modus. Ebenso verhält es sich mit den Parametern „baseFilename“ und „outDir“, 

worüber der Basisdateiname sowie der Ausgabepfad angegeben wird. 

Die Exporteinstellungen werden in eigens dafür angelegten Sektionen definiert. Die 

dazugehörigen Parameter sind in Tabelle 5.4 beschrieben. 

88


Parameter 

outDir 

baseName 

exportGallery 

exportTextures 

title 

desc 

date 

format 

type 

Beschreibung 

Wurzelverzeichnis für Ausgabe 

Basisname der Galerie 

Flag für Export der Galerie-Datei(*.WGL) 

Flag für Export der Galerie-Texturen 

optionaler Titel 

optionale Beschreibung 

optionale Datumsangabe 

Texturformat (JPG, PNG, BMP oder TIF) 

Texturkodierung (HSV, RGBSEPARATED, ARGB, ARGB- 

SPLIT) 

Tab. 5.4: Batch-Modus: Exportparameter 

Wie auch bei den Exporteinstellungen werden die Prozesskonfigurationen in separaten 

Sektionen beschrieben. Mithilfe der Prozessparameter (siehe Tab. 5.5) hat man dabei die 

Möglichkeit, die Datengenerierung auf vielfältige Art und Weise zu beeinflussen. 

Parameter Beschreibung 

id 

ID der Konfiguration 

fileSuffix 

Dateisuffix, der an den Galeriename angefügt wird 

interpolMode Interpolationsmodus, siehe Prozesskonfigurationen im Dialog- 

Modus 

extrapolMode Extrapolationsmodus, siehe Prozesskonfigurationen im Dialog- 

Modus 

filterSize 

Relative Größe des Filterkernels (normiert) 

usingDepth Flag für Einbindung von Tiefeninformationen 

segmentImages Flag für Segmentierung der Quellbilder 

segmentCompactness Kompaktheit der Segmente (je größer, umso konvexer) 

segmentMinSize Minimale Segmentgröße (relativ zur Bildgröße) 

refineMorphOF Flag für Refinement mittels Optischem Fluss 

refineWindowOF Berechnungsfenster für Refinement 

refineLevelsOF Stufenanzahl für Optischen Fluss 

refineInterationsOF Anzahl Iterationen für Optischen Fluss 

gradientSampling Sampling der Gradienten bei bilat. Interpolation (falls inaktiv, 

wird Farbdifferenz zum Ursprung akkumuliert) 

Tab. 5.5: Batch-Modus: Prozessparameter 

89


Sofern nach dem Start des MGM die Validierung der Batchdatei erfolgreich war, wird 

die Datengenerierung automatisch durchlaufen und nach dem Export die Anwendung 

selbstständig beendet. 

Um die batchbasierte Evaluation nutzen zu können, muss im Vorfeld ebenfalls eine 

Batchdatei (siehe Listing 5.3) angelegt werden. In dieser werden, analog zur dialogbasierten 

Evaluation, zunächst allgemeine Einstellungen innerhalb der HEADER-Sektion getroffen. 

• csv: Relativer oder absoluter Ausgabepfad der CSV-Datei 

• channel: Verwendete Farbkanäle (R, G, B oder ALL) 

• mode: Bilddifferenz-Algorithmus (SSIM, DSSIM, PSNR oder MSE) 

• passCount: Anzahl der Bildvergleiche 

• xID: Sichtbarer Name des Laufparameters x 

• slotCount: Vergleichsfelder pro Durchgang 

• slotIDn: Name des n-ten Vergleichsfeldes (Index nullbasiert) 

Zusätzlich muss für jeden Evaluationsdurchgang(Pass) eine separate Sektion definiert 

werden. Auch hier ist zu beachten, dass der Sektionsindex nullbasiert ist und dadurch 

eine Sektion „PASSm“ mit m ∈ {0, .., passCount − 1} existieren muss. Kernbestandteil 

einer solchen Sektion ist die Angabe des Laufparameters, des Referenzbildes sowie aller 

damit zu vergleichende Bilder. 

[ HEADER ] 

csv = _BatchEvaluation . csv 

channel = ALL 

mode = DSSIM 

passCount =3 

xID = time 

slotCount = 2 

slotID0 = Images_Day1 

slotID1 = Images_Day2 

[ PASS0 ] 

x = 0.25 

base = imageBase1 . jpg 

slot0 = image1_1 . jpg 


Listing 5.3: Evaluations-Batchdatei 

[ PASS1 ] 

x = 0.5 




[ PASS2 ] 

x = 1.0 




Wie auch bei der batchbasierten Datenerzeugung läuft die Anwendung nach erfolgter 

Initialisierung sequentiell durch alle Zwischenstufen der Evaluation und beendet sich im 

Anschluss daran selbst. Zur Veranschaulichung der resultierenden Daten ist in Abbildung 

5.21 die erzeugte CSV-Datei, basierend auf dem Listing 5.3, dargestellt. 

90

5.4 WebGLallery 

Abb. 5.21: Evaluationsergebnisse in LibreOffice 3.6.3 Calc 


Abb. 5.22: WebGLallery - Screenshot 

In diesem Unterkapitel wird die Umsetzung des Webfrontends, das für die Präsentation 

der erzeugten Bildergalerien (siehe Abb. 5.22) unter Verwendung verschiedener Morphing- 

Techniken verwendet wird, vorgestellt und beschrieben. 

5.4.1 Eigenschaften 

Die hier vorgestellte Implementierung lässt sich aufgrund ihrer Eigenschaften aus unterschiedlichen 

Blickpunkten betrachten. Einerseits handelt es sich um eine „Out of 

the box“-Lösung, die unmittelbar zur webbasierten Präsentation von Bildergalerien genutzt 

werden kann. Andererseits dient die Applikation als experimentelle Software zur 

91


Evaluation der verwendeten Morphing-Ansätze. Zur besseren Übersicht folgt nun eine 

stichpunktartige Auflistung der wichtigsten Eigenschaften. 

• HTML5 sowie CSS bilden die Grundlage des Frontends 

• Implementierung der Programmlogik mittels der Skriptsprache Javascript 

• Visualisierung von 2D/3D-Inhalten mittels WebGL und Canvas (HTML5) 

• externe Galerie-Archivierung über das WGL-Format (siehe Abschnitt 5.2.2) 

• serverseitiger Einsatz von PHP (v.a. für Dateioperationen) 

• dynamisches Nachladen von Bildinhalten zur Laufzeit 

• beschleunigtes Laden durch zugriffsabhängiges Texture-Caching 

• kompakte und intuitive Benutzerschnittstelle 

• externe Shader-Programme zur schnellen Anpassung und Optimierung 

• Bildwechsel mittels Morphing 

• in allen Browsern lauffähig, die WebGL unterstützen 

5.4.2 Systemanforderungen 

• Apache-Webserver 

In jedem Fall muss für die Ausführung der WebGLallery ein voll funktionsfähiger 

Apache-Webserver vorliegen, auf dem sämtliche HTML- und Javascript-Quellen 

abzulegen sind. Während der Entwicklung kam hierfür die XAMPP-Distribution 15 

zum Einsatz, die unter anderem auch die Ausführung eines lokalen Webservers 

erlaubt. 

• PHP 

Auf dem Host-System wird eine aktuelle PHP-Installation ( >= 5.4.x) benötigt, 

da das Frontend darüber Dateioperationen realisiert. PHP ist Kernbestandteil der 

XAMPP-Distribution, weshalb sich deren Verwendung für Test- und Entwicklungszwecke 

anbietet. 

• WebGL 

Für eine fehlerfreie Ausführung muss der verwendete Browser zu WebGL Rev. 1.0 

vollwertig kompatibel sein. Zusätzlich ist notwendig, dass die OES_texture_float- 

Extension für die Verwendung von 32-Bit Fließkommatexturen unterstützt wird. 

Mozilla Firefox und Google Chrome sind gegenwärtig (Stand: Dezember 2012) die 

einzigen Browser, die diese Anforderung erfüllen. 

15 http://www.apachefriends.org/de/index.html, Zugriff am 29.11.2012 

92


• Aktueller Grafiktreiber 

Auf dem Anwendersystem sollte ein möglichst aktueller Grafiktreiber installiert sein. 

Grund hierfür ist die teilweise fehlerhafte WebGL-Unterstützung bei älteren Treibern, 

durch die neben Bildfehlern im Extremfall auch Systemabstürze möglich sind. 

5.4.3 Bibliotheken 

Im Zuge der Entwicklung kamen diverse JavaScript-Bibliotheken zum Einsatz kamen, 

wodurch der Entwicklungsaufwand deutlich verringert werden und zugleich eine höhere 

Programmqualität erreicht werden konnte. 

• dat.GUI 16 

dat.GUI ist eine flexible GUI-Bibliothek zur Entwicklung einfacher Benutzerschnittstellen. 

Inbesondere für experimentielle Anwendungen lassen sich so vergleichsweise 

schnell einfache Benutzerschnittstellen unter Verwendung bekannter Elemente (u.a. 

Textflächen, Listen) entwickeln. 

• webgl-utils.js 17 

Diese kompakte Bibliothek von Google Inc. besteht im Kern aus einer Klasse, über 

die ein WebGL-Kontext browserunabhängig erzeugt werden kann. Darüber hinaus 

existieren Funktionen zur Emulation von Renderschleifen, wodurch sich animierte, 

grafiklastige Webapplikation mittels WebGL umsetzen lassen. 

• J3DI 18 

Der Fokus dieser Bibliothek von Apple Inc. liegt auf der vereinfachten Nutzung von 

WebGL mittels Javascript. Eine umfangreiche Sammlung von Javascript-Funktionen 

ermöglicht dabei die Initialisierung von WebGL, das Laden von Texturen, Shadern 

und 3D-Modellen (u.a. Wavefront OBJ.-Format) sowie das Rendern von Primitiven. 

J3DI nutzt für die WebGL-Initialisierung webgl-utils. 

• J3DIMath 19 

Durch die ebenfalls von Apple Inc. stammende J3DIMath-Bibliothek wird der 

Einsatz von Operationen der linearen Algebra im Kontext von WebGL deutlich 

erleichtert. Neben klassischen Matrix- und Vektorklassen inklusive der dazugehörigen 

Standardoperationen erlaubt J3DIMath die einfache Berechnung von Blickpunktund 

Projektionsmatrizen sowie das Übertragen von Matrizen und Vektoren in 

WebGL-konforme Float32-Arrays. 

16 http://code.google.com/p/dat-gui/, Zugriff am 27.9.2012 

http://code.google.com/p/webglsamples/source/browse/book/webgl-utils.js, Zugriff am 

28.9.2012 

18 http://code.google.com/p/webgl-code-storage/source/browse/trunk/samples/SpinningBox/ 

resources/J3DI.js?r=2, Zugriff am 28.9.2012 

19 http://code.google.com/p/webgl-code-storage/source/browse/trunk/samples/SpinningBox/ 

resources/J3DIMath.js?r=2, Zugriff am 28.9.2012 

93


• stats.js 20 

Der Fokus dieser sehr kompakten Bibliothek liegt auf dem Messen und Visualisieren 

der Anwendungsgeschwindigkeit mittels einer Monitor-Klasse. Nach erfolgter 

Instanziierung wird über einen paarweisen Begin- und End-Aufruf die Performance 

gemessen (Angaben in Millisekunden-pro-Bild bzw. Bilder-pro-Sekunde). 

5.4.4 Struktur 

Wie in Abbildung 5.23 zu sehen ist, setzt sich das Webfrontend aus wenigen, funktional 

getrennten Modulen zusammen. Im Mittelpunkt stehen dabei insbesondere die beiden 

Betriebsmodi, da diese die zentrale Programmlogik beinhalten und demnach für Nutzereingaben, 

Datenverarbeitung sowie Präsentation zuständig sind. Zusätzlich existieren 

noch Module für den Import und die Archivierung, welche in ihrer Gesamtheit für die 

Bereitstellung der Daten verantwortlich sind. Der abgebildete Renderer ist, obgleich hier 

direkt an die Modi angebunden, von den restlichen Programmteilen unabhängig und 

könnte ebenso in einer anderen Webapplikation eingesetzt werden. 

Abb. 5.23: WebGLallery - Gesamtstruktur 

5.4.5 Module 

5.4.5.1 Import 

Im Mittelpunkt des Datenimports steht das Erzeugen und Initialisieren von Galerie- 

Instanzen auf Grundlage externer WGL-Dateien. Zunächst wird beim Programmstart 

durch das Import-Modul die serverseitige Ausführung eines PHP-Skripts angestoßen, 

welches alle verfügbare WGL-Dateien im zentralen Ressourcenverzeichnis ausfindig macht 

20 https://github.com/mrdoob/stats.js, Zugriff am 28.9.2012 

94


und deren Pfade gemeinsam in Form eines DOM-strukturierten Strings zurücksendet. 

Nachfolgend werden die Dateien über einen DOM-Parser eingelesen und darauf aufbauend 

die eigentlichen Galerien erzeugt. Zu diesem Zeitpunkt liegen innerhalb der Anwendung 

noch keine Bilder oder Korrespondenzfelder vor. 

5.4.5.2 Archiv 

Das zentrale Archiv-Modul ist direkt an den Datenimport angebunden und dient in diesem 

Sinne als Zwischenspeicher für importierte Galerien. Obwohl Erweiterungen während 

der Laufzeit möglich wären, findet die Konfiguration und Initialisierung nur einmalig 

zum Zeitpunkt des Programmstarts statt. Im Kontext der WebGLallery stellt es die 

Datengrundlage für die beiden nachfolgenden Betriebsmodi dar. 

5.4.5.3 Selektionsmodus 

Dieser Modus fungiert als Hauptmenü und wird direkt nach dem Programmstart aktiviert. 

Im Mittelpunkt steht dabei die Vorstellung aller im Archiv verfügbaren Galerien, sodass 

eine entsprechende Auswahl durch den Nutzer getroffen werden kann. Die Visualisierung 

der Vorschau erfolgt kombiniert über WebGL und das Canvas-Element (HTML5), da 

neben den räumlich dargestellen Bildebenen auch ggf. verfügbare Textinformationen (z.B. 

Titel, Datum, Beschreibung) abgebildet werden müssen. Darüber hinaus wurden für eine 

zeitgemäße Präsentation weitere Programmfeatures, wie z.B. Gestenerkennung, tweenbasierte 

Animationen, unterschiedliche Shader sowie eine ansprechende Bedienoberfläche, 

integriert. 

5.4.5.4 Präsentationsmodus 

Im Präsentationsmodus, welcher unmittelbar nach der Selektion einer Galerie aktiviert 

wird, hat der Nutzer die Möglichkeit, sich sukzessive durch die einzelnen Bilder zu bewegen. 

Der Bildübergang geschieht hierbei fließend unter Anwendung verschiedener Blendingbzw. 

Morphing-Techniken, um harte Schnitte zu vermeiden und so der Metapher des 

„Bilder-Wanderns“ gerecht zu werden. 

Programmintern sind Galerien als Graphen strukturiert, wodurch sich der Bildwechsel 

effektiv als Traversierung zwischen den Graphknoten mittels unidirektionaler Kanten 

gestaltet. 

Den Kern des Präsentationsmodus bildet eine einfaches Zustandsmodell, bestehend aus 

einem Zustandskontext und einer Reihe von Programmzuständen. Wie in Abbildung 5.24 

zu sehen ist, handelt es sich um drei konkrete Zustandsklassen, welche zyklisch bei jedem 

Bildwechsel durchlaufen werden und die unterschiedlichen Teilschritte umsetzen. 

95


Abb. 5.24: Präsentationsmodus - Zustandsmodell 

• StateLoad 

Über diesen Zustand werden das nachfolgende Bild sowie gegebenfalls vorhandene 

Datensatz-Texturen (siehe auch 5.2.2) sequentiell geladen. 

• StateBlend 

Der fließende, visuelle Übergang zwischen dem Start- und Zielbild wird über diesen 

Zustand realisiert. 

• StatePresentation 

Die eigentliche Präsentation des aktuellen Bildes sowie der darin enthaltenen Verbindungspunkte 

(„Hotspots“) erfolgt in diesem Zustand. 

5.4.5.5 Renderer 

Abb. 5.25: Renderer - Schematischer Aufbau 

96


Hauptaufgabe des Render-Moduls ist die Initialisierung und Verwaltung der Grafikausgabe 

innerhalb des Browsers. Neben zweidimensionalen Grafiken ist es dabei auch möglich, 

mittels WebGL dreidimensionale Inhalte in Echtzeit darzustellen. Intern existiert hierfür 

eine Vielzahl von Submodulen (siehe Abb. 5.25), über die die dafür notwendigen Schritte 

umgesetzt werden. Es folgt eine Auflistung der wichtigsten Bestandteile. 

• webGL_Mgr 

Das webGL_Mgr-Modul fungiert innerhalb der WegGLallery als zentrale Grafikschnittstelle. 

Es ist zuständig für unterschiedlichste Aufgaben wie z.B. die Initialisierung 

und Verwaltung von WebGL, das Vorbereiten der Grafikausgabe (u.a. 

Sicht-/Projektionsinitialisierung) sowie die eigentliche Bereitstellung von 2D/3D- 

Grafikroutinen. Darüber hinaus werden über spezialisierte Subkomponenten Shader 

und Texturen geladen, verwaltet und bereitgestellt. 

• webGL_ShaderLib 

Konzipiert als Subkomponente des webGL_Mgr-Moduls, dient dieses Modul als 

zentrale Shader-Bibliothek, über die Shader aus beliebigen internen und externen 

Quellen (z.B. HTML-embedded, externe Textdateien) geladen werden können. Erfolgreich 

erzeugte Shader werden dabei über eine unikate ID intern archiviert, sodass 

diese zu einem beliebigen Zeitpunkt wieder abrufbar sind. 

• webGL_Shader 

Das webGL_Shader-Modul bildet die Grundlage für die shader-basierte Grafikausgabe. 

Über darauf basierende Instanzen werden WebGL-Shader aus Strings erzeugt, 

kompiliert und gelinkt. Nachfolgend werden diese mittels der webGL_ShaderLib 

zwischengespeichert und bereitgestellt. 

• webGL_TextureMgr 

Hauptaufgabe dieses Moduls ist das Laden und Verwalten beliebiger WebGL- 

Texturen. Ein interner konfigurierbarer Cache, in dem Texturen chronologisch gespeichert 

werden, verhindert das unnötige wiederholte Laden. Der Zugriff erfolgt, 

analog zur webGL_ShaderLib, über programmweit unikate Texture-Identifikatoren. 

Das webGL_TextureMgr-Modul ist dem webGL_Mgr-Modul direkt untergeordnet. 

• webGL_Texture 

Der Fokus dieses Moduls liegt auf dem Erzeugen, Laden und Bereitstellen von 

ARGB-Farbtexturen aus externen Bilddateien. 

• webGL_TextureFloat 

Dieses Modul ermöglicht die Verwendung von 32-Bit Fließkommatexturen durch 

WebGL. Darüber hinaus ist es möglich, ARGB-kodierte Float-Texturen aus externen 

Bilddaten zu laden und in dass webGL-konformes Float-Format zu übertragen (siehe 

auch 5.2.3). 

97


• webGL_VertexBuffer 

Das Speichern und Bereitstellen geometrischer Daten (u.a. Positionen, Normalen) 

erfolgt innerhalb Renderers über Instanzen dieser Klasse. Die Größe der Puffer sowie 

der einzelnen Elemente ist flexibel konfigurierbar. 

• webGL_IndexBuffer 

Die Indizierung von Geometriedaten erfolgt während des Zeichenvorgangs, wie es bei 

OpenGL und WebGL üblich ist, über spezialisierte Index-Puffer. Dies wird innerhalb 

des Renderers über Instanzen der Klasse webGL_IndexBuffer realisiert. 

5.4.6 Bildübergang & Morphing 

Wie bereits erwähnt, wird der Bildwechsel im Präsentationsmodus über den Zustand 

StateBlend realisiert. Bei dessen Initialisierung werden zunächst die Parameter und 

Texturen, die der aktuellen Graphkante zugeordnet sind, geladen und dem Renderer 

zugewiesen. 

Anschließend wird der Transitionsvorgang angestoßen, bei dem der Parameter t über 

die Hauptschleife in zeitlich konstanten Schritten von Null bis Eins inkrementiert wird. 

Obwohl t in erster Linie den programminternen Fortschritt des Übergangs repräsentiert, 

wird über ihn das Morphing des Ausgangs- und Zielbildes gesteuert. 

Im Gegensatz zum MGM erfolgt hier das Morphing mit all seinen Teilschritten mittels 

WebGL auf der Grafikkarte. Im Zuge der initialen Ausrichtungs- und Reskalierungsphase 

werden die Quellbilder zunächst über entsprechend transformierte und texturierte Ebenen 

in zwei temporäre Renderziele gezeichnet. Diese werden anschließend als Farbtexturen 

zusammen mit den Korrespondenzfeldern an die Grafikkarte gesendet. Auf Basis des 

Inverse-Mapping-Prinzips wird dort im Fragment-Shader das Morphing (siehe Listing 

5.4) durchgeführt. 

float dX = texture2D ( warpX , texCoord ).r; 

float dY = - texture2D ( warpY , texCoord ).r; 

float dInvX = texture2D ( warpInvX , texCoord ).r; 

float dInvY = - texture2D ( warpInvY , texCoord ).r; 

vec2 texCoord1 = texCoord + t* vec2 ( dInvX , dInvY ); 

vec2 texCoord2 = texCoord + (1.0 - t)* vec2 (dX ,dY ); 

vec4 col1 = texture2D ( sample0 , texCoord1 ); 

vec4 col2 = texture2D ( sample1 , texCoord2 ); 

gl_FragColor = (1.0 - t)* col1 +t* col2 ; 

Listing 5.4: Morphing - Auszug aus Fragment-Shader 

98


5.4.7 Benutzeroberfläche 

Die Benutzeroberfläche des Frontends ist entsprechend der beiden Betriebsmodi in zwei 

Bereiche untergliedert. Beide Bereiche weisen Gemeinsamkeiten hinsichtlich der visuellen 

Gestaltung auf, folgen jedoch aufgrund ihrer inhaltlichen Ausrichtung unterschiedlichen 

Bedien- und Darstellungsprinzipien. 

5.4.7.1 Selektionsmodus 

In seiner Funktion als Hauptmenü hat dieser Modus die Aufgabe, alle vorhandenen 

Bildergalerien möglichst übersichtlich zu präsentieren. Ziel ist es, dass der Anwender 

schnell und intuitiv darin navigieren kann und dabei nur ein Minimum an Eingaben 

tätigen muss. 

Gemäß der Abbildung 5.26 werden alle vorhandenen Galerien als aufgelöste Bilderstapel, 

die zur Kamera orientiert sind, im dreidimensionalen Raum dargestellt. Die momentan 

selektierte Galerie wird dabei stets im Vordergrund frontal zum Betrachter abgebildet, 

damit der aktuelle Fokus ersichtlich wird und der Nutzer einen ersten Eindruck über 

Inhalt gewinnen kann. 

Abb. 5.26: WebGLallery - Selektionsmodus 

Bei der Umsetzung der Navigation wurde darauf geachtet, dass möglichst wenig und 

zugleich intuitive Benutzeraktionen notwendig sind. 

Um die aktuelle Auswahl im Hauptmenü zu ändern, existieren zwei unterschiedliche Wege. 

Der Erste ist die Verwendung des Mausrads, durch das man sehr schnell und direkt hinund 

herschalten kann. Der andere Weg ist der Einsatz der integrierten Gestensteuerung, 

99


bei der man mittels schneller horizontaler Mausbewegungen durch das Menü „blättert“. 

Das Öffnen einer Galerie erfolgt über einen Klick mit der linken Maustaste. 

5.4.7.2 Präsentationsmodus 

Abb. 5.27: WebGLallery - Präsentationsmodus 

Im Präsentationsmodus steht das sukzessive „Erkunden“ einer Galerie im Vordergrund, 

was sich auch im Aufbau der Benutzerschnittstelle widerspiegelt. Das Hauptaugenmerk 

liegt dabei, wie man in Abbildung 5.27 sehen kann, auf der bildschirmfüllenden Darstellung 

des aktuellen Bildes, wodurch möglichst viele Details erkennbar sein sollen. 

Weiße Quadrate, die bei fehlender Mausbewegung langsam ausblenden, repräsentieren 

Hotspots, durch die man mittels Anklicken zu einem verknüpften Bild gelangt. Über 

die beiden Schaltflächen in der linken unteren Ecke gelangt man zum vorherigen Bild 

(Pfeil-Symbol) bzw. ins Hauptmenü (Haus-Symbol). 

In der rechten oberen Ecke befindet sich das Kontrollmenü für den Bildübergang. Dieses 

zeichnet sich durch diverse Felder aus (siehe Abb. 5.28), über die Einfluss auf den Wechsel 

zwischen zwei Bildern genommen werden kann. 

Neben Listen zur Auswahl der verwendeten Shader und Felddaten existieren Steuerelemente, 

über die der Morphing-Prozess aktiv beeinflusst wird. Der Schalter „automorph“ 

spielt dabei eine bedeutende Rolle, da über ihn der Bildwechsel angehalten werden kann. 

In Verbindung mit dem Slider-Feld „t“ ist es so möglich, manuell den Bildwechsel durchzuführen. 

Über die Liste „transition“ kann zusätzlich eine Transitionsfunktion ausgewählt 

werden, die vor dem Rendering auf den Wert „t“ angewendet wird. Das Zahlfeld „time“ 

beschreibt die Skalierung der Zeit und beeinflusst somit die Ablaufgeschwindigkeit des 

Bildwechsels. 

100


Abb. 5.28: WebGLallery - Kontrollmenü 


Im Mittelpunkt dieses Kapitels stand die prototypische Umsetzung einer Softwarelösung, 

die sowohl die Komposition und Vorverarbeitung von Bildergalerien als auch deren 

interaktive Präsentation in modernen Webbrowsern ermöglicht. Ausgehend von der Gesamtstruktur, 

wurden zunächst die verwendeten Datenformate und Kodierungsverfahren 

vorgestellt und beschrieben. Danach wurden die Programmlösungen der beiden Teilbereiche 

getrennt in Hinblick auf Struktur, Komponenten und Funktionsweise dargelegt und 

erläutert. 

101

6 Evaluation 

Nachdem im vorangegangenen Kapitel die praktische Umsetzung des entwickelten Softwarekonzeptes 

vorgestellt und erörtert wurde, liegt der Schwerpunkt dieses Kapitels auf 

der Evaluation der verwendeten Interpolationsmethoden zur Realisierung des Morphings. 

6.1 Ziel 

Ziel der Evaluation ist es, die im MGM implementierten Verfahren anhand der interpolierten 

Zwischenbilder zu vergleichen und dadurch deren Eignung für die Generierung dichter 

Korrespondenzfelder zu ermitteln. Der Fokus der Betrachtung liegt dabei insbesondere 

auf der bilateralen Interpolation, da die Eigenschaften dieser Methode vergleichsweise 

unbekannt sind und dadurch der praktische Nutzen offen ist. 

6.2 Vorgehensweise 

Zuerst wird eine dreidimensionale Szene mithilfe des Programms Autodesk 3ds Max 

erstellt und darin eine Kamerafahrt angelegt. Darauf aufbauend wird anschließend eine 

statische Bildsequenz gerendert, die sich sowohl aus den Ausgangs- und Zielbildern als 

auch den Zwischenansichten der Szene zusammensetzt. Zusätzlich wird über das P3P- 

Skript eine P3P-Datei erzeugt, die die dreidimensionalen Tiefenabbilder des Ausgangsund 

Zielbildes enthält. 

Im nächsten Teilschritt werden die Quellbilder mitsamt der P3P-Datei in den MGM 

geladen und dort unter Einbindung entsprechender Interpolationsverfahren für die Generierung 

der dichten Korrespondenzfelder verwendet. Letztere werden im Anschluss 

zusammen mit dem obligatorischen Bildergraph als Galerie in das Datenverzeichnis der 

WebGLallery exportiert. 

Nachdem im Frontend die Auswahl der entsprechenden Szene getätigt wurde, wird 

der Bildübergang im Präsentationsmodus initiiert und sogleich angehalten. Mittels der 

integrierten, batchfähigen Screenshot-Funktion werden die interpolierten Bilder für alle 

verfügbaren Feldsets als PNG-Datei exportiert (beginnend bei t = 0.0, Schrittweite 0.1). 

Für die eigentliche Evaluation wird nun eine Batchdatei geschrieben, in der neben dem 

102

6.3 Rahmenbedingungen 

verwendeten Vergleichsalgorithmus (in diesem Fall der SSIM-Index) auch die Pfade 

der vorgerenderten Referenzbilder sowie der exportierten Zwischenbilder zu hinterlegen 

sind. Wird nun der MGM zusammen mit dieser Batchdatei gestartet, führt dieser den 

Evaluationsprozess selbsständig durch und exportiert die Ergebnisse anschließend als 

CSV-Datei. 

6.3 Rahmenbedingungen 

• Die Evaluation fußt auf dem Vergleich statischer Referenzbilder und interpolierter 

Zwischenbilder. 

• Das Einbeziehen und Bewerten der bilateralen Interpolation (repräsentiert durch 

GaussColor) ist als obligatorisch anzusehen. 

• Jedes Verfahren wird mit und ohne Verwendung der Bildtiefe betrachtet (3D/2D) 

• Es sind pro Testlauf mindestens zwei weitere Interpolationsverfahren zu begutachten. 

• Die verwendeten Bilddatensätze werden über hierfür eigens erstellte Szenen innerhalb 

des Programms Autodesk 3ds Max erzeugt. 

• Animationen jeglicher Art (z.B. Kameraschwenks, Objektbewegungen) haben in der 

Szene linear zu erfolgen. 

• Für jede Szene wird mittels des P3P-Skriptes eine P3P-Datei erzeugt, die nur das 

Ausgangs- und Zielbild enthält. 

• Die Ground Truth für die Evaluation ergibt sich aus Ausgangs- und Zielbild sowie 

den vorgerenderten Zwischenbildern. 

• Die Schrittbreite für die Zwischenbilder beträgt 0.1, weshalb im Renderprogramm 

insgesamt elf Bilder zu erzeugen sind (Quellbilder sowie neun Zwischenbilder im 

Abstand von 0.1). 

• Es findet keine nachträgliche Korrektur der Korrespondenzfelder mittels des Optischen 

Flusses statt. 

• Um Verfälschungen zu vermeiden, wird kein adaptives Blending verwendet. 

• Die durch das Morphing erzeugten Zwischenbilder werden automatisiert aus der 

WebGLallery als PNG-Datei exportiert. 

• Die Evaluation erfolgt über das im MGM integrierte Evaluationswerkzeug auf Basis 

von Batchdateien. 

• Als Grundlage für den Ähnlichkeitsvergleich dient der SSIM-Index (Structural SIMilarity) 

1 , der mithilfe der IQA-Bibliothek 2 berechnet wird. 

1 https://ece.uwaterloo.ca/~z70wang/research/ssim/, Zugriff am 8.11.2012 

2 http://tdistler.com/iqa/, Zugriff am 5.10.2012 

103

6 Evaluation 

• Die Evaluationsergebnisse werden mittels aussagekräftiger Diagramme, die auf den 

erzeugten CSV-Dateien basieren, grafisch präsentiert. 

Es ist zu beachten, dass die interpolierten Bilder bei t = 0.0 und t = 1.0 ebenfalls mit der 

Ground Truth verglichen werden. Bedingt durch die Darstellung über WebGL (und dem 

impliziten Einsatz von Texturfiltern) kann es dabei zu kleineren Unterschieden kommen, 

die sich aus einer leichten Bildunschärfe ergeben. 

6.4 Szene 1 


Abb. 6.1: Szene 1 - Ausgangs- und Zielbild 

Im Mittelpunkt der ersten Szene steht eine Raumecke, in der zwei Wände mit rauer 

Mauerstruktur aufeinandertreffen. Der Untergrund besitzt eine grobe, schotterähnliche 

Textur mit häufigen Helligkeitsunterschieden. Vor der Ecke ist ein schwarzes Buch mit 

markanter, roter Schrift und einem hellen Titelbild zu sehen. Der Fokus der Kamera liegt 

permanent auf dem Buch, während sie langsam nach links schwenkt und sich gleichzeitig 

der Ecke nähert (siehe Abb. 6.1). 

Diese Szene wurde hinsichtlich ihres Aufbaus absichtlich einfach gehalten, um die Ausgabequalität 

der eingesetzten Verfahren bei günstigen Bedingungen zu untersuchen. Es 

gibt keine nennenswerten Tiefensprünge und auch das Problem der Verdeckung tritt hier 

bestenfalls minimal an den Buchrändern auf. 

Evaluationsdaten: 

• Datensatz: Eval1 

• Raumszene: Eval1_1.max 

• Ausgangsbild: eval1_01.jpg 

• Zielbild: eval1_11.jpg 

104

6.4 Szene 1 

• Bildtiefe: eval1.p3p 

• Referenzbilder: eval1_01.jpg,eval1_02.jpg,...,eval1_11.jpg 

6.4.2 Interpolationsverfahren 

• Baryzentrische Interpolation 

• Shepard-Interpolation 

• Gauß-Interpolation 

• Bilaterale Interpolation (GaussColor) 

6.4.3 Konfigurationsparameter 

• Importmodus: Default (für 2D), P3P (für 3D) 

• Anzahl Stützstellen k: 3 bzw. 17 (2 Durchläufe, siehe unten) 

• Glättungfenster: 2 % der Bilddiagonale 

• Segmentgröße: 6 % der Bilddiagonale 

6.4.4 Vorverarbeitung/Zwischenergebnisse 

In Abbildung 6.2 ist das erzeugte Dreiecksnetz für beide Bilder abgebildet. Die Verteilung 

der Knotenpunkte ist relativ ungleichmäßig, weshalb die Dreiecksdichte und -größe 

teilweise stark variiert. Die segmentierten Quellbilder, die u.a. die Grundlage für die 

bilaterale Interpolation bilden, sind in Abbildung 6.3 zu sehen. 

Wie man in Abbildung 6.4 sieht, geben die erzeugten Tiefenmasken dank des grobmaschigen 

Dreiecksnetzes und der ungleichmäßig verteilten Stützpunkte die Tiefe der Szene 

nur näherungsweise wieder. 

Abb. 6.2: Szene 1 - Triangulierung 

105

6 Evaluation 

Abb. 6.3: Szene 1 - Segmentierte Quellbilder 

Abb. 6.4: Szene 1 - Tiefenmasken 

6.4.5 Ergebnisse 

Abb. 6.5: Szene 1 - Interpolierte Bildsequenz (baryzentrisch, k = 3, 2D) 

Die Evaluation der Szene erfolgte in vier Durchgängen, wobei zwei davon immer paarweise 

in 2D und 3D (d.h. mit Bildtiefe) stattfanden. Zuerst wurden die Interpolationsverfahren 

unter Verwendung der drei nächsten Stützstellen durchgeführt (k = 3, siehe Beispiel 6.5). 

Die Ergebnisse aus dem Vergleich sieht man in den Diagrammen in Abbildung 6.6 und 

auszugsweise in der Tabelle 6.1. Als Nächstes wurden die Korrespondenzfelder auf Basis 

der siebzehn nächsten Stützstellen erzeugt (k = 17, siehe Abb. 6.7 und Tab. 6.2). 

106

t Baryzentrisch Shepard Gauss GaussColor 

0.0 0,983001 0,983001 0,983001 0,983001 

0.1 0,812332 0,809543 0,808056 0,806932 

0.5 0,600169 0,609468 0,605553 0,594486 

6.4 Szene 1 

0.0 0,976068 0,976068 0,976068 0,976068 

0.1 0,804233 0,801683 0,800152 0,799055 

0.5 0,595895 0,59413 0,599744 0,590314 

Tab. 6.1: Szene 1 - Ähnlichkeitswerte für k = 3 (Auszug, oben 2D, unten 3D) 

Abb. 6.6: Szene 1 - Ähnlichkeit zur Ground Truth für k = 3 (links 2D, rechts 3D) 


0.0 0,976068 0,976068 0.976068 0.976068 

0.1 0,801818 0,786357 0,794749 0,800047 

0.5 0,587984 0,583926 0,605097 0,592753 

0.0 0,976068 0,976068 0.976068 0.976068 

0.1 0,800697 0,798975 0,791001 0,790879 

0.5 0,58943 0,586423 0,589004 0,564053 


6.4.6 Auswertung 

Zuallererst fällt in Abbildung 6.6 auf, dass die Ähnlichkeit der interpolierten Zwischenbilder 

zur Ground Truth bis ca. t = 0.5 deutlich sink und danach wieder ansteigt. Dieses 

107

6 Evaluation 


Verhalten muss als „normal“ betrachtet werden, da bei t = 0.5 der optische Abstand 

des interpolierten Bildes zu den beiden Quellbildern am größten ist. Für alle weiteren 

Testszenen ist deshalb ein ähnliches Verhalten zu erwarten. 

Man sieht in Abbildung 6.6, dass für k = 3 in dieser Szene keine größeren Unterschiede 

aufgetreten sind. Alle Verfahren liegen nah beieinander, was bedeutet, dass die Korrespondenzfelder 

von ähnlicher Güte sind. Die Hinzunahme der Bildtiefe als Interpolationsfaktor 

führt zu keiner nennenswerten Veränderung. 

Für k = 17 ändert sich dieses Bild geringfügig. Ohne die Einbindung der Bildtiefe liegen 

die Verfahren weiterhin nah beieinander. Sobald die Bildtiefe mit einbezogen wird, 

schneidet das GausColor-Verfahren (bilateral) etwas schlechter ab. 

Abb. 6.8: Szene 1 - Bildausschnitt bei baryzentrischer (links) und bilateraler Interpolation 

(rechts) für t = 0.5 

Nachträglich muss an dieser Stelle erwähnt werden, dass die Messergebnisse nicht unbedingt 

dem subjektiven Eindruck entsprechen. Sowohl die Rotation als auch der Zoom 

108

6.5 Szene 2 

wirken vergleichsweise authentisch, ohne dass störende Sprünge auftreten. Die besten 

Ergebnisse werden mit der baryzentrische Interpolation erreicht , da hier einerseits nur 

wenig Artefakte auftreten und andererseits das Bild relativ scharf bleibt. Als Beweis für 

diese Aussage zeigt Abbildung 6.8 einen Ausschnitt für den Zeitpunkt t = 0.5, jeweils 

für die baryzentrische Interpolation (k = 3, 2D) und die bilaterale Interpolation (k = 17, 

3D). 

6.5 Szene 2 



Gemäß der Abbildung 6.9 bilden in dieser Szene drei verschiedenfarbige Säulen, die 

ungleichmäßig vor einer hellen Wand aufgestellt sind, den Mittelpunkt. Analog zur ersten 

Szene ist auch hier der schotterähnliche Untergrund relativ dunkel gehalten. Die Säulen 

besitzen sehr markante Farben und Muster, durch die sie sich deutlich vom Hintergrund 

abheben können. Die holzfarbene sowie die blaue Säule befinden sich direkt vor der Wand, 

während die grüne Säule einen größeren Abstand zu dieser aufweist. 

Der Fokus der Kamera, die sich zu Beginn im linken Teil der Szene befindet, liegt in der 

Mitte zwischen den hinteren Säulen . Während der Sequenz schwenkt die Kamera auf die 

rechte Seite und entfernt sich dabei geringfügig. In der Endposition blickt der Betrachter 

frontal auf die Wand. 

Um den Einfluss der Farbdifferenz bei der bilateralen Interpolation evaluieren zu können, 

wurden in diese Szene bewusst starke Helligkeits- und Farbkontraste eingefügt. Zusätzlich 

sind in der Szene deutlich größere Tiefenunterschiede vorhanden, die sich insbesondere 

durch die verteilten Säulen ergeben. 




109

6 Evaluation 







• Shepard-Interpolation 





• Anzahl Stützstellen k: 3 bzw. 17 (2 Durchläufe, siehe unten) 




Abbildung 6.10 zeigt das Dreicksnetz im Bildraum, welches eine gute Knotendichte und 

-verteilung aufweist. In Abbildung 6.11 sieht man die segmentierten Quellbilder, die bei 

der Feldgenerierung verwendet wurden. Dank des dichten Dreiecksnetzes konnten relativ 

genaue Tiefenmasken erstellt werden, die die Szene gut wiedergeben (siehe Abb. 6.12). 


110

6.5 Szene 2 





Wie auch bei der ersten Szene erfolgte die Evaluation in insgesamt vier Durchläufen. 

Zuerst wurden die Daten für k = 3 einmal mit und einmal ohne Einbindungen der 

Bildtiefe erzeugt. Die Ergebnisse sieht man in Abbildung 6.14 und Tabelle 6.3. 

111

6 Evaluation 


0.0 0,965705 0,965705 0,965705 0,965705 

0.1 0,877232 0,871838 0,868243 0,865553 

0.5 0,702028 0,66823 0,6571 0,646331 

0.0 0,965705 0,965705 0,965705 0,965705 

0.1 0,867588 0,856429 0,858471 0,853692 

0.5 0,6745 0,626185 0,627698 0,609914 



Danach wurde der komplette Vorgang für k = 17 wiederholt, dessen Ergebnisse in Tabelle 

6.4 (Auszug) und in Abbildung 6.15 zu sehen sind. 


0.0 0,956234 0,956234 0,956234 0,956234 

0.1 0,866723 0,855476 0,863351 0,856391 

0.5 0,68014 0,630538 0,6476 0,628575 

0.0 0,956234 0,956234 0,956234 0,956234 

0.1 0,861877 0,854167 0,85701 0,843987 

0.5 0,666371 0,628236 0,618009 0,58405 

Tab. 6.4: Szene 2 - Ähnlichkeitswerte bei k = 17 (Auszug, oben 2D, unten 3D) 

112

6.5 Szene 2 



Gemäß der Diagramme in den Abbildungen 6.14 und 6.15 kann sich die baryzentrische 

Interpolation deutlich von den anderen Verfahren absetzen. Inbesondere im 2D-Fall 

werden hiermit die besten Ergebnisse erzielt. 

Die anderen Verfahren liegen dagegen in fast allen Durchläufen gleichauf (mit minimalen 

Abweichungen). Die bilaterale Interpolation liegt in allen Fällen unter den anderen 

Verfahren und fällt vorallem im 3D-Fall bei k = 17 deutlich ab. 

Abb. 6.16: Szene 2 - Artefaktbildung bei baryzentrischer und 

bilateraler Interpolation für t = 0.5 

Obwohl die SSIM-Werte deutlich über denen der ersten Szene liegen, muss an dieser Stelle 

darauf hingewiesen werden, dass die Artefaktbildung (v.a. Ghosting) hier deutlich stärker 

ausfällt und den subjektiven Gesamteindruck mindert. Besonders die grüne Säule im 

Vordergrund, an deren Rändern die Tiefendifferenz am größten ist, erweist sich während 

des Morphings als problematisch (siehe Abb. 6.16). 

113

6 Evaluation 

6.6 Szene 3 



Die Szene ähnelt vom Aufbau her der vorherigen Szene, da auch hier eine helle Wand 

sowie ein dunkler Boden die räumliche Grundlage bilden. Vor der Wand stehen drei frei 

verteilte Quader mit unterschiedlichen Farben und Strukturen. Diese Objekte wurden in 

verschieden großen Abständen zwischen Blickpunkt und Hintergrund positioniert, damit 

so ein möglichst guter Tiefeneffekt entsteht. Die Kamera fokussiert zu Beginn frontal die 

Wand und bewegt sich während der Animation nach rechts (siehe Abb.6.17), ohne dass 

es dabei zu einer Rotation kommt. 

Neben der Farbdifferenz steht bei diesem Testlauf vorallem die Wirkung der Tiefenunterschiede 

im Fokus der Betrachtung. Die drei farbigen Quader sind aus diesem Grund in 

unterschiedlichen großen Abständen zur Wand aufgestellt. Durch die Seitwärtsbewegung 

der Kamera soll zusätzlich der Aspekt der Tiefenparallaxe, durch den Objekte im Vordergrund 

eine größere Translation im Bild aufweisen als Objekte im Hintergrund, betrachtet 

werden. 










114

6.6 Szene 3 





• Anzahl Stützstellen k: 3, 23 




In Abbildung 6.18 ist das generierte Dreiecksnetz abgebildet, das eine sehr gute Dichte 

aufweist. In Bild 6.19 sind die gefilterten und segmentierten Quellbilder zu sehen, wie sie 

auch bei der Feldinterpolation verwendet wurden. 



Infolge der hohen Korrespondenzdichte konnten sehr detaillierte und klar konturierte 

Tiefenmasken von der Szene erzeugt werden (siehe Abb. 6.20). 

115

6 Evaluation 




Zunächst wurden die Verfahren für k = 3 mit und ohne Bildtiefe evaluiert, sodass ein 

direkter Vergleich zwischen der baryzentrischen Interpolation (siehe Beispiel Abb.6.21) 

und den anderen Methoden möglich wird. Die Ergebnisse sieht man in Abbildung 6.5 

sowie Tabelle 6.5. 

t Baryzentrisch Gauss GaussColor 

0.0 0,969989 0,969989 0,969989 

0.1 0,90197 0,896877 0,89661 

0.5 0,868076 0,866885 0,865563 

0.0 0,969989 0,969989 0,969989 

0.1 0,899354 0,89834 0,896751 

0.5 0,871744 0,862416 0,860893 


Um noch aussagekräftigere Ergebnisse zu erzielen, wurde der Prozess für k = 23 wiederholt. 

Die dazugehörigen Resultate findet man in der Abbildung 6.23 und der Tabelle 6.6. 

116

6.6 Szene 3 


t Baryzentrisch Gauss GaussColor 

0.0 0,957986 0,957986 0,957986 

0.1 0,897953 0,895705 0,890817 

0.5 0,83978 0,837869 0,844425 

0.0 0,957986 0,957986 0,957986 

0.1 0,89209 0,891212 0,888715 

0.5 0,866887 0,823875 0,841367 

Tab. 6.6: Szene 3 - Ähnlichkeitswerte bei k = 23 (Auszug, oben 2D, unten 3D) 


117

6 Evaluation 


Anhand der Diagramme sieht man, dass eine Auswertung hinsichtlich der Ähnlichkeit 

nur schwer möglich ist. Selbst bei der baryzentrischen Interpolation, die im Allgemeinen 

stabil interpoliert, lässt sich keine abschließende Bewertung abgeben. 

Auffallend ist zudem, dass die Ähnlichkeitswerte sehr hoch ausfallen und sich auch 

kein klassisches Gefälle („Tal“) ergibt. Stattdessen fällt zu Beginn bei den meisten 

Interpolationsverfahren die Ähnlichkeit sehr stark und stagniert danach auf einem hohen 

Niveau. 

Abb. 6.24: Szene 3 - Artefaktbildung bei t = 0.5 (links baryzentrisch, rechts bilateral) 

Wie auch bei der vorherigen Szene kam es bei diesem Testlauf zu auffälligen Artefakten, 

die sich aufgrund ihrer verhältnismäßig geringen Größe jedoch nicht in den Ergebnissen 

widerspiegeln. Vorallem der holzfarbene Block im Vordergrund weist während des Morphings 

größere Bildfehler (Ghosting) auf, die den subjektiven Gesamteindruck deutlich 

verschlechtern. Zur Veranschaulichung sieht man in Abbildung 6.24 das interpolierte Bild 

für t = 0.5 (baryzentrische und bilaterale Interpolation, k = 23, 2D). 

6.7 Problemanalyse - Bilaterale Interpolation 

Die Evaluation hat gezeigt, dass der Einsatz der bilateralen Interpolation im Vergleich zu 

anderen Verfahren nur einen geringen bzw. keinen Vorteil mit sich bringt. An dieser Stelle 

sollen hierfür mögliche Ursachen (technische, konzeptionelle) untersucht und diskutiert 

werden. Als Grundlage dient die dritte Testszene, da in dieser die aufgetretenen Artefakte 

am schwerwiegendsten waren. 

Folgende Aspekte werden in diesem Kontext betrachtet: 

• Inhomogenes Warping 

• Bilaterale Gewichtung 

• Inverse Mapping 

118

6.7 Problemanalyse - Bilaterale Interpolation 

6.7.1 Inhomogenes Warping 

Aufgrund der großen Bildtiefe und der damit einhergehenden Tiefenparallaxe, scheint 

das wesentliche Problem der dritten Szene die inhomogene Translation der Korrespondenzpunkte 

zu sein. Die Artefaktbildung fand dabei insbesondere am Rand des vorderen 

Blocks statt, wo der Tiefenunterschied zum Hintergrund am größten war. Wie man in 

Abbildung 6.25 erkennen kann, variieren die Korrespondenzvektoren sehr stark in ihrer 

Länge. 

Abb. 6.25: Szene 3 - Ausschnitt aus Ausgangs- und Zielbild, Korrespondenzen 

mit variierenden Offset-Vektoren (markiert durch Farbe) 

Für die Korrespondenzpunkte selbst ist dies kein Problem, denn diese sind naturgemäß 

in beiden Bildern definiert und sichtbar. Problematisch wird es mit den Bildteilen, 

die in nur einem der beiden Quellbilder sichtbar sind. Über die Gauß- bzw. Shepard- 

Interpolation bekommt man an diesen Stellen Verzerrungen, da diese Verfahren allein 

von der räumlichen Distanz zwischen den Punkten ausgehen. Die bilaterale Interpolation 

nutzt dagegen zusätzlich die Farbe und Tiefe im Bild, um eben diese Verzerrungen zu 

umgehen. An diesem Punkt ergibt sich das Problem der bilateralen Gewichtung. 

6.7.2 Bilaterale Gewichtung 

Für die Berechnung der Interpolationsgewichte an einem Punkt werden zunächst anhand 

der Farb- und Tiefendifferenzen Teilgewichte berechnet, sodass Stützstellen mit 

gleicher oder ähnlicher Farbe/Tiefe einen großen Einfluss bekommen. Durch Einbindung 

der räumlichen Distanz wird dafür gesorgt, dass weit entfernte Stützstellen insgesamt 

geringer gewichtet werden als solche, die in direkter Nachbarschaft liegen. Für die meisten 

Anwendungsszenarien ist diese Form der Feldinterpolation plausibel und funktional. 

Sobald jedoch Verdeckungen in den Quellbildern auftreten, kann es zur Fehlgewichtung 

der Stützstellen kommen. Das Problem liegt darin begründet, dass auch potentiell verdeckte 

Bereiche im Korrespondenzfeld interpoliert werden. Somit bekommt auch jeder 

119

6 Evaluation 

Bildpunkt, der im Zielbild nicht existiert, einen Translationsvektor zugewiesen und kann 

dadurch grundsätzlich abgebildet werden. In Abbildung 6.26 ist diese Situation illustriert. 

Abb. 6.26: Szene 3 - Interpolierte Feldvektoren im verdeckten Bildbereich (grün) 

6.7.3 Inverse Mapping 

Die prototypische Implementierung realisiert das Warping über das Inverse Mapping, weil 

das sog. Forward Mapping infolge von Ungenauigkeiten tendenziell zur Lückenbildung 

neigt. In diesem Fall wird also pro Bildpunkt im Zielbild ein Translationsvektor über das 

inverse Korrespondenzfeld bezogen und darüber das Ausgangsbild ausgelesen. 

Abb. 6.27: Szene 3 - Über Inverse-Mapping gewarpte Quellbilder für t = 1.0 

Obwohl dieser Ansatz der Bessere ist und auch von vielen anderen Morphing-Lösungen 

verwendet wird, kann es in Kombination mit fehlerhaft berechneten Translationsvektoren 

zur Artefaktbildung kommen. Ein Beispiel dafür sieht man in Abbildung 6.27, wo das 

Ausgangs- und Zielbild jeweils durch Warping der entgegensetzen Bilder berechnet wurde. 

Der Grund für die Verzerrungen und Risse sind fehlerhafte Translationsvektoren im 

Bereich der Verdeckung. Diese ergeben sich aus der geringen räumlichen und farblichen 

Distanz zu den Stützpunkten im Hintergrund, was zu einer Adaption der Verschiebung 

120

6.8 Gesamtauswertung 

führt. Da jedoch bereits die Vektoren des roten Blocks auf die gleichen Bildbereiche 

verweisen, ist Surjektivität die Folge. Durch Anwendung der inversen Korrespondenzfelder 

tritt nun der umgekehrte Fall ein. Es erfolgt eine injektive Abbildung, da für mehrere 

Bildpunkte das Ausgangsbild an derselben Stelle ausgelesen wird. 

6.8 Gesamtauswertung 

Die Evaluation der drei Testszenen hat gezeigt, dass Morphing zwischen zwei Bildern 

mithilfe dichter Korrespondenzfelder realisierbar ist und je nach Szenario sehr ansprechende 

Ergebnisse möglich sind. Einige Faktoren haben sich dabei als maßgebend für die 

finale Bildqualität erwiesen. 

• Möglichst viele Korrespondenzen 

• Möglichst gleichmäßig verteilte Korrespondenzpunkte 

• Möglichst homogene Bildtransformation 

• Möglichst keine Tiefenunterschiede (Idealfall: Ebene) 

• Möglichst keine Ver-/Aufdeckung von Bildteilen 

Je mehr eine Szene die genannten Faktoren beachtet, umso wahrscheinlicher ist ein 

optisch ansprechender Übergang zwischen dem Ausgangs- und Zielbild. 

Ein weiterer Aspekt, der zugleich Schwerpunkt der Evaluation war, sind die verwendeten 

Interpolationsmethoden und deren Eigenschaften (siehe Tabelle 6.7). 

Baryzentrisch Shepard Gauss GaussColor 

Qualität sehr gut bis gut bis gut bis gut bis schlecht 

mittelmäßig schlecht schlecht 

Flexibilität gering, strukturgebunden 

hoch hoch hoch 

Anzahl Stützstellen 

3 >= 1 >= 1 >= 1 

k 

Gewichtung Baryzentrische 

Koordinaten 

Distanz Distanz Distanz, Farbe, 

Tiefe 

Aufwand sehr gering gering gering hoch 

Formtreue gut bis mittelmäßimäßimäßig 

gut bis mittel- 

gut bis mittel- 

sehr gut bis 

mittelmäßig 

Verdeckung nein nein nein nein 

Tab. 6.7: Interpolationsmethoden - Vergleich 

121

6 Evaluation 

Aus der Übersicht ergibt sich der Schluss, dass von allen Methoden die baryzentrische 

Interpolation zu favorisieren ist. Speziell bei affinen Transformationen in der Ebene erhält 

man damit die besten Ergebnisse, vorallem wenn die oben genannten Faktoren beachtet 

wurden. Die Gauß- und Shepard-Interpolation sind gleichermaßen für die Feldinterpolation 

geeignet, nutzen jedoch allein die Distanzmetrik als Gewichtungsgrundlage und tendieren 

deshalb zu radialen Strukturen (äußert sich u.a. in Bildunschärfe und -zittern). 

Die im Kontext dieser Arbeit betrachtete bilaterale Interpolation muss als qualitativ 

gleichwertig zu den anderen strukturlosen Verfahren betrachtet werden. Zwar bleiben bei 

einfachen affinen Transformationen die Konturen und Formen besser erhalten, jedoch 

ergeben sich aufgrund der räumlichen Distanzmetrik die gleichen Probleme wie z.B. bei 

der Gauß-Interpolation. Darüber hinaus ist der Umgang mit verdeckten Bildbereichen 

ebenso problematisch wie bei anderen Ansätzen (siehe Problemanalyse 6.7). 

Insgesamt betrachtet ist die bilaterale Interpolation für die Berechnung eines dichten 

Korrespondenzfeldes genauso geeignet wie andere Verfahren, sodass sich durch deren 

Einsatz keine signifikanten Vor- oder Nachteile ergeben. 


Der Schwerpunkt dieses Kapitels lag auf der Evaluation der prototypischen Implementierung, 

wobei die dabei eingesetzten Interpolationsverfahren im Mittelpunkt standen. 

Beginnend mit einer allgemeinen Einführung und der Vorstellung der Rahmenbedingung, 

wurden nachfolgend verschiedene Beispielszenarien mitsamt der dazugehörigen 

Ergebnissdaten vorstellt und erläutert. Eine Problemanalyse sowie die anschließende 

Gesamtauswertung formten den Abschluss dieses Kapitels. 

122

7 Ergebnisse und Ausblick 

Gegenstand der vorliegenden Arbeit war die Konzeption und Implementierung einer 

Softwarelösung, die das Generieren und Präsentieren von Bildergalerien innerhalb einer 

webbasierten Umgebung ermöglicht. Eine zentrale Anforderung war dabei der Einsatz von 

bildbasierten Morphing-Techniken, durch die ein möglichst fließender Wechsel zwischen 

den Bildern realisiert werden sollte. 

Durch die Verwendung von dichten Korrespondenzfeldern zur Bildtransformation ergab 

sich die Notwendigkeit, entsprechende Interpolationsverfahren zu recherchieren, zu untersuchen 

und zu integrieren. Neben bekannten Ansätzen, die auf Basis der räumlichen 

Distanz und Struktur arbeiten, sollten weitere Ansätze implementiert werden, die darüber 

hinaus Farb- und Tiefenunterschiede bei der Interpolation beachten. 

7.1 Ergebnisse 

Durch die entwickelte Programmlösung ist man in der Lage, auf Basis einer beliebigen 

Bildmenge mithilfe der MGM-Anwendung Bildergalerien mitsamt dazugehöriger 

Morphing-Daten zu erzeugen und über das WebGLallery-Frontend in Echtzeit darzustellen. 

Speziell was den Aspekt des Morphings angeht, hat man hier auf vielfältige 

Weise die Möglichkeit, sowohl den Vorverarbeitungs- als auch den Darstellungsprozess zu 

beeinflussen. Um eine bessere Vorstellung zu bekommen, was die Stärken und Schwächen 

der prototypischen Implementierung sind, wurde diese in Tabelle 7.1 mit den im Vorfeld 

untersuchten Forschungsarbeiten verglichen. 

Die Evaluation im letzten Kapitel hat gezeigt, dass das angestrebte Morphing mittels 

dichter Korrespondenzfelder realisierbar ist und dabei durchaus optisch ansprechende 

Ergebnisse möglich sind. Die dabei für die Feldgenerierung verwendeten Verfahren spielen 

eine entscheidende Rolle, was die Güte der Feldvektoren und der daraus resultierende 

Bildqualität betrifft. 

Die favorisierte bilaterale Interpolation, die im Zuge der Konzeption vorgestellt und 

erläutert wurde, konnte sich diesbezüglich nicht gegen etablierte Verfahren wie der 

baryzentrische Interpolation durchsetzen. 

123


Image Morping for 

Space-Time Interpolation 

[SM07] 

Silhouette-Aware 

Warping for Image- 

Based Rendering 

[CSD11] 

Autoren Stich, Magnor Chaurasia, Sorkine, 

Drettakis 

Photo Tourism: Exploring 

Photo Collections 

in 3D [ea06] 

Snavely, Seitz, Szeliski Schubert 

Merkmalsbasiertes 

Morphing mittels 

dichter Korrespondenzfelder 

nein ja, Kamera, Geometrie ja, Kamera, Geometrie optional, Kamera, Geometrie 

Quellbilder beliebig kalibriert beliebig beliebig 

Szenenrekonstr. 

Prozess sequentiell, einfach sequentiell, komplex sequentiell, komplex sequentiell, mehrstufig 

Bilder pro 2 >= 4 >= 2 2 

Übergang 

Warping über Flussfelder, Inverse 

Mapping 

blickpunktabhängig, interpolierte 

Projektion, 

kein Warping, sondern 

blickpunktabhängiges 

Forward-Mapping Mesh-Rendering 

Blending einfach, adaptives Blending 

über Fehlermaske Fehlerwertberechnung, Polygon-Blending, 

komplex, Raycasting, einfach, lineares 

Texture-Blending distanzabhängig 

Verdeckungtolerangig 

von Szene) 

gering sehr hoch durchschnittlich (abhän- 

Blickpunkt festgelegt (interpoliert) variabel, abhängig von variabel, Bildsynthese 

Datensatz 

bei Bildpaaren 

Erhaltung von Kontu- 


echte Sichtinterpolation 

Vorteile flexibel, beliebige Bilder, 

einfach, Refinement 

über Optischen Fluss 

Nachteile ohne Bildtiefe, Verdeckung 

kritisch, nutzt nur 

Blending 

ren, Tiefenschichten, 

Verdeckungen möglich 

aufwendige Bildakquisition, 

manuelle Konturmarkierung, 

komplex 

Konturen werden ignoriert, 


kein Warping 

mittels dichter Korrespondenzfelder, 

Inverse 

Mapping 

einfach, optional adaptiv 

und Transition von 

t 

gering 

festgelegt (interpoliert) 


automatisiert, adapatives 

Blending 


nur eine Warping- 

Ebene 

Tab. 7.1: Vergleich - Forschungsarbeiten 

124

7.2 Alternativer Lösungsansatz 

Insgesamt betrachtet wurde das Ziel dieser Arbeit, eine voll funktionsfähige Softwarelösung 

zur Visualisierung von Bildergalerien unter Einbindung von Morphing zu entwickeln, 

erreicht. Der Forderung, während des Bildübergangs Farb- und Tiefenunterschiede zu 

berücksichtigen und korrekt darzustellen, konnte aus unterschiedlichen Gründen (siehe 

Evaluationsauswertung 6.8) nicht vollständig nachgekommen werden. 

An diesem Punkt lässt diese Arbeit Raum für die Formulierung und Umsetzung vielfältiger 

Optimierungsansätze, die sowohl von konzeptioneller als auch technischer Natur sein 

können. 

7.2 Alternativer Lösungsansatz 

Die Evaluation und die nachfolgende Problemanalyse hatten gezeigt, dass der Einsatz 

einer farb- und tiefensensitiven Feldinterpolation für das Morphing unter Beachtung 

tiefenräumlicher Aspekte (d.h. Verdeckung, Tiefenparallaxe) nicht hinreichend ist. 

Einen erweiterten Lösungsansatz stellt das Multilayer-Morphing dar. Bei diesem wird die 

Bildsynthese nicht direkt in der Bildebene realisiert, sondern über einzelne, tiefensortierte 

Segmentebenen. Der grundlegende Ansatz gestaltet sich dabei wie folgt: 

1. Die Quellbilder werden großflächig segmentiert und die so entstandenen Segmentebenen 

im Ausgangs- und Zielbild als Ebenenpaare organisiert. 

2. Für jedes Ebenenpaar wird separat eine Feature-und Korrespondenzsuche durchgeführt 

und anhand der in dieser Arbeit besprochenen Interpolationsverfahren dichte 

Korrespondenzfelder erzeugt. 

3. Zusätzlich werden pro Ebenenpaar auf Basis des orginalen Ausgangs- und Zielbildes 

temporäre Quellbilder erzeugt, die nur die durch die Segmentierung erfassten 

Bildbereiche beinhalten. 

4. Es findet auf Basis der Bildtiefe eine Sortierung der Segmentebenen nach dem 

Back-to-Front-Prinzip statt. 

5. Das Morphing wird pro Ebenenpaar unter Verwendung der temporären Quellbilder 

separat ausgeführt und die dabei entstandenen Zwischenbilder im letzten Schritt 

übereinander geblendet. 

7.3 Ausblick 

Morphing hat sich im Laufe der letzten dreißig Jahre von einer anfänglichen Randdisziplin, 

die nur von wenigen Experten beherrscht wurde, zu einem weit verbreiteten 

Standardverfahren in der Computergrafik entwickelt. Von der Fähigkeit, statische Bilder 

125


fließend ineinander übergehen zu lassen und so z.B. die Metamorphose von Wesen optisch 

darzustellen, wird heute in vielen Bereichen der Wissenschaft und Industrie Gebrauch 

gemacht. Insbesondere die Filmindustrie ist auf entsprechende Verfahren angewiesen, um 

so einerseits möglichst ansprechende Filme produzieren zu können und andererseits die 

Produktionskosten niedrig zu halten. 

Dank des kontinuierlichen Anstiegs der allgemeinen Speicher- und Rechenleistung sowie 

der Einbindung fortschrittlicher Parallelarchitekturen (z.B. CUDA-Cluster) sind Computersysteme 

bereits heute in der Lage, aufwendige Morphing-Sequenzen in wenigen 

Minuten zu berechnen. Darüber hinaus kann seit einigen Jahren eine Zunahme an neuartigen 

Technologien im Bereich der optischen Systeme beobachtet werden, durch die 

schon jetzt die Aufnahme und Wiedergabe hochaufgelöster Bild- und Filmsequenzen 

unter Verwendung von Kalibrierungs- und Tiefendaten möglich sind (z.B. stereoskopische 

Filme). 

Diese Entwicklungen erlauben es der Wissenschaft und der Industrie, durch die Einbindung 

von Tiefeninformationen neue Ansätze für eine noch authentischere Bildsynthese zu 

erforschen. In dieser Hinsicht ist davon auszugehen, dass auch in Zukunft Neu- und 

Weiterentwicklungen im Bereich des bildbasierten Morphings stattfinden werden. 

126

Abbildungsverzeichnis 

1.1 Black or White - Musikvideo [MJJL91] . . . . . . . . . . . . . . . . . . . . 1 

2.1 Black or White - Teilschritte für t = 0.5 [CL12, MJJL91] . . . . . . . . . . 6 

2.2 Transitionsfunktionen zur Abbildung von t auf t ′ (von links nach rechts): 

D(t) = t, D(t) = t 2 , D(t) = t (1/(1+sin(t∗π))) , D(t) = 1 2 + 1 2cos(π(t + 1)) . . 6 

2.3 Parametrisiertes Warping - Beispiele [CL11] . . . . . . . . . . . . . . . . . 7 

2.4 Schema - Forward Mapping [CL11] . . . . . . . . . . . . . . . . . . . . . . 9 

2.5 Schema - Inverse Mapping [CL11] . . . . . . . . . . . . . . . . . . . . . . . 9 

2.6 Gitterbasiertes Warping: Korrespondierende Gitterstrukturen [FDBF06] . 9 

2.7 Dreiecksbasiertes Warping: Dreiecks-zu-Dreiecks-Korrespondenz in beiden 

Bildern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 

2.8 Feldbasiertes Warping: Korrespondierende Kontrolllinien [CL12] . . . . . . 11 

2.9 Beier-Neely Algorithmus: Berechnung von Punkt X ′ [BN92, CL12] . . . . 11 

2.10 Radiale Basisfunktionen: 1D-Interpolation [FDBF06] . . . . . . . . . . . . 12 

2.11 Hunger (1974) [NFBoC] . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 

2.12 Willow (1988) [GLRHJJNW88] . . . . . . . . . . . . . . . . . . . . . . . . 15 

2.13 Black or White (1991) [MJJL91] . . . . . . . . . . . . . . . . . . . . . . . 16 

2.14 Terminator 2: Judgment Day (1992) [JCWWJSAGAH92] . . . . . . . . . 16 

2.15 The Matrix (1999) [AWLWJS99] . . . . . . . . . . . . . . . . . . . . . . . 17 

3.1 Links Ausgangsbild, rechts Zielbild [SM07] . . . . . . . . . . . . . . . . . . 19 

3.2 Fehlermaske (fehlerhafte Bereiche sind weiß) [SM07] . . . . . . . . . . . . 19 

3.3 Vergleich - links lineares Blending, rechts adaptives Blending [SM07] . . . 20 

3.4 Übersicht über die zentralen Teilschritte des vorgestellten Ansatzes [CSD11] 22 

3.5 Silhouetten-abhängige Unterteilung des vorhandenen Dreiecksnetzes [CSD11] 23 

3.6 Rendering: (a) Warping (b) Texturkomposition (c) Blending (d) Bildoptimierung 

mittels Poisson-Synthese [CSD11] . . . . . . . . . . . . . . . . . . 24 

3.7 Links Strahlentest zur Bildauswahl, rechts gewarptes Bild mit elastischem 

Band (rot) und Freiflächen (blau) [CSD11] . . . . . . . . . . . . . . . . . . 25 

3.8 Quellbildmenge (links), Korrespondenzen (mitte), rekonstruierte Szene 

(rechts) [ea06] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 

3.9 Minikarte (mit grünem Standortsymbol) als Navigationshilfe [ea06] . . . . 28 

4.1 Strukturierung einer Bildmenge als Graph . . . . . . . . . . . . . . . . . . 35 

127


4.2 Bildpaar (I a , I b ) mit Korrespondenzen (farbig), erzeugtes Korrespondenzfeld 

F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 

4.3 Baryzentrische Interpolation - Schema . . . . . . . . . . . . . . . . . . . . 39 

4.4 Bilineare Interpolation - Schema . . . . . . . . . . . . . . . . . . . . . . . 40 

4.5 Unnormalisierte Gauß-Funktion G für r max = 11.0 . . . . . . . . . . . . . 42 

4.6 Bilateraler Filter - Beispiel [SP07] . . . . . . . . . . . . . . . . . . . . . . 43 

4.7 Bilateraler Bildfilter - Schema [DD02] . . . . . . . . . . . . . . . . . . . . 43 

4.8 Bilaterale Interpolation - Beispiel: p wird aufgrund der gleichen Farbe 

stärker von c 1 und c 2 beeinflusst als von c 3 . . . . . . . . . . . . . . . . . 44 


4.10 Gesamtstruktur - Details . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 

4.11 Vorverarbeitung - Struktur . . . . . . . . . . . . . . . . . . . . . . . . . . 46 

4.12 Import - Struktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 

4.13 Korrespondierendes Punktpaar (rot markiert) mit 3D-Position . . . . . . 47 

4.14 Datenaufbereitung - Struktur . . . . . . . . . . . . . . . . . . . . . . . . . 48 

4.15 Beispiel - Bildanpassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 

4.16 Bildmodifikation - Original (a), nach Glättung (b), nach Segmentierung (c) 49 

4.17 Triangulierung: Korrespondierende Dreiecke . . . . . . . . . . . . . . . . . 50 

4.18 Datenerzeugung - Struktur . . . . . . . . . . . . . . . . . . . . . . . . . . 50 

4.19 Raycasting bei ideal rekonstruiertem Mesh (a) invertierte Tiefenmaske (b) 51 

4.20 Die durch Punktabtastung berechneten Farbdifferenzen führen dazu, dass 

a 2 höher gewichtet wird als a 1 . . . . . . . . . . . . . . . . . . . . . . . . . 52 

4.21 Äquidistantes Abtasten der Farben auf den Verbindungslinien zwischen p 

und a 1 /a 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 

4.22 Export - Struktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 

4.23 Präsentation - Struktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 

4.24 Navigation - Bildknoten mit Hotspots . . . . . . . . . . . . . . . . . . . . 58 

4.25 Sigmoidfunktion S e (x): e = 100 (blau), e = 1 (grün), e = 0,1 (rot), e = 

0,01 (violett) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 

5.1 Implementierung - Vorverarbeitung und Präsentation . . . . . . . . . . . . 62 

5.2 P3P-Datei - Grundstruktur . . . . . . . . . . . . . . . . . . . . . . . . . . 63 

5.3 P3P-Frame - Aufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 

5.4 P3P-Format: Ausgeführtes Exportskript in Autodesk 3ds Max . . . . . . . 64 

5.5 Korrespondenzfeld-Kodierung: Ausgangs- und Zielbild (1, 2), HSV- 

Kodierung (3), RGB-Separierung (4, 5), ARGB-Splitting (6) . . . . . . . . 68 

5.6 MorphGraphMaker - Gesamtstruktur . . . . . . . . . . . . . . . . . . . . . 72 

5.7 Datenschicht - Struktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 

5.8 Importmodul - Struktur und Teilbereiche . . . . . . . . . . . . . . . . . . 73 

5.9 Mesh-Rekonstruktion: Ausgangsbild (1), Dreiecksnetz im Bildraum (2), 

Mesh im Objektraum (3), Octree mit Polygon-Patches (4) . . . . . . . . . 74 

128


5.10 Datenerzeugung - Struktur und Teilbereiche . . . . . . . . . . . . . . . . . 75 

5.11 Bildmodifikation (links nach rechts): Original, geglättet, segmentiert . . . 75 

5.12 Datenerzeugung - Interpolationsmodule . . . . . . . . . . . . . . . . . . . 76 

5.13 Fehlermaske: Ausgangs- und Zielbild, generierte Fehlermaske (invertiert) . 77 

5.14 Exportmodul - Struktur und Teilbereiche . . . . . . . . . . . . . . . . . . 78 

5.15 Klassenhierarchie - Feldexport . . . . . . . . . . . . . . . . . . . . . . . . . 78 

5.16 Evaluation - Struktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 

5.17 MGM - Hauptdialog . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 

5.18 MGM - Prozesskonfiguration . . . . . . . . . . . . . . . . . . . . . . . . . 83 

5.19 MGM - Exportkonfiguration . . . . . . . . . . . . . . . . . . . . . . . . . . 83 

5.20 MGM - Evaluationsdialog . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 

5.21 Evaluationsergebnisse in LibreOffice 3.6.3 Calc . . . . . . . . . . . . . . . 91 

5.22 WebGLallery - Screenshot . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 

5.23 WebGLallery - Gesamtstruktur . . . . . . . . . . . . . . . . . . . . . . . . 94 

5.24 Präsentationsmodus - Zustandsmodell . . . . . . . . . . . . . . . . . . . . 96 

5.25 Renderer - Schematischer Aufbau . . . . . . . . . . . . . . . . . . . . . . . 96 

5.26 WebGLallery - Selektionsmodus . . . . . . . . . . . . . . . . . . . . . . . . 99 

5.27 WebGLallery - Präsentationsmodus . . . . . . . . . . . . . . . . . . . . . . 100 

5.28 WebGLallery - Kontrollmenü . . . . . . . . . . . . . . . . . . . . . . . . . 101 

6.1 Szene 1 - Ausgangs- und Zielbild . . . . . . . . . . . . . . . . . . . . . . . 104 

6.2 Szene 1 - Triangulierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 

6.3 Szene 1 - Segmentierte Quellbilder . . . . . . . . . . . . . . . . . . . . . . 106 

6.4 Szene 1 - Tiefenmasken . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 

6.5 Szene 1 - Interpolierte Bildsequenz (baryzentrisch, k = 3, 2D) . . . . . . . 106 

6.6 Szene 1 - Ähnlichkeit zur Ground Truth für k = 3 (links 2D, rechts 3D) . 107 

6.7 Szene 1 - Ähnlichkeit zur Ground Truth für k = 17 (links 2D, rechts 3D) 108 

6.8 Szene 1 - Bildausschnitt bei baryzentrischer (links) und bilateraler Interpolation 

(rechts) für t = 0.5 . . . . . . . . . . . . . . . . . . . . . . . . . . 108 








6.16 Szene 2 - Artefaktbildung bei baryzentrischer und bilateraler Interpolation 

für t = 0.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 




129






6.24 Szene 3 - Artefaktbildung bei t = 0.5 (links baryzentrisch, rechts bilateral) 118 

6.25 Szene 3 - Ausschnitt aus Ausgangs- und Zielbild, Korrespondenzen mit 

variierenden Offset-Vektoren (markiert durch Farbe) . . . . . . . . . . . . 119 

6.26 Szene 3 - Interpolierte Feldvektoren im verdeckten Bildbereich (grün) . . 120 

6.27 Szene 3 - Über Inverse-Mapping gewarpte Quellbilder für t = 1.0 . . . . . 120 

130

Tabellenverzeichnis 

3.1 Vergleich - Forschungsarbeiten . . . . . . . . . . . . . . . . . . . . . . . . 33 

5.1 Elemente des WGL-Formats . . . . . . . . . . . . . . . . . . . . . . . . . . 66 

5.2 Batch-Modus: Globale Parameter . . . . . . . . . . . . . . . . . . . . . . . 88 

5.3 Batch-Modus: Graphparameter . . . . . . . . . . . . . . . . . . . . . . . . 88 

5.4 Batch-Modus: Exportparameter . . . . . . . . . . . . . . . . . . . . . . . . 89 

5.5 Batch-Modus: Prozessparameter . . . . . . . . . . . . . . . . . . . . . . . 89 

6.1 Szene 1 - Ähnlichkeitswerte für k = 3 (Auszug, oben 2D, unten 3D) . . . . 107 

6.2 Szene 1 - Ähnlichkeitswerte für k = 17 (Auszug, oben 2D, unten 3D) . . . 107 


6.4 Szene 2 - Ähnlichkeitswerte bei k = 17 (Auszug, oben 2D, unten 3D) . . . 112 


6.6 Szene 3 - Ähnlichkeitswerte bei k = 23 (Auszug, oben 2D, unten 3D) . . . 117 

6.7 Interpolationsmethoden - Vergleich . . . . . . . . . . . . . . . . . . . . . . 121 

7.1 Vergleich - Forschungsarbeiten . . . . . . . . . . . . . . . . . . . . . . . . 124 

131

Literaturverzeichnis 

[ACOL00] 

[AWLWJS99] 

[BN92] 

[CDK99] 

Marc Alexa, Daniel Cohen Or, and David Levin. As-Rigid-As- 

Possible Shape Interpolation. SIGGRAPH 2000 Conference Proceedings, 

pages 157—-164, 2000. 

Andy Wachowski, Larry Wachowski, and Joel Silver. The Matrix. 

Warner Bros. Pictures, 1999. 

Thaddeus Beier and Shawn Neely. Feature-based image metamorphosis. 

SIGGRAPH Comput. Graph., 26(2):35–42, 1992. 

Baoquan Chen, Frank Dachille, and Arie Kaufman. Forward image 

warping. IEEE Visualization’99 conference proceedings, 1999. 

[CK08] Christoph Kürz. Radiale-Basis-Funktionen. http://www. 

scai.fraunhofer.de/fileadmin/ArbeitsgruppeTrottenberg/ 

WS0809/seminar/Kuerz.pdf, 2008. zuletzt abgerufen am 

27.10.2012. 

[CL11] 

[CL12] 

[CSD11] 

[DD02] 

[ea06] 

I Chen Lin. Warping and Morphing. http://www.cs.nccu.edu. 

tw/~mtchi/cg11/cg11-07-morphing.ppt, 2011. zuletzt abgerufen 

am 29.8.2012. 

I Chen Lin. Warping and Morphing. In Introduction to Computer 

Graphics. National Chiao Tung University, Taiwan, 2012. 

Gaurav Chaurasia, Olga Sorkine, and George Drettakis. Silhouetteaware 

warping for image-based rendering. Computer Graphics 

Forum (Proceedings of the Eurographics Symposium on Rendering), 

30(4), 2011. 

Frédo Durand and Julie Dorsey. Fast bilateral filtering for the 

display of high-dynamic-range images. In Proceedings of the 29th 

annual conference on Computer graphics and interactive techniques, 

SIGGRAPH ’02, pages 257–266, New York, NY, USA, 2002. ACM. 

Snavely et al. Photo tourism: exploring photo collections in 3d. In 

ACM SIGGRAPH 2006 Papers, SIGGRAPH ’06, pages 835–846, 

New York, NY, USA, 2006. ACM. 

132

[eB12] 

[FB87] 


eric Brachmann. Cosegmentation based Image Graphs for Descriptor 

Expansion and Reduction. Thesis, University of Technology 

Dresden, Dept. of Computer Science, Chair of Computer Graphics 

and Visualization, 2012. 

Martin A. Fischler and Robert C. Bolles. Readings in computer 

vision: issues, problems, principles, and paradigms. In Martin A. 

Fischler and Oscar Firschein, editors, Readings in computer vision: 

issues, problems, principles, and paradigms, chapter Random sample 

consensus: a paradigm for model fitting with applications to 

image analysis and automated cartography, pages 726–740. Morgan 

Kaufmann Publishers Inc., San Francisco, CA, USA, 1987. 

[FDBF06] Frédo Durand and Bill Freeman. Image Warping and Morphing. 

http://groups.csail.mit.edu/graphics/classes/ 

CompPhoto06/html/lecturenotes/14_WarpMorph_6.pdf, 2006. 

zuletzt abgerufen am 12.9.2012. 

[fil] 

[GLRHJJNW88] 

filmsite.org. Film Milestones in Visual and Special Effects. http: 

//www.filmsite.org/visualeffects13.html. zuletzt abgerufen 

am 1.9.2012. 

George Lucas, Ron Howard, Joe Johnston, and Nigel Wooll. Willow. 

Metro-Goldwyn-Mayer, 1988. 

[GM98] C. A. Glasbey and K. V. Mardia. A review of image-warping 

methods. Journal of Applied Statistics, 25(2):155–171, 1998. 

[GS98] 

[GW98] 

[HZ04] 

Peisheng Gao and Thomas W. Sederberg. A work minimization 

approach to image morphing. The Visual Computer, 14(8/9):390– 

400, 1998. 

George Wolberg. Image morphing: a survey. The Visual Computer, 

14(8/9):360–372, 1998. 

R. I. Hartley and A. Zisserman. Multiple View Geometry in Computer 

Vision. Cambridge University Press, ISBN: 0521540518, second 

edition, 2004. 

[JCWWJSAGAH92] James Cameron, William Wisher Junior, Stephanie Austin, and 

Gale Anne Hurd. Terminator 2: Judgment Day. TriStar Pictures, 

1992. 

[LCS95] 

Seung-Yong Lee, Kyung-Yong Chwa, and Sung Yong Shin. Image 

metamorphosis using snakes and free-form deformations. In Proceedings 

of the 22nd annual conference on Computer graphics and 

133


[Low04] 

[MJJL91] 

[ML09] 

interactive techniques, SIGGRAPH ’95, pages 439–448, New York, 

NY, USA, 1995. ACM. 

David G. Lowe. Distinctive image features from scale-invariant 

keypoints. Int. J. Comput. Vision, 60(2):91–110, November 2004. 

Michael Jackson(Artist) and John Landis(Director). Black or White. 

Epic Records, 1991. 

Marius Muja and David G. Lowe. Fast approximate nearest neighbors 

with automatic algorithm configuration. In International Conference 

on Computer Vision Theory and Application VISSAPP’09), 

pages 331–340. INSTICC Press, 2009. 

[NFBoC] National Film Board of Canada. Hunger, Peter Foldès. http: 

//www.nfb.ca/film/hunger. zuletzt abgerufen am 29.8.2012. 

[NRCoC] 

[PD84] 

[PDGS] 

[PKTD07] 

[RAASKS + 12] 

[SASEJK09] 

National Research Council of Canada. Retired NRC Scientists 

Burtnyk and Wein honoured as Fathers of Computer Animation 

Technology in Canada. http://www.ieee.ca/millennium/ 

computer_animation/animation_honoured.html. zuletzt abgerufen 

am 29.8.2012. 

Thomas Porter and Tom Duff. Compositing digital images. Computer 

Graphics 18, pages 253—-259, 1984. 

Prof. Dr. Gunnar Schmidt. Zeit des Ereignisses — Zeit der Geschichte. 

http://www.medienaesthetik.de/medien/zentrorama.html. 

zuletzt abgerufen am 1.9.2012. 

Sylvain Paris, Pierre Kornprobst, Jack Tumblin, and Frédo Durand. 

A gentle introduction to bilateral filtering and its applications. In 

ACM SIGGRAPH 2007 courses, SIGGRAPH ’07, New York, NY, 

USA, 2007. ACM. 

Radhakrishna Achanta, Appu Shaji, Kevin Smith, Aurelien Lucchi, 

Pascal Fua, and Sabine Susstrunk. Slic Superpixels Compared 

to State-of-the-Art Superpixel Methods. IEEE Transactions on 

Pattern Analysis and Machine Intelligence, 34(11):2274–2282, 2012. 

Scott A. Sarra and Edward J. Kansa. Multiquadric Radial Basis 

Function Approximation Methods for the Numerical Solution of Partial 

Differential Equations. http://www.scottsarra.org/math/ 

papers/mqMonographSarraKansa.pdf, 2009. zuletzt abgerufen am 

29.10.2012. 

[She68] Donald Shepard. A two-dimensional interpolation function for 

irregularly-spaced data. In Proceedings of the 1968 23rd ACM 

134

[SM07] 

[SP07] 


national conference, ACM ’68, pages 517–524, New York, NY, USA, 

1968. ACM. 

Timo Stich and Marcus Magnor. Image morphing for space-time 

interpolation. In ACM SIGGRAPH 2007 sketches, SIGGRAPH 

’07, New York, NY, USA, 2007. ACM. 

MIT CSAIL Sylvain Paris. Fixing the Gaussian Blur: The Bilateral 

Filter. In Introduction to Computer Graphics. SIGGRAPH 2007, 

2007. 

[SYLKYCJHSYS96] Seung-Yong Lee, Kyung-Yong Chwa, James Hahn, and Sung Yong 

Shin. Image Morphing Using Deformation Techniques. The Journal 

of Visualization and Computer Animation, 7(1):3–23, 1996. 

[Wol96] 

[WTP + 09] 

George Wolberg. Recent advances in image morphing. In Proceedings 

of the 1996 Conference on Computer Graphics International, 

CGI ’96, pages 64–71, Washington, DC, USA, 1996. IEEE Computer 

Society. 

Manuel Werlberger, Werner Trobin, Thomas Pock, Andreas Wedel, 

Daniel Cremers, and Horst Bischof. Anisotropic Huber- 

L1 Optical Flow. In Proc. BMVC, pages 108.1–108.11, 2009. 

doi:10.5244/C.23.108. 

135

Diplomarbeit - Faculty of Computer Science - Technische Universität ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?