Synsvinkeltransformation af ansigter

Virtual Photography 

Synsvinkeltransformation af ansigter 

Af: Rune Andersen 

Vejleder: Jens Arnspang 

Datalogi, Københavns Universitet. 

D. 14. juni 2002

RUNE ANDERSEN SYNSVINKELTRANSFORMATION AF ANSIGTER FORÅR 2002 

Resumé: 

Forskellige synsvinkler af en opstilling bliver benyttet inden for mange forskellige områder, 

bl.a. modelbaseret kodning til videokonference, objektgenkendelse, videosikkerhedssystemer, 

gennemsøgning af digitalbillede biblioteker, menneske-maskine samspil og 

augmentet reality (optagelser af virkelige omgivelser med kunstigt indsatte genstande). 

I en videokonference opstilling, hvor kameraet er placeret oven på skærmen, er brugerens 

fokus på skærmen, og blikket rettet mod billedet af personen på skærmen. Her er problemet, 

at der ikke er øjenkontakt med personen der tales med. Hvis billedet kan roteres, så blikket er 

mod kameraet, kunne det skabe en større nærhed i samtalen. 

Opgavens formål er at se på teknikker til at indfange et virkeligt objekt (et ansigt) og vise det 

fra vilkårlige vinkler. Dette gøres ofte ved at generere en fuld 3D geometrisk model af 

objektet og benytte almindelige 3D teknikker til at visualisere. Problemet med disse metoder 

er imidlertid, at det ikke er ligetil at danne en 3D model af et objekt eller sceneopstilling, og 

ofte meget vanskeligt ved komplekse objekter, specielt hvis der kun benyttes et kamera. 

Alternativt til disse teknikker kan man benytte en billedbaseret metode, hvor man i stedet 

benytter en række reference billeder fra forskellige vinkler til at danne billeder fra vilkårlige 

vinkler. 

Opgaven ser på nogle forskellige billedbaserede metoder til at visualisere objekter og 

omgivelser. To metoder er implementeret. Desuden er en ansigtstracker implementeret, da det 

viste sig at en en billedbaseret metode ikke umiddelbart kunne anvendes til at konstruere et 

billede fra et virtueltkamera placeret i skærmen. Ændring af synsvinklen af ansigtet er ikke 

løst for videokonference opstillingen. En mulig løsning foreslås baseret på tilpasning til en 3D 

model af et ansigt. 

SIDE 2


Indholdsfortegnelse 

INDLEDNING..............................................................................................................5 

Motivation til opgaven..............................................................................................5 

Problemstillingen .....................................................................................................6 

TEORI, ANALYSE OG OVERVEJELSER..................................................................7 

Billeddannelse .........................................................................................................7 

RADIOMETRI ................................................................................................................... 9 

PERSPEKTIVKAMERAET................................................................................................. 10 

STEREOPSIS OG EPIPOLÆR GEOMETRI ............................................................................ 13 

Forsøgsopstilling ...................................................................................................15 

Opsummering........................................................................................................17 

DEL 1. 2D MORPH METODE..................................................................................18 

View morphing.......................................................................................................18 

Forsøg og implementation.....................................................................................21 

MULTILEVEL FREE-FORM DEFORMATIONS ................................................................... 22 

IMPLEMENTATION AF MFFD......................................................................................... 26 

Opsummering........................................................................................................27 

DEL 2. SYNSVINKELEKSTRAPOLERING..............................................................27 

View interpolation ..................................................................................................27 

View ekstrapolation ...............................................................................................30 

Korrespondancer mellem billeder..........................................................................32 

KORRELATIONS BASERET KORRESPONDANCE................................................................ 33 

KENDETEGNSBASERET KORRESPONDANCE.................................................................... 33 

KORRESPONDANCER VED EN SEKVENS AF BILLEDER ..................................................... 34 

Forsøg og implementation.....................................................................................35 

VIEW EKSTRAPOLATION ................................................................................................ 35 

EN HJØRNEDETEKTOR.................................................................................................... 38 

TRACKING OVER EN SERIE BILLEDER............................................................................. 39 

Opsummering........................................................................................................41 

DEL 3. ANSIGTSORIENTEREDE METODER .........................................................42 

SIDE 3


Ansigtstracking og identifikation af kendetegn.......................................................45 

To-spalte kameramodellen ....................................................................................47 

Forsøg ...................................................................................................................49 

Opsummering........................................................................................................52 

TEST OG RESULTATER .........................................................................................53 

Test af multilevel free form deformations (MFFD) .................................................53 

Test af hjørnedetektor ...........................................................................................55 

Test af featuretracker ............................................................................................57 

Test af ansigtstracker ............................................................................................61 

Test af øjedetektor.................................................................................................63 

Test af to-spalte kamera........................................................................................64 

Opsummering........................................................................................................65 

DISKUSSION............................................................................................................66 

KONKLUSION..........................................................................................................67 

PERSPEKTIVERING................................................................................................68 

LITTERATURLISTE .................................................................................................70 

APPENDIKS .............................................................................................................73 

Ordliste ..................................................................................................................73 

Vejledning til eksempelprogrammer ......................................................................73 

Kildekode oversigt .................................................................................................76 

SIDE 4


Indledning 

Virtual photography er en betegnelse for det emneområde, der beskæftiger sig med kunstigt 

konstruerede billeder af virkelige/naturlige ting. 

Forskellige synsvinkler af en opstilling bliver benyttet inden for mange forskellige områder, 

bl.a. modelbaseret kodning til videokonference, objektgenkendelse, videosikkerhedssystemer, 

gennemsøgning af digitalbillede biblioteker, menneske-maskine samspil og 

augmentet reality (optagelser af virkelige omgivelser med kunstigt indsatte genstande). 

Indenfor objektgenkendelse bliver flere forskellige synsvinkler anvendt bl.a. til at lette 

genkendelsen af objekter fra flere forskellige vinkler. Det er således en fordel, hvis man kan 

beregne sig frem til nogle af de mellemliggende billeder – i stedet for at skulle optage dem. 

Det gælder fx videoovervågning, hvor ansigter findes i en videoovervågnings billedstrøm og 

derefter roteres til en normal positur for at lette genkendelsen. 

I en videokonference opstilling, hvor kameraet er placeret oven på skærmen, er brugerens 

fokus på skærmen, og blikket rettet mod billedet af personen i den anden ende. Her er 

problemet, at der ikke er øjenkontakt med personen i den anden ende. Hvis billedet kan 

roteres, så blikket er mod kameraet, kunne det skabe en større nærhed i samtalen. 

Målet med opgaven er at implementere et system, der kan beregne billedet af ansigtet som det 

ville se ud taget af et virtuelt kamera placeret "i skærmen". 

2D-billeder af ansigter indeholder information nok til, at mennesker kan opfatte dybde, og der 

eksisterer forskellige metoder, der til en vis grad kan beregne dybder og former. Det er muligt 

at konstruere en (delvis) 3D-model ud fra et billede, eller en serie billeder, men det er meget 

beregningsintensivt. Et mål er at undersøge hvor meget information det er nødvendigt at 

beregne og hvilke teknikker, der er nødvendige for at opnå et resultat, der giver "fysisk 

korrekte" billeder, som hvis de faktisk var taget fra den beregnede vinkel. 

Motivation til opgaven 

Computervision området har en masse uløste problemer (Pfeifer & Scheier 1999), som fx 

generel genkendelse – det menneskelige syn er stadig det bedste, der findes; den 

menneskelige hjerne arbejder optimalt, og genkender og husker billeder utroligt godt, selvom 

dennes (clock) hastighed (hvis man kan tale om en sådan for nerveceller) overgås med et par 

størrelsesordner af nuværende computere. At den menneskelige hjerne på dette felt er 

overlegen kan betyde, at der er mange opdagelser, der endnu ikke er gjort, og at man ved 

snedige overvejelser kan sammensætte nogle eksisterende teknikker og opnå nye resultater. 

Et andet aspekt er alle de anvendelser, og afledte anvendelser af den tilegnede viden, der er 

mulige ved en sådan problemstilling. I første overvejelse kan selve videokonference 

problemstillingen gøres mere "nær". Ved almindelig samtale mellem mennesker ser man som 

SIDE 5


regel samtalepartneren i øjnene og den mimik, der udveksles indbyrdes, er en del af samtalen, 

som udover selve informationerne i ordene giver informationer, der kan tolkes som 

troværdighed, humør etc. Meget af informationen viderebringes af eksisterende løsninger, 

men øjenkontakten er ofte ikke eksisterende, undtagen i specielopstillinger (i stil med tvnyheders 

teleprompter). Håbet er at opnå en større fornemmelse af, at videokonferencen er en 

samtale, som hvis man var i samme rum og ikke en videokonference. 

Det spændende er her, at man i første omgang forsøger at løse et kommunikationsproblem på 

en teknisk facon, der giver nogle nye kommunikationsproblemer som er af mindre teknisk 

størrelse, som – igen – forsøges løst på en teknisk måde. 

Problemstillingen 

Opgavens formål er at se på teknikker til at indfange et virkeligt objekt og vise det fra 

vilkårlige vinkler. Dette gøres ofte ved at generere en fuld 3D geometrisk model af objektet 

og benytte almindelige 3D teknikker til at visualisere. Problemet med disse metoder, er 

imidlertid, at det ikke er ligetil at danne en 3D model af et objekt eller sceneopstilling, og ofte 

meget vanskeligt ved komplekse objekter, specielt hvis der kun benyttes et kamera / billede. 

Alternativt til disse teknikker kan man benytte en billedbaseret metode, hvor man i stedet 

benytter en række reference billeder fra forskellige vinkler til at danne billeder fra vilkårlige 

vinkler. 

Opgavens fokus er at se på disse teknikker og de problemer, der er derved. Problemerne er 

bl.a.: 

Hvordan findes korrespondancer mellem referencebilleder? 

Hvordan beregnes positioner og intensiteter i den nye synsvinkel ud fra 

referencebilledernes? 

Hvordan findes synligheden af punkter i den nye synsvinkel på baggrund af 

geometrien? 

Hvilke redskaber og informationer er nødvendige for beregning af nye betragtninger? 

Hvilke informationer er nødvendige at antage? 

I hvor høj grad skal brugeren involveres? Er det i orden at bede brugeren om at udpege 

sine øjne eller en del af ansigtet? 

Kort sagt, hvad kan billedbaserede metoder? Og kan en billedbaseret metode anvendes her? 

Hvilke andre teknikker kan tænkes kombineret eller benyttes alene for at løse problemet? 

SIDE 6


Teori, analyse og overvejelser 

For at få overblik over hvilke del-problemer, der eksisterer ved den overordnede 

problemstilling, bliver de eksisterende teknikker til klassisk rekonstruktion af 3D objekter 

introduceret, og hvad man derefter kan udlede om forsøgsopstillingen og problemstillingen. 

Der har siden man begyndte at konstruere computermodeller af omverdenen eksisteret 

nærmest et paradigme inden for computervision om, at gengivelsen kræver en intern 3D 

repræsentation. Denne idé udspringer hovedsagligt fra teorier om det menneskelige syn, hvor 

Marr's (Marr 1982) arbejde spiller en stor rolle. Teorier for genkendelse af objekter i det 

menneskelige syn, hvor der benyttes en serie af billeder i stedet for en 3D model, er først 

opstået senere, hvor bl.a. Edelman & Weinshall (1991) og Bülthoff & Edelman (1992) har 

præsenteret nogle alternative idéer. De artikler, der omtales i de efterfølgende afsnit, tager 

udgangspunkt i en sådan repræsentation, der kun består af en række billeder i stedet for en 

fuld 3D model. 

Under udarbejdelsen af projektet blev det klart, at den metode, der blev forsøgt implementeret 

og gennemført, ikke var tilstrækkelig. Den viden, der blev tilegnet under forsøgene, ligger til 

grund for efterfølgende overvejelser og valg. Rapporten er efter dette kapitel derfor inddelt i 

tre dele, der hver indeholder teori og efterprøvning af de valgte løsningsforslag. 

Billeddannelse 

Billeddannelsen i de fleste naturlige synssystemer og i almindelige kameraer starter med, at 

lysstråler passerer ind i kameraet gennem et hul og rammer en skærm eller billedplan – 

kameraets lysfølsomme enhed, der registrerer lysintensiteter. 

For at opnå at billedet er skarpt, er det nødvendigt, at alle stråler der reflekteres fra et punkt, 

P, i scenen konvergerer i samme billedpunkt, p. Når dét er opnået, er P i fokus, hvis ikke 

bliver billedet spredt over en cirkel. Fokusering af alle refleksioner fra scenepunktet P i 

samme billedpunkt p kan gøres på to måder. 

Enten kan man reducere størrelsen af åbningen til kun et punkt – et såkaldt hulkamera. Det 

har den fordel, at kun en stråle fra hvert scenepunkt slipper igennem, og man opnår nogle 

skarpe billeder. Ulempen er at et hulkamera kræver en meget lang eksponeringstid, ofte 

adskillige sekunder, da der trænger meget lidt lys igennem hullet. 

SIDE 7


Eller man kan introducere et 

optiksystem af linser, specielt 

rettet mod at fokusere 

strålerne fra hver scenepunkt 

i et enkelt billedpunkt. 

Et standard optiksystem er ret 

avanceret, men man kan 

simplificere forklaringen ved 

at se på det simpleste optiske 

system, en ideallinse. En 

ideallinse er karakteriseret 

ved en akse, kaldet den 

optiske akse, der går igennem 

linsens centrum, O, og to specielle punkter, Fv og Fh, der kaldes hhv. venstre og højre fokus, 

punkterne er placeret i samme afstand fra O. Denne afstand kaldes linsens fokal længde, eller 

brændpunktslængden. 

Et sådan system har egenskaberne: 

1. Enhver lysstråle, der passerer linsen parallelt med aksen, passerer gennem fokus på 

den anden side. 

2. Enhver lysstråle, der passerer gennem linsen fra fokus på den ene side, kommer ud 

parallel med aksen på den anden side. 

Ved at se på de to par af retvinklede trekanter kan Zz = f 2 udledes. Ved at indsætte 

Z ˆ = Z + f og z ˆ = z + f , kan den fundamentale ligning for ideallinser udledes (Trucco & 

Verri 1998): 

P 

S 

1 1 1 

+ = 

Zˆ 

zˆ 

f 

f f z 

Relationen giver sammenhængen mellem brændpunktslængden, billedet og objektet. Ideal- 

linsen har den ulempe, at det kun er punkter, der er afstanden Z ˆ væk, der er i fokus, andre 

punkter bliver afbilledet som små cirkler. Med relationen er det muligt at beregne størrelsen 

af cirklen et punkt giver anledning til, og beregne rækkevidden fra kameraet, hvor objekter er 

fokuseret tilpas godt (der afhænger af kamerasensoren) (Horn 1986 p.25.). 

f og z angives somme tider på kameraet, men er ofte ikke tilgængelige parametre. 

Z 

Fv Fh 

Figur 1 Et linsesystem med en ideallinse, normalt er der 

forskel i de to brændpunktslængder pga. linsens krumning 

(Tilpasset fra Trucco & Verri 1998) . 

O 

s 

p 

SIDE 8


Radiometri 

Radiometri er den del af billeddannelsen, der beskæftiger sig med relationen mellem 

mængden af lys, der udsendes af lyskilden, som reflekteres fra overflader og registreres af 

lyssensoren. 

To hovedpunkter er afgørende: 

Definitioner: 

Lambertflader 

1. Hvor meget af lyset bliver kastet tilbage af en overflade? 

2. Hvor meget af dette reflekterede lys rammer rent faktisk billedplanen i 

kameraet? 

Lys kastet på overfladen kaldes indstråling (eng. iradiance), i billedplanen. 

Lys udstrålet fra overfladen kaldes udstråling (eng. radiance), fra scenen. 

Den ideale model for, hvordan en overflade reflekterer lys, er Lambert modellen. Denne 

model antager, at hver overfladepunkt optræder lige oplyst set fra alle synsvinkler. Det 

tilnærmer fint ru, ikke genspejlende overflader og materialer som fx papir eller mat maling. 

Hvis retning og størrelse af lyset repræsenteres ved vektoren I, så er den ideale Lambertflade 

udstråling, L, proportional med prikproduktet 1 mellem I og fladens enhedsnormal, n (Trucco 

& Verri 1998): 

Hvor ρ > 0 er en konstant, der 

betegner overfladens albedo, 

dvs. materialets refleksions 

egenskab. Ligeledes skal 

I n 

T være positiv, dvs. at 

overfladen vender mod 

lyskilden og sat til 0, hvis det 

ikke er tilfældet. 

Lambert modellen er baseret 

på, at mængden af lys, der 

rammer enhver overflade, altid 

er proportional med cosinus til 

vinklen mellem lyskilden og 

fladenormalen (dvs. det 

Lyskilde 

I n 

T 

L = ρ 

Lyssensor 

1 Genkald at prikproduktet mellem to vektorer er matrixmultiplikation, hvor den ene vektor er transponeret. 

I 

n 

P 

L(P,d) 

d 

Overflade 

E(p) 

Optik 

Figur 2 Radiometri begreber: Opsamlingen af overfladens 

refleksionen af lyset fra lyskilden (Tilpasset fra Trucco & Verri 

1998). 

p 

SIDE 9


effektive areal af fladen set fra lyskilden). Ifølge modellen reflekterer en Lambertflade lyset i 

en given retning, d, proportionalt med cosinus til vinklen θ , mellem d og n. Men da fladens 

areal set fra retningen d, er modsat proportional til cos θ , optræder de ikke i ovenstående 

formel, da de udligner hinanden. 

Hvis man definerer en rumlig vinkel, hvor et punkt har en cirkulær udstrækning, og ignorerer 

energitab, kan den fundamentale ligning for radiometrisk billeddannelse udledes til (Horn 

1986 p.208) : 

E( p ) = L( 

P) 

4 

2 

π d 4 

Ligningen er relationen mellem den indstråling, der rammer p i billedplanen og udstrålingen 

fra punktet P i scenen. d er linsens diameter og f er brændpunktslængen. Ligningen udtrykker, 

at belysningen af p i billedplanen aftager med fjerde potens af cosinus til vinklen mellem den 

principale stråle gennem p og den optiske akse. 

Forholdet d/f bestemmer, hvor meget lys der opsamles af kameraet – jo større værdi forholdet 

antager, desto større mængde af L rammer billedplanen. Dvs. en stor linsediameter og lille 

brændvidde giver høj lysfølsomhed (men giver samtidig større afbildningsfejl). 

Radiometri benyttes som baggrund for shape from shading (form fra skyggelægning), shape 

from texture (form fra tekstur) og andre teknikker, der anvendes til at genskabe 3D strukturen 

af et billede, ved at gøre nogle antagelser om dannelsen af billedet og derudfra beregne 

dybderne i billedet. 

Perspektivkameraet 

Den mest almindelige 

geometriske model af et 

intensitetskamera, er perspektivkameramodellen. 

Modellen 

består af en billedplan, π , og et 

3-D punkt O, der er centrum for 

projektionen. Afstanden mellem 

de to er brændpunktslængden, f. 

Linien gennem O og vinkelret på 

planen π er den optiske akse og 

skæringspunktet o, er billedcentrum. 

Kamera koordinatsystemet 

defineres som det, hvor O er 

Y 

O 

f 

cos 

Kamera 

koordinatsystem 

f 

π 

X 

α 

o 

p 

Billedplan 

Z 

P 

Optiske akse 

Figur 3 Perspektivkamera modellen (tilpasset fra Trucco & Verri 

1998). 

SIDE 10


centrum, og Z-aksen er vinkelret på billedplanen. Et punkt 

afbilledet af 

T 

p = [x,y,z] 

i billedplanen, der er 

T 

P = [X,Y,Z ] i scenen, er relateret med det perspektiviske kameras fundamentale 

ligning (Trucco & Verri 1998): 

X 

x = f 

Z 

Y 

y = f 

Z 

z koordinaten er altid planens afstand, f, til centrum og p skrives derfor ofte i uden, som: 

T 

p = [x,y] 

Koordinaterne er alle kamerakoordinater (specificeret i fx millimeter). 

Perspektivprojektionen har den egenskab, at linier bliver bevaret som linier, men pga. 

faktoren 1/Z, bliver hverken afstande mellem punkter eller vinkler mellem linier bevaret. 

Parallelle linier bliver derfor ikke bevaret parallelle, med mindre de er parallelle med 

billedplanen. 

Hvis z afstanden imellem punkterne, δ z , i scenen er små i forhold til den gennemsnitlige 

afstand, Z , fra kameraet til punkterne, kan man benytte tilnærmelsen, svagt perspektiv: 

x = f 

X 

Z 

f 

≈ X 

Z 

Y f 

y = f ≈ Y 

Z Z 

Der beskriver en ortografisk projektion, 

dvs. x=X, y=Y, efterfulgt af en skalering 

f 

med . 

Z 

Kameraparametre 

De eksterne parametre definerer 

kameraets placering i rummet i forhold til scenen eller objektet. De interne parametre 

definerer kameraets interne egenskaber som optik og relationen mellem pixel og 

kamerakoordinater. 

De ydre kameraparametre er defineret som et sæt af geometriske parametre, der entydigt 

bestemmer en transformation fra det ukendte kamerakoordinatsystem til et kendt koordinatsystem, 

kaldet verdenskoordinatsystemet. 

Til det kræves en translationsvektor, T, der beskriver den relative afstand mellem centrum af 

de to koordinatsystemer, og en 3× 3 ortogonal rotationsmatrix, der bringer de 

korresponderende akser af de to koordinatsystemer over i hinanden. At matricen er ortogonal, 

O 

Figur 4 Forskellen mellem ortografisk (parallel) 

projektion og perspektivisk projektion. En 2D-firkant 

projiceret ind på en akse. 

SIDE 11


T 

T 

medfører, at den kun har tre frihedsgrader ( R R = RR = I ). Relationen mellem kamera og 

verdens koordinater kan da skrives som PC = R ( PW 

− T) 

. 

De indre kameraparametre er det sæt af parametre, der karakteriserer de optiske, geometriske 

og digitale egenskaber ved kameraet. For et hulkamera er der tre parametre: 

Perspektivprojektionen, hvor det eneste parameter er brændpunktslængden f. 

Transformationen mellem kamerakoordinater og pixelkoordinater. 

Den geometriske forvrængning forsaget af optikken. 

Transformationen mellem billedkoordinater og kamera, under antagelse af CCD 2 føleren er 

rektangulær, og at der ikke er nogen optisk forvrængning, kan beregnes ved: 

x = −( 

x 

y = −( 

y 

im 

im 

− o ) s 

x 

y 

x 

− o ) s 

Hvor (ox,oy) er pixelkoordinater for billedcentrum og (sx,sy) er pixeldimensionerne i 

millimeter. Den geometriske forvrængning kan modelleres som et polynomium, hvor 

forvrængningen afhænger af afstanden til billedcentrum, men da forvrængningen ofte er 

ganske lille, kan man se bort fra den med mindre, man kræver høj præcision. 

De interne og eksterne parametre kan samles i 2 matricer (uden forvrængning medtaget) 

(Trucco & Verri 1998): 

M 

M 

3D-Rekonstruktion med et kamera 

int 

ext 

= 

= 

− 

r 

r 

r 

11 

21 

31 

f / s 

0 

0 

r 

r 

r 

x 

12 

22 

32 

− 

r 

r 

r 

13 

23 

33 

0 

0 

y 

f / s 

T 

− R T 

1 

T 

− R T 

2 

T 

− R T 

Hvis '1' tilføjes som fjerde koordinat på verdenskoordinaterne (homogene koordinater 3 ), så 

kan en matrixligning opstilles for den perspektiviske projektion: 

2 Charge Coupled Device, array af lysfølsomme transistorer. Lysføler der benyttes i digitale kameraer. 

3 Homogene koordinater er en udvidelse med en dimension, hvor relationen til de kartesiske koordinater for 

(X,Y,Z,W) er (X/W,Y/W,Z/W). 

y 

3 

o 

o 

x 

y 

1 

SIDE 12


x 

x 

x 

1 

2 

3 

= M 

int 

M 

X 

Y 

w 

ext 

Z w 

Det interessante her er, at forholdene x1/x3 og x2/x3 er billedkoordinaterne. Matrixproduktet 

M int M ext er projektionsmatricen og hvis man kan bestemme denne, så kan man beregne 

verdenskoordinaterne og rekonstruere en 3D model. For at bestemme parametrene og 

kalibrere kameraet er man nødt til at optage et billede af en kendt opstilling, hvor man kender 

forhold, afstande etc. Alt efter hvad man skal bruge parametrene til, findes der metoder til at 

finde hele projektionsmatricen, dvs. både interne og eksterne parametre og metoder til at finde 

dem separeret, hvilket er en besværlig proces. I det følgende ses der på metoder, der udleder 

3D informationer uden at kalibrere kameraet først. Til det er det nødvendigt med to kameraer. 

Stereopsis og epipolær geometri 

Epipolær 4 geometri er de geometriske sammenhænge, der er bag stereopsis, kamera 

opstillinger med to (eller flere), kameraer. Den kan bl.a. benyttes til at lette søgningen efter 

korrespondancer mellem billeder i en stereoopstilling og ved rekonstruktion. 

Referencekoordinatsystemerne i det højre og venstre kamera, er relateret via de eksterne 

kameraparametre. Disse bestemmer en transformation i 3D rummet, defineret ved en 

translationsvektor, T, og en rotationsmatrix R. Givet et punkt P i rummet er relationen 

mellem PL og PR, der er punktet set fra hhv. det venstre og det højre kamerakoordinatsystem, 

følgende: 

P R( 

P − T) 

R 

= L 

4 epi-: præfiks (græsk), 1: på. 2: over. 3: desuden. (Oxford Pocket English Dictionary). Dvs. epipolær geometri 

er en ekstra-akse eller på-polen geometri – refererende til et koordinatsystem set fra et andet. 

1 

w 

SIDE 13


Årsagen til at det kaldes epipolærgeometri, er på grund af skæringspunkterne der dannes i 

billedplanerne, hvor linien mellem de to kameracentre skærer. Det er altså afbilledet af 

modsatte kameras centrum, i 

det andet kameras billedplan. 

De to punkter kaldes 

epipolerne. 

Vigtigheden af epipolærgeometri, 

kommer af den 

plan udspændt af de to centre 

Ol, Or og et punkt P. Denne 

plan skærer begge billedplaner 

i en linie, kaldet den 

epipolære linie. Når der søges 

efter korrespondance til et 

punkt pl i det venstre 

koordinatsystem, så er pr begrænset til at ligge på den epipolære linie i det højre 

koordinatsystem, hvilket indskrænker søgningen efter korrespondancen til et 1D problem. 

Dette forhold kaldes den epipolære begrænsning. 

For at komme fra det ene kameras koordinatsystem til det andet benyttes en transformationsmatrix, 

der betegnes den essentielle matrix. Den essentielle matrix transformerer et punkt fra 

T 

det ene koordinatsystem til det andet i kamerakoordinater: p = 0. 

Den giver forbindelsen 

r l Ep 

mellem den epipolære begrænsning og de eksterne kameraparametre. Punkterne kan betragtes 

som liggende i den projektive plan, og man kan derfor se Epl som værende den projektive 

(epipolære) linie i den højre plan, u r = Ep l , der skærer punktet pr og epipolen er. E er derfor 

forbindelsen mellem punkter og epipolære linier. 

Problemet med den essentielle matrix er, at den er specificeret i kamerakoordinater, og det 

man faktisk måler er pixelkoordinater. En transformation mellem kamera og pixelkoordinater, 

dvs. de interne kameraegenskaber, er derfor ønsket. Dette råder den fundamentale matrix bod 

på. 

Den fundamentale matrix kan specificeres ud fra den essentielle matrix, som: 

F , 

−T 

−1 

= r l EM M 

hvor M specificerer de interne kameraparametre for højre og venstre kamera, og den 

T 

tilsvarende transformation af punkter: p = 0 . 

r l Fp 

Forbindelse mellem punkter og epipolære linier kan derfor opstilles i pixelkoordinater: 

u = Fp . Dette betyder, at den fundamentale matrix og den epipolære geometri, kan 

r 

l 

Ol 

Epipolær 

linie 

π l 

r π 

Epipolær 

plan 

pl 

el 

bestemmes uden kendskab til hverken interne eller eksterne kameraparametre, men 

udelukkende udfra korrespondancer specificeret i pixelkoordinater. 

Pl 

Pw 

Pr 

er 

Epipolær 

linie 

Figur 5 Epipolær geometri – relationen mellem to kameraer (Tilpasset 

fra Trucco & Verri 1998). 

pr 

Or 

SIDE 14


Otte-punkts algoritmen 

Beregning af den fundamentale matrix kan foretages på flere måder, den simpleste er otte 

punkts algoritmen (Longuet-Higgins 1981). Algoritmen kræver, at mindst otte 

korrespondancer allerede er etableret, hver korrespondance giver en lineær ligning, der samlet 

giver et lineært ligningssystem. Den ikke trivielle løsning specificerer de ni indgange i F, og 

hvis mere end otte korrespondancer er fundet, så kan løsningen findes med "Singular Value 

Decomposition (SVD)", der er en teknik, der benyttes til at løse numeriske ligningssystemer 

eller matricer, hvor almindelig Gauss-Jordan eliminering ikke giver brugbare resultater (Press 

et al. 1989). 

3D Rekonstruktion med to kameraer 

Når korrespondanceproblemet er løst, og den epipolære geometri er fundet, afhænger 

rekonstruktionen af hvilke parametre, der er kendt. Disse kan deles i tre hovedtilfælde: 

a) Hvis både de interne og eksterne parametre er kendt, kan en rekonstruktion dannes ved 

triangulering. 

b) Hvis kun de interne parametre er kendt, så kan problemet stadig løses, og de eksterne 

parametre estimeres, men kun op til en ukendt skalafaktor. 

c) Hvis kun pixelkorrespondancer er kendt, kan en rekonstruktion stadig opnås, men kun 

op til en ukendt projektivtransformation. 

Hvis der ses på Figur 5, så svarer a) til, at vinklerne i trekanten mellem de to kameracentre og 

punktet samt afstanden mellem de to kamera centre er kendt. Det samme gælder for b) men 

her kendes afstanden mellem kameraerne ikke. Forhold mellem rekonstruerede punkter bliver 

derfor korrekt – men afviger fra virkeligheden med en skalafaktor. Ved c) kendes vinklerne 

heller ikke (dvs. f er ukendt), og resultatet afviger med en projektivtransformation fra 

virkeligheden. 

Forsøgsopstilling 

Forsøgsopstillingen er en typisk videokonference opstilling, med et kamera på toppen af 

skærmen og brugeren foran skærmen. Når brugeren deltager i en videokonference, kigger 

denne på billedet af modtageren midt på skærmen, og ikke direkte ind i kameraet. 

De informationer, der findes, er en billedstrøm af et ansigt. Her vil der være forskellige fagter, 

som fx nik, blink med øjnene, smil osv. der er henvendt til billedet på skærmen. Der skal altså 

findes en metode til enten at lave transformationen fra billedstrømmen direkte eller opnå 

informationer om ansigtet på forhånd, og benytte disse til at udføre en løbende 

transformation. 

SIDE 15


At udføre transformationen direkte er nok udelukket, da der er nogle skjulte flader (fx under 

næsen og hagen), der ikke er nogen information om. En realiserbar metode kunne derfor være 

at få brugeren til at udføre nogle bestemte bevægelser direkte mod kameraet. Det kunne fx 

være at se direkte ind i kameraet, trykke en tast og siden se tilbage ned på skærmen. 

Skitsen viser opstillingen, som den 

typisk vil se ud ved en 

videokonference, hvis brugeren sidder 

mellem 40 og 50 cm fra skærmen, der 

antages at være 17" og vinduet med 

video af modparten er placeret over 

midten af skærmen. Dvs. højden 

mellem kamera og vinduet på skærmen 

h=9-18 cm og afstanden mellem 

brugeren og skærmen l=40-50cm. 

Vinklen i trekanten mellem kameraet 

og det virtuelle kamera bliver derfor ArcTan( h/l), dvs. mellem 10 o og 25 o Figur 6 Opstillingen 

grader. 

Kameravalget er et Logitech ClickSmart 510, det har en maksimal opløsning på 640x480 i 24 

bit farver, og er specificeret til 30 billeder per sekund. Valget af Logitech kameraet er truffet, 

fordi der eksisterer et SDK (udviklings kit), der letter tilgangen til billeddata væsentlig, 

desuden kan man benytte udviklingskittet med alle Logitechs andre kameraer. Prisen er 

samtidig lav. 

Kameraet tilsluttes USB porten, og det giver med den nuværende standard ikke en så høj 

hastighed, da USB 1.1 standard kun specificerer en hastighed på ca. 12MB/s. En hurtig 

udregning afslører, at kameraets 30 billeder per sekund højest kan gælde for 320x240 

(6,6MB/s). Der er heller ikke mulighed for at få billeder fra mere end et kamera ad gangen 

pga. opbygningen af udviklingskittet. 

Som udviklingsmiljø er Delphi valgt, hvilket er et RAD (rapid application development) 

værktøj med en optimerende oversætter. Med Delphi eksisterer der allerede klasser til at læse 

og skrive billeder i forskellige formater og let opbygning af brugergrænseflader. Da Delphi er 

baseret på objektpascal, er man selvfølgelig afskåret fra, på en let måde, at anvende meget af 

det computer vision kode, der allerede eksisterer i C og C++. 

Til billedbehandling benyttes Intel Image Processing Library (Intel 2000), der er et processor 

optimeret bibliotek af billedbehandling rutiner. Bl.a. har biblioteket understøttelse af 

flydende-tal billeder, filtreringer, aritmetik og andet. 

Til visualisering af 3D-data er Microsoft DirectX 8 valgt, der i denne seneste version ligger 

tæt op ad OpenGL. 

SIDE 16


Opsummering 

Billedsystemet i det menneskelige øje og i et kamera udfører en perspektiv projektion, som 

leder til et betydelig tab af informationer. Alle punkter langs en linie udgående fra det optiske 

center mod et scenepunkt er projiceret til et enkelt billedpunkt. Det modsatte, der drejer sig 

om at udlede 3D koordinaterne fra billedmålinger, er en tvetydig opgave, der kræver flere 

informationer for at blive løst. 

Sammenhængen mellem billedintensitet og 3D geometrien af det korresponderende punkt i 

scenen er meget kompliceret. Pixelintensiteten afhænger af overfladerefleksivitets parametre, 

overfladeorientering, type og position af oplysningen og positionen af beskueren. At prøve at 

udlede 3D geometri – overflade orientering og dybde – er en ganske svær opgave. 

Støj og høj beregningskompleksitet af mange algoritmer medvirker også til problemerne – 

selvom det ikke er specifikt for 3D vision. 

For at rekonstruere en 3D model kan man benytte en af de velafprøvede teknikker, hvor 

forskellige niveauer af kalibrering er nødvendig. 

Hvis man vil benytte en af disse med et kamera, er det mindst nødvendigt at bestemme de 

interne kameraparametre, og lettest hvis også de eksterne haves. Det er ganske omfattende, at 

kalibrere kameraet, da det er selve opstillingen, der skal kalibreres. De interne parametre skal 

kun bestemtes en gang for hver kamera, men de eksterne skal bestemmes for hver ændring i 

opstillingen (fx kamera flyttes, objekt flyttes). 

Hvis to kameraer haves, kan man opnå en rekonstruktion op til en ukendt projektion, når 

ingen af kameraparametrene er kendt, så den vel nok sværest overkommelige begrænsning på 

forsøgsopstillingen er restriktionen til kun et ukalibreret kamera. 

Der findes forskellige teknikker (bl.a. structure from motion og shape from optic flow, Sonka 

et al 1999), til at bestemme 3D informationer udfra bevægelse over flere billeder og teknikker 

baseret på radiometri, der kun benytter et billede, som ikke er omtalt her. Men med kun et 

ukalibreret kamera, er det nødvendigt at se på hvilke alternative teknikker, der findes, og om 

der findes nogle, som ikke behøver den omfattende rekonstruktion af en 3D-model. Oftest 

arbejdes der kun med gråtone billeder, da repræsentationen er ganske simpel, men 

farveinformationen fås fra kameraet, så måske giver det nogle fordele der kan udnyttes. 

De efterfølgende tre afsnit afspejler tre faser af udviklingsprocessen, hvor teorien er blevet 

genovervejet og sammenholdt med den nye viden, der er tilegnet ved forsøgene. 

SIDE 17


Del 1. 2D morph metode 

Da det ikke er nogen let metode til umiddelbart at rekonstruere 3D informationer fra et eller 

flere billeder, er det værd at se på hvilke metoder der eksistere, hvor de informationer der 

benyttes til at genskabe billedet af et objekt ikke er baseret på en 3D model, men på en række 

billeder koblet med information. 

Hvilke teknikker findes der til at konstruere eller interpolere et nyt billede udfra eksisterende? 

Den første indskydelse er morphing (fx Wolberg 1998) kendt fra film og tv. Det er en teknik 

som ofte anvendes til at generere flydende overgange mellem to billeder. Som oftest anvendes 

metoden til at lave en overgang mellem to forskellige ansigter eller to forskellige objekter (fx 

menneske og dyreansigt). I de tilfælde er det ligegyldigt, hvorvidt de mellemliggende billeder 

bevarer geometrien, da de ikke svarer til nogen geometrisk transformation. De eksisterende 

teknikker til dette er rene 2D metoder, og det viser sig, at de kun i ganske få tilfælde bevarer 

geometri, hvis det er to billeder af samme objekt med forskellig betragtningsvinkel, der 

morfes imellem. Der bliver ikke taget højde for om de mellemliggende billeder svarer til en 

rotation eller lignende af objektet, i stedet bliver de mellemliggende billeder som regel 

fordrejet på en unaturlig måde, hvis der er forskel i positur eller synsvinkel. 

Den første metode, som tager højde for dette, er 'View Morphing', som er en videreudvikling, 

der genererer fysisk gyldige mellemliggende billeder. 

View morphing 

Figur 7 Deformerende morf (Seitz & Dyer 1996). 

View morphing (Seitz & Dyer (1995,1996)) eller betragtningsvinkel morfing introducerer en 

ny morfing metode, der er en udvidelse af morfing, som bevarer formen af et objekt i 

mellemliggende billeder. Metoden benytter et princip fra projektiv geometri til at håndtere 3D 

projektivkamera og scenetransformationer. 

Ved almindelig morf bliver mellembillederne beregnet ved at udføre en transformation 

(warping) på de to billeder og tage gennemsnittet af pixelværdierne (intensiteten) af disse. De 

forskellige morfmetoder afviger kun fra hinanden på den måde, korrespondancer bliver 

beregnet (Wolberg 1998). 

SIDE 18


Almindelig morfing bevarer den geometriske form af et objekt, når billederne er parallelle, 

dvs. hvis billederne er taget af et kamera, der kun er forflyttet mellem de to optagelser eller 

hvis objektet er flyttet. Hvis der er foretaget et zoom er billederne stadig taget parallelt og 

formen bliver bevaret. Hvis billederne derimod er taget af et roterende kamera eller objektet 

er roteret – som Figur 7- da bliver formen ikke bevaret. 

Idéen bag view morfing er at få bragt billederne i parallel først og derefter udføre morfing. I 

det følgende skitseres Seitz & Dyer's (1996) metode. 

Metoden benytter en proces, der minder om den regulering af billederne, man udfører ved 

stereobilledepar for at lette tilegnelsen af korrespondancer. For at beregne reprojektionen af 

de to billeder i parallel, er det nødvendigt at estimere den fundamentale matrix med fx ottepunkts 

algoritmen. Et tilstrækkeligt krav for at de to billeder, I0 og I1, er parallelle er, at deres 

fundamentale matrix har formen: 

ˆF = 

0 

0 

0 

Dvs. for at bringe de to billeder i parallel, skal der konstrueres to projektionsmatricer H0 og 

−1 T −1 

H1 der har egenskaberne: ( H ) FH = Fˆ 

1 

0 

Udfra den fundamentale matrix, F, kan man bestemme epipolerne, e0, e1, de findes som 

enheds egenvektorene af hhv. F og F T , korresponderende til egenværdien 0 (ifølge Seitz & 

Dyer 1996). 

0 

0 

1 

0 

−1 

x y 

Derefter vælges en vilkårlig rotationsakse 0 = [ d 0 , d 0 , 0] 

∈ I 0 

korresponderende akse i I1 bestemt til: [ ] T 

= − y, x, 

0 

e0, dvs. [ ] T 

y x 

d = − e e , 0 

0 

0 , 0 

Der kan derefter bestemmes to rotationsvinkler, θ 0 og θ 1 ved: 

To 3× 3 rotationsmatricer, 

1 

0 

T 

T 

d Givet [ , y, 

z] 

= Fd 0 

x er den 

d . Et passende valg af d0, er vinkelret på 

y x x 

π di 

ei 

− di 

e 

θ i = − arctan 

z 

2 

e 

di 

Rθ der svarer til en rotation i 

i 

i 

y 

i 

θ grader om aksen di, kan stilles op. 

Når disse to anvendes til at fordreje (warp) de respektive billeder, bliver billedplanerne bragt 

parallelle. Seitz & Dyer (1996) benytter endnu en rotation af billederne for at få skanlinierne 

anbragt på linie, så selve morfingen reduceres til interpolation af skanlinier. De endelige 

projektionsmatricer bliver: 

H 

H 

0 

1 

= 

R 

θ 

0 

= TR 

R 

θ 

1 

d0 

θ 

R 

0 

d1 

θ 

1 

SIDE 19


Hvor Rθ er en plan rotation, om z-aksen og T er en forflytning og skaleringsmatrix (Seitz & 

Dyer 1996 i appendiks). Det er imidlertid nok at udføre den første rotation, for at opnå at 

billederne er parallelle, selvom den yderligere rotation simplificerer morfingen. 

For at udføre en view morphing kræves der derfor: 

1) To billeder, der repræsenterer en betragtning af samme scene eller objekt. 

2) Billedernes respektive projektionsmatricer. 

3) Korrespondancen mellem pixels i de to billeder. 

En tretrins algoritme til dette præsenteres af Seitz & Dyer (1996): 

1) Prewarp: Anvend de projektive transformationer 

bliver bragt i parallel betragtning Î0 og Î1. 

H på hhv. I0 og I1, så de 

1 1 

0 1 , 

− − 

H 

2) Morph: Lineærinterpolation mellem de to transformerede billeder giver et 

formbevarende mellemliggende billede ÎS. 

3) Postwarp: Anvend HS på ÎS, givende det endelige billede IS. 

Hvor HS er en lineær interpolation af H0 og H1, dvs. H = 1− 

s) 

H + sH 

, s ∈ [ 0, 

1] 

. 

Figur 8 View morphing i tre trin (fra Seitz & Dyer 1996). 

S 

( 0 1 

Metoden foreslås implementeret med skanlinie interpolering af Seitz & Dyer (1996). Ved 

transformationen kan de to billeders skanlinier anbringes, så de korresponderer billederne 

SIDE 20


imellem, hvilket gør, at interpoleringen af pixelværdier blot skal foretages mellem horisontale 

billedlinier. På grund af de forskellige fordrejninger, der foretages for at lave pre og postwarp, 

kan det resulterende billede ende med at være støjfyldt. For at løse dette foreslår Seitz & Dyer 

(1996), at man laver supersampling. Alternativt er det muligt at kombinere alle 

billedtransformationerne sammen til en samlet warp-transformation på bekostning af 

skanlinie egenskaben. 

Forsøg og implementation 

For at få en idé om metodens muligheder blev der set på en eksisterende implementation af 

metoden. I Intel Open Source Computer Vision Library (Intel 2001) findes en implementation 

præcis som beskrevet ovenfor, baseret på skanlinie interpolering. 

Metoden/implementationen er både imponerende og skuffende. Imponerende fordi morfingen 

virkelig giver et indtryk af en 3-dimensional transformering fra det ene billede til det andet, 

og skuffende fordi resultaterne er meget støjfyldte og udregningerne langsomme. 

Figur 9 View morphing med OpenCV (Intel 2001). Det midterste billede er et virtuelt billede baseret på 

højre og venstre billede. Bemærk fejlene omkring venstre øje og ekkovirkningerne ved kinden (billede fra 

OpenCV Intel 2001). 

Ved nærmere granskning af implementationen og dokumentationen ser det ud til at den sidste 

transformation (postwarp) er implementeret "forlæns" 5 . Dokumentationen angiver, at der i 

sidste trin bliver anvendt en deletemoire funktion (Intel 2001), der skal eliminere sorte huller. 

Disse er opstået, når skanlinierne ikke ligger lige op ad hinanden. I stedet for at implementere 

dette "baglæns" så værdier, der er mellem to skanlinier kan interpoleres, bliver der først 

kompenseret (knap så godt) for det bagefter. 

På den baggrund faldt beslutningen på at lave en implementation, hvor hele transformationen 

bliver udført på en gang med en samlet fordrejning. Derfor blev de forskellige metoder til 

5 Med forlæns menes, at i stedet for at mappe hver pixel over i en ny position, beregnes der fra 

destinationsbilledet, hvor en pixel oprinder fra. På den måde undgås huller stammende fra heltals afrundinger, 

forskellige typer interpolation kan benyttes, som også foreslået af Trucco & Verri 1998 p. 161. 

SIDE 21


kombineret morf undersøgt. På baggrund af Wolberg's (1998) undersøgelse af morfmetoder, 

blev en metode baseret på "Multilevel Free-Form Deformations (MFFD)" (Lee et al. 1995, 

Lee et al. 1997) valgt. Man kunne selvfølgelig have forsøgt at forbedre den eksisterende 

metode, men et interessant problem er at lave en implementation, der udnytter tekstur 

mapning, som foreslået i Seitz & Dyer 1996, for at udnytte eksisterende 3D-hardware. I første 

omgang antages det, at korresponderende kendetegn kan specificeres i hånden. Senere skal en 

algoritme til det anvendes (og det skal, ikke overraskende, vise sig at give endnu et problem). 

Multilevel Free-Form Deformations 

Multilevel Free-form deformations er en teknik, der kan benyttes til at konstruere kontinuerte 

en-til-en warp mellem par af korresponderende kendetegn. Metoden er baseret på videre 

udviklinger af Free-Form deformations (bl.a. Coquillart 1990 og Forsey & Bartels 1988), der 

benyttes til at lave overbevisende deformerede 3D objekter i computergrafik. Metoden 

benytter uniforme ikke-rationale B-splines (Foley et al. 1996 pp.491-495) til at tilnærme en 

flade. 

Metoden virker som følgende (Lee et al. 1995,1997): 

Lad Ω = { x , y) 

| 0 ≤ x < m, 

0 ≤ y < n} 

mængde af spredte punkter { x , y , z ) } 

( være et rektangulært område i xy-planen. Betragt en 

P = ( c c c i 3D-rummet, hvor (xc,yc) er et punkt i Ω . For at 

tilnærme punkterne formuleres en aproksimerende funktion f som en uniform bikubisk Bspline 

funktion, hvor funktionsværdien af f i (x,y) tilnærmer punktets z værdi. 

f er defineret ved et ( m + 3) 

× ( n + 3) 

net af kontrolpunkter Φ , der dækker Ω . Lad φ ij være 

værdien af det ij-de kontrolpunkt i nettet Φ på pladsen (i,j), hvor i = −1 

, 0, 

, m + 1 og 

j = −1 

, 0, 

, n + 1. 

Den approksimerende funktion er bestemt ved kontrolpunkterne som: 

3 

3 

f ( x, 

y) 

= B ( s) 

B ( t) 

φ 

k= 0 l= 

0 

k 

l 

( i+ 

k )( j+ 

l ) 

Hvor i = x −1 

, j = y −1, 

s = x − x og t = y − y , hvor betegner nedrunding til heltal 

(floor) og Bk og Bl er de uniforme kubiske B-spline basis funktioner, der er defineret som: 

3 

B ( t) 

= ( 1− 

t) 

/ 6 

0 

B ( t) 

= ( 3t 

1 

2 

B ( t) 

= t 

3 

3 

3 

B ( t) 

= ( −3t 

/ 6 

− 6t 

3 

2 

+ 3t 

+ 

2 

4) 

/ 6 

+ 3t 

+ 1) 

/ 6 

Hvor 0 ≤ t < 1. 

De tjener til at vægte bidragene til f fra hver kontrolpunkt, alt efter hvor langt 

fra (x,y) de er. Problemet er nu at finde de kontrolpunkter for f, der tilnærmer punkterne i P 

bedst. 

SIDE 22


f(x,y) afhænger af de 16 kontrolpunkter, der er naboer til (x,y). For at funktionen skal tage 

værdien z i punktet, skal kontrolpunkterne φ kl opfylde: 

3 

z = ω φ 

3 

k = 0 l= 

0 

Hvor ω ( s) 

B ( t) 

. Da der er mange værdier, der opfylder relationen, vælges værdierne 

kl Bk l = 

på en mindste kvadraters metode vis, der minimerer 

En løsning kan skrives op som (Lee et al. 1997): 

φ 

kl 

ω z 

kl 

kl 

kl = 3 3 2 

ω 

a= 0 b= 0 ab 

3 3 2 

k= 0 l= 0 kl 

Hvis man ser på datapunkterne i P, bliver de benyttet til at specifice 4× 4 naboskabet, men 

for tilpas tætte datapunkter, kan der opstå overlap mellem naboskaberne. For hvert punkt 

( x, y, 

z) 

i P, giver φij en forskellig værdi φ c : 

φ ij bliver valgt for at minimere fejlen 

φ 

ω z 

c 

c = 3 3 2 

ω 

a= 0 b= 0 ab 

φ . 

e( φij ) 

− φc 

2 

= ( ω c ) 

c cφij 

ω , det gøres ved at 

differentiere denne med hensyn til φ ij et udtryk for kontrolpunkterne bliver udledt til: 

φ 

ω φ 

2 

c c c 

ij = 

2 

ω c c 

Ud fra disse formulerer Lee et al. 1997 en algoritme (BA) til bestemmelse af f. Tilnærmelsen 

til datapunkterne med BA algoritmen tilnærmer lokalt (se figur 10), fordi B-splines har lokal 

kontrol, dvs. et kontrolpunkt kan flyttes uden at skabe andet end en lokal ændring, derfor 

genereres fladen som enten en glat, men ringe tilnærmelse, eller en mængde præcise spidser. 

SIDE 23


Figur 10 B-Spline approksimering med forskellige antal kontrolpunkter. Det ses, at den glatteste 

tilnærmelse er c), mens mindst fejl er d) (fra Lee et al. 1997) 

For at opnå en glat flade, som (c), hvor punkterne tilnærmes så godt som (d) introduceres en 

multilevel B-spline approksimation, som opnår dette. Idéen er, at der laves et "groft" net af 

kontrolpunkter til den overordnede struktur (få kontrolpunkter), og trinvis forfining med et 

finere net af kontrolpunkter (flere og flere kontrolpunkter). Hvor de grove net raffineres til et 

finere net, der definerer samme approksimationsfunktion og adderes med det finere net. På 

denne måde opnås en glat og præcis approksimationsfunktion (se figur 12). 

Hvis forfiningen af et net af kontrolpunkter gøres fra et net Φ ( m + 3) 

× ( n + 3) 

til nettet Φ ' 

( 2m 

+ 3) 

× ( 2n 

+ 3) 

, hvor afstanden mellem kontrolpunkterne er halveret, kan en simpel 

forfiningsalgoritme opskrives for placeringen af kontrolpunkterne, så den resulterende 

funktion for Φ ' er identisk med Φ . 

Lad φ ij og φ 'ij 

være positionen af det ij'te kontrolpunkt i hhv. Φ og Φ ' . Da falder positionen 

af φ ij og φ '2i 

, 2 j sammen, og værdierne for de øvrige kontrolpunkter kan udledes på følgende 

vis (Lee et al. 1997): 

φ' 

φ' 

φ' 

φ' 

2i, 

2 j 

2i, 

2 j+ 

1 

2i+ 

1, 

2 j 

2i+ 

1, 

2 j+ 

1 

1 

= 

64 

1 

= 

16 

1 

= 

16 

1 

= 

4 

[ φ + φ + φ + φ + 6( 

φ + φ + φ + φ ) + 36φ 

] 

i−1, 

j−1 

[ φ + φ + φ + φ + 6( 

φ + φ ) ] 

i−1, 

j 

[ φ + φ + φ + φ + 6( 

φ + φ ) ] 

i, 

j−1 

[ φ + φ + φ + φ ] 

ij 

i, 

j+ 

1 

i−1, 

j+ 

1 

i−1, 

j+ 

1 

i, 

j+ 

1 

i+ 

1, 

j 

i+ 

1, 

j 

i+ 

1, 

j−1 

i+ 

1, 

j−1 

i+ 

1, 

j+ 

1 

i+ 

1, 

j+ 

1 

i+ 

1, 

j+ 

1 

i+ 

1, 

j+ 

1 

ij 

ij 

i−1, 

j 

i, 

j+ 

1 

i+ 

1, 

j 

i, 

j−1 

i, 

j+ 

1 

Randområderne (i,j =-1) håndteres som ovenstående, men med modsatte fortegn. 

i+ 

1, 

j 

ij 

SIDE 24


Algoritmen til forfining af approksimerings funktionen er følgende: 

Udfra datapunkterne i P, beregn det groveste net Φ 

Fortsæt så længe Φ ikke overstiger det 

finest valgte net (Lee et al. 1997): 

1. Beregn P=P-F( Φ ) 

2. Beregn Ψ = Ψ' 

+ Φ 

3. Lad Φ være det næste finere net 

4. Forfin Ψ til Ψ ' så F( Ψ )=F( Ψ ' ) og 

Ψ' = Φ , gå til 1. 

Algoritmen er skitseret på figur 11. 

For at sikre at den resulterende funktion er 

en til en, sættes en begrænsning på hvor 

langt et kontrolpunkt kan flyttes. Denne 

Figur 11 Skitse af forfiningsalgoritmen (fra Lee et al. 

1997). 

0 

begrænsning er : − 0. 

48ε 

≤ φij 

− φij 

≤ 0. 

48ε 

(Lee et al. 1995) for alle ij, hvor 

0 

φij er 

kontrolpunktet i det udeformerede net, og afstanden ε er afstanden mellem to kontrolpunkter 

i det udeformerede net. At funktionen er en til en sikrer, at der ikke er opstår 'folder', og 

resulterende tvetydigheder derefter. 

SIDE 25


Figur 12 Multilevel B-Spline approksimering med forskellige antal kontrolpunkter (fra Lee et al. 

1997). 

Implementation af MFFD 

Implementationen af algoritmen er baseret på artiklens pseudokode (Lee et al. 1997). Selve 

visualiseringen er baseret på Foley et al. 1996's bruteforce algoritme (evaluering af f i hvert 

punkt) til at tegne parametriske kurver, og ikke med forward differences algoritmen. Dette 

skyldes, at funktionsværdierne kun skal beregnes for nabokontrolpunkterne. Her kan der 

optimeres med tabelopslag for B-spline basisfunktionerne, forward differences algoritmen kan 

benyttes undervejs i hver trin af raffinering af B-spline fladerne. Det er en mulig optimering. 

Algoritmen tilnærmer kun en z-koordinat, så for at benytte algoritmen i to dimensioner, bliver 

to sæt kontrolpunkt net benyttet, så er det muligt at tilnærme punkter, der bliver flyttet i 

planen. 

I stedet for at implementere en løsning, der manipulerer pixels direkte, er en løsning baseret 

på tekstur mapning benyttet. På den måde bliver den hurtige hardware udnyttet. 

Lige efter implementationen af MFFD blev det imidlertid mere klart, hvad problemstillingen 

indebar. Nærmere overvejelser og gennemgang af viewmorphings egenskaber afslørede, at 

metoden kan interpolere mellem to billeder. Det blev klart, at de to billeder af samme objekt 

fra forskellige vinkler ikke haves. Overvejelser om antagelsen om, at brugeren indledende 

bedes om at kigge direkte ind i kameraet, og derefter se ned på skærmen igen, gjorde det klart, 

hvilke billeder der er tilgængelige. De billeder, man kan gemme fra initialiseringen, kan 

SIDE 26


benyttes til at udføre view morphing i mellem, men de billeder man senere vil få, vil for det 

meste være deformeret (fx hvis personen taler). 

Opsummering 

View morphing er en metode, der benytter lidt fra 'traditionel' computer vision til at beregne 

projektions matricer og benytter en 2D teknik til at opnå en 3D effekt. 

Forskellen mellem denne metode og almindelig morfing er, at projektionsmatricen skal 

kendes. Projektionsmatricen findes ved at bestemme den fundamentale matrix for billedparret, 

og derefter bestemme de to epipoler. Ud fra epipolerne bestemmes rotationen af billedet (om 

en vilkårlig valgt akse) og siden udregnes to transformationsmatricer, der bringer billederne 

parallelt i forhold til hinanden. 

Selve metoden egner sig til at beregne mellemliggende betragtninger, men det blev klart ved 

den nøjere gennemgang og implementation af en morfteknik, at metoden ikke kan tilpasses til 

at beregne en virtuel betragtning som ønsket her. Metoden kan godt beregne en virtuel 

betragtning mellem to forskellige ansigtsbetragtninger, men hvis det ene har en anden mimik 

(ikke kun betragtningsvinkel), så vil man opnå en mellemliggende mimik i den 

mellemliggende betragtning. Dette ville man muligvis kunne udnytte, hvis en samling af 

forskellige ansigtsudtryk først blev tilegnet, men så skulle en genkendelse af ansigtsudtryk 

også udføres (som fx i Toegl & Poggio 1994). Denne teknik ville måske give et resultat, men 

uden tilegnelsen af en ansigtsudtryk database for hver person, ville man kun opnå nogle 

utilsigtede – men sikkert morsomme – ansigtsudtryk. 

Del 2. Synsvinkelekstrapolering 

Da view morphing ikke kunne benyttes som håbet, er det nødvendigt at se på nogle andre 

metoder. View interpolation minder meget om view morphing, og metoden har omtrent de 

samme egenskaber. Den er taget med her, fordi den danner grundlag for view ekstrapolering. 

View interpolation 

View interpolation (Werner et al. 1995) er en metode, der går ud på, at man har en række 

primære 2D betragtningsbilleder af det objekt, man vil visualisere, optaget fx med et enkelt 

kamera. Når man vil vise en ny betragtning af objektet fra en vilkårlig vinkel, der ikke er 

dækket af nogle af de primære betragtninger, bliver det beregnet som en lineær kombination 

af de nærmest liggende primære betragtninger, metoden udelukker derfor behovet for en 3D 

SIDE 27


model konstruktion (Werner et al. 1995). Hvor view morfing interpolerer to billeder, benytter 

view interpolation to eller flere billeder. 

View interpolation opstiller derfor en metode til visualisering af objekter fra vilkårlige vinkler 

uden nødvendigheden af en 3D-model rekonstruktion. Metoden virker på følgende vis: 

En række billeder af objektet bliver taget, billederne skal dække hele objektets synlige flade. 

De betragtninger kan tilgås direkte – de skal blot vises. Hvis information om korrespondancer 

er tilgængelig, er det muligt at opnå enhver interpoleret betragtning ved at bruge en 

delmængde af de primære betragtninger nær ved den ønskede (virtuelle) betragtning. Det 

giver følgende problemer, der skal løses: 

1) Hvordan bestemmes positionen og intensiteten af et punkt i den interpolerede 

betragtning, hvis position og intensitet af de korresponderende punkter i de primære 

betragtninger er kendt? 

2) Hvordan bestemmes synligheden af punkter i den interpolerede betragtning? 

3) Hvordan findes de mulige mindste sæt af primære betragtninger? 

4) Hvordan findes korrespondancer mellem de primære betragtninger? 

Det ikke-trivielle problem med at bestemme et mindste sæt af betragtninger – 3 – er stadig 

uløst for generelle ikke konvekse objekter. Metoden beskæftiger sig ikke yderligere med den 

del af problemstillingen, men fokuserer kun på 1,2 og 4. 

Position og intensitet af et interpoleret punkt 

Antag n korresponderende punkter i n primære betragtninger, dvs. en 2n-tuple [x1,I1,…,xn,In], 

hvor xi er billedekoordinater af det i'te punkt, og Ii er intensiteten. 

Det i'te punkt er en projektion af et punkt X på objektets overflade i den i'te betragtning, med 

betragtnings parametrene pi. Målet er at opnå koordinaterne x og intensiteterne I af 

projektionen af X i en interpoleret betragtning med parametrene p. 

Følgende ligninger skal løses : 

x = ( X, 

p ), i = 1, 

, n dvs. x = f(X,p) (i) 

i 

f i 

Hvor f er en funktion, der tildeler projektionen til et punkt i 3D rummet, som sammen med p 

kendes fra kalibreringen. 

Betragtningsparametrene, p, er ikke et komplet sæt af kalibrerede kameraparametre, men kun 

fx vinklerne mellem betragtningsvinklerne. Werner et al. 1995 benytter en drejeskive, hvor 

drejningsvinklen kendes for hvert billede taget, og den benyttes da som parameter. 

Hvis n=2 har systemet en unik løsning, og ellers kan en løsning findes med mindste 

kvadraters metode. 

SIDE 28


Hvis parametrene for en interpoleret betragtning udtrykkes som en linear kombination af 

parametrene for n betragtninger: p = α ip i og hvis α i = 1 og pi er tætte på hinanden, så 

holder det, at: 

dvs. 6 af (i) 

n 

f ( X, 

α p ) ≈ α f ( X, 

p 

i= 

1 

i 

i 

n 

i= 

1 

n 

i= 

1 

x = α x 

Intensiteten af punkterne kan bestemmes tilsvarende: I = α i I i , tilbage er at bestemme α i . 

Da betragtningsparametrene, pi, er kendt, kan α i bestemmes ud fra ligningerne: 

n 

p = α p 

n 

i= 

1 

i= 

1 

i 

i 

α = 1 

Der findes en løsning til dette for n ≥ dim( p) 

+ 1. 

Werner et al. 1995 benytter en drejeskive til 

at tilegne sig billeder, hvor der kun er en frihedsgrad, dvs. dim(p)=1. Ligningerne, der skal 

løses, er da: 

α p + α p = p 

1 

1 

1 

i 

2 

2 

α + α = 1 

Hvor der blot skal sættes ind og løses for α1 og α 2 . En interpoleret betragtning af to billeder 

kan derefter konstrueres ved at multiplicere og summere med α1 og α 2 for alle sæt af 

korresponderende punkter og intensiteter, der tilhører de to valgte billeder. Korrespondance 

tilegnelsen ses der samlet på i "Korrespondancer mellem billeder" side 32. 

Metoden forudsætter et minimalt kendskab til eksterne parametre for at kunne benyttes, og 

som titlen antyder, kan den kun interpolere. Nye ekstrapolerende betragtninger, der ikke 

ligger imellem de eksisterende, tager den ikke højde for. Derfor ses på videreudviklingen af 

metoden, af de samme forfattere, view ekstrapolation. 

6 Werner et al. 1995 viser ikke dette, men giver et praj om, hvordan det gøres ved Taylor udvikling. 

2 

i 

i 

i 

i 

) 

SIDE 29


View ekstrapolation 

Ligesom view interpolering, foreslår view ekstrapolation metoden (Werner et al. 1997, 1998) 

at kombinere en serie referencebilleder for at konstruere nye betragtninger af et objekt, i 

stedet for at udføre en 3D rekonstruktion og efterfølgende projektion. 

For at vise et 3D objekt, som kameraet drejer rundt om, fra en vilkårlig vinkel, så er ganske 

mange referencebilleder nødvendige for at gøre den visuelle effekt realistisk nok, hvis der 

benyttes view interpolation. 

Dette skyldes en mangel ved billedeinterpolation, nemlig egenskaben at vise et generelt 

objekt fra en vilkårlig vinkel ved benyttelse af billederne og deres korrespondancer. Manglen 

skyldes tildækning. Werner et al. 1997 viser, overraskende nok, at ingen objekter, selv ikke 

en konveks polyhedron, kan visualiseres udelukkende ved interpolation mellem et absolut 

antal referencebilleder. For at håndtere dette problem introducerer Werner et al. 1997 view 

ekstrapolation. 

Metoden kræver følgende (Werner et al. 1997): 

a) Rekonstruktion af en delvis 3D model udfra flere (ofte kun to) referencebilleder. 

Modellen er delvis, fordi det kun er de dele af objektet, der er synlige i alle 

referencebillederne samtidig, der rekonstrueres. Det adskiller metoden fra 3D 

rekonstruktion, hvor en 3D model konstrueres helt udfra et stort antal 

referencebilleder. 

b) Positionering af det virtuelle kamera. 

c) Gengivelse af den delvise 3D model. 

Metoden ser kun på ukalibrerede referencebilleder, og i det tilfælde kan kun en projektiv 3D 

model rekonstrueres (som omtalt i "Billeddannelse" side 15 ), hvilket gør, at metoden også 

kan benyttes med fx fotografier taget med ukendte kameraer. 

I det følgende bliver kameracentre betegnet ved C, billedplaner ved π , billedpunkter ved 

[ ] T 

u v , w 

u i = i , i i , scene/objekt punkter ved [ ] T 

i = X i , Yi 

, Zi 

, Wi 

X og 3× 4 kamera 

projektionsmatricer ved M. Hvor både u og X er i homogene koordinater, dvs. de kartesiske 

koordinater for u er x i = ui 

wi 

i = vi 

wi 

y , og tilsvarende for Xi. 

C er centrum for det virtuelle kamera, C' og C'' er centre for første og anden referencekamera. 

π , π ' og π '' 

er de tilsvarende billedplaner. 

Antag at en rekonstrueret projektivmodel eksisterer, og at den er repræsenteret af følgende 

data: 

SIDE 30


Sættet af korresponderende par [billedpunkt, scenepunkt], { [ ′ , X ], i = 1,..., 

N} 

u , der er 

resultatet af den projektive rekonstruktion fra sættet af korresponderende billedpunkter 

[ u ′ , u′ 

′ ], i = 1,..., 

N . Transformationen fra scenepunkt til reference billederne er: 

{ } 

i 

i 

ρ ′ u ′ = M′ 

X , ρ′ 

′ u′ 

′ = M′ 

′ X , 

i 

i 

i 

i 

hvor M ′og M′ 

′ er kameramatricer for referencebillede kameraerne, og ρ ≠ 0, ρ′ 

′ ≠ 0 

i 

i 

i 

i 

′ i 

i 

er skalaer. Punkterne Xi afviger fra den underliggende euklidiske struktur med en 

ukendt projektiv transformation. 

Trianguleringen af sættet { , i = 1,..., 

N} 

X . Trianguleringen tilnærmer den 

i 

underliggende overflade. Da det kun er den overflade der er synlig fra begge 

referencekameraer, der kan rekonstrueres (af a)), er der en-til-en korrespondance fra 

den triangulerede flade og referencebilledplanen π ′. Derfor kan trianguleringen 

passende udføres i π ′ i stedet for i det projektive rum! 

Referencebilledet taget fra betragtnings vinklen C'. Billedet benyttes til at gemme den 

tekstur, som det skal 'fordrejes' til det virtuelle billede i rekonstruktionsprocessen. 

Positionen af det virtuelle kamera specificeret af kameramatricen, M, for det virtuelle kamera 

er iflg. Werner et al. 1997 et svært problem, når en euklidisk rekonstruktion ikke er kendt. 

Derfor antages det blot, at M er kendt, så det virtuelle billede kan konstrueres således: 

ρ u MX , ρ ≠ 0 

i 

i = i i 

For at udføre en rekonstruktion skal pixels overføres til det virtuelle billede. Det kan gøres på 

forskellige måder, Werner et al. 1997 foreslår at benytte overførsel med trekanter, og løse 

synlighed af punkter med en z-buffer. En anden metode er fx raytracing. 

Problemet ved blot at overføre de enkelte pixels er, at der kan opstå huller som følge af 

forskellig sampling i de to billeder. Hvis trekanter overføres kompenseres der for det. 

For at overføre en trekant T' i referencebilledet til den tilsvarende trekant T i det virtuelle 

billede, skal der konstrueres en homografi 7 , der overføre det indre af trekanterne. Hjørnerne af 

trekanterne fås fra de ovenstående ligninger, de to trekanter er u ′ 1 , u′ 

2 , u′ 

3 og u1, 

u 2 , u 3 , 

homografien skal overføre punkterne fra det indre af T og T': u ≅ Hu′ 

. For at bestemme H 

kræves imidlertid fire par punkter. Det sidste par kan udgøres af [ e , e′ 

] , epipolerne i 

referencebilledet og det virtuelle billede. 

7 En homografi er en 3 

3 × matrix, der definerer en lineær transformation i det projektive rum, der for en given 

planar flade af den virkelige verden mapper alle projicerede punkter i det ene kameras billede til det andet 

kameras billede. 

SIDE 31


H benyttes til at beregne pixelintensiteter i T i det virtuelle billede, dvs. overførsel af tekstur 

fra T' til T, og fjernelse af skjulte pixels. 

Iflg. Werner et al. 1997 kan et udtryk for dybde i π ′opstilles som: 

hvor 

′ = u ′ ′ ′ 

T 

u [ , v , w ] , 

[ u w′ 

v′ 

w′ 

] − [ e′ 

g ′ f ′ g ′ ] 

′ = e ′ ′ ′ 

2 ( ( u′ 

, ) ) 

d ′ ( u ′ ) = o( 

e′ 

) σ dist e′ 

T 

e [ , f , g ] , dist er afstanden mellem de to punkter, dvs. 

′ , o(e′ ) er en funktion, der er –1 eller 1, afhængig af om C er 

foran eller bagved π ′og σ er en arbitrær monoton funktion. 

Værdierne i z-bufferen for hver pixel i u i π kan opnås ved: 

z ( u) 

= d′ 

( u) 

= d ′ ( H 

Homografien kan tilnærmes med en affin transformation, i stil med goraud shading som: 

−1 

u 

z u ) = α d ′ ( u′ 

) + α d′ 

( u′ 

) + α d ′ ( u′ 

) , 

( 1 1 2 2 3 3 

u α ′ ′ ′ . 

hvor α1−3 bestemmes udfra = 1u1 

+ α 2u 

2 + α 3u 

3 

Tilnærmelsen giver en forvrængning afhængig af størrelsen af T og af størrelsen på forskellen 

i dybde af punkterne. Forvrængningen er størst i trekantens centrum, men forsvinder 

imidlertid helt ved ortografisk kamera. 

Ved at benytte overførsel af trekanter kan hardware acceleration udnyttes. Accelereret 

teksturlægning kan give væsentlige hastighedsforbedringer. Ofte er rutinerne også optimeret 

for kvalitet så forskellige interpolationer og filtreringer kan benyttes. 

Korrespondancer mellem billeder 

Korrespondanceproblemet er et problem, der er forsøgt løst på mange forskellige måder, alt 

efter opstillingen og hvordan billeddata bliver tilegnet. Hvis man antager, at de fleste 

scenepunkter er synlige i begge de billeder, man vil finde korrespondancer imellem, og de 

korresponderende billedregioner ligner hinanden, så kan man opfatte problemet som et 

søgeproblem. Dvs. givet et element i det ene billede, søg efter samme element i det andet. 

Spørgsmålet er derefter hvilke punkter der skal søges efter, og hvilket mål der skal anvendes 

til at afgøre om to punkter ligner hinanden nok. 

Der findes et væld af forskellige metoder til at gøre dette. Disse kan (som hovedregel) deles 

ind i to hovedgrupper, korrelationsbaserede metoder og kendetegnsbaserede metoder (eng. 

feature-based). 

) 

SIDE 32


Korrelations baseret korrespondance 

Korrelationsbaserede metoder antager, at pixels i korrespondance har lignende intensiteter. 

Intensiteten af de individuelle pixels giver ikke information nok, da der ofte er flere 

kandidater med lignende intensitet. Derfor ser man på intensiteten af adskillige nabopixels, 

hvor et vindue på fx 5× 5 eller 7 × 7 pixels bliver benyttet (Sonka et al. 1999), vinduet er 

valgt afhængig af opløsningen af billederne. Umiddelbart kan det se ud til, at der skal søges 

efter hver pixels korresponderende pixel over hele det andet billede (eller i hvert fald et 

søgevindue), imidlertid kan problemet simplificeres til et 1D problem. Det gøres ved, som 

omtalt i kapitel 1, at benytte den epipolære geometri til at oprette billederne. 

Ved anvendelse af en korrelationsbaseret algoritme i stereosyn, fås korrespondancer for alle 

pixels i billedet. Hvis man i første omgang ser bort fra de tilfælde, hvor der ikke eksisterer 

korresponderende pixels, opstiller Trucco & Verri (1998) pp.146-147 en simpel algoritme til 

korrelationsbaseret korrespondance i stereobilleder: 

Input er et par stereobilleder med intensiteter Il og Ir (venstre og højre) 

Funktionen c(d) er korrelationen afstanden d fra pixel 

T 

l [ i, 

j] 

= p i det venstre billede, og den 

beregnes for alle afstande i søgeregionen. W er størrelsen af det vindue, der søges i, forskellen 

der søges efter er max værdien af c(d) i søge regionen. 

W W 

( d ) = ψ ( I l ( i + k, 

j + l), 

I r ( i + k − d1, 

j + l − d 2 

k= 

−W 

l= 

−W 

c )) 

Funktionen ψ vælges ofte til ψ ( u , v) 

= uv , hvorved krydskorrelation fås, eller 

2 

ψ ( u, v) 

= −( 

u − v) 

, der giver summen af kvadrerede forskelle, eller bloksammenligning. Den 

sidste har den fordel, at den ikke er så følsom overfor meget store/små intensitetsværdier. 

Kendetegnsbaseret korrespondance 

Kendetegnsbaseret korrespondance begrænser søgningen efter korrespondancer til et sæt af 

kendetegn, hvor man i stedet for at søge efter korrespondancer inden for et vindue, søger efter 

kendetegn, der passer sammen. Kendetegnene kan være fx kanter, hjørner, linier, kurver eller 

mere specialiserede. 

Ulemperne ved at benytte en korrelationsbaseret metode er, at den er beregningsintensiv; hver 

pixel bliver evalueret mange gange, og scenen skal have tekstur for at virke ordentligt. Flader 

med næsten samme intensitet over alt, er metoderne uegnede til. Hvis der er langt mellem 

betragtnings vinklerne billederne imellem, er metoden heller ikke velegnet. 

Kendetegnsbaserede metoder kan være hurtigere og egner sig, hvis der er a priori information 

tilgængelig – viden om hvad der er på billederne. Til gengæld får man kun en spredt 

SIDE 33


korrespondance, hvilket også er fint i mange tilfælde. Der eksisterer desværre ikke en færdig 

løsning, der giver gode resultater under alle forhold. Derfor må metoderne afvejes af 

situationen (som altid). 

Korrespondancer ved en sekvens af billeder 

Når en serie billeder haves, som ved view interpolation og view ekstrapolation, er billederne 

taget ganske kort tid efter hinanden. Dette kan give nogle fordele i forhold til de ovenstående 

metoder. Som regel ses på to forskellige metoder når der skal findes korrespondancer i en 

serie af billeder: optisk flow og tracking. Som Werner et al. 1997 ses der her kun på tracking. 

En af de meget anvendte metoder til at tracke kendetegn med er med et Kalman filter (fx 

Trucco & Verri 1998 eller Sonka et al. 1999), der benyttes til at estimere positionen og 

usikkerheden af et kendetegn i næste billede, dvs. positionen og størrelsen af området der skal 

søges i. Imidlertid er teorien bag Kalman filtret ganske kompliceret, og derfor ses på Werner 

et al. 1997's simple tilgang til tracking i en tæt serie af billeder. 

Antag at kendetegn, invariante overfor betragtningsvinkel, bliver fundet i hvert billede i en 

sekvens af billeder, der har følgende egenskaber: 

Mængden af kendetegn, F (M) 

, fundet i et billede taget med kameramatrix M. 

Positionen af et kendetegn f ∈ F(M) 

er entydigt defineret, og specificeret ved u ( f ) . 

Kendetegn f og f ′ siges at være korresponderende, hvis (og kun hvis) deres 

positioner ændrer sig i forhold til projektionen af et scenepunkt ved ændring af 

kameramatricen fra M til M′. Dvs. hvis u( f ) ≅ MX er kendetegnet 

korresponderende til scenepunktet X, så er f ′ korresponderende til f , hvis (og kun 

hvis) u ( f ′) ≅ M′ 

X . 

Kendetegnene er adskilt med en minimal afstand, hvis afstanden mellem to vilkårlige 

kendetegn altid er større end en given afstand, ε . Dvs.: 

∀f , g ∈ F( 

M ) : u( 

f ) − u( 

g) 

≥ ε > 0 

Kendetegn kan være uden korresponderende modpart i F(M′ ) enten på grund af 

tildækning/okklusion eller på grund af kravet om minimal afstand. 

Hvis man antager at en billedsekvens er optaget så tæt, at der for et valgt epsilon og for et 

vilkårligt kendetegn findes højest et kendetegn i det efterfølgende billede så u ( F) − u( 

G) 

< ε 

Så opstiller Werner et al. 1997 en korrespondance algoritme: 

SIDE 34


1. Lad n=1 

2. Find kendetegnene F( M n ) i billede n i sekvensen. Sørg for at minimal 

afstandskravet er opfyldt for et valgt ε . 

3. Flyt kameraet til billede n+1, så maksimalafstanden mellem to vilkårlige 

kendetegn i billederne n og n+1 er ε . 

4. For hver kendetegn f ∈ F( 

M n ) søg efter kendetegn g ∈ F( 

M n+ 

1) 

, så 

u ( f ) − u( 

g) 

< ε . Hvis g findes, så korresponderer det til f, hvis ikke så har f 

ingen korrespondance i billede n+1 pga. okklusion. 

5. Lad n = n + 1. 

Hvis n < N så spring til punkt 2. 

Som kendetegn vælger Werner et al. 1997 kanter, da de er en god tilnærmelse til invariante 

kendetegn. I den opstilling, der benyttes, ses på nogle objekter, der har størrelser omkring 8- 

10 cm på en drejeskive, som er placeret ca. 2m fra kameraet. Dette forhold gør, at opstillingen 

kan tilnærme en ortografisk projektion – eller et svagt perspektiv. 

Trucco & Verri (1998) pp 27. angiver at antagelsen om svagt perspektiv, bliver anvendelig 

når forholdene er omkring δ z < Z / 20 . Hvor δz er afstanden mellem to vilkårlige punkter i 

scenen, og Z er gennemsnitsafstanden til kameraet. 

Ligeledes anvendes en drejeskive, hvor objektet er anbragt i centrum. Kombinationen af svagt 

perspektiv og bevægelse i kun en retning gør at skanlinierne falder sammen med de epipolære 

linier. Søgning efter korresponderende kanter, billederne imellem kan derfor indskrænkes til 

kun at være inden for samme skanlinie. 

Med denne opstilling, kan det retfærdiggøres at benytte en simpel algoritme som ovenstående. 

Werner et al. (1997) opnår nogle fine resultater med forskellige typer objekter, bl.a. et 

dukkeansigt og en gipsafstøbning af et tandsæt, der har rimelig synlighed af alle punkter 

billederne imellem. Derimod går det knap så fint med en rose, hvor kronbladene dækker over 

hinanden, så der opstår en masse huller. 

Forsøg og implementation 

View ekstrapolation 

View ekstrapolering synes at være et godt udgangspunkt for indfangelse af et objekt. 

Anvendelsen af teksturlægning med 3D grafik teknik virker umiddelbart til at kunne opnå 

hastigheder, der kan anvendes i realtime. I forhold til den opstilling som Werner et al. 

SIDE 35


(1997,1998) benytter, er der dog nogle betydelige forskelle til videokonference opstillingen, 

de er: 

a) Afstanden fra kamera til scene/objekt er ca. 40-50 cm, og udstrækningen af objektet 

(ansigt) er større. 

b) Bevægelse er ikke begrænset til en dimension. Ved initialisering kan man dog antage 

begrænset bevægelse (op→ned). 

c) Baggrunden er ikke ensartet sort, men med tekstur og forskellig belysning. 

Punkt a) gør, at antagelsen om svagt perspektiv ikke kan benyttes og b), at søgningen efter 

korresponderende kendetegn ikke umiddelbart kan gøres i en dimension. c) betyder, at 

baggrunden giver anledning til fx kanter og hjørner, der kan forstyrre. 

For at se om resultatet af view ekstrapolation vil kunne skabe et troværdigt virtuelt billede, 

vælges som første skridt at forsøge med en billedserie og tracke punkter i hånden. 

Originalbillede 1 

Original 1 benyttet som tekstur og vippet op 10 o 

Originalbillede 2 


SIDE 36



Original 1 benyttet som tekstur og vippet ned 10 o 

Figur 13 View ekstrapolation med håndtrackede punkter. 

Som det ses af billederne i Figur 13, gav 

eksperimentet med håndtrackede punkter (Figur 14) 

et rimeligt resultat. De er fremstillet ved at benytte 

afstanden mellem punkterne som z-værdi, da det er 

hvad Werner et al. benytter i deres eksperimenter. 

Resultatet er en række 3D punkter (40). I stedet for at 

benytte Delaunay triangulering, blev MFFD 

algoritmen (Side 22) rettet til for at tilnærme en 

punktsky i stedet for koordinater i planen. Når så få 

punkter er tilgængelige viste MFFD algoritmen sig at 

give et pænt resultat. Billederne i figuren er vippet 


Original 2 benyttet som tekstur og vippet ned 5 o 

Figur 14 Punkter lagt over billede 1. 

Blå er positionen i billede 1, og gul er i 

billede 2. 

tilpas lidt til, at resultatet stadig ser fornuftigt ud. Man kan se, at rekonstruktionen ikke er 

præcis ved de nederste billeder, hvor ansigtet ser deformeret ud. Ved større vinkler, eller ved 

drejning om den anden akse er det helt klart, at 3D modellen er upræcis som følge af 

håndtracking og ganske få punkter. 

SIDE 37


Det er herefter at overveje hvilken typer kendetegn, der skal trackes. 

En hjørnedetektor 

Werner et al (1997) benytter en 1D Deriche kantdetektor til at finde og følge kanter over 

billedsekvensen, da opstillingen er har nogle egenskaber, der gør det muligt. 

Da bevægelser i videokonference opstillingen ikke er garanteret til at være begrænset til en 

dimension, vil det være vanskeligt at følge kanter, det vil være nødvendigt at finde kanternes 

endepunkter og følge disse. I stedet er valget faldet på en hjørnedetektor (der bl.a. finder 

endepunkter). 

Hjørner er ofte gode bud på kendetegn, der er stabile over flere betragtningsvinkler i en 

sekvens af billeder. I denne sammenhæng er et hjørne en karakteristik af strukturen af billedintensiteter, 

der kan opfattes som hjørner. 

Hjørnestrukturer i billeder kan findes med en Harris hjørnedetektor (Harris & Stephens 

1988): 

M 

∂I 

∂x 

∂I 

∂x 

2 

∂I 

∂y 

∂I 

∂x 

∂I 

∂y 

∂I 

∂y 

= 2 

Hvor I ( x, 

y) 

er gråtoneintensiteten. Matricen består af de partielt afledte af intensiteten, dvs. 

gradienterne. Hvis de to egenværdier af matricen M ved et punkt er store, så vil en lille 

bevægelse i en vilkårlig retning give et udsving i gråtoneintensiteten, hvilket indikerer, at 

punktet er et hjørne. Hjørne responsfunktionen er: 

R = det M − k( 

traceM) 

Hvor k er en parameter (foreslået sat til 0,04) og trace er summen af diagonalen. Hjørnerne er 

derefter defineret til at være de lokale maksima. For at undgå hjørner, der er forsaget af støj, 

kan et gauss-filter benyttes til at glatte billederne med, imidlertid er det de afledte billeder, der 

skal glattes og ikke input billedet. 

Matricen M beregnes over et vindue 

af pixels, hvor hver af elementerne 

beregnes som en sum af værdierne 

for hver pixel i vinduet. Dette giver 

stabilitet og gør samtidig, at områder 

med ændringer i intensitet bliver 

registreret. Ved at variere vinduets 

2 

Figur 15 20 første hjørner fundet med et vindue på 9 × 9 og 

5 × 5 pixels, billedet er fra COIL (Nene et al. 1996). 

SIDE 38


størrelse får man indflydelse på hvor store kendetegn, der skal identificeres. Ofte findes for 

mange hjørner, så en restriktion på R er nødvendig, fx i form af en tærskelværdi. 

For at begrænse antallet af fundne kendetegn, er en simpel metode anvendt. Metoden finder 

maksimumværdien for R i billedet, indsætter koordinaterne i en liste og fjerner andre værdier 

af R i det fundne punkts nabovindue – dette er dog langsommere end at benytte en 

tærskelværdi, men man kan i stedet specificere de fx 20 mest udslagsgivende punkter, og man 

undgår at skulle angive en værdi, der er specifik for lys/kontrast og vinduesstørrelse. 

En anden mere præcis metode kan også anvendes, fx kan man finde størrelsen af det fundne 

hjørne/kendetegn ved at beregne center-of-mass 8 , og formindske eller forstørre søgevinduet 

indtil standard afvigelsen er mindre end en fastsat størrelse. 

Tracking over en serie billeder 

Med en mængde af hjørner/kendetegn to billeder imellem, er det muligt at benytte den 

forslåede algoritme til at tracke de enkelte kendetegn mellem to billeder. For at gøre det over 

flere billeder, er det nødvendigt at overveje hvilken strategi, der skal benyttes ved sammenligning 

af trackede punkter, og hvad der skal gemmes. 

For hvert billede eksisterer et sæt af kendetegn og for hver par af billeder eksisterer desuden 

et sæt af korrespondancer i mellem kendetegnene. Det der ønskes er at etablere 

korrespondance mellem fx første og sidste billede i en billedserie. 

Enten kan man vælge at finde lister af korrespondancer for parvise billeder og sammenligne 

disse lister, eller også kan man nøjes med at finde korrespondancer to billeder imellem, hvor 

der i input listen kun er kendetegn, der er korrespondance til fra forrige billede. 

Da man for at rekonstruere med view ekstrapolation kun rekonstruerer punkter der er synlige i 

begge referencebilleder, vælges den sidste. Resultatet er en liste af lister af kendetegn, hvor 

hver af listerne som første element har et kendetegn fra første referencebillede, og som de 

øvrige elementer de trackede punkter i de efterfølgende billeder, så længe de kan følges. 

Figur 16 Punkter fulgt fra første og sidste billede i en sekvens på 

4 billeder. Krydserne markerer positionen af punktet i billedet, 

firkanterne i de følgende/tidligere billeder (Billedet fra COIL 

(Nene et al. 1996)). 

8 Middelværdien, der svarer til massefordelingens tyngdepunkt. I en dimension: (Brøndum & Monrad 1993) 

SIDE 39


På Figur 19 og Figur 20 ses rekonstruktionen af punkterne, og billedet vippet 10 grader op og 

ned. Resultatet lider under de samme fejl som det håndtrackede, nemlig at der er nogle 

punkter, der er tracket forkert, og at der ikke er nogen punkter på kinder og pande. Figur 22 

viser profilen af de rekonstruerede punkter, og man kan her se, at noget af formen er rigtig, 

men at det faktisk kun er en skitse, fx mangler hagen. Noget af denne deformering stammer 

fra MFFD tilnærmelsen, der jo tilnærmer områder med mange punkter på en mindste 

kvadraterfacon. Dette betyder, at punkter, der kan have betydning, drukner i mængden - så at 

sige. Derfor er det interessant at se, om en triangulering af punkterne vil gøre det bedre. 

Figur 17 Første billede i en sekvens på 8 

billeder. 

Figur 19 Billede 1 vippet op 10 o . 

Figur 18 Sidste billede i sekvensen. 

Figur 20 Billede 1 vippet op 10 o . 

SIDE 40


Figur 21 De trackede punkter (48 af 63) over 8 

billeder (vindue 7 × 7, 

ε = 7 , z skalering 2,5). 

Figur 22 De teksturbelagte rekonstruerede 

punkter set i profil (85 o ). 

I stedet for at implementere en udgave af Delaunay triangulering, blev en eksisterende C 

implementation benyttet. Baseret på implementationen fra Leach (1992), blev en DLL 

konstrueret, så algoritmen kan kaldes fra Delphi. 

Figur 23 Billede 1 vippet op 10 o , delaunay 

triangulering af punkterne ill. Figur 21. 

Figur 24 Profil af trianguleret rekonstruktion (85 o ). 

Forskellen mellem de to metoder til visualisering er ikke markant under de små drejninger, 

men tydelig under større vinkler. De to profiler er dannet med samme data, men rekonstruktionen 

med MFFD set visuelt mere indbydende ud. 

Opsummering 

Ved håndtrackning af et lille antal punkter blev første primitive rekonstruktion udført og 

tilnærmet med splines, med metoden i Lee et al. 1998. Tilnærmelse med multilevel freeform 

deformations har den fordel, at man får en glat tilnærmelse, til gengæld bliver resultatet stærkt 

SIDE 41


påvirket af varierende sampling. Senere blev Delaunay triangulering afprøvet for at vurdere 

hvilken metode, der gav bedst resultat. Under små vinkler var der næsten ingen forskel, men 

ved større var MFFD en glattere tilnærmelse. Med den lille mængde af punkter, der 

rekonstrueres udfra, giver Delaunay triangulering kantede resultater. 

De trackede punkter blev puttet ind i view ekstrapolerings metoden, dvs. udfra punkterne 

benyttes distancen mellem dem som en z-koordinat (i ukendt skalering), og disse koordinater 

spline approksimeres eller Delaunay trianguleres og der sættes tekstur på. 

Resultatet herefter er lovende for ansigtsbillederne. For nogle små vinkler er det muligt at få 

en troværdig ekstrapolering af ansigtet. Eksperimenterne med billedserier fra "Columbia 

Object Image Library (COIL)" (Nene et al. 1996) var mindre gode (se Test af featuretracker 

side 57). 

Et af problemerne er, at Harris detektoren ikke finder nogen punkter på de glatte flader som 

kinder, hage og pande. 

Og på figurerne var der indimellem punkter, der stammede fra højlys i blanke overflader. 

Spline approksimeringen er en udmærket tilnærmelse, hvis der er en ligelig sampling over alt, 

og det er afrundede objekter, og det var billederne fra COIL databasen for det meste ikke. 

Status for denne del af projektet er derfor, at en indledende kalibrering er mere eller mindre 

fungerende. Forskellige metoder er afprøvet, og en række informationer om billedserien er 

tilegnet. En række problemer i den forbindelse er identificeret. 

Del 3. Ansigtsorienterede metoder 

Tilgangen til problemstillingen har hidtil været generel, dvs. der har ikke været antaget noget 

om hvad opstillingen indeholder. De metoder, der er evalueret, virker lige godt, uanset hvilket 

objekt der ses på (på drejeskive). Metoderne har indtil videre ikke virket tilfredsstillende, 

undtagen hvis bevægelserne er begrænset til en dimension. Idéen med at rekonstruere via 

eksisterende 3D hardware, virker tilsyneladende godt og hurtigt. Hvis man går bort fra den 

generelle indgangsvinkel, og forholder sig, til hvad der er på billedet, dvs. tilfører a priori 

informationer, burde det være muligt at opnå forbedringer. 

Ifølge Toegl & Poggio (1994) er estimering af ansigtsposituren stabil i en gauss-pyramide 

indtil forholdet 1:4, det implicerer, at store dele af ansigtetstræk stadig er synlige, efter en 

skalering til en fjerdedel. En idé kunne derfor være at gå videre med de hidtidige metoder, og 

undersøge resultaterne efter en skalering, og om op-skalering af den opnåede 3D model giver 

fornuftige resultater. 

Samme Toegl & Poggio (1994) bemærker i øvrigt, at et af problemerne ved ansigter er, at de 

har nogle flader, hvor der ikke er mange kendetegn, og dette faktum, der blev klart i forrige 

afsnit, indikerer, at det er en idé at se på andre teknikker. 

SIDE 42


Forrige afsnit gav et indblik i besværet ved at arbejde med naturlige data. Resultaterne fra 

view morphing giver en erfaring om, at der ikke skal mange punkter til for at opnå resultater. 

Dog fandt tracking metoden ikke nok punkter, der var anvendelige, og hastigheden egner sig 

ikke i nuværende form til at bygge videre på. 

Hvis man et øjeblik antager, at tracking'en, opnået i forgående afsnit, er tilstrækkelig til at 

opnå en "3D" model, der er god nok til initialisering, er der stadig en række problemer tilbage. 

Nemlig hvordan data skal benyttes til at transformere de efterfølgende billeder? Og hvad 

gøres ved de skjulte flader? 

Den nuværende løsning tager ikke højde for skjulte flader, teksturen bliver blot udstrakt. Ser 

man på et ansigt, er næsen den vigtigste fladeproblemet skal løses for, fordi manglende 

næsebor er mere markant end at billedet bliver udstrakt under hagen. En løsning kunne derfor 

være at identificere næsen og klippe et billedstykke ud, hvor undersiden er synlig og benytte 

dette som tekstur efterfølgende. 

For at benytte den opnåede model til at vippe billederne et for et i billedstrømmen efterfølgende, 

er det nødvendigt at rotere evt. forflytte ansigtsmodellen, så billedet kan benyttes 

som tekstur på 3D-modellen, og siden vippe den op et antal grader. Derfor skal punkterne 

følges, så korrespondancerne kan beholdes og benyttes til det. Et andet spørgsmål er, hvordan 

eller om modellen skal deformeres, når fx munden åbnes. 

Før nogle af disse overvejelser kan benyttes, er det nødvendigt at forbedre den nuværende 

metode, eller vælge og afprøve en anden. Der kan foretages en del forbedringer af den 

eksisterende metode, både af hjørnedetektoren og tracking. Hjørnedetektoren kan modificeres 

til at virke på farvebilleder, det vil sandsynligvis give nogle bedre hjørnekandidater og 

forbedre tracking en del. Problemet ved det er blot, at hjørnerespons funktionen vil tage 

omtrent tre gange så lang tid at beregne, som det kan ses af matricen herunder, til 

sammenligning med matricen side 38. R, G og B er gradienterne af farverne (Harris & 

Stephens 1988). 

M 

R 

+ G 

+ B 

R R + G G + B B 

2 2 2 

= 

x x 

Rx 

Ry 

+ GxG 

y 

x 

+ Bx 

By 

x y x y x 

2 2 2 

Ry 

+ G y + By 

Selve separationen af de lokale maksima kan også optimeres, men så længe beregningen af 

hjørneresponsen er alt for høj, i forhold til realtime ønsker, er dette omsonst. 

Den bedste optimering der kan gøres er at beregne på et mindre billede, hvis det er muligt. 

Det løser dog stadig ikke problemet med den simple søgning efter korrespondancer, der 

benyttes. Billederne bliver ikke rettet op, så den epipolære geometri giver en 1D søgning, men 

søgning foregår kun efter algoritmen på side 35. Opretningen af billeder er ikke så enkel i 

dette tilfælde, da der jo ikke er to kameraer. Hvis den fundamentale matrix skal beregnes, skal 

der "lades som om", at der er to kameraer, dvs. det er kun de punkter, der tilhører ansigtet, der 

skal beregnes udfra, da baggrunden jo er statisk. 

y 

SIDE 43


For at opnå en bedre tracking, kan Kalman filtret også genovervejes, da det giver 

sandsynligheden for, hvor punkterne bevæger sig hen af i billedsekvensen. 

Ovenstående overvejelser leder frem til et par observationer: 

At separere ansigtet fra baggrunden kan være en fordel, ligeledes position og 

identifikation af forskellige ansigtskendetegn (som værende næse, øjne etc.). 

Harris hjørnedetektor er nok ikke vejen frem i dette tilfælde. 

For at adskille ansigtet fra baggrunden kan forskellige metoder benyttes, en simpel udvidelse 

af nuværende metode er se udelukkende på de punkter, der flytter sig. En anden metode er at 

benytte optisk flow metoder. Hvis man imidlertid analyserer, hvad der specielt karakteriserer 

ansigter, så kan man opstille en række fælles træk, der gælder for de fleste ansigter. 

Inden for genkendelse af ansigter er der en række gennemgående træk som benyttes, de er fx 

næsestørrelse og -form, ansigtsform, øjenfarve og en række andre. En anden ting, der 

kendetegner et ansigt, er ansigtets farve. Farveseparation kan være en hurtig proces, hvis hver 

billedpunkt kun skal evalueres en gang. Hvis man derfor kan opstille en model for 

spredningen af ansigtsfarver vil det være en simpel og hurtig metode. 

Hvis en sådan region indeholdende ansigtet kan skaffes, hvordan skal kurvaturen af ansigtet 

bestemmes – hvis ikke der skal trackes? Kinder, hage og pande giver kun ringe anledning til 

hjørner, nogle kanter findes og kan måske benyttes. Alternativt kan der ses på shape from 

shading (SFS) teknikker, som bemærket i første afsnit, til at bestemme hældning og højde 

inden for disse områder. Det benytter Lew et al. 1995 til at opnå nye orienteringer af 

ansigtsbilleder til genkendelse. 

Man kunne også tilpasse data med en intern 3D ansigtsmodel og benytte denne til at dreje 

eller deformere billedet. Det benytter bl.a. Jebara & Pentland (1997) og Blantz & Vetter 

(1999) til forskellige formål. Jebara & Pentland (1997) benytter modellen til at rotere billeder 

i standard frontbetragtning, så videre processering kan udføres til genkendelse. De benytter en 

gennemsnitlig 3D model for et ansigt, der justeres til at passe med den positur ansigtsbilledet 

har. 3D modellen er opnået ved tage gennemsnit over adskillige 3D laserscannede ansigter. 

Blantz & Vetter (1999) har et andet formål, nemlig at syntetisere 3D ansigter. Baseret på en 

database af 200 3D laserscannede ansigter opstiller de en model, der kan ændre på en række 

parametre for et givent ansigt. Et billede af et ansigt matches med databasen, og den model 

der passer bedst 3D morfes til at passe præcis. Med modellen kan positur, vinkel og 

ansigtskarakteristik og ansigtsudtryk ændres. Fx kan parametre ændres for, hvor mandlig eller 

kvindelig formen skal være. Deres resultater er imponerende realistiske, men prisen er 

beregninger i minutklassen, langt fra realtime. 

Udfra disse artikler ser det ud til at sammenligning med en intern 3D model kan give gode 

resultater. Da 3D laserscanninger ikke umiddelbart haves, skal der enten findes en online 

ressource med 3D data, eller også kan SFS metoden afprøves. Zhang et al. 1994 undersøger 

SIDE 44


en række forskellige SFS algoritmer (8 forskellige), og kommer frem til følgende: "The 

conclusion drawn from the accuracy analysis is that all of the algorithms have their 

limitations. None of them has consistent performance for all images, since they work well for 

certain images, but perform poorly on others." (Zhang et al. 1994 p. 73), der betyder, at flere 

algoritmer sandsynligvis skal undersøges og tilpasses til opstillingen. Da flere af algoritmerne 

også var meget beregningsintensive (fra sekunder til timer for 128× 128 pixel), og resultatet i 

høj grad påvirkes af lyset, er denne teknik valgt fra. 

Som et ganske andet alternativ kunne man se på en af de andre billedbaserede metoder. Nogle 

af de metoder, der findes til at generere panoreringer, kan visualisere et skift i 

betragtningsvinkel (Shum & Kang 2000), så måske er der skjulte muligheder i det. Disse 

metoder overkommer også nogle af de notorisk svære problemer i computervision, som fx 

gennemsigtige eller spejlende flader. 

Den følgende plan er derfor at undersøge tracking af ansigter og se på en ny billedbaseret 

metode. 

Ansigtstracking og identifikation af kendetegn 

Diskussionen om separation af ansigtet ud fra baggrunden leder hen til arbejder, der 

beskæftiger sig med ansigtstracing og genkendelse af ansigter. Ansigtstracking bliver benyttet 

til bl.a. mundaflæsning/talegenkendelse og hovedpositur bestemmelse. Både Yang et al. 

(1998) og Choudry et al. (1998) forslår at detektere ansigter på basis af ansigtsfarve, og siden 

søge efter ansigtskendetegn i den fundne region. 

Farvebestandighed refererer til evnen til at identificere en overflade som havende samme 

farve under væsentlig forskellige forhold. Farve er nemlig ikke et fysisk fænomen, men et 

spørgsmål om opfattelse, og igen excellerer det menneskelige syn ved at være i stand til at 

opfatte objekters farve invariant under disse forhold. At finde ansigter i et billedbaseret på 

farve er forbundet med en række faktorer, forskellen afhænger bl.a. diffust lys, objekt 

bevægelse og kameraet. 

Det viser sig, at ansigtsfarver klumper sig sammen i en lille region af farve rummet, og at 

ansigtsfarver er mere forskellige i intensitet end i farve. Under bestemte lysforhold kan en 

hudfarve model karakteriseres som en normaldistribution i det normaliserede farve rum (Yang 

& Waibel 1996). 

Den almindeligste repræsentation af farver er RGB modellen, hvor hver pixel er repræsenteret 

ved en trippel sammensat af rød, grøn og blå. Imidlertid indeholder de enkelte komponenter 

ikke kun farveinformation, men også lystintensitet. 

Da ansigtsfarver ikke varierer så meget i farve, er det en fordel at konverter til en model, hvor 

intensiteten er fjernet. Konvertering (normalisering) til den kromatiske farvemodel, der har 

denne egenskab, kan udføres ved (Gonzales & Woods 1992 p. 224): 

SIDE 45


Hvor den blå er udeladt, da r+g+b=1. 

R 

r = 

R + G + B 

G 

g = 

R + G + B 

Yang & Waibel (1996) opstiller en simpel model for hudfarver, baseret på en undersøgelse af 

forskellige individers hudfarve (med både kaukasiere, asiater og afrikansk amerikanere), der 

viser, at ansigtsfarverne er normalfordelte. Modellen går ud på at bestemme en gennemsnitsværdi 

for r og g og en spredning, disse værdier indsættes i en normalfordelings funktion. 

En hudfarve model kan laves således (Yang & Waibel 1996): 

1. Tag et billede med et ansigt på, eller en mængde billeder, hvis en generel model skal 

findes. 

2. Vælg et hudfarvet område interaktivt. 

3. Beregn gennemsnittet af r og g samt kovariansen 9 af farve distributionen i området. 

4. Substituer de beregnede parametre ind i en gauss tæthedsfunktion (fx Brøndum & 

Monrad 1993 p. 138). 

5. Selve modellen har kun seks parametre, så den kan let tilpasses nye personer og 

omgivelser. 

Da omgivelserne kan ændre sig, fx hvis kamera eller personer flytter sig, forslår Yang & 

Waibel (1996) også en adaptiv udvidelse, der tilpasser sig de nye forhold. De nye parametre 

beregnes med en vægtning fra de gamle parametre. 

Baggrunden kan imidlertid også have farver, der ligger i området for ansigtsfarver. For at 

finde ansigter forslås derfor at vælge den/de største regioner og tracke den/dem, så farven 

bliver benyttet som et kendetegn. 

For at finde ansigtskendetegn i den fundne ansigtsregion, benytter Yang et al. (1998) en 

snedig og simpel observation. For at finde øjnene søges efter pupillerne; de optræder altid 

sorte, derfor kan en tærskelværdi benyttes for at finde dem. Tærskelværdien øges iterativt 

indtil passende kandidater til øjnenes position findes, baseret på en geometrisk begrænsning. 

Ved at øge tærskelværdien iterativt, håndteres problemet med forskellige lysforhold. 

Udfra øjnenes position søges på samme måde efter næsebor, mundvigene finder de ved at se 

på kantinformation i en region under hvert øje. 

9 

Kovariansen er variansen i 2 dimensioner, dvs. V ( X , Y ) = σ ( X , Y ) ,hvor X,Y er statistiske variable og σ er 

spredningen (Brøndum & Monrad 1993). 

2 

SIDE 46


To-spalte kameramodellen 

View morphing, view interpolation og view extrapolation er eksempler på billedbaserede 

metoder til visualisering af sceneopstillinger og objekter. Fælles for dem er at de benytter 

forskellige niveauer af geometri, i form af korrespondancer og eksterne parametre. 

En anden billedbaseret metode er to-spalte (eller to-slids) (eng. Two-Slit) kamera modellen, 

denne metode er væsentlig forskellig fra de øvrige. Metoden er baseret på, og inspireret af, 

teknikker til at konstruere panoramabilleder udfra mosaikker af billeder. Panorama billeder er 

blevet konstrueret siden fotografiets opfindelse ved at klistre to eller flere billede sammen til 

et stort, hvis man har villet have billeder af noget større end man umiddelbart kan fotografere. 

To-spalte kameramodellen (Peleg 2002) er en ny alternativ kameramodel, som ikke er baseret 

på en perspektiv projektion. I stedet for at alle lysstråler skal passere gennem et punkt i 

rummet, så passerer lysstrålen i stedet gennem to kurver i rummet i to-spalte kameramodellen. 

Projektionsmodellen kommer til at se noget anderledes ud, i forhold til den perspektiviske 

projektion (Peleg 2002): 

X 

( x, y) 

= f x , f y 

Z + ∆ 

Hvor f f + ∆ . Hvis de to spalter er vilkårlige linier i rummet, og de ikke er ens og ikke 

x 

= y 

P 

z 

Vandret slids 

Figur 25 To-spalte kameramodellen. 

f x 

er koplanare med billedplanen, så kan en projektionsligning opstilles for et punkt P i rummet 

(Peleg 2002): 

x 

y 

w 

= 

Lodret slids 

T 

P S Q S P 

1 

T 

P S Q S 

1 

T 

P S Q S 

Her er S og Q 4 × 4 matricer. Det er imidlertid ikke nødvendigt at regne nogle af disse ud, da 

de kun tjener til at godtgøre, at snit i rum-tid billedvolumen udgør gyldige to-spalte billeder, 

fordi to-spalte kameraet er en teoretisk ramme for forklaring af en snedig teknik. 

1 

f y 

1 

2 

3 

2 

2 

2 

P 

P 

Y 

Z 

Billedplan 

p 

SIDE 47


Det interessante er at se på, hvordan man 

genererer to-spalte billeder ud fra almindelige 

perspektivbilleder. 

Rum-tid billedvolumen udgøres af volumen af 

billeder for et tidsrum, hvor billederne tidsligt er 

adskilt af samme afstand. Dvs. billederne stillet 

op lige efter hinanden. 

En rum-tid volumen kan tages fx med en 

drejeskive, en panorering (som drejeskive, men 

kameraet drejer rundt i stedet for) eller en 

translaterende bevægelse (og også andre, men så giver snit ikke et to-spalte billede). 

Enkeltspaltekamera billeder kan konstrueres ved at tænke sig en lodret 1D lysføler, der overstryger 

sceneopstillingen og indsamler 1D søjlebilleder (Peleg et al. 2000). Et to-spalte 

kamera konstrueres ved at forestille sig kameraet flytte sig langs en 3D linie (Peleg 2002), 

hvor: 

Den ene spalte overlapper vejen, man flytter kameraet. 

Den anden spalte er parallel med den vandrette billedretning 

Figur 26 Snit i billedvolumen (rum-tid 

volumen). 

Kameraets billedplan parallel med det originale hulkamera, og parallel med den anden 

spalte. 

Kameraet kan konstrueres ved at optage billeder fra det translaterende hulkamera og 

sammensætte en søjle fra hvert billede. Hvis den samme søjle tages fra hver billede opnås 

enkeltspalte billeder, hvis forskellige søjler tages opnås to-spalte billeder. 

Hvis man normalt vil konstruere et panoramabillede, optages en billedsekvens translaterende 

med konstant hastighed, og en søjle i midten af alle billederne klippes ud og sættes sammen 

til et billede bredere end højt. Denne metode benytter samme teknik, men her klippes 

forskellige søjler ud i forskellige billeder. Et snit der giver et gyldigt to-spalte billeder kan 

bestemmes ved en lineær funktion x ( t) 

= α t + β , som ses på Figur 26. 

Umiddelbart virker det ikke som noget specielt at sample fra forskellige søjler i forskellige 

billeder, men de effekter man opnår er overraskende. Hvis man laver snit på en sekvens af 

billeder fra et translaterende kamera (parallel med billedplanen), så opnås skift i 

betragtningsvinkel eller en forlæns/baglæns bevægelse. 

For at opnå en forlæns/baglæns bevægelse, snittes billedvolumen som på figuren og snittet 

roteres og afspilles som et filmklip. Hvis derimod et vinkelret snit forflyttes fra den ene side 

til den anden af volumen, opnås en rotation af betragtningsvinklen. 

Generel kamerabevægelse, hvor billedplanen ikke er parallel med bevægelsen, betyder, at 

snittet for et to-spalte billede ikke er lineært. I det tilfælde bliver snitfunktionen i stedet (Peleg 

2002): 

SIDE 48


α + θt 

x( 

t) 

= 

β + t 

Hvor α, β er frie parametre og θ er en parameter specificeret af kameraets interne parametre. 

En detalje ved to-spalte kameraet er, at man kan opnå effekter uden at have præcise 

informationer om interne eller eksterne kameraparametre. Kameramodellen kan ved en 

stationær sceneopstilling og bevægende, forflyttende kamera benyttes til at visualisere scenen 

fra forskellige vinkler, men på bekostning af perspektivet. At perspektivet bliver påvirket 

betyder ikke nødvendigvis, at billedet opfattes som værende forkert. 

Når billedsekvenser tages med håndholdt kamera, eller kameraet på en anden vis ikke bliver 

bevæget med konstant hastighed, så bliver billederne af objektet eller scenen ikke optaget 

med konstant tidsforskydning i rum-tid volumen, og der kan også være bevægelser i x-y 

planen. For at overkomme dette problem, så optagelser af fx naturomgivelser ikke kræver 

konstant hastighed, korrigere Peleg (2002) for rotation og translation ved at analysere optisk 

flow, og beregne forskydningerne billederne imellem. 

Det er svært at forstille sig effekten af snit med to-slids kameraet uden at efterprøve det, 

derfor er en begrænset udgave, der kan afsløre nogle af mulighederne, implementeret. 

Forsøg 

Baseret på Yang et al. (1998) blev en ansigtstracker implementeret. Et par tilnærmelser til 

ansigtsfarve separationen blev gjort. Den gaussiske fordelingsfunktion, er erstattet med en 

rektangulær. Denne tillempning er naturligvis ikke anvendelig, hvis systemet skal være 

stabilt, men til en prøveudgave er det anvendeligt. Hvis man laver et snit i 

normalfordelingsfunktion, fås en ellipseform i planen og et rektangel kan naturligvis ikke 

tilnærme dette på en tilfredsstillende måde. 

For at bestemme spredning og centrum for farverne, blev de bestemt udfra histogrammet af en 

ansigtsregion på en række forskellige ansigtsbilleder. 

Farveseparationen og efterfølgende afgrænsning til farver inden for ansigtsfarve området, 

resulterer i et binært billede med forskellige regioner af pixels. For at eliminere enkelte støj 

pixels og små regioner bliver de morfologiske operationer erosion og udvidelse (erode og 

dilate) anvendt på billedet. For at søge efter billedets regioner, kan forskellige metoder 

benyttes. Valget er faldet på en kant følge algoritme, som specificeret i Sonka et al. (1999) pp. 

142-143, fordi det er en ganske simpel algoritme. Algoritmen søger billedet igennem til en 

pixel findes, og søger derefter efter pixels rundt om mod uret i 4-naboskab. Resultatet er en 

liste af pixels, der omkranser regionen for hver region. Algoritmen finder ikke huller i 

regioner eller regioner, der omkransede af andre regioner, men det er også unødvendigt her. 

SIDE 49


Udfra hver pixelliste bestemmes et omkransende rektangel, arealet af dette benyttes til at 

Figur 27 Ansigter og øjne fundet under forskellige lysforhold (dag og aften) med samme farve 

gennemsnit og spredning. 

bestemme største region. 

Yang et al. (1998) angiver ikke hvilke geometriske begrænsninger de opsætter ved søgning 

efter øjnene. Derfor blev forskellige afprøvet. 

Hvis geometriske begrænsninger skal benyttes til at finde øjnene, så er det vigtigt at 

ansigtsregionen rammer inden for samme område hver gang. Det var desværre ikke tilfældet, 

men hvis farveseparationen kalibreres så den mindste region omkranser ansigtet, så kan et 

eksperimentelt fundet bud på en begrænsning være: 

Der startes med laveste valgte tærskelværdi. 

Søg efter regioner i området 1/16 bredde inde fra hver side af ansigtsrektanglet, og 

1/10 fra toppen i område ½ størrelse af rektanglet. 

For de fundne regioner forkastes de, der er større end en fastsat værdi. De 

sammenlignes parvis, det par hvis vinkel er mindre end 20 o , mellem linien gennem 

punkterne og vandret, og afviger mindst fra 45% af bredden af ansigtsrektanglet 

(mindre end 20%), er øjnekandidater. 

Hvis ikke der findes noget par der opfylder kriteriet, fortsæt med næste højere 

tærskelværdi. 

Målet for øjnekandidater virker for mange fundne ansigtsregioner, men langt fra alle. Det er 

klart at søgningen afhænger af om lige store andele af ansigtet findes. Hvis det er tilfældet, 

kan parametrene justeres til lavere fejlestimering. 

Forsøg med to-spalte kameramodellen. 

I første omgang blev en simpel liste af billeder implementeret, så snit kan laves i forskellige 

vinkler på langs. Implementationen er lavet til at håndtere gråtonebilleder, da det er det 

simpleste, og det er samtidig ikke nødvendigt med farvebilleder for at se, hvordan metoden 

SIDE 50


virker. Da kompensation for forskel i tid og positionering ikke er implementeret, er 

eksperimenterne nødt til at være baseret på billeder, hvor disse er faste – dvs. fx drejeskive 

billeder. 

I første omgang blev forskellige billedsekvenser afprøvet med forskellige snit med den 

implementerede liste, med bilineær interpolation. Derefter blev et eksisterende værktøj 

afprøvet (Video Cube, Klein et al. 2001), der kan lave nogle snit (ikke parallelle snit), men 

hvor snittene kan placeres mere frit, og hvor tidsinterpolationen mellem billederne eksisterer, 

Figur 28 Første og sidste billede i den konstruerede billedsekvens. Kameraet bevæger sig fra venstre mod 

højre på en linie. Planterne i højre og venstre side markerer scenens udstrækning. 

hvilket betyder, at man kan arbejde med kortere videosekvenser. 

Da kompensation for forskel i tid og 

position mellem de enkelte billeder 

ikke er blevet implementeret, er det 

selvfølgelig svært at teste en 

translaterende scene, da der ikke kan 

kompenseres uden at have en 

kontrollerbar kameravogn eller 

lignende. For at afprøve metoden 

alligevel, blev en scene konstrueret i 

et 3D program 10 , og en videosekvens 

Figur 29 Panoramasnit. 45 

med 320 billeder genereret, i 

320× 240. 

Det kan selvfølgelig ikke helt sammenlignes med virkeligheden, men give en idé 

om metodens muligheder. Peleg 2002 benytter optisk flow teknikker til at kompensere ved 

brug af et almindeligt kamera. 

o grader gennem billedvolumen. 

Som det ser ud med to-spalte kameraet, egner det sig kun til at filme statiske scener med et 

bevægende kamera. Håbet var at en idé ville vise sig ved eksperimenter med modellen, der 

evt. kunne vise vej til, hvordan den kan benyttes med videokonference opstillingen. Man 

10 Billederne er genereret i Micrografx Simply 3D. De benyttede objekter følger med programmet. 

SIDE 51


kunne måske forestille sig metoden i en kombination med en anden metode og nogle 

geometriske overvejelser, men det er en fremtidsplan. 

Figur 30 3 billeder genereret ved parallelle snit. Snittene giver forskel i betragtningsvinklen. Ved animering 

opnås en rotationseffekt (toppen er skåret bort). 

Opsummering 

En metode til bestemmelse af en ansigtsregion i et billede er gennemgået, og implementeret. 

Den nuværende algoritme til separation af farver og bestemmelse af ansigtsområde, er delt op, 

så farverne først bliver splittet og siden kombineret. Det er gjort sådan, fordi det letter 

fejlretningen betydeligt at kunne splitte processen op, resultatet er blot, at hver pixel bliver 

evalueret flere gange, dvs. flere gennemløb af billedet. En åbenlys optimering er at lave en 

samlet separation og kombination til nyt ansigtssepareret billede, så hver pixel kun berøres en 

gang. 

Bestemmelse af ansigtsregionen foregår som bestemmelse af et omkransende rektangel, 

metoden kan forbedres, hvis der i stedet for at bestemme et omkransende rektangel blev 

benyttet ellipse match. Spørgsmålet er dog om tidsomkostningerne tillader dette. 

Det er vigtigt at øjnene bestemmes stabilt, da de er udgangspunkt for videre søgning efter 

næse etc. og bestemmelse af positur. Et forslag til forbedring kunne være at bestemme 

positionen over en sekvens af billeder, hvor positionens middelværdi og spredning findes og 

benyttes som input til track algoritme. 

For at finde yderligere ansigtskendetegn, kan billedet roteres så øjnene bringes på linie, det vil 

lette søgningen efter fx øjenbrynenes længde og tykkelse. Idéen med implementationen af 

ansigtstrackeren er at tilpasse en 3D model til positionen af ansigtet. Dog haves en sådan 

model ikke, men det formodes at en kan findes eller konstrueres udfra online ressourcer. 

En ny billedbaseret metode til gengivelse af statiske scene opstillinger er gennemgået. 

Metoden er simpel, og giver nogle overraskende resultater ved gengivelse af statiske scener, 

hvor betragtningsvinklen kan ændres ved et simpelt snit i en stabel af billeder. 

SIDE 52


Teorien giver desværre ikke bud på hvordan den kan benyttes ved scener med bevægelse. En 

begrænset udgave af metoden er implementeret for at få en idé om muligheder og 

begrænsninger. 

Test og resultater 

I dette afsnit gennemgås de implementerede metoder og delmetoder. Test foretages så de så 

vidt muligt bekræfter at metoden virker, og hvor den ikke virker. Samt en estimering af 

køretider for de pågældende programdele. 

Test af multilevel free form deformations (MFFD) 

For at vise at MFFD implementationen faktisk tilnærmer punktforskydninger på en pæn 

måde, skal der både en fejlberegning og en geometrisk vurdering til. 

At implementationen tilnærmer hensigtsmæssigt kan ses på Figur 33 og Figur 34. 

Gennemsnitlig fejl 

0,5 

0,45 

0,4 

0,35 

0,3 

0,25 

0,2 

0,15 

0,1 

0,05 

0 

0 0,2 0,4 0,6 0,8 

Gennemsnitlig punktforskydning 

Figur 33 viser nettet udeformeret, og de følgende viser samme punktforskydning, men med 

forskellige størrelser net. Det kan ses, at tilnærmelsen til de flyttede (gule) punkter deformerer 

hele nettet, og nærmer punkterne mere og mere. Figur 31 viser fejlen i tilnærmelsen for 

forskellige størrelser af nettet. Der blev tilnærmet til 60 punkter, der var tilfældigt placeret og 

tilfældigt forskudt. Man kan se, at fejlen er mindre jo flere niveauer der forfines til, hvilket 

var meningen. 

n=2 

n=4 

n=8 

n=16 

n=32 

Figur 31 MFFD approksimationsfejl i forhold til punktforskydning ved 

forskellige netstørrelser. Splinefunktionens værdi og definitionsmængde er 

mellem 0 og 1. 

SIDE 53


MFFD benyttet som tilnærmelse til 

3D koordinater benytter kun ét net til 

at tilnærme punkterne, hvor 

tilnærmelse til 2D koordinater 

kræver 2 net. Tilnærmelsen til 2D 

koordinater benytter et net for hver 

koordinat, og tilnærmelsen er til 

forskellen mellem punktets position 

og den deformerede position. Ved 

tilnærmelse til z koordinater tilnærmes 

til hele afstanden, og som 

forventet er tendensen den samme 

(Figur 32). Måleresultaterne er 

beregnet for et forskelligt antal 

punkter fundet ved tracking. 

Fejl gennemsnit 

0,045 

0,025 

0,015 

0,005 

0 

0 0,02 0,04 0,06 0,08 0,1 

Figur 33 Niveauer af MFFD. Røde kryds markerer koordinatsystemet, blå kryds markerer punkternes originale 

position, og gule punkter markerer flyttede punkter. 

0,04 

0,035 

0,03 

0,02 

0,01 

z-gennemsnit 

32 

64 

128 

256 

Figur 32 MFFD z-tilnærmelse. Fejl som funktion af den 

gennemsnitlige z afstand ved forskellige net størrelser. 

SIDE 54


Figur 34 Kontrolpunkternes position overlagt nettet og forfining. 

Test af hjørnedetektor 

For at teste hjørnedetektoren er et billede med forskellige mønstre blevet konstrueret. Billedet 

er konstrueret, så flest mulige kombinationer af krydsende kanter er opstået. Der er testet med 

forskellige størrelser af vinduet, der summeres over, og med og uden tilføjelse af gaussfilter 

på input billede. 

SIDE 55


Figur 35 De 30 kraftigste hjørnerespons, 9 × 9 

vindue. 

Figur 37 De 90 kraftigste hjørnerespons, 

9 × 9 vindue. 

Figur 39 De 130 kraftigstehjørnerespons, 

5 × 5 vindue. 

Figur 36 De 50 kraftigste hjørnerespons, 9 × 9 

vindue. 

Figur 38 De 90 kraftigste hjørnerespons, 

9 × 9 vindue input billede gauss filtreret først 

( σ = 1. 

0 ). 

Figur 40 De 90 kraftigstehjørnerespons, 

15 × 15 vindue. 

SIDE 56


På figurerne kan man se, at de hjørner, der giver kraftigst respons, er dem, der findes i stykket 

med murstens tekstur. Og de, der er svagest, er dem i øverste højre gradient firkant. 

Antal "hjørner" Køretid (millisekunder). 

30 70ms. 

50 110ms. 

100 217ms. 

200 427ms. 

230 491ms. 

Tabel 1 Køretid som funktion af antal 

hjørner – hjørnesøgning. 

Køretiderne 11 afspejler, at selve hjørnerespons beregningen er ganske tung, hvilket er en 

selvfølge, da alle pixels i billedet skal evalueres mange gange. En pixel, der er længere væk 

fra billedets ramme end vinduesstørrelsen, bliver evalueret kvadratet på vinduesstørrelsen 

gange. Den samlede køretid for hjørnedetektoren er summen af hjørneresponsen og søgningen 

efter dem. Strategien for søgningen efter hjørner ved at se efter maksimumværdier er ikke 

optimal, det ses tydeligt af køretiderne. Et nærmere kig på algoritmen afslører hvorfor: 

billedet bliver gennemsøgt for maksimum værdi for hvert hjørne, der ønskes. 

Som man kan, se er der lidt afvigelser i, hvor hjørnet bliver fundet, alt efter hvor stort vinduet 

er. Gaussfiltret glatter kanterne lidt ud, så støj bliver elimineret på bekostning af skarphed. 

Resultatet her er, at kanterne bliver mere udflydende, og et par enkelte fejlkanter forsvinder. 

Effekten af at variere størrelsen af vinduet er, at hjørner eller områder med "aktivitet" af 

forskellig størrelse findes. Køretiderne er beregnet vægtet over tre forsøg, afvigelserne var 

optil ca. 20 ms. på de længste køretider, så en lavere køretid kan forventes i et samlet system 

(med featuretracker etc.) 

Alt i alt kan hjørnedetektoren siges at fungere glimrende. Hastigheden er dog ikke 

opmuntrende, der kan ganske givet optimeres en del, men at bringe den i op i real-time 

hastighed er nok en svær opgave. 

Test af featuretracker 

For at teste tracking af hjørneresponspunkterne er det nødvendigt at vurdere hvilke af 

parametrene, der skal justeres på for at opnå fornuftige resultater (punkter fulgt korrekt). 

11 

Maskinen var en AMD Duron 750Mhz, billederne var 320 × 240 . 

Vinduesstørrelse Køretid (millisekunder). 

5 × 5 

227ms. 

7 × 7 

264ms. 

9 × 9 

300ms. 

11× 11 

343ms. 

15 × 15 

449ms. 

Tabel 2 Køretid af hjørnerespons som funktion af 

vinduesstørrelsen. 

SIDE 57


Figur 41 Tracking af simple geometriske objekter ( 5 × 5 vindue, ε = 8 ). 

Objekterne er flyttet 5 pixel over fire billeder (15 pixel i alt). 

For at bekræfte at track algoritmen (side 35) faktisk kan følge et sæt af hjørnepunkter over 

flere billeder, er en billedsekvens med simple bevægelse konstrueret. Output fra track 

algoritmen ses på Figur 41. Det var nødvendigt at justere ε op til 8, før stjernen blev fulgt, 

mens de to andre objekter kunne følges med ε sat til 5, større vindue blev prøvet med samme 

resultat. At stjernen kræver ε = 8 er imidlertid klart, hvis man regner diagonalens længde ud 

ved et 5× 5 kvadrat (fem pixel hen fem op) der er 50 ≅ 7, 

07 . 

Når der skal testes på et billede, der ikke er konstrueret, men indeholder virkelige data, er det 

en besværlig opgave at bestemme størrelsen af epsilon og hjørnerespons vinduet. Som det kan 

ses af Figur 42 giver det ikke mening at finde disse ved at øge hverken epsilon eller 

hjørnerespons vinduet for at bestemme en god værdi for disse. Man kan bemærke et 

sammenfald af standardafvigelsen ved ε = 5 , og det kan måske give et vink en fornuftig 

værdi. 

9 

8 

7 

6 

5 

4 

3 

2 

1 

0 

0 2 4 6 8 10 

Epsilon 

3x3 avg. 

3x3 std. 

5x5 avg. 

5x5 std. 

7x7 avg 

7x7 std. 

9x9 avg. 

9x9 std. 

Figur 42 Gennemsnitlig fundet punktforskydning og standardafvigelse som funktion af ε 

ved tracking over 4 billeder og 200 hjørnerespons. 

SIDE 58


Data er indsamlet over en sekvens på fire billeder fra COIL (Nene et al. 1996). Figur 44 viser 

samme for 100 hjørnerespons, her kan man observere et knæk ved epsilon på fem, men ellers 

en stigning som før. Den gennemsnitlige afstand over den trackede sekvens som funktion af 

hjørne antallet, ses på Figur 45. Af figuren kan man se, at den gennemsnitlige afstand aftager 

jo flere hjørner, der skal findes, hvilket skyldes, at flere hjørner opstår på grund af højlys og 

baggrund. Da højlys og baggrund ikke flytter sig, er de trackede punkter stationære og 

trækker derfor gennemsnittet ned. På Figur 43 kan man se, at nogle af de nederste punkter 

ikke har flyttet sig (et andet problem kan også ses omkring centrum, punkter der bevæger sig 

den forkerte vej). Da billedet er af en roterende sekvens ønskes kun de punkter, der flytter sig, 

Figur 43 Billede fra testsekvens data i Figur 42 er indsamlet af. Her 

er tracket med 9 × 9 vindue, og ε = 5 , ved 100 hjørneresponser. 

Baggrunden er farvet hvid (opr. sort). Billedsekvens fra COIL (Nene 

et al. 1996). 

så vendepunktet af afstanden (ved ca. 60) er et godt bud på antallet af hjørnepunkter. 

Samme måling af hjørner for en sekvens af ansigter (4 billeder) kan ses i Figur 46, man kan se 

at pixelafstanden mellem billederne er langt mindre end for COIL billedet. Tendensen er ikke 

helt den samme, hvilket skyldes, at de fleste punkter findes i ansigtet, der flytter sig og at der 

ikke er samme stationære punkter (se fx Figur 21 side 41). Man kan se en ændring omkring 

80, hvor standardafvigelsen begynder at stige, efter at have været næsten konstant. I dette 

tilfælde vil det sandsynligvis være et godt valg for antallet af hjørner, da det indikerer, at de 

resterende punkter kan være stationære eller fejltrack. 

Objekterne i COIL databasen er alle taget under samme lysforhold, og de har højlys områder, 

hvor blanke flader giver anledning til det. Objekterne er roteret 5 o for hvert billede, og som 

man kan se, giver det en pixelflytning på ca. 5. For den valgte tracking algoritme giver denne 

afstand og højlys pletterne ikke så gode resultater, der er det nødvendigt fx at fjerne afvigende 

punkter eller lignende. 

SIDE 59


10 

8 

6 

4 

2 

0 

0 2 4 6 8 10 

epsilon 

Figur 44 Gennemsnitlig punktforskydning og standardafvigelse som 

funktion af ε ved tracking over 4 billeder og 100 hjørnerespons for 

vindue på 9 × 9 pixels. 

Pixel 

7 

6 

5 

4 

3 

2 

1 

0 

0 50 100 150 

Antal hjørner 

Gennemsnitlig 

afstand 

Standard 

afvigelse 

Figur 45 Gennemsnitlig tracket afstand som funktion af hjørneantal. 

Hjørneantallet er antallet af hjørnerespons i hver billede, der 

sammenlignes med, og ikke antallet af hjørner, der bliver tracket 

( 9 × 9, 

ε = 5 ). 

avg 

std 

SIDE 60


Pixel 

1,4 

1,2 

0,8 

0,6 

0,4 

0,2 

Test af ansigtstracker 

1 

0 

0 50 100 150 200 250 

Antal hjørner 

Gennemsnitlig 

afstand 

Standard afvigelse 

Figur 46 Hjørnetrack over en tæt sekvens af ansigter. ( 9 × 9, 

ε = 5 ). 

Ansigtstrackeren bygger på, at farveseparationen går godt. Som det kan ses af figurerne, giver 

farveseparationen et godt bud på, hvad der er et ansigt, samtidig kan man se at farvedistributionen 

er forskellig, og at de givne farveparametre kun finder ansigtet korrekt ved 

første billede. Det ses regions separationen fint vælger den største sammenhængende region. 

SIDE 61


Figur 47 Separation af ansigtsregionen for forskellige ansigter og lysforhold med 

samme farveparametre. Rektanglet markerer den størst fundne region. 

En test blev udført på fem billedserier, a hhv. 

100, 30, 50, 100 og 100 billeder med forskellig 

mængdebevægelse. Der blev beregnet 

gennemsnitlig højde og bredde af den fundne 

region samt standardafvigelsen. Gennemsnit af 

X og Y position og standardafvigelse, samt 

maksimum og minimum værdier for X og Y. 

Alle målinger er i pixelkoordinater. 

Indholdet af sekvenserne er: 

B100 er et moderat nik, hvor der ses ind i 

kameraet og ses nedad i langsomt tempo. 

R30 er et nik efterfulgt er kig til venstre og til højre (øverste billede i Figur 47 er fra 

denne sekvens). 

R50 er kig på skærmen, mens der tales. 

B100-2 er stirren, uden meget hovedbevægelse. 

B100-3 er et stort nik. 

Gnm W Gnm H Std W Std H 

B100 119,9 167,9 2,0 5,3 

R30 103,4 144,2 5,8 7,5 

R50 107,7 170,3 3,9 2,6 

B100-2 121,5 163,3 1,7 5,4 

B100-3 121,0 151,7 5,0 29,6 

Tabel 3 Gennemsnitlig bredde og højde af 

den fundne ansigtsregion. 

Ved B100-3 blev ansigtet ikke fundet korrekt for de billeder, hvor der ses mest nedad, hvilket 

Avg X Avg Y Std X Std Y Min X Max X Min Y Max Y 

B100 144,3 118,9 1,7 2,7 139,5 149,0 112,5 125,5 

R30 135,4 111,2 2,9 4,0 127,5 143,5 98,5 116,5 

R50 146,0 95,2 2,4 1,4 142,0 149,0 91,5 98,5 

B100-2 145,0 119,3 0,9 2,6 142,0 148,5 112,5 124,5 

B100-3 150,6 119,6 3,1 8,7 140,5 155,0 103,5 141,5 

Tabel 4 Gennemsnit, standardafvigelse, maksimum og minimum for 

ansigtsregionens X og Y koordinater (centrum). 

SIDE 62


også kan ses på standardafvigelsen for højden af den fundne region. Der er moderat 

bevægelse på alle billederne. Lysforholdene er ens for B100-3, B100-2 og B100 og R30 er 

den mørkeste af serierne. Standardafvigelserne viser, at der er lille forskel i størrelsen af den 

fundne region. Afvigelserne afspejler også billedsekvensernes indhold, fx er der tydeligvis 

ikke meget bevægelse af ansigtet i B100-2 sekvensen. 

Test af øjedetektor 

Gnm W Gnm Y Gnm A Std W Std Y Std A Fejl 

R30 43,23 143,9 2,918 12,22 39,63 3,435 2 

R50 50,34 131,8 4,694 2,84 1,581 1,149 0 

B100 49,4 128,1 5,414 19,05 50,71 4,422 12 

Tabel 5 Gennemsnit og afvigelse for afstand og vinkel mellem øjne 

og Y-position i ansigtsregionen. 

Tabel 5 viser en statistik over identifikation af øjne i ansigtsregionen. Sekvensen R50 blev 

inspiceret visuelt og havde korrekt position af øjne for hele sekvensen. Fejlkolonnen viser 

antallet af tilfælde, hvor algoritmen ikke kan finde kandidater for øjne. At sekvensen B100 

har en høj fejlandel skyldes, at der bliver båret briller. R30 sekvensen blev også inspiceret 

visuelt, og der var foruden de to fejl også tre tilfælde, hvor algoritmen fandt forkerte punkter 

for øjnene. R30 sekvensen har meget bevægelse og af de billeder der giver fejl, er en fejl pga. 

motionblur, og de andre fordi hovedrotation gør, at ansigtsregionen er for tæt på øjet. 

Algoritmen søger i et rektangel inde i den fundne ansigtsregion, for at undgå punkter fra hår 

og ansigtskant. 

Ved afprøvning af realtimetracking blev lamper drejet så der var diffust lys reflekteret fra en 

hvid væg. Lys i baggrunden blev begrænset så denne ikke gav anledning til "ansigtsfarvede" 

regioner. Opstillingen blev afprøvet både aften og dag, hvor der var lys fra et vindue. Der blev 

prøvet med kameraets automatiske lowlight-boost slået til og fra. Dagslys havde dog en 

tendens til at give problemer med at separere ansigtet korrekt, hvis der var direkte dagslys på 

ansigtet. Ofte var det dog muligt at få drejet lamper, så ansigtet blev fundet korrekt. 

Ved god separtion af ansigtet, hvor baggrunden ikke gav anledning til regioner med 

ansigtsfarve, blev der opnået 10 billeder i sekundet. 

Ved mindre god separation faldt denne til 7 billeder i sekundet. R30 og R50 er optaget mens 

der var realtime separation. Øjepositionen har derfor en fejl på 6-17% (R30 og R50 samlet, og 

R30 alene), der afhænger af hovedets bevægelse. 

SIDE 63


Test af to-spalte kamera 

For at teste to-spalte kameraet, kan man kun vurdere de konstruerede snit visuelt. Det kan 

Figur 48 Billedvolumen snittet på kryds, 142 o af billedsekvens på 30 fra COIL. Baggrunden er fjernet 

bagefter. 

imidlertid være svært at gengive den opfattede 3D effekt udfra enkeltbilleder. 

De mest overbevisende eksempler på metodens anvendelighed ses ved parallel snit, hvor 

synsvinklen ændres. 

Figur 48 viser ligesom Peleg (2000) et snit, der folder objekterne ud, så siderne kan ses 

samtidig med fronten. Et horisontalt snit i en ansigtssekvens gav en slags forstørrelse eller 

Figur 49 Horisontalt snit i en ansigtssekvens (R50), vinkel er 43 o og 32 o . 

forvanskningseffekt, hvor perspektivet blev påvirket, bemærk også baggrunden. 

SIDE 64


Figur 50 Parallelt lodret snit i sidelæns bevægende kamera, søjle 60 og 70. 

Opsummering 

Testresultaterne giver et indblik i 

algoritmernes funktionsdygtighed. Der er 

løbende udført mindre test af de enkelte 

funktionaliteter, hvorefter en grundigere test er 

udført. 

Testen af MFFD er ligefrem, da en simpel 

afvigelse kan måles. Værre er det at teste 

hjørnedetektoren og featuretrackeren, hvor 

mange parametre kan justeres. En 

Figur 51 Parallelt lodret snit i sidelæns 

bevægende kamera, søjle 80. 

udtømmende test på repræsentative billeder for at finde optimale parametre, er derfor ikke 

nogen simpel opgave. Her er testet for at finde de mest åbenlyse afhængigheder og for at 

godtgøre, at koden virker som forventet. 

Resultaterne fra testen af ansigtsregion separationen viser, at tilnærmelsen til 

normalfordelingen af ansigtsfarver med en kvadratisk funktion fungerer ved visse lysforhold. 

Billederne og resultater viser også, at normalfordelingsfunktionen måske kan gøre det bedre. 

Øjedetektoren virker, men med en stor fejlprocent. Her er mulighed for at forbedre, hvis både 

ansigtsregionen bliver bestemt mere stabilt og en bedre geometrisk begrænsning bliver fundet. 

Snit i billedvolumen giver nogle interessante effekter, afhængig af hvordan billederne er taget. 

Snit på forskellige billedsekvenser blev afprøvet, og de mest interessante var ved sidelæns 

bevægende kamera. 

Der mangler her at prøve snit i billedvolumen, der er taget af et kamera, der roterer forskudt 

om sin akse, da dette også skulle give nogle interessante effekter (iflg. Peleg 2000). 

SIDE 65


Diskussion 

Kunne indgangsvinklen have været en anden med større succes? 

Opgavens indgangsvinkel har været fra computervision og set på billedbaserede metoder. Det 

forslag, der kommer nærmest en løsnings af problemstillingen, er ikke en billedbaseret 

metode, men er baseret på metoder fra genkendelse af ansigter. 

Hvis startantagelsen havde været at se specifikt på ansigter og ikke visualisering af objekter 

fra en anden vinkel, så ville forløbet utvivlsomt have været et andet. Måske ville det have 

klarlagt en løsning, som var blevet implementeret. Men det kan man kun gætte på. Den 

erkendelse, der er opnået om egenskaberne ved de gennemgåede teknikker, ville i så fald ikke 

være opnået. 

At den foreslåede idé om at tracke ansigtet og tilpasse en 3D ansigtsmodel, er et godt bud på 

en løsning er et svært spørgsmål. En artikel, der ikke var kendskab til før til slut, giver et bud 

på, hvordan tracking af et ikke-stift legeme (som et ansigt) kan gøres (Bregler et al. 2000). En 

undersøgelse af denne er derfor også en mulighed, der bør undersøges videre. Det er heller 

ikke udelukket, at der er flere løsninger, hvor nogle indebærer teknikker, der ikke er med her. 

Kunne valget af værktøj have været bedre? 

Valget af Delphi/pascal i forhold til C viste sig at være både godt og dårligt. Det var en god 

idé, fordi kendskabet til Delphi i forvejen var stort. Det betyder meget at kunne programmere 

udfra hukommelsen og have faste skemaer for, hvordan et program bygges op. Kendskab til 

delphis objektmodel og et godt udviklingsmiljø med tilpassede genveje sparer en masse tid, 

når en idé skal efterprøves. 

Valget af Delphi viste sig at være en dårlig idé i forhold til anvendelsen af eksisterende kode i 

C eller C++. Det er godt nok muligt at konstruere headerfiler, så en DLL kan kaldes på kryds 

af programmeringssprogene, men den ene DLL, der blev konstrueret, gav en masse problemer 

før den virkede, og der var endda debug mulighed i DLL'en undervejs. 

Problemet med brug af eksisterende kode har også givet en masse viden. Valget af metoder 

har været nødt til at være velundersøgt, fordi en implementation var nødvendig, før metoden 

kunne afprøves. Implementationen af de forskellige metoder har også givet praktisk viden, 

som ikke ville været erfaret, hvis en færdig funktion kunne tages i brug med det samme. 

Valget af IPL har sparet meget tid, både i form af tid, der ellers skulle have været brugt på at 

implementere funktioner, som IPL håndterer, men også i form af den hastighedsgevinst man 

opnår. 

IPL's potentiale er tilmed ikke udnyttet helt. De generelle optimeringsmuligheder inkluderer, 

at danne brugerfunktioner med IPL, hvor en del af pixelbehandlingen bliver speedet op. Man 

SIDE 66


specificerer en pixelfunktion og så sørger IPL for at kalde den på en hensigtsmæssig hurtig 

måde. Metoden er ikke afprøvet her, men er en oplagt mulighed for at presse lidt ekstra 

hastighed ud. 

En af de ting man hæfter sig ved, når man arbejder med "naturlige" data, er den forskellighed, 

de kan optræde med. Under fx udviklingen af hjørnedetektoren og tracker, var der mange 

variable, man kunne justere på. Valg og vurderinger af hvilke værdier, der var passende, 

foregik på en ad-hoc vis, hvor simple statistik funktioner blev implementeret, hvor et 

gennemsnit eller standardafvigelse skulle bruges til vurdering. At få overblik over forskelle i 

disse data er en langsommelig proces, og det er let at overse en sammenhæng. 

En væsentlig forbedring af udviklingsprocessen kunne derfor være at implementere et 

statistikmodul, hvor afvigelser, afhængigheder osv. kan visualiseres ved grafer. Beslutninger 

ville på den måde lettere kunne underbygges, og man ville evt. interaktivt kunne se forskellen 

ved forskellige valg. 

Er resultaterne tilfredsstillende? 

Hvilke problemer er ikke blevet løst? Hvad er blevet løst? 

Den overordnede problemstilling er ikke løst, det er ikke muligt at konstruere et "billede set 

fra skærmen" i en videokonference opstilling. Undervejs er der dog blevet konstrueret nye 

betragtninger af ansigter automatisk udfra en billedsekvens, begrænset til små vinkler, og et 

godt bud på en metode, der kan løse problemet, er opnået. 

Problemstillingen dækker over et bredt område af muligheder, og overvejelserne blev pga. 

bredden tidskrævende. At det er naturlige data er også en faktor, der er giver tidskrævende 

undersøgelser. På baggrund af at de valgte metoder er valgt blandt mange, er de opnåede 

resultater tilfredsstillende. 

Konklusion 

Dette opgavemæssigt ubestemte rejsemål har nået enden, og desværre uden muligheden for at 

gennemføre det, menneskeligt set, vel nok mest spændende aspekt ved projektet, nemlig om 

det ved teknisk snilde er muligt at forbedre samtaler over lange afstande. Muligheden for at få 

mere nærhed ind i en videokonference kunne forbedre samtaler fra automatisk at give den 

distance som vigende øjenkontakt giver, til måske at skabe en nærhed tæt op ad en samtale på 

kryds af et bord. Selvfølgelig stadig begrænset til kun at være ansigtsmimik uden det fulde 

kropssprog, der kunne være et fremtidigt mål at stræbe efter. 

SIDE 67


Forskellige teorier og metoder er blevet gennemgået med henblik på at finde en metode til at 

indfange et ansigt med et webkamera og vise det fra en ny vinkel. I tre etaper er viden om 

opstillingen og metoders virkemåder blevet revideret, så en ny retning for undersøgelse er 

udstukket. 

Undervejs er en række nyttige værktøjer blevet implementeret. MFFD algoritmen til at udføre 

morfing med, viste sig også meget anvendelig til tilnærmelse til 3D punkter. Til 3D 

visualiseringen er en generel klasse, der letter initialisering af directX implementeret. 

Implementationen af hjørnedetektoren resulterede i et værktøj, der også kan benyttes til andre 

computervision problemer. Samtidig blev en række generelle hjælpefunktioner til IPL 

biblioteket implementeret, disse kunne senere anvendes under udviklingen af ansigtsdetektoren 

og beregningen af snit i to-spalte kameraet. 

Da der, så vidt vides, ikke eksisterer arbejder inden for området eller kommercielle 

programmer, der angriber lige præcis denne problemstilling, har selve fremgangsmåden for 

projektet et udforskende præg. Der var forud for projektets start, spredt viden om 

digitalbilledbehandling og 3D objektgenkendelse. 

På den baggrund, og med forskellige forslag til retninger at tage fra vejleder, er de dækkede 

områder ret brede. Selve problemstillingen er i kanten af flere specifikke emneområder. 

Det er vanskeligt fra starten at finde ud af præcis hvilke emneområder der skal søges i, når det 

er en problemstilling, der dækker flere områder. Det har vist sig under udviklingsprocessen, at 

havde indgangsvinklen været en anden end fra billedbehandling, computer vision og 

objektgenkendelse, så ville sporet måske hurtigere have ledt mod en brugbar idé. 

Projektet er blevet mere en undersøgelse af metoder, end hvad der var ventet fra start. 

Resultatet af undersøgelserne er, at de afprøvede billedbaserede (view morfing og view 

ekstrapolation) metoder til visualisering ikke er velegnede til problemet. To-spalte kameraet 

præsenterer en spændende ny metode til at visualisere statiske sceneopstillingen og natur, 

men egner sig i sin nuværende form ikke til webkamera opstillingen. 

En ting der er opnået er en solid bekræftelse af, at der er en masse muligheder forbundet med 

emneområdet. 

Perspektivering 

De teknikker opgaven har set på har et væld af mulige anvendelsesområder. Tospaltekameraet 

åbner for nye muligheder for augmented-reality, hvor en virtuel vandretur i 

naturomgivelser er muliggjort. 

SIDE 68


En fremtidsvision for metoder som disse, er at de kombineret med lyd og avancerede optage 

metoder kan benyttes til at give en fornemmelse af tilstedeværelse et andet sted. Dette åbner 

nye muligheder inden for både underholdning, kommunikation, teknik og videnskab. 

Tracking af ansigter kan man forestille sig anvendt til analyse af samtaler (hvor ser folk hen 

mens de taler?), eller måske som hjælpemiddel til handicappede (musen styres ved at "pege" 

med ansigtet / næsen). 

SIDE 69


Litteraturliste 

Beier, T., & Neely, S. "Feature-based image metamorphosis" Proceedings on SIGGRAPH 92. In computer 

graphics 1992 pp. 35-42 

Brøndum, L & Monrad, J.D. (1993) "Statistik 1: Sansynlighedsregning og statistiske grundbegreber" 5. udgave, 

Den private ingeniørfond, ISBN 87-7381-016-9 

Blanz, V. & Vetter, T. (1999) "A morphable model for the synthesis of 3D faces" In Proc. ACM SIGGRAPH 99, 

pages 187-194, 1999 

Bregler, C., Hertzmann, A. & Biermann, H. (2000) " Recovering Non-Rigid 3D Shape from Image Streams", i 

CVPR, 2000. 

Bülthoff, H. H. & Edelman, S. (1992) “Psychophysical support for a 2-D view interpolation theory of object 

recognition” Proceedings of the National Academy of Science, vol. 89, p. 60-64, 1992. 

Choudhury, T., Clarkson, B., Jebara, T. & Pentland, A. (1998) "Multimodal person recognition using 

unconstrained audio and video" Technical Report TR-472, MIT Media-Lab., 1998. 

Coquillart, S. (1990) "Extended Free-Form Deformation : A Sculpturing Tool for 3D Geometric Modeling" 

Proceedings of SIGGRAPH '90 (Dallas, Tex., Aug. 6-10, 1990). In Computer Graphics, 24, 4 

(Aug. 1990), 187-196 

Edelman, S. & Weinshall D. (1991) "A self-organizing multiple-view representation of 3D objects" Biological 

Cybernetics 64, 209-219 (1991). 

Ezzat, T. & Poggio, T. (1996) "Facial analysis and synthesis using image-based models" Int. Conf. on Auto. 

Face and Gesture Recog., pp. 116-121, 1996. 

Foley, J.D., van Dam, A., Feiner, S.K. & Hughes, J.F. (1996) "Computer Graphics: principles and practice" 2ed 

in C, Addison Wesley. 

Forsey, D.R. & Bartels, R.H. (1988) "Hierarchical B-spline refinement" Computer Graphics (proc. SIGGRAPH 

88) , vol 22, no. 4, pp. 205-212, 1988. 

Gonzalez, R. C. & Woods, R. E. (1992) "Digital Image Processing", Addison-Wesley ISBN 0-201-50803-6 

Harris C. & Stephens M. (1988) "A combined corner and edge detector", Proc. 4th Alvey Vision Conf., 

Manchester, UK, 1988. 

Horn, B.K.P. (1986) "Robot vision" MIT Press, ISBN 0-262-08159-8 

Intel (2000) "Intel image processing library reference manual" Intel corporation document no. 663791-005, 

http://developer.intel.com 

Intel (2001) "Intel Open Source computer vision library reference manual" 

http://www.intel.com/research/mrl/research/opencv/ 

Jebara, T. & Pentland, A. (1997) "Parametrized Structure from Motion for 3D Adaptive Feedback Tracking of 

Faces". In IEEE Conference on Computer Vision and Pattern Recognition (CVPR'97), San Juan, 

Puerto Rico, June 1997. 

Klein, A., Sloan, P.P., Colburn, A., Finkelstein, A. & Cohen, M.F. (2001) "Video Cubism" Technical report 

MSR-TR-2001-45, Microsoft research 2001. 

SIDE 70


Leach, G. (1992) "Improving Worst-Case Optimal Delaunay Triangulation Algorithms" 4th Canadian 

Conference on Computational Geometry 1992. 

Lee, S.-Y., Chwa, K.-Y., Shin, S.Y & Wolberg, G. (1995) "Image metamorphosis using snakes and free-form 

deformations" Proceedings on SIGGRAPG 95. In computer graphics 1995. pp.439-448. 

Lee, S.-Y., Wolberg, G. & Shin, S.Y (1997) "Scattered data interpolation with multilevel B-Splines" IEEE 

Trans. On Visualisation and Computer Graphics, Vol.3 No.3 1997. 

Lew, M. S., She, A. C. & Huang, T. S. (1995) "Intermediate views for face recognition" in V. Hlavac & R. Sára 

(eds.) proceedings CAIP'95 ISBN 3-540-60268-2 Springer-Verlag. 

Longuet-Higgins, H. C. (1981) "The reconstruction of a scene from two projections" in H.C. Longuet-Higgins 

(1987) "Mental processes – Studies in cognitive science" MIT Press, ISBN 0-262-12119-0 

Marr, D. (1982) "Vision: A computational investigation into the human representation and processing of visual 

information" 

McCuskey, M. (2001) "Special effects game programming with DirectX" Premier Press, ISBN 1-931841-06-3 

Messer, R. (1994) "Linear algebra : gateway to mathematics" HarperCollins, ISBN 0-06-501728-5 

Nene, S.A., Nayar, S. K. & Murase, H. (1996) "Columbia Object Image Library (COIL-20)" Technical Report 

No. CUCS-006-96 

Peleg, S., Rousso, B., Rav-Acha, A. & Zomet, A. (2000) "Mosaicing on Adaptive Manifolds" IEEE Trans. on 

pattern analysis and machine intelligence, 22(10):1144-1154, Oktober 2000. 

Peleg, S. (2002) "Perspective Unbound: The two-slit camera" Submitted to Siggraph 2002 

Pfeifer, R. & Scheier, C. (1999) "Understanding intelligence" MIT Press ISBN 0-262-16181-8 

Press, W.H., Flannery, B.P., Teukolsky, S.A. & Vetterling, W.T. (1989) "Numerical Recipies in Pascal" 

Cambridge University Press. 

Seitz, S.M. & Dyer, C.R. (1995) "Physically-valid view synthesis by image interpolation", in Proceedings of the 

visual scene representation workshop, Boston, pp.18-27. IEEE, 24 juni 1995. 

Seitz, S.M. & Dyer, C.R. (1996) "View Morphing" in Proceedings of SIGGRAPH96, 1996, pp.21-30. 

Shum, H. & Kang, S. (2000) "A review of image-based rendering techniques" i SPIE International Conference 

on visual communications and image processing, pp. 2-13, Perth, Australia, juni 2000. 

Sonka, M., Hlavac, V. & Boyle, R. (1999) "Image Processing, Analysis, and Machine Vision" 2nd ed. PWS 

Publishing, ISBN 0-534-95393-X 

Toegl, S. & Poggio, T. (1994) "Towards an example-based image compression architecture for videoconferencing" 

A.I. Memo No. 1494, M.I.T., Boston, MA, June 1994. 

Trucco, E. & Verri, A. (1998) "Introductory techniques for 3-D computer vision", Prentice Hall, ISBN 0-13- 

261108-2 

Werner, T., Hersch, R.D. & Hlavác, V. (1995) "Rendering Real-World objects without a 3-D model" in V. 

Hlavac & R. Sára (eds.) proceedings CAIP'95 ISBN 3-540-60268-2 Springer-Verlag. 

Werner, T., Pajdla, T. & Hlavác, V. (1997) "Visualizing 3-D Real-world scenes using view extrapolation" Czech 

technical university research report. No. K335-CMP-1997-137. 

Werner, T., Pajdla, T. & Hlavác, V. (1998) "Efficient 3-D scene visualization by image extrapolation" in 

European conf. computer vision, 1998. 

Wolberg, G. (1998) "Image morphing: a survey." The Visual Computer, 14(8/9):360-372, 1998. 

SIDE 71


Yang, J., Stiefelhagen, R., Meier, U. & Waibel, A. (1998) "Real-time face and facial feature tracking and 

applications" In Proceedings of AVSP'98, pp. 79-84, Terrigal, Australia, 1998. 

Yang, J. & Waibel, A. (1996) "A Real-Time Face Tracker" in Proceedings of WACV'96 (Sarasota, Florida, 

USA) 

Zhang, R., Tsai, P.S., Cryer, J.E. & Shah, M. (1994) "Shape From Shading: A Survey" IEEE CVPR-94, juni 

1994, pp 377-384. 

. 

SIDE 72


Appendiks 

Ordliste 

Liste af passende danske oversættelser til præcise engelske udtryk. I oversættelsen er det 

forsøgt at ramme den præcise definition, hvor der ikke allerede eksistere et dansk udtryk der 

er dækkende. 

Feature : kendetegn eller karakteristisk træk 

Morph (kort form af metamorphosis) : metamorfose eller forvandling. 

Tracking : Af track (efterspore - sætte spor) sporing eller eftersporing 

View : synsvinkel eller betragtning 

Warp : Fordrejning eller skævvridning (af billede) 

Augmented reality : Lige som virtual reality, men omgivelserne er ikke computerskabt, men 

en visualisering af et virkelig verdens scenario. 

Vejledning til eksempelprogrammer 

En række testprogrammer er blevet konstrueret undervejs under udviklingen. Programmerne 

er testet og udviklet under Windows 2000, og de fleste kræver Intel IPL og DirectX version 

8.1 bibliotekerne for at kunne kører. Afvikling under andre Windows versioner skulle være 

muligt, men er ikke testet. 

På den vedlagte Cd-rom er kildekode til programmerne, samt de nødvendige biblioteker for at 

køre dem. Oversatte versioner findes i bin kataloget og kan køres derfra. Billeder og 

billedsekvenser er også på Cd-rommen i kataloget imagedata. 

Test program til MFFD. 

Filnavn: tester2.exe 

Program til at teste mffd algoritmen. Man kan tegne spline net, og trække i punkterne så nettet 

deformeres. 

SIDE 73


Figur 51 Skærmbillede fra tester2 programmet. Show log knappen viser 

statistik tal for deformeringen. Deform knappen opdater efter ændring af 

netstørrelsen, der angives i tekstfelterne under. Det store tekstfelt 

indeholder nettets data og punktkoordinater. 

Imagetoolbox facefind og twoslit 

Filnavn: imagetoolbox.exe 

Programmet kan benyttes ved at hente enten et enkelt billede eller en sekvens. En tekstfil med 

filnavne specificere en sekvensen. For at initialisere snit skal en sekvens hentes ind først – 

bemærk at alle filerne da hentes ind, er der mange billeder kan det give hukommelsesproblemer. 

SIDE 74


Figur 52 Skærmbillede fra image tool programmet 

Specver2 – Hjørnerespons og Hjørnetrack, MFFD og delaunay rekonstruktion. 

Filnavn: specver2.exe 

Programmet er forsøgt opdelt så funktionernes sammenhæng fremgår. Repræsentationen af 

trackede punkter er en fil af single værdier med endelsen pts. Bemærk at der ikke bliver 

spurgt om man vil overskrive i nogle af programmerne – der bliver bare overskrevet! 

Figur 53 Skærmbillede fra Specver2 programmet. 

SIDE 75


Videotest og realtime tracking 

Filnavn: Videotest.exe 

Program til at grabbe billeder fra et logitech web kamera. Programmet kan visualisere 

realtime track af et ansigt. 

Når programmet startes trykkes startvideo for at initialisere kameraet, derefter grab. 

Hvis ansigtet ikke findes med det samme, kan ændringer af lys prøves. Knappen calibrate 

beregner ny farve gennemsnit af den rektangel der er fundet. 

Programmet kan gemme en tekstfil med filnavne, og kan gemme en billedsekvens fortløbende 

numereret. Programmet kan ikke lukkes før tryk på grab stop. 

Specdx8 – mffd textur map 

Filnavn: dx8special.exe 

Hovedfunktionaliteten er erstattet af specver2, men programmet kan manipulere tekstur i 2D 

med MFFD. 

Intelimage – håndtrack 

Filnavn: intelimage.exe 

Hovedfunktionaliteten er erstattet af specver2, men programmet kan benyttes til at håndtracke 

billeder. Til det er knapperne openpicfile, loadpts og savepts de eneste der skal benytte. Nye 

punkter oprettes ved at trække fra det blå felt. 

Kildekode oversigt 

Koden er oversat af Delphi professional version 4.3. Men skulle kunne kører i højere 

versioner. 

Følgende oversigt over units, funktioner, procedure mm. er genereret udfra kommentarer i 

koden, baseret på pasdoc kommentar konvention (over procedure og funktions deklarationer). 

Der er løbende kørt en prettyprinter på koden som ordner indrykninger efter indlejringsniveau, 

så overblik bliver bedre. 

Oversigten er genereret med programmet pasdoc, der er et pascalkode dokumenteringssystem, 

i stil med javadoc til javakode. 

Da pasdoc genererer output i latex formatet, er typografien for oversigten forskellig fra det 

øvrige dokument. 

SIDE 76

Synsvinkeltransformation af ansigter

Create successful ePaper yourself

Delete template?

Save as template?