Capitolo 5 La compensazione di moto - InfoCom

Capitolo 5 

La compensazione di moto 

Contenuto 

5.1 Principi di motocompensazione per la codifica di sequenze video 

I quadri che compongono una sequenza video naturale rappresentano la proiezione sul piano dell’immagine di oggetti 

reali in moto, immersi in sfondi di varia natura (interni, esterni, fissi o in movimento). Essi presentano una forte 

correlazione, nel senso che l’informazione apportata da ciascun quadro é largamente predicibile a partire dal quadro 

precedente. In un contesto di codifica di sorgente, é pertanto opportuno rappresentare ciascun quadro in termini di una 

versione predetta a partire dal quadro precedente, piú un’immagine residua, che rappresenta l’innovazione apportata 

dal quadro attuale. Il codificatore dovrá quindi trasmettere unicamente le informazioni necessarie a costruire la 

versione predetta, e l’innovazione stessa. 

Nella versione piúsempliceelargamentepiúadottata il quadro che deve essere codificato é scomposto in blocchi di 

8x8 pixel o di 16x16 pixel (macroblocchi). Per ciascun blocco si cerca il blocco piú simile nell’immagine precedente. 

Per questioni di complessitá computazionale, la ricerca é limitata in un intorno della posizione corrispondente a quella 

occupata nel quadro attuale. Una volta individuato il blocco piú simile, si codifica la posizione di tale macroblocco; 

le coordinate sono codificate in modo relativo, ovvero rappresentano lo spostamento rispetto alla posizione attuale. 

Note le coordinate relative di ciascun blocco, il decodificatore é in grado di ricostruire una versione predetta del 

quadro attuale, mediante la giustapposizione di opportuni tasselli del quadro precedente. Questo meccanismo di 

ricostruzione mediante la definizione di una corrispondenza fra informazioni del quadro attuale e informazioni del 

quadro precedente prende il nome di motocompensazione. Il codificatore deve quindi codificare unicamente la 

differenza tra l’immagine predetta mediante motocompensazione ed il quadro attuale. Questo meccanismo di principio 

estremamente semplice ammette numerose varianti, sulla base della forma del blocco considerato, della funzione di 

misura della ”somiglianza” fra blocchi, della modalitá di ricerca del blocco piú simile (esaustiva o meno), del numero 

di quadri, detti di riferimento, a partire dai quali tentare la predizione del blocco attuale, e cosí via. Dal punto di 

vista concettuale, tuttavia, la motocompensazione si basa su un’ipotesi implicita, e cioé che l’immagine rappresentata 

nel quadro attuale sia costituita da una versione spazialmente trasformata dell’immagine precedente. Questo tipo di 

corrispondenza puó essere modellata matematicamente come una trasformazione geometrica del piano dell’immagine. 

42

5.2. TRASFORMAZIONI GEOMETRICHE PER MOTOCOMPENSAZIONE DI SEQUENZE VIDEO 43 

Il presente capitolo é dedicato alla sintetica descrizione dei principali modelli di trasformazioni geometriche 

utilizzate nell’ambito della codifica di immagini. I modelli che qui descriviamo con riferimento all’ambito applicativo 

della codifica video sono utilizzati anche in ambiti differenti, quali la calibrazione di immagini nel telerilevamento e 

in alcune applicazioni medicali, l’elaborazione degli effetti di ”morphing” nella produzione video, la generazione di 

tessiture sintetiche per applicazioni di realtá virtuale. 

5.2 Trasformazioni geometriche per motocompensazione di sequenze video 

Consideriamo due quadri temporalmente adiacenti estratti da una sequenza video. La trasformazione da un quadro al 

successivo é descritta come una trasformazione geometrica del piano dell’immagine. I punti (u, v) del primo quadro 

sono mappati in punti (x, y) =(X(u, v),Y(u, v)) del secondo quadro. In altre parole, la luminanza L(x, y) del 

punto (x, y) del secondo quadro élastessadelpunto(u, v) del primo quadro. La trasformazione geometrica di un 

quadro nell’altro é descritta dalla coppia di funzioni (x, y) =(X(u, v),Y(u, v)). Discutiamo qui alcune possibili 

forme, via via piú sofisticate, di tale trasformazione. 

Il modello di moto traslatorio 

Un moto traslatorio é definito dalla coppia di funzioni 

x = u + ∆x 

y = v + ∆y 

(5.2.1) 

Questo é il modello sopra citato come il piú diffuso nella motocompensazione per codifica video. La coppia (∆x, ∆y) 

é detta vettore di moto (motion vector) o di spostamento. Nelle applicazioni, il vettore spostamento puó essere 

assegnato ad aree di dimensione variabile, dal 16x16 al 8x8 al 4x4; per applicazioni particolari (visione artificiale, 

analisi automatica dell’immagine), é assegnato un vettore di moto ad ogni pixel dell’immagine, e l’insieme dei vettori 

di moto relativi ad una coppia di immagini édettamotion vector field. 

Osserviamo sin d’ora che, ai fini della ricostruzione del video decodificato, l’informazione rappresentata dai 

vettori di moto é critica, perché un errore di trasmissione che alteri i vettori spostamento tipicamente genera artefatti 

rilevanti nell’immagine ricostruita. 

Modello di moto affine 

Una trasformazione affine é definita dalla coppia di funzioni 

x = Au + Bv + C 

y = Du + Ev + F 

Il moto affine ammette come casi particolari il moto traslatorio, la rotazione 

il cambiamento di scala 

x = cosθ u + sinθ v 

y = −sinθ u + cosθv 

x = Suu 

y = Svv 

(5.2.2)

44 CAPITOLO 5. LA COMPENSAZIONE DI MOTO 

l’inclinazione (shear) 

x = u + Huv 

y = v 

x = u 

y = Hvu + v 

Il modello di moto affine é largamente generale e flessibile. Osserviamo che la trasformazione affine, essendo 

descritta da sei parametri, é completamente individuata quando sia nota la trasformazione di tre punti (non allineati) 

del piano. 

Una possibile applicazione del modello affine in fase di codifica consiste nel suddividere il quadro da predire 

in un reticolato (mesh) a maglia triangolare, e nel modellare l’evoluzione di ciascuno dei triangoli del reticolato 

mediante una trasformazione affine. Ai fini della codifica, la trasformazione di ciascun triangolo é identificata dala 

trasformazione dei suoi tre vertici (sei coordinate). 

Modello di moto prospettico 

Una trasformazione prospettica (perspective ) é definita dalla coppia di funzioni 

Au + Bv + C 

x = 

Gu + Hv + 1 

Du + Ev + F 

y = 

Gu + Hv + 1 

(5.2.3) 

Esso modella la duplice proiezione di un quadrilatero planare del piano dell’immagine (u, v) in un quadrilatero ancora 

planare ma in generale inclinato rispetto al piano dell’immagine, e la successiva proiezione prospettica di questo sul 

piano (x, y). La trasformazione prospettica é descritta da otto parametri, ed é completamente individuata quando sia 

nota la trasformazione di quattro punti del piano. 

Una possibile applicazione del modello prospettico in fase di codifica consiste nella suddivisione del quadro da 

predire in un reticolato (mesh) a maglia quadrangolare, e nel modellare l’evoluzione di ciascuno dei quadrilateri del 

reticolato mediante una trasformazione prospettica. La trasformazione prospettica é descritta da otto parametri, ed é 

completamente individuata quando sia nota la trasformazione dei quattro vertici (otto coordinate) del quadrilatero in 

questione. 

A titolo di completezza, citiamo al termine di questo excursus anche la trasformazione bilineare, definita dalla 

coppia di funzioni 

x = Au + Bv + Cuv + G 

y = Du + Ev + Fuv+ H 

(5.2.4) 

Esso modella la duplice proiezione di un quadrilatero planare del piano dell’immagine (u, v) in un quadrilatero non 

planare e la successiva proiezione di questo sul piano (x, y). La trasformazione bilineare é applicabile per riprodurre 

in piano dati registrati da sensori non coplanari in applicazioni di telerilevamento e biomedicali, nonché a scopi di 

”texture mapping”, ovvero per generare sinteticamente la proiezione sul piano dell’immagine di tessiture disposte 

su oggetti virtuali tridimensionali, a partire da tasselli planari delle tessiture stesse. La trasformazione bilineare, al 

pari della prospettica, é descritta da otto parametri, ed é individuata dalla trasformazione dei quattro vertici (otto 

coordinate) di un quadrilatero.

5.2. TRASFORMAZIONI GEOMETRICHE PER MOTOCOMPENSAZIONE DI SEQUENZE VIDEO 45 

v 

x=u+∆u 

y=v+∆v 

v 

(1,2) 

(0,1) (2,1) 

u 

y 

x=u (cos(θ))+ v (sin(θ)) 

y=u (-sin(θ))+ v (cos(θ)) 

x 

x=Su u 

y=Sv v 

u 

y 

x=X(u,v) 

y=Y(u,v) 

X(u,v)=A u + B v + C 

Y(u,v)=D u + E v + F 

(2,4) 

x= S u u 

y= S v v 

Su=Sv=2 

x= 2 v 

y=2 u 

(0,2) (4,2) 

x 

v 

(1,2) 

(0,1) (2,1) 

v 

(1,2) 

(0,1) (2,1) 

u 

x=u+∆u 

y=v+∆v 

Figura 5.1: Esempi di trasformazioni descritte da un modello affine. 

x=u (cos(θ))+ v (sin(θ)) 

y=u (-sin(θ))+ v (cos(θ)) 

u 

(1,-2) 

y 

y 

∆u=1 

∆v=2 

x= u+1 

y=v+2 

(2,4) 

(1,3) (3,3) 

(1,0) 

θ=π/2 

x 

x= v 

y=u (-1) 

(2,-1) 

x

46 CAPITOLO 5. LA COMPENSAZIONE DI MOTO 

5.3 Algoritmi di motocompensazione per la codifica di sequenze video 

Come discusso nei paragrafi precedenti, la motocompensazione si basa sul principio che quadri successivi della 

sequenza video siano legati da trasformazioni geometriche. Nelle applicazioni di motocompensazione il quadro 

attuale é suddiviso in regioni non sovrapposte5.1 , e per ciascuna regione é individuata l’area di provenienza nel 

quadro precedente, come illustrato in Fig. 5.2. 

I n-1 

Modello traslatorio. 

Modello affine. 

Modello prospettico o bilineare. 

Figura 5.2: Uso di modelli del campo di moto a fini di motocompensazione. 

Consideriamo qui il caso di gran lunga piú comune: il modello traslatorio. 

Il quadro attuale Ik[m, n] sia partizionato in blocchi non sovrapposti, tali da ricoprire l’intero quadro. Indichiamo 

con B il generico blocco del quadro attuale. Per il blocco B, si cerca nel quadro precedente il blocco piú simile 

massimizzando un assegnato funzionale di somiglianza, ovvero minimizzando un assegnato funzionale di distorsione. 

Adottando il criterio dell’errore quadratico medio, il blocco piú simile é individuato dalla coordinate relative 

∆mmin, ∆nmin che minimizzano la seguente funzione 

DMSE(∆m, ∆n) = X 

(m,n)∈B 

al variare di (∆m, ∆n) in un intervallo preassegnato. 

(Ik[m, n] − Ik−1[m + ∆m, n + ∆n]) 2 

5.1Tipicamente, nelle applicazioni di ”morphing” e di elaborazione delle immagini la trasformazione é applicata ”in avanti”, scandendo il 

quadro precedente per generare i punti corrispondenti del quadro attuale. Le aree del quadro attuale non assegnate nella fase di mappatura sono 

successivamente ricostruite con sofisticate tecniche di interpolazione. Nelle applicazioni di codifica,é scandito il quadro attuale al fine di associare 

ad ogni punto un punto del quadro precedente. Tale modalitá di applicazione della trasformazione geometrica, detta ”all’indietro”, evita che 

risultino non assegnate aree del quadro attuale. 

I n

5.3. ALGORITMI DI MOTOCOMPENSAZIONE PER LA CODIFICA DI SEQUENZE VIDEO 47 

Per questioni computazionali, la distorsione puó essere computata adottando il criterio della somma delle differenze 

assolute ( Sum of Absolute Differences, SAD). In tal caso il blocco piú simile é individuato dalla coordinate relative 

∆mmin, ∆nmin che minimizzano la seguente funzione 

DSAD(∆m, ∆n) = X 

(m,n)∈B 

|Ik[m, n] − Ik−1[m + ∆m, n + ∆n]| 

per (∆m, ∆n) variabili in un intervallo preassegnato. 

Un esempio di un’immagine Ik[m, n] estratta dalla sequenza video ”Suzie” e della sua versione predetta Îk[m, n] 

mediante motocompensazione traslatoria é riportata in Fig.7.5. La motocompensazione in questo esempio é operata 

su blocchi di dimensioni 8x8. 

I k [m,n] 

I 

^ 

k [m,n] 

Figura 5.3: Esempio di motocompensazione su blocchi 8x8. 

(particolare) 

Quando la motocompensazione é operata partizionando l’immagine in una griglia e individuando lo spostamento 

ottimo di ciascun vertice della griglia, l’ottimizzazioe diviene piú complessa. Infatti, l’ottimizzazione deve essere 

operata congiuntamente su tutte le maglie della griglia, applicando la trasformazione ipotizzata a ciascuna maglia 

e valutando la potenza dell’errore complessivo. Per ció che concerne la scelta dei vertici della griglia, éfrequente 

l’adozione di criteri euristici, finalizzati ad individuare tasselli non troppo picoli per controllare il costo di trasmissione 

dei vettori spostamento e non troppo grandi in modo da non includere discontinuitá. Una strategia frequentemente 

utilizzata consiste nella scelta dei vertici della griglia in corrispondenza di punti significativi dell’immagine stessa.

Bibliografia 

[1] G. Scarano, “Dispense di elaborazione delle immagini”, infocom.uniroma1.it/gscarano. 

[2] B. G. Haskell, P. G. Howard, Y. A. LeCun, A. Puri, J. Ostermann, M.R. Civanlar, L. R. Rabiner, L. Bottou, and P. Haffner, “Image 

and Video Coding-Emerging Standards and Beyond”, IEEE Transactions on Circuits and Systems for Video Technology, Vol. 8, No. 7, pp. 

814-837, November 1998 

[3] G. Wolberg, “Image Morphing: A Survey ’, Visual Computer, vol. 14, pp. 360-372, 1998 

48

Capitolo 5 La compensazione di moto - InfoCom

Create successful ePaper yourself

Delete template?

Save as template?