Capitolo 4 Codifica di Immagini - InfoCom

Capitolo 4 

Codifica di Immagini 

Contenuto 

4.1 Principi di codifica di immagini fisse 

Questo capitolo richiama brevemente alcuni concetti esposti in dettaglio in [1], qui riportati per facilitare l’accesso 

al lettore. 

Un’immagine digitale é una particolare sequenza bidimensionale x[n1,n2] definita su un supporto finito n1 = 

0, ···N − 1,n2 =0, ···N − 1. Poiché un colore puoéssere percettivamente riprodotto miscelando opportunamente 

tre sorgenti, é usuale rappresentare un’immagine a colori mediante tre sequenze bidimensionali, che in ogni punto 

rappresentano il peso relativo di ciascuna delle tre sorgenti ”primarie“. Una terna di sorgenti di riferimento nelle 

applicazioni di elaborazione, codifica e trasmissione delle immagini corrispondenti tipicamente alle componenti rossa 

verde e blu é quella definita dal Comitée International de l’Eclairage (CIE) (1920), RCIE = 700 nm, GCIE = 

746.1 nm, BCIE = 435.8 nm4.1 . Una terna alternativa, comunemente utilizzata nella rappresentazione di immagini 

in forma digitale é costituita dalla luminanza (Y ), rappresentativa del livello di luminositá espresso in scala di grigio, 

e da due componenti di crominanza che rappresentative di differenze di colore (CR,CB), definite come: 

Y def 

= αRR + αGG + αBB, αR + αG + αB =1; αG >αR,αG >αB 

CB(U) ∝ B − Y 

CR(V ) ∝ R − Y 

4.2 Un’immagine rappresentata in forma digitale é definita su un supporto discreto e finito; anche le informazioni 

di colore sono rappresentate in forma numerica mediante un numero finito di bit per campione, con un livello di 

qualitá visuale dipendente dal numero di bit prescelto. Quando un’immagine é rappresentata nella forma luminanzacrominanze, 

é possibile sfruttare la circostanza che l’apparato visivo umano é meno sensibile ai dettagli dell’informazione 

di crominanza rispetto a quanto lo sia ai dettagli dell’informazione di luminanza. Pertanto la frequenza di 

4.1 Molto utilizzata é anche la definizione di sorgenti (RN,GN ,BN) definita dal National Television Systems Committee (NTSC) (1950). 

4.2 La definizione piú comune (NTSC, ITU-R BT.601, ITU-R BT.709, JFIF, SMPTE) di luminanza pone αR =0.299,αG =0.587,αB = 

0.114. 

29

30 CAPITOLO 4. CODIFICA DI IMMAGINI 

campionamento spaziale puó essere diversa per le diverse componenti, ed in particolare ridotta per le componenti di 

crominanza. 

I principali standard internazionali che definiscono le modalitá di rappresentazione delle immagini sono le Raccomandazioni 

ITU-R BT 601 (anche nota come CCIR 601) e ITU-R BT 609. Tali raccomandazioni definiscono 

alcune modalitá di rappresentazione di immagini a colori su un dominio discreto, che tipicamente prevedono un 

sottocampionamento per la componenti di crominanza e differiscono per le posizioni relative delle griglie di campionamento 

delle diverse componenti. Le piú diffuse modalitá di sottocampionamento sono riportate in Tab. 4.1. Nella 

rappresentazione luminanza/crominanze, inoltre, é usuale quantizzare con un numero maggiore di bit i campioni di 

luminanza (ad es. 8 bit) e con un numero minore i campioni delle crominanze (ad es. 4 bit). 

Nome Caratteristiche 

Modalitá di sottocampionamento 

4:4:4 Ognuno dei tre canali presenta lo stesso sampling rate, ovvero a 4 campioni 

di luminanza corrispondono 4+4=8 campioni di crominanza 

4:2:2 I canali di crominanza sono sottocampionati di un fattore 2 nella direzione 

orizzontale, ovvero a 4 campioni di luminanza corrispondono 2+2=4 

campioni di crominanza 

4:2:0 I canali di crominanza sono sottocampionati di un fattore 2 sia nella direzione 

orizzontale che nella direzione verticale, ovvero a 4 campioni di luminanza 

corrispondono 2 campioni di crominanza 

Tabella 4.1: Modalitá di sottocampionamento piú diffuse nell’elaborazione di immagini e sequenze video.

4.1. PRINCIPI DI CODIFICA DI IMMAGINI FISSE 31 

Trasformata Coseno Discreta (DCT) di sequenze di lunghezza finita 

La Trasformata Coseno Discreta di una sequenza xn di lunghezza finita N consiste nella rappresentazione della 

sequenza come sovrapposizione di N sequenze b (k) 

n di lunghezza finita N, che costituiscono una base ortonormale: 

⎧ 

⎪⎨ 

⎪⎩ 

b (0) 

n 

b (k) 

n = 

= 1 

√ N ,n=0, ···N − 1 

 

2 

N cos 

 

2π k 

 

(n +1/2) ,n=0, ···N − 1; k =1, ···N − 1 

2N 

I coefficienti DCT sono calcolati come prodotto scalare della sequenza con i vettori della base, ovvero 

 

X0 = 1 

N−1 

√ xn 

N 

Xk = 

n=0 

N−1 

2 

N 

n=0 

La trasformata é invertita dalla equazione di sintesi 

xn = 

 

xn cos 2π k 

 

(n +1/2) , k =0, ···N − 1 

2N 

 

1 

N X0 

N−1 

2 

 

+ Xk cos 2π 

N 

k 

 

(n +1/2) , n =0, ···N − 1 

2N 

k=1 

Grazie alla ortogonalitá degli elementi della base, la migliore approssimazione (nel senso quadratico medio) di xn 

nel sottospazio generato da un sottoinsieme di sequenze della base, si ottiene troncando la sommatoria agli elementi 

di tale sottoinsieme, e conservando i coefficienti Xk relativi a tali elementi. Inoltre, poiché le sequenze {b (k) 

n } sono 

a norma unitaria, la trasformazione conserva l’energia della sequenza nel dominio trasformato. 

La DCT coincide con la trasformata di Karhounen Loeve a per processi di Markov di ordine 1. 

aLa trasformazione KLT di un insieme di sequenze aleatorie x di lunghezza finita N utilizza la base ortonormale di rappresentazione 

φi,i=1, ···N che minimizza l’errore quadratico medio commesso rappresentando in modo approssimato la sequenza x = N i=0 xiφi con 

una sequenza ˆx = M i=0 xiφi + N i=M+1 ciφi, ovvero la sequenza ottenuta conservando un numero fissato M < N di coefficienti e 

sosituendo i rimanenti con opportuni valori costanti. Si puó dimostrare che i vettori della base ortonormale (φi H · φh = δij) e i valori dei 

coefficienti ci,i =1, ···N che minimizzano l’errore quadratico medio E ||x − ˆx|| 2 N =E i=M+1 (xi − ci) 2 

 

risolvono l’equazione 

E (x − E {x}) · (x − E {x}) H φi = λiφi, ovvero sono gli autovettori della matrice di covarianza delle sequenze in questione, e i valori 

costanti sono pari a ci =E{xi} =E{x} H φi,i =1, ···N. Per processi di Markov di ordine 1 gli autovettori della matrice di covarianza, 

ovvero i vettori della base KLT, concidono con i vettori della base DCT. 

A titolo puramente esemplificativo, la figura rappresenta la trasformata ottima di una v.a. Gaussiana bidimensionale x =[x1,x2] T di valor 

medio nullo mx =[0, 0] T 

 

2 1 

1 

e matrice di covarianza Kx = 

. La ddp risulta px = 

exp − 

1 2 

2π det(Kx) 1/2 1 

2 xT K −1 

 

x x . Gli 

√ 

1/ 2 

autovettori sono b1 = 

1/ √ 

√ 

−1/ 2 

, relativo all’autovalore λ1 =3,eb2 = 

2 

1/ √ 

, relativo all’autovalore λ2 =1. Le componenti 

2 

Xi = xT bi, i=1, 2 sono incorrelate (E {X1 X2} =0) ed hanno rispettivamente varianza E X2 

1 =3, E X2 2 =1. 

.


Figura 4.1: Esempio di trasformata ottima: x =[x1,x2] T v.a. Gaussiana bidimensionale di valor medio nullo e matrice di 

covarianza K x. 

4.2 Rappresentazione dell’immagine nel dominio DCT 

Il principio fondamentale su cui si basa la codifica di immagini fisse é la rappresentazione dell’immagine o di sue 

parti in un dominio trasformato, che goda di alcune caratteristiche fondamentali: 

• la trasformazione operi la compattazione dell’energia in pochi coefficienti; 

• i coefficienti che rappresentano l’immagine nel dominio trasformato abbiano differente rilevanza soggettiva, 

cos´ che su di essi possa essere operata una quantizzazione mirata a ridurre i bit assegnati ai coefficienti meno 

significativi; 

Poiché pressoché tutti i principali standard di codifica di immagine operano la trasformazione su blocchi quadrati 

NxN, assumeremo subito questo come caso di riferimento. Consideriamo il blocco NxN come elemento di uno 

spazio vettoriale. La trasformazione del blocco puó essere interpretata come rappresentazione del blocco stesso in 

una opportuna base dello spazio vettoriale. Gli elementi della base sono a loro volta particolari blocchi NxN. La base 

piú utilizzata é quella relativa alla Trasformata Coseno Discreta (DCT), i cui elementi sono NxN blocchi, ciascuno 

di dimensione NxN: 

b (k1,k2) 

 

def 

2πk1(n1 +1/2) 2πk2(n2 +1/2) 

DCT [n1,n2] = α(k1)α(k2)cos 

cos 

, 

2N 

2N 

n1,n2 =0, ···N − 1, k1,k2 =0, ···N − 1

4.2. RAPPRESENTAZIONE DELL’IMMAGINE NEL DOMINIO DCT 33 

con α(0) def 

 

1 = N 

e α(k) = 

2 

N 

per 1 ≤ k ≤ N − 1. 

Come si vede il singolo elemento della base DCT é una funzione separabile, costituita dal prodotto di funzioni 

sinusoidali, con una periodicitá variabile con l’indice k. I fattori α(k) assicurano l’ortonormalitá della base. 

Figura 4.2: Immagini della base DCT. 

I coefficienti dello sviluppo del blocco di dimensione NxN x[n1,n2] si determinano calcolando il prodotto scalare 

con le relative funzioni della base: 

X DCT [k1,k2] = def 

N−1 

= 

e a partire da essi é possibile sintetizzare il blocco originario 

N−1 

x[n1,n2]b 

n1=0 n2=0 

(k1,k2) 

DCT [n1,n2]


x[n1,n2] = 

N−1 

N−1 

X 

k1=0 k2=0 

(DCT) [k1,k2]b (k1,k2) 

DCT [n1,n2] 

La trasformata DCT offre interessanti proprietá di compattazione dell’energia nelle componenti a bassa frequenza, 

ovvero nei coefficienti XDCT [k1,k2] di basso indice. 

La trasformazione ottima dal punto di vista della capacitá di compattare l’energia di immagini aleatorie é nota 

come trasformata di Karhounen Loeve (KLT) e dipende dalle caratteristiche statistiche di autocorrelazione esibite dalle 

immagini stesse. Per particolari classi di immagini stocastiche (campi di Markov di ordine 1), la KLT coincide con la 

DCT. Poiché una vasta classe di immagini naturali é ben approssimata da tale modello stocastico, si deduce che per tali 

immagini la DCT é una buona approssimazione della trasformazione ottima. La compattazione dell’energia operata 

dall’applicazione della DCT a blocchi 8x8 di immagini naturali é stata la tecnologia abilitante per la compressione 

di imagini fisse ed anche in larga misura per la compressione di sequenze video. Tale approccio é stato affiancato 

da approcci differenti solo nei piú recenti standard di codifica (JPEG2000 per immagini fisse e H.264 per sequenze 

video). 

Dal punto di vista operativo osserviamo che la Trasformata DCT puó essere calcolata mediante strutture computazionali 

estremamente efficienti. Poiché utilizza funzioni cosinusoidali, cioé a valori reali, le diverse implementazioni 

presenteranno differenze numeriche che rendono la trasformazione non perfettamente invertibile se operata con calcolatori 

con differente precisione e struttura di calcolo. Pertanto, gli standard che utilizzano tale trasformata specificano 

i limiti di accuratezza numerica che devono essere rispettati al fine di garantire l’interoperabilitá fra sistemi dotati di 

realizzazioni numeriche differenti. 

4.2.1 Riduzione di ridondanza psicovisuale mediante quantizzazione 

Le immagini naturali hanno un contenuto energetico prevalentemente rappresentato da basse frequenze. Pertanto, non 

tutti i coefficienti relativi alle alte frequenze sono diversi da zero. Inoltre, il sistema visivo umano è meno sensibile 

alle alte frequenze, che contengono l’informazione relativa ai dettagli fini, alla tessitura, piuttosto che alle basse. 

Pertanto, i coefficienti alle alte frequenze possono essere quantizzati con un limitato numero di bit, senza introdurre 

una distorsione sensibile dal punto di vista psicovisuale. Al limite, alcuni coefficienti possono essere scartati, senza 

che l’errore di ricostruzione sia soggettivamente percepibile. 

Al contrario, i coefficienti alle basse frequenze necessitano di una migliore rappresentazione; fra questi, il coefficiente 

X (DCT) [0, 0], che rappresenta il valore medio della componente nel blocco osservato (coefficiente DC) riveste 

la maggiore importanza visuale e necessita della quantizzazione piú fine. 

4.3 Lo standard JPEG 

La struttura essenziale di un codificatore JPEG è mostrata nella Fig.4.3, che rappresenta la modalitá di codifica di 

base, detta modalitá sequenziale, e che consta di tre passi fondamentali, ovvero 

• rappresentazione dei dati in un dominio trasformato 

• quantizzazione 

• codifica entropica

4.3. LO STANDARD JPEG 35 

Figura 4.3: Schema del Codificatore JPEG 

Ogni componente (luminanza, crominanze) dell’immagine da codificare è suddivisa in blocchetti da 8x8 pixel4.3 . 

Ciascuno di questi blocchetti è trasformato mediante DCT, senza perdita di informazione. I 64 coefficienti DCT sono 

applicati all’ingresso del quantizzatore. Tipicamente, tra i 64 coefficienti DCT assumono valore significativamente 

diverso da zero solo quelli relativi alle frequenze spaziali piú basse. 

Figura 4.4: Suddivisione dell’immagine in blocchi 8x8 e relativa DCT 

A ciascun coefficiente DCT X (DCT) [k1,k2] é associato uno specifico passo di quantizzazione Q[k1,k2], che 

rappresenta l’ampiezza dell’intervallo di quantizzazione adottato nella quantizzazione uniforme del coefficiente di 

4.3La dimensione 8x8 dell’elemento di immagine da trasformare é la stessa per tutte le componenti anche quando le crominanze siano 

sottocampionate rispetto all’immagine originale.


indici [k1,k2]. Tale passo é inversamente crescente con l’importanza visuale. I livelli di quantizzazione dei coefficienti 

corrispondenti alle alte frequenze spaziali sono tipicamente relativamente grandi. Per ogni coefficiente é operata una 

quantizzazione uniforme con intervalli di quantizzazione pari Q[k1,k2]: : 

˜X (DCT) 

(DCT) X [k1,k2] 

[k1,k2] =round 

, k1,k2 =0, ···, 7 

Q[k1,k2] 

Si osservi che quando un coefficiente DCT assume valori minori del relativo passo di quantizzazione, a valle della 

quantizzazione esso é rappresentato da un valore nullo. 

Lo standard consente la scelta degli 8x8 valori dei passi di quantizzazione, che sono inseriti nei dati codificati. 

A titolo esemplificativo, nello standard sono inseriti i valori riportati in Tabella 4.3; tali valori possono essere scalati 

tramite un fattore moltiplicativo scalare, al fine di bilanciare le prestazioni del codificatore in termini di efficienza di 

compressione e di qualitá. 

Luminanza (Y ) 

16 11 10 16 24 40 51 61 

12 12 14 19 26 58 60 55 

14 13 16 24 40 57 69 56 

14 17 22 29 51 87 80 62 

18 22 37 56 68 109 103 77 

24 35 55 64 81 104 113 92 

49 64 78 87 103 121 120 101 

72 92 95 98 112 100 103 99 

Crominanza (CRCB) 

17 18 24 47 66 99 99 99 

18 21 26 66 99 99 99 99 

24 26 56 99 99 99 99 99 

47 66 99 99 99 99 99 99 

66 99 99 99 99 99 99 99 

99 99 99 99 99 99 99 99 

99 99 99 99 99 99 99 99 

99 99 99 99 99 99 99 99 

Tabella 4.2: Tabelle dei passi di quantizzazione Q[k 1,k2] suggerite nello standard JPEG. 

A valle della quantizzazione, ciascun blocco 8x8 ´dell’immagine originale é rappresentato da un blocchetto DCT 

i cui coefficienti sono stati quantizzati in base a criteri di rilevanza psicovisuale. La Trasformata DCT ha operato un 

compattamento dell’energia e la quantizzazione adattativa ha rimosso le componenti ad alta frequenza percettivamente 

irrilevanti. Pertanto, ciascun blocco presenta una struttura tipica in cui la grande maggioranza dei coefficienti sono 

nulli, e i pochi coefficienti non nulli sono concentrati alle basse frequenze. Inoltre, esiste una correlazione residua fra 

trasformate di blocchi spazialmente adiacenti. In particolare, i coefficienti ˜X (DCT) [0, 0], valutati su blocchi adiacenti, 

sono molto correlati, dal momento che rappresentano il valor medio di luminanza di regioni adiacenti di un immagine 

naturale. La struttura dei blocchi DCT e la correlazione fra blocchi adiacenti é sfruttata al fine di compattare 

l’informazione trasmessa. 

Per ciøche concerne i coefficienti ˜X (DCT) [0, 0] di ciascun blocco 8x8, é codificata e trasmessa la differenza fra 

il coefficiente quantizzato DC del blocco corrente e il coefficiente quantizzato del blocco precedente. Tale valore 

ha una dinamica nominalmente maggiore, ma tipicamente piú piccola del coefficiente originale, e pertanto richiede 

meno bit per essere trasmessa con la stessa distorsione media sul valore ricostruito. 

I coefficienti ˜X (DCT) [k1,k2], (k1,k2) = (0, 0) (coefficienti AC) sono scanditi in un ordine tale da esplorare prima 

le basse frequenze orizzontali e verticali e successivamente le alte frequenze. 

Adottando questa scansione, l’informazione si presenta come alternanza di coefficienti diversi da zero e di successione 

di coefficienti nulli (corse di zeri). I coefficienti tipicamente diversi da zero si addensano all’inizio della 

scansione, successivamente i coefficienti non nulli tendono ad essere separati da corse di zeri via via piú lunghe, ed

4.3. LO STANDARD JPEG 37 

Figura 4.5: Coefficienti DC ed AC, preparazione alla codifica 

alla fine della scansione pressoché tutti i coefficienti risultano nulli. Pertanto, l’informazione puó essere codificata 

trasmettendo i valori dei coefficienti nel caso che questi siano diversi da zero, e la lunghezza delle corse nel caso di 

coefficienti nulli. In particolare, il blocco é descritto codificando l’ampiezza (AMPLITUDE) di ciascun coefficiente 

AC non nullo congiuntamente alla lunghezza della corsa di coefficienti nulli (RUNLENGTH) che lo precedono nella 

sequenza. In linea di principio, i coefficienti DCT presentano una dinamica piú elevata rispetto ai coefficienti dell’immagine 

di partenza4.4 e codificare l’ampiezza di ciascun ˜X (DCT) [k1,k2] con il massimo numero di bit richiesto dalla 

dinamica sarebbe dispendioso. Pertanto, al fine di limitare al minimo il numero di bit utilizzato per rappresentare 

ciascun coefficiente il campo AMPLITUDE presenta lunghezza variabile; tale informazione (SIZE) deve essere anch’essa 

codificata e trasmessa al decodificatore. In definitiva, una corsa di zeri terminata da un coefficiente non nullo 

é descritta dai tre parametri (RUNLENGTH, SIZE, AMPLITUDE). Per i motivi sovra esposti, il valore differenziale 

del coefficiente DC é descritto dai due parametri (SIZE, AMPLITUDE). 

La coppia (RUNLENGTH, SIZE) é rappresentata tramite una parola di codice a lunghezza variabile (Variable 

Length Code, VLC). Il codice é costruito mediante codifica di Huffmann, rappresentando cioé con un minor numero 

di bit i simboli (RUNLENGTH, SIZE) piú frequenti e con un maggior numero di bit i simboli meno frequenti. Le 

tavole della codifica di Huffmann sono codificate e comunicate al decodificatore. L’intero che rappresenta il valore 

del campo AMPLITUDE é rappresentato ancora da un codice a lunghezza variabile (Variable Length Integer, VLI). 

Il codice VLI non é realizzato mediante codifica di Huffmann, ma assegna parole piú lunghe ai valori di ampiezza 

piú elevati, indipendentemente dalla frequenza di occorrenza relativa. 

Il decodificatore sulla base delle tavole della codifica di Huffmann opera la decodifica dell’ampiezza dei livelli 

quantizzati dei coefficienti DCT. I coefficienti ˜ X (DCT) [0, 0] sono ricostruiti a partire dalle differenze. Quindi, sulla 

base dei passi Q[k1,k2] nelle matrici di quantizzazione, ciascun livello quantizzato ˜X (DCT) [k1,k2] é riportato alla 

4.4I coefficienti DCT sono calcolati come X (DCT) [k1,k2] ∝ (1/ √ N) × (1/ √ N) × N−1 N−1 n1=0 n2=0 (···) N × (···). Per N =8=23 , 

se i valori dell’immagine sono rappresentati in virgola fissa a 8 bit/pixel, la rappresentazione di ciascun coefficiente DCT richiede 11 bit. Per 

immagini ad alta qualitá a 12 bit/pixel (ad es. immagini mediche, ad elevato contenuto diagnostico), ciascun coefficiente DCT richiede 15 bit.


dinamica originale ˜X (DCT) [k1,k2] · Q[k1,k2]. La trasformazione IDCT opera il calcolo della Trasformata Coseno 

Discreta Inversa. I blocchi 8x8 ricostruiti sono giustapposti spazialmente generando l’immagine decodificata. 

L’algoritmo di codifica sovraesposto, detto JPEG in modalitá sequenziale, prevede delle varianti che sono utili 

in tutte le applicazioni in cui si voglia trasferire rapidamente una versione a bassa qualità dell’immagine, e.g. per 

renderla subito visibile all’utente, raffinandola poi in passi successivi. 

Modalitá Progressiva. 

Per ciascun blocco 8x8 non sono trasmessi in un colpo solo tutti i coefficienti quantizzati, e per ciascun coefficiente 

tutti i bit, ma l’immagine é trasmessa in modo progressivo. Alla prima iterazione puøessere trasmesso solo un sottoinsieme 

dei coefficienti AC per ciascun blocco; tale approccio prende il nome di selezione spettrale. In contemporanea 

o in alternativa alla selezione spettrale, é possibile trasmettere solo i bit piú significativi di ciascun coefficiente; 

tale approccio é detto ad approssimazioni successive. Ricevuta questa descrizione sommaria di tutti i blocchetti, il 

decodificatore puó decodificare una versione grossolana dell’immagine codificata, raffinandola successivamente mano 

mano che informazioni di maggiore dettaglio sono ricevute. La scelta del numero dei coefficienti DCT e dei bit da 

considerare nelle scansioni progressive é lasciato all’implementazione. 

Figura 4.6: Selezione spettrale (caso di codifica senza perdite): prima scansione (sinistra), seconda scansione(centro), ultima 

scansione (destra). 

Figura 4.7: Approssimazioni successive (caso di codifica senza perdite): prima scansione (sinistra), seconda scansione(centro), 

ultima scansione (destra).

4.4. LO STANDARD JPEG 2000 39 

Modalitá Gerarchica 

Nella modalitá gerarchica l’immagine non é trasmessa direttamente alla massima risoluzione; al contrario, sono 

codificate e trasmesse versioni dell’immagine caratterizzate da risoluzione ridotta ma via via crescente, fino alla risoluzione 

desiderata. Tali versioni sono ottenute filtrando passabasso (cioé sfocando) e sottocampionando 4.5 l’immagine 

originale. 

Quando riceve le versioni meno risolute, il decodificatore le decodifica e le interpola per riportarle alle dimensioni 

originali. In tal modo, é subito disponibile al decodificatore una versione sfocata, e compressa, dell’immagine 

originale. Via via che le nuove versioni sono rese disponibili al decodificatore, é ricostruita un’immagine piú 

risoluta e piú focalizzata, fino all’ultima versione che é alla risoluzione dell’immagine originale. Per ovvie questioni 

di efficienza, una volta codificata la prima versione sottocampionata (sfocata) dell’immagine, il codificatore non 

codificherá direttamente la versione piú risoluta (focalizzata), ma solamente la differenza residua tra le due. Si noti 

che se il residuo finale é codificato senza perdite, anche lo schema complessivo risulta senza perdite. 

Figura 4.8: Aumento di risoluzione (caso di codifica senza perdite): risoluzione 1/4 (sinistra), risoluzione 1/2 (centro), risoluzione 

1/1 (destra). 

Modalità Senza Perdita 

Tale modalitá non prevede quantizzazione ma solo opportuna codifica senza perdita dei coefficienti DCT, basata 

su una tecnica di codifica predittiva. É utilizzata in particolari applicazioni in cui non é tollerabile alcun tipo di 

degradazione dell’immagine (immagini mediche, telesorveglianza). 

4.4 Lo standard JPEG 2000 

Lo standard JPEG 2000 si basa su 

• rappresentazione dell’immagine in un dominio trasformato (dominio wavelet) 

• quantizzazione dei coefficienti 

• opportuno ordinamento e codifica entropica dei coefficienti stessi ai fini della trasmissione 

4.5 Il filtraggio è necessario per evitare l’introduzione di distorsione da aliasing, visibile come una seghettatura dei bordi, nella successiva 

operazione di decimazione.


Al fine di rendere l’algoritmo adattabile a immagini di dimensione differente, contenendo la complessitá del 

calcolo, il JPEG2000 prevede la partizione dell’immagine in rettangoli non sovrapposti (Tiles), codificati indipendentemente 

e accessibili separatamente a livello di bitstream codificato. Nel caso di immagini multi componente 

campionate a risoluzione diversa per ciascuna componente, i tile hanno dimensioni differenti sulle diverse componenti4.6 

. Nel seguito, supporremo che l’immagine sia descritta da un solo Tile; in presenza di piú Tiles, quanto descritto 

in seguito é ripetuto per ogni Tile. 

Rappresentazione dell’immagine nel dominio wavelet 

Il dominio trasformato é generato mediante applicazione ricorsiva all’immagine originale I di dimensione NxN, di 

quattro filtri. Ciascun filtro realizza un filtraggio in direzione orizzontale (passabasso o passaalto) e un filtraggio in 

direzione verticale (passabasso o passaalto). Si generano cos´ quattro versioni dell’immagine, a seconda del filtraggio 

applicato. I filtraggi sono seguiti da un sottocampionamento di un fattore due in direzione orizzontale e di un 

fattore due in direzione verticale. A valle del filtraggio e del sottocampionamento, sono disponibili quattro versioni 

di dimensioni N/2 × N/2 =N 2 /4 dell’immagine applicata all’ingresso del filtro, che differiscono a seconda dei 

filtraggi applicati: ILH ,LV , ILH ,HV , IHH ,LV , IHH ,HV . Ciascuna di queste versioni, a causa del sottocampionamento, 

ha dimensioni ridotte di un fattore 1 1 1 

× = rispetto all’immagine d’ingresso. Il numero complessivo di punti é pari 

2 2 4 

a quello dell’immagine di ingresso. Le componenti in alta frequenza rappresentano dettagli spazialmente meno visibili 

di quelli in bassa frequenza. Pertanto questa rappresentazione consente di evidenziare componenti visualmente piú 

rilevanti. La domanda che si pone é: l’immagine di partenza puó essere ricostruita a partire dagli NxN coefficienti cos´ 

ottenuti? In effetti é possibile scegliere i filtri di analisi hLL,hLH,hHL,hHH in modo che l’immagine originaria sia 

ricostruita interpolando opportunamente e sovrapponendo i contributi delle diverse sottobande. Lo standard prevede 

due possibili implementazioni dei filtri, con diversi coefficienti; in particolare il filtraggio puó essere a coefficienti 

interi e frazionari, e pertanto perfettamente reversibile, oppure a coefficienti reali, e pertanto irreversibile a causa di 

differenze di implementazione numerica (ovvero reversibile nei limiti dell’approssimazione numerica uilizzata). 

Operata questa rappresentazione dell’immagine originale, é possibile applicare nuovamente la procedura di filtraggio 

e sottocampionamento all’immagine ILH ,LV , che altro non rappresenta se non una versione a minore risoluzione 

(di un fattore 1/2 × 1/2) dell’immagine originale. Applicando i filtraggi passabasso e passaalto orizzontale 

e verticale a ILH ,LV e sottocampionando, essa sará a sua volta ripartita in quattro rappresentazioni di dimensione 

N/4 × N/4 =N 2 /16. Anche a questo livello della decomposizione, l’immagine ottenuta mediante filtraggio 

passabasso alle basse frequenze orizzontali e verticali rappresenta una versione a risoluzione ridotta (di un fattore 

1/4 × 1/4) dell’immagine originale. Il filtraggio e il sottocampionamento sono applicati iterativamente all’immagine, 

e possono essere interpretati come un’operazione di trasformazione4.7che conduce ad un dominio in cui i coefficienti 

hanno diversa importanza visuale. 

Quantizzazione 

Dopo la trasformazione, i coefficienti sono quantizzati uniformemente. Lo standard prevede un differente passo di 

quantizzazione per ogni sottobanda. La quantizzazione puó essere reversibile, se il passo é scelto pari ad uno. Tuttavia, 

pure operando la scelta del passo di quantizzazione pari ad uno, la codifica puó essere con perdita. Infatti mentre 

4.6La dimensione del Tile sulle diverse componenti é adattata in modo da mantenere la corrispondenza spaziale fra le rappresentazioni in 

sottobande delle diverse componenti. 

4.7E’ possibile dimostrare che tale rappresentazione costituisce una Discret Wavelet Transform dell’immagine originale.

4.4. LO STANDARD JPEG 2000 41 

Figura 4.9: Filtri passa-basso e passa alto irreversibili (9/7 Daubechies a coefficienti reali) utilizzati per il filtraggio ricorsivo 

lungo le righe e colonne dell’immagine originale e delle componenti in banda base. 

nel JPEG l’unico elemento di perdita nello schema di codifica é la quantizzazione, nel JPEG 2000 la compressione 

con perdita puó avvenire approssimando o scartando completamente alcuni coefficienti nella fase di trasmissione. 

Formazione del bitstream 

Per ciascuna risoluzione, a valle della quantizzazione, le sottobande sono divise in blocchi (coding block) di 

dimensione tipica 64x64 o 32x32. 

Per ciascun blocco, i coefficienti sono scanditi per strisce di altezza 4 e rappresentati per piani di bit, partendo 

dai bit piú significativi ai meno significativi. Preliminarmente ha luogo la codifica del piano del bit piú significativo; 

la codifica prosegue per ciascuno dei piani successivi, articolandosi in tre passi (significance propagation, magnitude 

refinement, clean-up). 

Per ciascun piano, sono codificati nell’ordine 

• i bit dei coefficienti vicini a coefficienti risultati significativi nel piano precedente (fase di significance 

propagation ) 

• i bit dei coefficienti risultati significativi nel piano precedente (fase di magnitude refinement ) 

• i rimanenti bit (fase di clean-up) 

I bit sono codificati ricorrendo a tecniche piuttosto sofisticate di codifica aritmetica basata sul contesto spaziale4.8 e 

runlength coding, che prevedono la trasmissione di apposite tavole al decodificatore. 

Il particolare ordinamento dei bit codificati e trasmessi rispecchia un ordinamento decrescente di importanza 

visuale. Pertanto, la codifica con perdita puó essere realizzata interrompendo la trasmissione ad un dato livello 

di risoluzione o in una data sottobanda, scartando i bit successivi. La natura dell’ordinamento garantisce una 

quasi-ottimalitá di questa scelta, nel senso che per un’assegnata lunghezza in bit dell’informazione da trasmettere la 

distorsione visuale risultante sull’immagine ricostruita é ridotta al minimo. 

Caratteristiche innovative del JPEG 2000 

4.8Nella modalitá detta lazy coding, la codifica aritmetica é disabilitata sui piani di bit meno significativi, al fine di ridurre sia il costo 

computazionale che la sensibilitá agli errori.


• Lo standard JPEG 2000 offre una maggiore efficienza di compressione rispetto al JPEG nel senso che a paritá 

di bit/pixel ricostruisce l’immagine con una minore distorsione rispetto all’originale. Oltre a questo aspetto, 

presenta alcune pecularitá migliorative che lo rendono preferibile da un punto di vista di sistema, che saranno 

qui di seguito accennate. 

• Al fine di codificare un’immagine assegnando al bitstream un fissato numero di bit, é sufficiente, dopo aver 

fissato il parametro di quantizzazione, procedere nella codifica troncando la trasmissione quando sia stato 

raggiunto la dimensione prefissata del bitstream. Nel JPEG, invece, la generazione di un codice di lunghezza 

assegnata puó essere ottenuto solo iterativamente, assegnando diversi valori del parametro di quantizzazione e 

verificando la lunghezza in bit ottenuta. 

• Il codice JPEG 2000, grazie alla particolare struttura a livelli successivi (embedded), gode della proprietá di 

scalabilitá. Un codice é scalabile quando consente l’accesso e la decodifica parziale del bitstream a decodificatori 

di differente complessitá. All’interno del codice JPEG 2000 é immediato separare i dati relativi alle 

diverse risoluzioni, e per una fissata risoluzione, a diversi livelli di qualitá di riproduzione. La sintassi del Code 

Stream prevede a questo scopo l’unitá sintattica Layer, che rappresenta i dati relativi ad un fissato livello di 

risoluzione. All’interno di un Layer, informazioni relative alla stessa zona spaziale sono raggruppate in apposite 

unitá sintattiche (Packet). In particolare, un pacchetto contiene i dati codificati relativi a gruppi di blocchi 

che occupano posizioni corrispondenti nelle tre sottobande(LH,HV ), (HH,LV ) e (HH,HV ). L’insieme dei 

gruppi di blocchi prende il nome di precinto. Le informazioni codificate relative ai blocchi di un precinto 

cosituiscono un pacchetto all’interno dei dati codificati. 

• Lo standard JPEG 2000 abilita la codifica differenziata di differenti regioni spaziali dell’immagine (Region 

Of Interest , ROI). A valle della trasformazione wavelet, tutti i coefficienti pertinenti alla ROI ad una fissata 

risoluzione sono moltiplicati per un fattore 2 MAX SHIFT , dove il parametro MAX SHIFT é scelto in modo 

che tutti i coefficienti della ROI siano al disopra dei valori piú grandi dei coefficienti del background; in altre 

parole, il background é descritto sui MAX SHIFT piani di bit meno significativi e la ROI sui rimanenti piani. 

Quindi i coefficienti wavelet sono codificati insieme al valore di MAX SHIFT. Quando il decodificatore 

ricostruisce valori dei coefficienti, attribuisce alla ROI tutti quelli che superano la soglia MAX SHIFT, e 

pertanto dopo averli ricostruiti li scala di 2 −MAX SHIFT riconducendoli alla dinamica originale. Il vantaggio 

di questo meccanismo di separazione dei piani di bit sta nel fatto che il decodificatore non necessita di una 

codifica esplicita della locazione spaziale della ROI ai fini di una corretta ricostruzione. 

4.5 Trasmissione di immagini su canali affetti da errori 

Le tecniche di codifica di immagini fisse utilizzano codici a lunghezza variabile, che sono intrinsecamente sensibili 

ad errori di trasmissione. Infatti, non essendo definita a priori la lunghezza della parola, puó accadere che un errore 

su un bit trasformi una parola di codice in un’altra parola di codice, di lunghezza differente. Il decodificatore, 

pertanto, non solo legge una parola di codice errata, ma riprende la decodifica del bitstream da una posizione 

errata. Ció compromette la decodifica dei dati successivi. Inoltre, succede sovente che nel leggere il bitstream a 

partire dalla locazione errata, il decodificatore incontri sequenze di bit corrispondenti a parole di codice ammissibili, 

e pertanto l’errore di decodifica non sia rivelato immediatamente, ma solo dopo un intervallo di latenza causato

4.5. TRASMISSIONE DI IMMAGINI SU CANALI AFFETTI DA ERRORI 43 

dall’errata decodifica di alcune parole consecutive. Questo meccanismo é indicato come perdita di sincronismo fra 

il decodificatore e il bitstream. Le tecniche di robustezza agli errori (error resilience) mirano in primo luogo a 

limitare al minimo numero di bit l’effetto di perdita del sincronismo con il bitstream. La tecnica piú comunemente 

usata consiste nell’inserimento di resynchronization markers (RM), cioé di parole di codice di lunghezza fissata, non 

emulabili da combinazioni di altre parole di codice. I RM consentono al decodificatore di identificare all’interno del 

bitstream le locazioni corrette di accesso ai dati, e pertanto abilitano il recupero del sincronismo in presenza di errori 

di trasmissione. Tanto il JPEG che il JPEG 2000 prevedono la possibilitá di inserire marker di risincronizzazione nei 

dati codificati. 

Le tecniche di codifica di immagini fisse fanno un uso intensivo di meccanismi di predizione spaziale, sia nella 

forma di predizione diretta dei coefficienti, sia nella costruzione di codificatori con memoria, le cui tavole di codice 

cioé sono scelte in funzione dei bit giá trasmessi. La presenza di un errore pertanto compromette la decodifica dei 

dati dipendenti dal dato danneggiato. Questo meccanismo di predizione é particolarmente rilevante nel JPEG 2000, 

che pertanto consente di disabilitare almeno parzialmente la dipendenza dei codici aritmetici utilizzati dal contesto, 

migliorando la robustezza del codice a detrimento dell’efficienza di compressione. 

Lo standard JPEG 2000 prevede un’estensione del profilo base (baseline) dotato di apposite funzionalitá dierror 

resilience, detto Wireless JPEG 2000, o JPWL. Il codificatore JPWL arricchisce il codificatore JPEG 2000 di due 

tipi di funzionalitá: 

• descrizione della sensibilitá agli errori delle diverse porzioni del bitstream 

• protezione dagli errori delle diverse porzioni del bitstream mediante tecniche FEC, 

Il decodificatore JPWL arricchisce il decodificatore JPEG 2000 di due tipi di funzionalitá: 

• correzione degli errori del bitstream 

• descrizione degli errori residui nel bitstream stesso 

La normativa specifica la sintassi da utilizzare per descrivere gli strumenti, mediante l’introduzione di quattro 

nuove unitá sintattiche di lunghezza variabile (Error Protection Capability, che descrive quali strumenti di protezione 

sono utilizzati, Error Protection Block, che costituisce il codice di canale effettivamente utilizzato, Error Sensitivity 

Descriptor, che descrive la sensibilitá dei dati codificati ad eventuali errori di trasmissione e pertanto consente di 

attuare tecniche di protezione differenziata dei dati, Residual Error Descriptor, che descrive gli errori residui dopo 

la decodifica di canale). Tali unitá sono pacchetti dati costituiti da un header, da un campo indicante la lunghezza 

del pacchetto, da un campo che specifica l’uso del successivo campo dati, ed il campo dati vero e proprio. A titolo 

di esempio, osserviamo che l’EPB puó utilizzare qualsiasi codice a correzione di errore che sia stato registrato presso 

la JPWL Registration Authority (RA); il pacchetto EPB contiene sia un identificativo univoco del particolare codice 

sia i dati ridondanti prodotti dal codice stesso. 

La distinzione funzionale dei meccanismi di descrizione delle caratteristiche di sensibilitá agli errori e dei meccanismi 

di protezione consente, in linea di principio, di implementare tali funzionalitá in sistemi differenti dell’architettura 

di rete. Ad esempio, in un sistema di distribuzione di immagini su reti eterogenee la descrizione dei dati potrebbe 

essere implementata a bordo del server di distribuzione delle immagini, mentre la funzionalitá di protezione potrebbe 

essere realizzata all’interfaccia con la sottorete wireless di interesse, sia mediante introduzione di codici FEC, sia 

mediante tecniche di ritrasmissione selettiva dei dati piú importanti.


Figura 4.10: Schema di principio della codifica JPEG 2000.

4.5. TRASMISSIONE DI IMMAGINI SU CANALI AFFETTI DA ERRORI 45 

Figura 4.11: Esempio di codifica per piani di bit.

Bibliografia 

[1] G. Scarano, “Dispense di elaborazione delle immagini”, http: 

infocom.uniroma1.it/gscarano. 

[2] B. G. Haskell, P. G. Howard, Y. A. LeCun, A. Puri, J. Ostermann, M.R. Civanlar, L. R. Rabiner, L. Bottou, and P. Haffner, “Image 

and Video Coding-Emerging Standards and Beyond”, IEEE Transactions on Circuits and Systems for Video Technology, Vol. 8, No. 7, pp. 

814-837, November 1998 

[3] A. Skodras, C. Christopoulos, and T. Ebrahimi, “The JPEG 2000 Still Image Compression Standards and Beyond”, IEEE Transactions 

on Circuits and Systems for Video Technology, Vol. 8, No. 7, pp. 814-837, November 1998 

46

Capitolo 4 Codifica di Immagini - InfoCom

Create successful ePaper yourself

Delete template?

Save as template?