COMPRESIA datelor - GInfo

Bits&Bytes... (3) 

serial 

COMPRESIA datelor 

Claudiu Soroiu 

În cadrul acestui episod al serialului dedicat compresiilor de date vã vom 

prezenta metoda de compresie cu dicþionare Lempel Ziv, cea mai rapidã 

metodã de compresie, ºi variante ale acesteia. 

GInfo nr. 13/3 - martie 2003 

42 

Metoda de compresie LZ (Lempel-Ziv) a fost implementatã 

pentru prima datã de cãtre Abraham Lempel ºi Jacob 

Ziv în anul 1977 ºi aceastã implementare este denumitã 

LZ77. Ulterior metoda a suferit unele modificãri ºi au apãrut 

variantele LZ78, LZW (Lempel-Ziv-Welch - 1984), 

LZSS (Lempel-Ziv-Storer-Szymanski - 1986). 

Metoda LZ77 

Metoda de compresie LZ77 constã în pãstrarea ultimelor n 

simboluri generate de o sursã de informaþie S ºi gãsirea 

celei mai lungi secvenþe de lungime maximã L s 

(L s 

< n) de 

simboluri generate de sursa S în cadrul secvenþei de n 

simboluri stocate. 

Algoritmul de compresie 

Algoritmul de compresie pentru varianta LZ77 este foarte 

simplu. La început avem un ºir T care conþine n simboluri. 

Fiecare dintre cele n simboluri se iniþializeazã cu primul 

simbol al alfabetului unei surse de informaþie S. În continuare, 

se pãstreazã primele L S 

simboluri generate de sursa 

de informaþie S pe ultimele L S 

poziþii din ºirul T. Cele L S 

simboluri se transmit la ieºirea E. 

La pasul urmãtor avem un ºir w iniþial de lungime 0. 

Atâta timp cât ºirul w se regãseºte în ºirul T acesta este concatenat 

cu urmãtorul simbol generat de sursa de informaþie 

S. Vom nota prin w i 

ºirul obþinut din primele i simboluri ale 

ºirului w. Fie i lungimea lui w în momentul în care acesta 

nu se mai regãseºte în ºirul T; aceasta înseamnã cã ºirul w i-1 

este cel mai lung ºir generat de sursa S care se aflã în ºirul 

T începând de la poziþia p. La ieºirea E se transmite poziþia 

p, numãrul (i - 1) ºi simbolul c de pe ultima poziþie a ºirului 

w, ceea ce se explicã prin faptul cã urmãtoarele i elemente 

ale ºirului iniþial se obþin din i - 1 simboluri consecutive din 

ºirul T începând de la poziþia p ºi simbolul c. ªirul T se deplaseazã 

la stânga cu i poziþii, iar ultimele i poziþii vor fi 

umplute cu simbolurile ºirului w. Acest pas se executã pânã 

când sursa de informaþie S nu mai genereazã simboluri. 

Pentru a descrie în pseudocod algoritmii din cadrul 

acestui articol, vom nota cu '+' operaþia de concatenare 

dintre douã ºiruri de simboluri sau dintre un ºir de simboluri 

ºi un caracter, vom considera cã prima poziþie a unui 

ºir de simboluri este 0 ºi vom avea nevoie de urmãtorii 

subalgoritmi: 

• Citeºteªir(S, I) - citeºte de la sursa de informaþie S 

un ºir de maxim I simboluri pe care îl returneazã ca rezultat; 

• CiteºteSim(S) - citeºte de la sursa de informaþie S un 

singur simbol pe care îl returneazã ca rezultat; 

• CiteºteNum(S) - citeºte de la sursa de informaþie S un 

ºir de simboluri pe care îl converteºte la un numãr care 

este returnat ca rezultat; 

• CiteºteBit(S) - citeºte de la sursa de informaþie S un 

ºir de simboluri pe care îl converteºte la o valoare logicã 

(0 sau 1) care constituie rezultatul subalgoritmului; 

• Genereazã(S) - returneazã ca rezultat valoarea logicã 

adevãrat dacã sursa S mai genereazã simboluri ºi valoarea 

fals în caz contrar; 

• Transmite(E, I 1 

, ..., I n 

) - transmite la ieºirea E conþinutul 

variabilelor I 1 

, ..., I n 

; 

• Lungime(w) - returneazã ca rezultat lungimea ºirului de 

simboluri w; 

• Primele(s, i) - returneazã ca rezultat ºirul de simboluri 

obþinut din primele i simboluri ale ºirului s; 

• Ultimele(s, i) - returneazã ca rezultat ºirul de simboluri 

obþinut din ultimele i simboluri ale ºirului s; 

• Gãsit(s, s 1 

) - returneazã ca rezultat valoarea logicã 

adevãrat dacã ºirul s 1 

este subºir al ºirului s ºi valoarea 

fals în caz contrar; 

• Poziþie(s, s 1 

) - returneazã ca rezultat poziþia de început 

a primei apariþii a ºirului s 1 

în ºirul s dacã ºirul s 1 

este 

subºir al ºirului s ºi valoarea -1 în caz contrar. 

În continuare vom prezenta algoritmul de compresie 

în pseudocod:

se iniþializeazã n cu o constantã 

se iniþializeazã L S 

cu o constantã 

se iniþializeazã T 

w ← Citeºteªir(S, L S 

) 

Transmite(E, w) 

T ← Primele(T, n - L S 

)+w 

dacã nu Genereazã(S) atunci 

ieºire 

sfârºit dacã 

cât timp Genereazã(S) executã 

w ← "" 

cât timp Genereazã(S) ºi Gãsit(T, w) executã 

c ← CiteºteSim(S) 

w ← w+c 

sfârºit cât timp 

i ← Lungime(w) 

p ← Poziþie(T, Primele(w, i - 1)) 

Transmite(E, p, i - 1, c) 

T ← Ultimele(T, n - i) + w 


În figura 1 este ilustrat modul în care se realizeazã 

compresia unui ºir de simboluri folosind metoda LZ77. Se 

poate observa foarte uºor felul în care este actualizat ºirul 

de simboluri T ºi cum variazã ºirul w la fiecare pas. Pasul 0 

reprezintã pasul de dinaintea instrucþiunii repetitive cât 

timp. 

Figura 1: Exemplu de compresie cu LZ77 

Algoritmul de decompresie 

Algoritmul de decompresie pentru metoda LZ77 constã în 

interpretarea ºirului comprimat de simboluri generate de o 

sursã de informaþie S. 

Iniþial se citesc L S 

simboluri care se transmit ºi sunt 

stocate ºi pe ultimele L S 

poziþii ale ºirului T de lungime n. 

În continuare, la fiecare pas se citeºte un triplet (p, i, c), 

se transmit i simboluri din T începând cu poziþia p, se 

transmite simbolul c, T se deplasezã la stânga cu i + 1 poziþii 

ºi ultimele i + 1 poziþii din T se completeazã cu ºirul 

obþinut din cele i + 1 simboluri transmise. 

În pseudocod acest algoritm este: 






) 



)+w 


ieºire 



p ← CiteºteNum(S) 

i ← CiteºteNum(S) 


w ← Primele(Ultimele(T, n - p), i) + c 


T ← Ultimele(T, n - i - 1) + w 


Observaþii 

Complexitatea algoritmului de compresie este O(n · nr), 

unde nr este numãrul de simboluri generate de sursa de informaþie 

S, deoarece funcþia de cãutare a unui subºir întrun 

ºir are complexitatea O(n) ºi modificarea ºirului T se 

realizeazã în maxim O(n) paºi, în funcþie de algoritmul 

utilizat (dacã se utilizeazã un ºir circular, modificarea poate 

avea loc în O(1) paºi). 

Complexitatea algoritmului de decompresie este O(nr) 

în cazul în care modificarea ºirului T se face în O(1) paºi ºi 

construirea lui w se face la fiecare pas folosind O(i) instrucþiuni. 

În general ºirul T de simboluri poartã numele de fereastrã 

mobilã, acest algoritm fiind cel mai simplu algoritm 

de compresie din clasa algoritmilor de compresie cu 

ferestre mobile. Dicþionarul în cazul algoritmului LZ77 

este constituit chiar de fereastra mobilã T. 

Din cauzã cã ºirul T este format numai din ultimele n 

simboluri generate de sursa de informaþie S algoritmul 

LZ77 nu este optim, deoarece nu mai apar referinþe la codificãri 

anterioare deci, dacã mai apare un ºir de simboluri 

care trebuie codificate identic cu un ºir codificat anterior, 

se întâmplã destul de des sã nu fie codificat în aceeaºi manierã 

(folosind un singur triplet (p, i, c)) fapt care duce la 

creºterea lungimii codificãrii întregului ºir de simboluri 

generate de sursa S. Din acest motiv, cercetãtorii Abraham 

Lempel ºi Jacob Ziv au renunþat la fereastra mobilã ºi în 

anul 1978 au realizat o nouã implementare în care dicþionarul 

de compresie era constituit de ºirurile de simboluri 

codificate anterior. 

LZ77 este un algoritm fundamental de compresie a 

datelor ºi stã la baza clasei de algoritmi de compresie cu 

fereastrã mobilã, în timp ce LZ78 este baza unei noi clase 

de algoritmi de compresie. 

Metoda LZSS 

În cazul metodei LZ77, se observã foarte uºor cã dacã ultimul 

ºir de simboluri w i-1 

care se regãseºte în ºirul T este 

43 

serial 

GInfo nr. 13/3 - martie 2003

serial 


44 

chiar ºirul vid atunci, pentru a reprezenta ºirul w care se 

codificã se transmit numerele p ºi (i - 1) care au valoarea 0 

ºi simbolul din ºirul w. Aceasta înseamnã cã pentru a codifica 

un singur simbol trebuie douã numere care sunt inutile. 

Metoda LZSS constituie o îmbunãtãþire asupra metodei 

LZ77. Îmbunãtãþirea este aceea cã în cazul enunþat 

anterior, dacã avem de codificat un singur simbol, se transmite 

bitul 0 urmat de simbol, iar dacã avem de codificat un 

ºir mai lung de simboluri, se transmite bitul 1 urmat de 

perechea (p, i). În acest ultim caz, la iteraþia urmãtoare 

ºirul w va fi iniþializat cu ºirul format din ultimul simbol 

generat de sursa S. 

În concluzie, dacã lungimea codificãrii unui ºir este 

mai mare decât ºirul necodificat, atunci se va transmite la 

ieºire necodificat, precedat de un bit setat pe 0. Se observã 

cã în cazul acestui algoritm, dacã este nevoie sã se codifice 

un ºir, în fereastra mobilã se va introduce doar cel mai 

lung subºir care se regãseºte în aceasta ºi nu primul subºir 

care nu se regãseºte (cum se întâmplã în cazul algoritmului 

de compresie LZ77). 

Algoritmul de compresie LZSS este: 






) 



)+w 


ieºire 


w ← "" 


cât timp Genereazã(S) ºi Gãsit(T, w) executã 


w ← w+c 



dacã i=1atunci 

Transmite(E, 0, c) 

w' ← "" 

altfel 

p ← Poziþie(T, Primele(w, i)) 

dacã p=-1atunci 

i ← i-1 

p ← Poziþie(T, Primele(w, i)) 

w' ← c 

dacã i=1atunci 

Transmite(E, 0, Primele(w, 1)) 

altfel 

Transmite(E, 1, p, i ) 


altfel 

w' ← "" 

Transmite(E, 1, p, i ) 



T ← Ultimele(T, n - i) + Primele(w, i) 

w ← w' 


În figura urmãtoare se poate observa modul de compresie 

a unui ºir de simboluri generate de o sursã S, folosind 

algoritmul LZSS: 

Figura 2: Exemplu de compresie cu LZSS 

Decompresia unui ºir de simboluri comprimat cu metoda 

LZSS se realizeazã la fel ca în cazul algoritmului 

LZ77 cu precizarea cã în momentul decodificãrii unei perechi 

se verificã bitul care o precede, ºi anume, dacã bitul 

este 0, atunci, la ieºire se va transmite un simbol c, iar dacã 

este 1, atunci, la ieºire se va transmite subºirul din fereastra 

mobilã care începe de la o poziþie p ºi are lungimea i. Acþiunea 

de decodificare va fi urmatã de actualizarea ferestrei 

mobile. 

În continuare prezentãm varianta pseudocod a algoritmului 

de decompresie LZSS: 






) 



)+w 


ieºire 



b ← CiteºteBit(S) 

dacã b=0atunci 


w ← c 

i ← 1 

altfel

p ← CiteºteNum(S) 


w ← Primele(Ultimele(T, n - p), i) 



T ← Ultimele(T, n - i) + w 


memorie) nu se mai adaugã elemente în aceasta, acest fapt 

ducând la ineficienþa algorimtului pentru date foarte multe 

ºi pentru multe apariþii ale unor ºiruri de simboluri care nu 

se aflã printre elementele listei. 

În figura 3 se poate observa modul în care se realizeazã 

compresia datelor folosind algorimtul prezentat anterior. 

Ordinele de complexitate ale algoritmilor de compresie 

ºi decompresie pentru metoda LZSS sunt aceleaºi cu 

cele ale algoritmilor de compresie, respectiv decompresie, 

pentru algoritmul LZ77, în schimb, un ºir de simboluri generat 

de o sursã de informaþie S este comprimat mai bine 

dacã se foloseºte algoritmul LZSS. 

Metoda LZ78 

Spre deosebire de cele douã metode de compresie a datelor 

prezentate anterior, metoda LZ78 nu foloºte o fereastrã 

mobilã, ci reþine toate ºirurile de simboluri codificate anterior 

într-o listã. 

La începutul compresiei, mãrimea listei de elemente T 

codificate anterior este 1 ºi conþine pe poziþia 0 ºirul vid. 

La un pas, se considerã lista elementelor obþinutã la pasul 

anterior ºi se citeºte de la o sursã de informaþie S cel mai 

scurt ºir de simboluri w care nu se aflã în lista elementelor 

T. În aceastã listã se va adãuga ºirul w, iar la ieºirea E se va 

transmite o pereche formatã din numãrul de ordine al primei 

apariþii a ºirului obþinut din ºirul w prin eliminarea 

ultimului simbol din acesta. 

Pentru a putea prezenta algoritmul de compresie LZ78 

avem nevoie de subalgoritmul Cautã(s, w), care primeºte 

ca parametri o listã de ºiruri de simboluri s ºi un ºir de 

simboluri w, returnând ca rezultat numãrul de ordine al primei 

apariþii a ºirului w în lista s. Dacã w nu apare printre elementele 

listei s, atunci rezultatul subalgoritmului va fi -1. 

Vom considera cã numãrul de ordine al primului ºir care 

apare în lista s este 0. 

T[0] ← w //iniþial, lista T conþine doar ºirul vid 

k ← 1 

//k reprezintã mãrimea listei T 


w ← "" 

cât timp Genereazã(S) ºi Cautã(T, w) ≥ 0 executã 


w ← w+c 


T[k] ← w 

k ← k+1 


w ← Primele(w, i - 1) 

i ← Cautã(T, w) 

Transmite(E, i, c) 


În practicã, atunci când dimensiunea listei T ajunge la 

o valoare prestabilitã (datoritã insuficienþei resurselor de 

Figura 3: Exemplu de compresie cu LZ78 

Algoritmul de decompresie devine acum foarte simplu 

deoarece, la fiecare pas, se interpreteazã o pereche (i, T) 

care se citeºte de la sursa de informaþii ºi se transmite ºirul 

care se aflã pe poziþia i în lista T urmat de caracterul din 

pereche. 

Iniþial, ca ºi în cazul compresiei, lista T conþine doar 

ºirul vid. La fiecare pas se adaugã în lista T ºirul format din 

elementul de pe poziþia i din T ºi din caracterul care a fost 

citit. 

În pseudocod, algoritmul de decompresie LZ78 este: 

T[0] ← w //iniþial, lista T conþine doar ºirul vid 

k ← 1 

//k reprezintã mãrimea listei T 




Transmite(E, T[i], c) 

T[k] ← T[i] + c 

k ← k+1 


Complexitatea algoritmului de compresie are ordinul 

O(m · n), unde m reprezintã media lungimii ºirurilor de 

simboluri care se aflã în lista T, în cazul în care se foloseºte 

un algoritm banal de cãutare, iar n reprezintã numãrul 

total de simboluri generate de o sursã de informaþie S. În 

cazul în care se foloºte un algoritm performant de cãutare 

ºi lista T este reprezentatã folosind arbori de sufixe, atunci 

aceastã complexitate scade foarte mult. 

45 

serial 

GInfo nr. 13/3 - martie 2003

Algoritmul de decompresie are ordinul de complexitate 

O(n), unde n reprezintã numãrul de simboluri care trebuie 

decodificate. 

algoritmul LZ78 care, pentru a comprima acelaºi ºir de 

simboluri, transmite 11 coduri ºi 11 simboluri. 

serial 


Metoda LZW 

Welch a observat o deficienþã a algoritmului LZ78, ajungând 

la concluzia cã pentru a decodifica un ºir de simboluri 

nu este nevoie de o pereche formatã dintr-un indice ºi 

un simbol. 

Prin urmare, acesta a modificat algoritmii de compresie 

ºi decompresie astfel: 

• lista T era iniþializatã cu ºiruri de simboluri, fiecare ºir de 

simboluri fiind format din câte un simbol al alfabetului 

sursei de informaþie S. În lista T sunt atâtea ºiruri câte 

simboluri are alfabetul; 

• la fiecare pas din iteraþie: 

♦ ºirul w este iniþializat cu ultimul simbol al ºirul w obþinut 

la pasul anterior; 

♦ în lista T se adaugã cel mai scurt ºir w, obþinut prin 

concatenãri succesive cu simboluri generate de sursa 

S, care nu se alfã în T; 

♦ la ieºire se transmite un singur cod care reprezintã numãrul 

de ordine al apariþiei lui w din care se extrage 

ultimul simbol. 

Acest algoritm este cunoscut sub denumirea LZW. 

În continuare prezentãm în pseudocod algoritmul care 

realizeazã compresia unui ºir de simboluri generate de o 

sursã de informaþie S pentru metoda LZW. În figura 4 se 

poate observa modul în care se realizeazã compresia unui 

ºir de simboluri. 

se iniþializeazã T cu cele m simboluri ale alfabetului sursei S 

k ← m 

//k reprezintã mãrimea listei, T 

w ← "" 


cât timp Genereazã(S) ºi Cautã(T, w) ≥ 0 executã 


w ← w+c 



dacã i ≥ 0 atunci 

Transmite(E, i) 

altfel 

T[k] ← w 

k ← k+1 


w ← Primele(w, i - 1) 


Transmite(E, i) 

w ← c 



//sursa S nu mai genereazã simboluri, 

sfârºitul compresiei 

Figura 4: Exemplu de compresie cu LZW 

Algoritmul de decompresie este asemãnãtor cu cel de 

la metoda LZ78 cu deosebirea cã în lista T se adaugã ºirul 

format din ºirul decodificat la pasul anterior ºi primul 

simbol al ºirului decodificat la pasul curent. 

În pseudocod, acest algoritm este: 

se iniþializeazã T cu cele m simboluri ale alfabetului sursei S 

k ← m 

//k reprezintã mãrimea listei, T 


w ← T[i] 




T[k] ← w + Primele(T[i], 1) 

w = T[i] 

Transmite(E, T[i]) 

k ← k+1 


Ordinele de complexitate ale algoritmilor de compresie 

ºi decompresie ale metodei LZW sunt aceleaºi ca ºi în 

cazul metodei LZ78. 

Algoritmii LZ78 ºi LZW, datoritã rapiditãþii, sunt utilizaþi 

des în programele comerciale de compresie singurul 

inconvenient fiind acela cã mãrimea listei T trebuie limitatã 

datoritã cantitãþii mici de resurse disponibile pe sistemele 

de calcul. 

46 

Pe exemplul din figura 4 se poate observa cã pentru a 

comprima ºirul se transmit 14 coduri, spre deosebire de 

Claudiu Soroiu este redactor al GInfo ºi poate fi contactat prin e-mail la 

adresa csoroiu@yahoo.com.

COMPRESIA datelor - GInfo

Create successful ePaper yourself

Delete template?

Save as template?