Teza doctorat (pdf) - Universitatea Tehnică

Teza doctorat (pdf) - Universitatea Tehnică Teza doctorat (pdf) - Universitatea Tehnică

users.utcluj.ro
from users.utcluj.ro More from this publisher
15.06.2013 Views

x(t) x1(t) x2(t) x1(t) x2(t) X1(t) X2(t) p1(t) p1(t) p1(t) T0 T0 T1 > T0 Figura 6.6. Extragerea şi maparea segmentelor în sinteza TD-PSOLA 174 p2(t) p2(t) p2(t) Cap. 6. Metode de sinteză de voce SEMNALUL ORIGINAL SEGMENTELE EXTRASE SEGMENTELE PONDERATE SEGMENTELE MAPATE

6.3.1.2. Avantajele şi dezavantajele metodei TD-PSOLA 175 Cap. 6. Metode de sinteză de voce Metoda asigură o calitate superioară a sintezei rezultată în urma utilizării segmentelor de vorbire extrase direct din vorbirea umană reală. Modul de alegere a segmentelor centrate pe maximul de intensitate sonoră asigură erori minime datorate compunerii segmentelor suprapuse. Astfel, erorile vor putea apare doar la capetele intervalelor, unde semnalul sonor are energie mică [Dut93], [Edg96]. De asemenea, un alt avantaj major al metodei constă în posibilitatea modificării facile a frecvenţei şi duratei de semnal, ceea ce asigură schimbarea prozodiei semnalului vocal sintetizat şi implicit creşterea calităţii sintezei. Ca dezavantaje, trebuie totuşi menţionate zgomotele care pot apărea la capetele intervalelor de segment, datorită erorilor introduse de mediere. De asemenea, în interiorul tranziţiilor pot apărea distorsiuni cauzate de erorile de fază, unele porţiuni nesonore putând deveni sonore în urma compunerii segmentelor suprapuse. 6.3.1.3. Îmbunătăţiri ale metodei Pentru a elimina o parte din neajunsurile metodei, au fost încercate diferite abordări sau îmbunătăţiri. Cele mai cunoscute sunt LP-PSOLA şi MBROLA. Tehnica LP-PSOLA (Linear Prediction PSOLA) este o combinaţie între alogoritmul de sinteză LPC şi algoritmul PSOLA. Metoda separă excitaţia de semnalul corespunzător tractului vocal într-un mod asemănător metodei prin predicţie liniară LPC, folosind minimizarea erorii e(t) a semnalului de predicţie (eroare ce se mai numeşte semnal rezidual). Ap oi algoritmul PSOLA se aplică doar pe acest semnal rezidual, care are proprietatea de a fi decorelat în interiorul fiecărui segment considerat [Edg96]. Avantajul care apare din această abordare constă în controlul mult mai bun asupra structurii spectrale a semnalului, precum şi în calitatea mult îmbunătăţită a tranziţiilor dintre segmente. Metoda MBROLA ( Multiband Resynthesis Overlap and Add), proiectată în cadrul Facultăţii politehnice din Mons, Belgia, are avantajul de a netezi discontinuităţile spectrale ce apar în TD-PSOLA. Metoda lucrează şi ea în domeniul timp, folosind o bază de date vocală normalizată şi interpolări la capetele intervalelor de sinteză. Metoda este implementată în cadrul unui sintetizor de voce care primeşte la intrare un fişier cu parametrii prozodici şi produce vorbirea sintetizată pe baza concatenării difonemelor din baza de date vocală [Dut93].

6.3.1.2. Avantajele şi dezavantajele metodei TD-PSOLA<br />

175<br />

Cap. 6. Metode de sinteză de voce<br />

Metoda asigură o calitate superioară a sintezei rezultată în urma utilizării segmentelor de<br />

vorbire extrase direct din vorbirea umană reală. Modul de alegere a segmentelor centrate pe<br />

maximul de intensitate sonoră asigură erori minime datorate compunerii segmentelor suprapuse.<br />

Astfel, erorile vor putea apare doar la capetele intervalelor, unde semnalul sonor are energie<br />

mică [Dut93], [Edg96].<br />

De asemenea, un alt avantaj major al metodei constă în posibilitatea modificării facile a<br />

frecvenţei şi duratei de semnal, ceea ce asigură schimbarea prozodiei semnalului vocal sintetizat<br />

şi implicit creşterea calităţii sintezei.<br />

Ca dezavantaje, trebuie totuşi menţionate zgomotele care pot apărea la capetele<br />

intervalelor de segment, datorită erorilor introduse de mediere. De asemenea, în interiorul<br />

tranziţiilor pot apărea distorsiuni cauzate de erorile de fază, unele porţiuni nesonore putând<br />

deveni sonore în urma compunerii segmentelor suprapuse.<br />

6.3.1.3. Îmbunătăţiri ale metodei<br />

Pentru a elimina o parte din neajunsurile metodei, au fost încercate diferite abordări sau<br />

îmbunătăţiri. Cele mai cunoscute sunt LP-PSOLA şi MBROLA.<br />

Tehnica LP-PSOLA (Linear Prediction PSOLA) este o combinaţie între alogoritmul de<br />

sinteză LPC şi algoritmul PSOLA. Metoda separă excitaţia de semnalul corespunzător tractului<br />

vocal într-un mod asemănător metodei prin predicţie liniară LPC, folosind minimizarea erorii<br />

e(t) a semnalului de predicţie (eroare ce se mai numeşte semnal rezidual). Ap oi algoritmul<br />

PSOLA se aplică doar pe acest semnal rezidual, care are proprietatea de a fi decorelat în<br />

interiorul fiecărui segment considerat [Edg96].<br />

Avantajul care apare din această abordare constă în controlul mult mai bun asupra<br />

structurii spectrale a semnalului, precum şi în calitatea mult îmbunătăţită a tranziţiilor dintre<br />

segmente.<br />

Metoda MBROLA ( Multiband Resynthesis Overlap and Add), proiectată în cadrul<br />

Facultăţii politehnice din Mons, Belgia, are avantajul de a netezi discontinuităţile spectrale ce<br />

apar în TD-PSOLA. Metoda lucrează şi ea în domeniul timp, folosind o bază de date vocală<br />

normalizată şi interpolări la capetele intervalelor de sinteză. Metoda este implementată în cadrul<br />

unui sintetizor de voce care primeşte la intrare un fişier cu parametrii prozodici şi produce<br />

vorbirea sintetizată pe baza concatenării difonemelor din baza de date vocală [Dut93].

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!