15.06.2013 Views

Teza doctorat (pdf) - Universitatea Tehnică

Teza doctorat (pdf) - Universitatea Tehnică

Teza doctorat (pdf) - Universitatea Tehnică

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

6.3.2. Metoda bazată pe corpus<br />

176<br />

Cap. 6. Metode de sinteză de voce<br />

Metoda bazată pe corpus este o metodă relativ nouă (bazele teoretice ale metodei s -au<br />

dezvoltat în anii 1996-1997), ce elimină unele deficienţe ale sistemelor de concatenare ce<br />

folosesc unităţi lexicale fixe (foneme, difoneme). Metoda îmbunătăţeşte calitatea semnalului<br />

sintetizat prin utilizarea unor segmente fonetice cât mai lungi, ştiut fiind faptul că sistemele care<br />

folosesc îmbinări frecvente ale unităţilor lexicale pierd mult din naturaleţea vorbirii [Hun96],<br />

[Mob00].<br />

Metoda utilizează un corpus vorbit (o bază de date cu înregistrări din vorbirea naturală)<br />

de dimensiuni relativ mari. În timpul sintezei se vor selecta cele mai lungi unităţi (segmente)<br />

fonetice din acel corpus pentru generarea vorbirii. Aceasta va duce pe de o parte la reducerea<br />

numărului de concatenări şi implicit la creşterea calităţii vorbirii, iar pe de altă parte la reducerea<br />

necesităţilor de prelucrare a semnalului vocal prin utilizarea tehnicilor DSP (de prelucrare<br />

digitală a semnalului).<br />

Problemele care trebuie rezolvate aici sunt ([Mob00], [Lee01]):<br />

1. Măsurarea distanţelor acustice între unităţi pentru alegerea segmentelor fonetice celor<br />

mai potrivite. Baza de date va conţine mai multe unităţi fonetice corespunzătoare unui anumit<br />

segment lingvistic (de exemplu o mulţime de foneme „a”, o mulţime de silabe „ma”, etc.), iar<br />

dintre acestea va trebui selectată doar o singură unitate, ce se potriveşte cel mai bine contextului<br />

vorbirii.<br />

2. Construirea optimă a bazei de date vocale în raport cu domeniul lingvistic, din punct<br />

de vedere al vocabularului şi limbajului folosit.<br />

De obicei se folosesc baze de date vocale ce conţin mai multe ore de vorbire înregistrată.<br />

Baza de date este marcată pentru a ţine cont de caracteristicile prozodice.<br />

3. Acordarea trăsăturilor unităţilor ce se concatenează. Aici se folosesc două tipuri de<br />

trăsături: segmentale şi prozodice.<br />

Trăsăturile segmentale se referă la concatenarea a două segmente din context lingvistic<br />

apropiat. Astfel, este de urmărit să se concateneze două segmente cu trăsături spectrale cât mai<br />

apropiate pentru a asigura o tranziţie cât mai fină între unităţi.<br />

Trăsăturile prozodice se referă la concatenarea a două unităţi integrate pe aceeaşi linie<br />

prozodică, pentru a nu apărea salturi în intonaţia şi melodicitatea vorbirii.<br />

6.3.2.1. Algoritmul de selecţie a unităţilor acustice<br />

În vederea selectării unităţilor fonetice din baza de date vocală se va lua în considerare<br />

minimizarea a două tipuri de costuri: costul pentru distorsiunea unităţilor (Target Cost) şi costul<br />

pentru distorsiunea concatenării (Concatenation Cost).

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!