15.06.2013 Views

Teza doctorat (pdf) - Universitatea Tehnică

Teza doctorat (pdf) - Universitatea Tehnică

Teza doctorat (pdf) - Universitatea Tehnică

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Cost<br />

180<br />

Cap. 6. Metode de sinteză de voce<br />

6.3.2.4. Calculul costurilor şi măsurile distanţelor dintre unităţi [Mob00]<br />

Există două metode pentru calculul costurilor (Target Cost Tij , respectiv Concatenation<br />

i k<br />

C ij<br />

) 1 ( ) din graful stărilor: metoda de căutare în spaţiul stărilor ( Weight Space Search) şi<br />

metoda de grupare a unităţilor în funcţie de context (Context Clustering).<br />

6.3.2.4.1. Metoda de căutare în spaţiul stărilor (Weight Space Search)<br />

Această metodă calculează spaţiul total de ponderi (costuri) din graf prin intermediul unei<br />

abordări de tip analiză-sinteză. Astfel, se iau diferite texte de intrare care se sintetizează prin<br />

toate posibilităţile de combinare a unităţilor din baza de date. Apoi textul se rosteşte propriu-zis<br />

de către un vorbitor uman şi apoi se calculează distanţele dintre rostirea sintetizată şi rostirea<br />

naturală.<br />

Distanţele calculate în interiorul unităţilor dau costul unităţii (Target Cost), iar distanţele<br />

calculate în vecinătatea punctelor de concatenare dau costurile de tranziţie (Concatenation Cost).<br />

Pentru calculul distanţelor se poate folosi distanţa euclidiană cepstrală, calculată pe baza<br />

parametrilor de semnal ai unităţilor acustice.<br />

i<br />

( c ')<br />

D<br />

i c i<br />

2<br />

(6.18)<br />

unde:<br />

- D este distanţa euclidiană cepstrală;<br />

- Ci, respectiv Ci’ sunt coeficienţii cepstrali ai segmentelor acustice comparate.<br />

Pe lângă distanţele cepstrale se pot folosi diferenţe perceptuale între semnalul sintetizat şi<br />

rostirea naturală. Se pot calcula şi predictorii perceptuali care să cuantifice calitatea rostirii<br />

sintetizate prin concatenarea a două unităţi.<br />

Metoda de căutare în spaţiul stărilor este o metodă care dă rezultate bune, dar are<br />

dezavantajul că necesită un număr mare de rostiri pentru calculul ponderilor. Metoda pe care o<br />

vom prezenta în paragraful următor nu necesită rostiri suplimentare pentru determinarea acestor<br />

ponderi, folosind distanţe bazate pe similarităţi acustice.<br />

6.3.2.4.2. Metoda de grupare a unităţilor în funcţie de context (Context Clustering)<br />

Metoda aceasta se bazează pe construirea unor arbori de decizie (decision tree clustering)<br />

care grupează în clase de echivalenţă toate apariţiile fonematice din baza de date. O clasă de<br />

echivalenţă conţine toate apariţiile unei foneme din baza de date care se referă la acelaşi context<br />

lexical.<br />

În exemplul următor, pentru fonema « a », celor trei contexte lexicale diferite le sunt<br />

asociate trei clase de echivalenţă, fiecare clasă conţinând costuri asociate fiecărei apariţii ale<br />

fonemei în contextul respectiv din baza de date :<br />

[a] : Clasa 1. « masă » : Ctx=[ms] ; Costuri: [T11, CC11], ..., [T1n , CC1n];<br />

Clasa 1. « casă » : Ctx=[cs] ; Costuri: [T21, CC21], ..., [T2n , CC2n];<br />

Clasa 2. « fată » : Ctx=[ft] ; Costuri: [T31, CC31], ..., [T3n , CC3n];<br />

. . . . .

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!