15.06.2013 Views

Teza doctorat (pdf) - Universitatea Tehnică

Teza doctorat (pdf) - Universitatea Tehnică

Teza doctorat (pdf) - Universitatea Tehnică

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

239<br />

Cap. 6. Metode de sinteză de voce<br />

6. Regăsirea unităţilor acustice din baza de date se face pe baza unităţilor lingvistice<br />

determinate prin analiza textului de la intrare.<br />

În această etapă s-a proiectat un algoritm de regăsire a unităţilor din baza de date în<br />

funcţie de cele trei caracteristici ale silabei: lungime, context şi accentuare. Dacă o anumită<br />

silabă nu este găsită, aceasta se va descompune în unităţi subiacente care vor fi apoi căutate<br />

recursiv în baza de date vocală. Algoritmul proiectat construieşte seturile de diviziune pentru<br />

fiecare silabă şi realizează o potrivire optimă cu unităţile din baza de date vocală, asigurându-se<br />

astfel o redare sonoră cât mai fidelă a unităţii lingvistice din text.<br />

7. Unităţile acustice găsite în baza vocală prin algoritmul expus mai sus se vor concatena<br />

pentru a genera semnalul de ieşire. Unităţile se concatenează ţinând cont de pauza dintre cuvinte,<br />

care se va ajusta în funcţie de ritmul cerut vorbirii.<br />

8. Ultima etapă este cea de sinteză propriu-zisă, în care formele de undă corespunzătoare<br />

textului de la intrare vor fi redate sonor prin intermediul plăcii audio a calculatorului.<br />

Rezultate obţinute cu metoda de sinteză dezvoltată de autor<br />

I. În faza de analiză a textului:<br />

a) Analizorul automat de sintaxă realizat în cadrul metodei se bazează pe un dicţionar ce<br />

conţine peste 30000 de forme neflexionate ale limbii române şi pe un set de 550 de reguli de<br />

flexionare. Analizorul a fost testat pe o serie de texte în limba română de diferite genuri, de la<br />

literatură la documente tehnice, însumând peste 200000 de cuvinte. Testele au dovedit o<br />

corectitudine de peste 98% cuvinte recunoscute corect, cuvintele nerecunoscute constituind<br />

excepţii care nu au fost încă introduse în setul de reguli. Aceste rezultate arată completitudinea<br />

setului de reguli proiectat, precum şi viabilitatea metodei propuse.<br />

b) Analizorul lexical pentru determinarea silabelor cuprinde un set de peste 180 de reguli<br />

pentru descompunerea cuvintelor în silabe. Performanţa obţinută a fost de 98% cuvinte despărţite<br />

corect, rată calculată pe un set de 50000 de cuvinte extrase din texte de diferite genuri (literatură,<br />

economie, politică, ştiinţă şi tehnică, filozofie, religie). Performanţa este mai bună decât cea<br />

găsită la alţi cercetători români care au folosit reguli lexicale ([Tom09] – 90%).<br />

c) Analizorul lexical pentru determinarea accentelor cuprinde un set de 250 de reguli<br />

pentru detectarea silabei accentuate din interiorul cuvintelor. S-a obţinut o rată de detectare<br />

corectă a silabei acentuate de 94%, rată calculată pe acelaşi set de 50000 de cuvinte ca şi în cazul<br />

despărţirii în silabe.<br />

Din câte cunoaştem, în ţară nu există la ora actuală rezultate publicate despre construirea<br />

unor analizoare bazate exclusiv pe reguli pentru determinarea accentuării, ci doar lexicoane ce<br />

indică accentul cuvintelor, lexicoane ce au fost construite manual [Giu06] sau semiautomat<br />

[Dia09].<br />

II. În faza de sinteză a vorbirii, metoda generează rezultate bune, datorită utilizării<br />

unităţilor acustice de lungime medie şi mare, de tipul silabelor. Concatenarea directă a unităţilor,<br />

fără o altă procesare a semnalului, face ca vorbirea sintetizată să păstreze naturaleţea şi aspectele<br />

prozodice caracteristice vocii care a înregistrat iniţial unităţile acustice.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!