Teza doctorat (pdf) - Universitatea Tehnică

Teza doctorat (pdf) - Universitatea Tehnică Teza doctorat (pdf) - Universitatea Tehnică

users.utcluj.ro
from users.utcluj.ro More from this publisher
15.06.2013 Views

Cap. 7. Proiectarea sistemului de sinteză de voce în limba română fost determinaţi următorii parametri: amplitudinea semnalului, energia şi numărul de treceri prin zero. De asemeni, a fost calculată frecvenţa fundamentală a semnalului (vezi paragraful 4.6.1). b) Segmentarea SUV, descrisă în paragraful 4.4.2, are ca scop detectarea categoriilor fundamentale de semnal: linişte (Silence), sonor (Voiced), nesonor (Unvoiced), la care se adaugă şi categoria tranziţie. c) Compactarea regiunilor (vezi paragraful 4.4.3) urmăreşte asocierea regiunilor vecine de dimensiuni mici, având ca rezultat scăderea numărului total de regiuni, cu efect pozitiv asupra timpului de procesare. d) Clasificarea regiunilor (proces prezentat în capitolul 4.4) împarte cele patru categorii de semnal de la punctul b) în 10 clase distincte, clase care pot fi asociate cu reprezentarea sonoră a fonemelor limbii române. e) Segmentarea fonematică (capitolul 4.8) asociază simbolurile fonetice cu regiunile din semnal. Pentru aceasta, se foloseşte corpusul paralel text-voce de la punctul 5). Pe baza unor reguli speciale de asociere, se face o corespondenţă între grupurile fonetice prezente la intrarea de text cu secvenţele de regiuni detectate din semnalul vocal. TEXT SEMNAL secvenţă fonetică 1 ; secvenţă fonetică 2 ; secvenţă fonetică 3 . . . [Regiune 1] [Regiune 2] [Regiune 3] - - - [Regiune n] - - - Figura 7.6. Asocierea dintre grupurile fonematice şi secvenţele de regiuni 7) Detecţia şi separarea silabelor din semnal După punerea în corespondenţă a secvenţelor fonematice cu regiunile din semnal, urmează faza de separare a silabelor utile din corpusul vocal. Pentru aceasta, s-a folosit o procedură semiautomată care selectează secvenţele dorite prin deplasarea capetelor intervalului de selecţie pe graniţele regiunilor fonematice. Regiunea selectată poate fi ajustată prin deplasarea manuală a marginilor ce au fost detectate în mod automat. Apoi regiunea corespunzătoare silabei dorite se salvează într-un fişier al bazei de date. T A T I T A T A D E T A Figura 7.7. Detecţia şi separarea silabelor din semnal 250

8) Salvarea unităţilor acustice în baza de date Cap. 7. Proiectarea sistemului de sinteză de voce în limba română După detecţia silabelor dorite din semnalul vocal, acestea se salvează ca fişiere distincte în structura ierarhică a bazei de date. Aşa cum s-a prezentat în secţiunea 6.4.6, baza de date vocală este organizată în funcţie de parametrii unităţilor acustice, astfel: a) după lungimea unităţilor: silabe alcătuite din două, trei sau patru litere, precum şi foneme singulare ; b) după poziţia silabei în interiorul cuvântului: silabe iniţiale/mediane sau finale ; c) după accentuare: silabe accentuate sau neaccentuate. Ca urmare, baza de date vocală prezintă o structură arborescentă, în care unităţile acustice sunt stocate sub formă de fişiere. Pentru a implementa criteriul a), au fost create directoarele: S1, S2, S3 şi S4, în fiecare director fiind memorate doar unităţi de lungime corespunzătoare. Pentru a implementa criteriul b), în fiecare director a fost creat un subdirector Final, în care au fost memorate unităţile de tip silabă finală, în timp ce silabele acustice iniţiale/mediane au fost salvate în directorul părinte. Criteriul c) a fost rezolvat prin utilizarea unor convenţii de notaţie a numelui fişierelor; astfel silabele accentuate prezintă sufixul ‘_’ în numele fişierelor ce le conţine. De exemplu, pentru silaba neaccentuată sa avem fişierul sa.wav, iar pentru silaba accentuată sá a fost înregistrat fişierul sa_.wav (convenţiile de notaţie au fost prezentate în tabelul 6.5). Rezultă următoarea structură a colecţiei de fişiere din baza de date vocală : fF Rădăcină S1 S2 S3 S4 Final Final Final Final f A F f f A ffF ff A F ff ff A fffF fff A Figura 7.8. Structura colecţiei de fişiere din baza de date vocală În figura de mai sus, notând U = unitatea acustică (U = f pentru foneme singulare, U = ff pentru silabe de două litere, U = fff pentru silabe de trei litere, U = ffff pentru silabe de patru litere), avem : - U = unitatea acustică neaccentuată în poziţie mediană ; - U A = unitatea acustică accentuată în poziţie mediană ; - UF = unitatea acustică neaccentuată în poziţie finală ; - U A F = unitatea acustică accentuată în poziţie finală. 251 F fff fff A ffffF ffff A F ffff ffff A

Cap. 7. Proiectarea sistemului de sinteză de voce în limba română<br />

fost determinaţi următorii parametri: amplitudinea semnalului, energia şi numărul de treceri prin<br />

zero. De asemeni, a fost calculată frecvenţa fundamentală a semnalului (vezi paragraful 4.6.1).<br />

b) Segmentarea SUV, descrisă în paragraful 4.4.2, are ca scop detectarea categoriilor<br />

fundamentale de semnal: linişte (Silence), sonor (Voiced), nesonor (Unvoiced), la care se adaugă<br />

şi categoria tranziţie.<br />

c) Compactarea regiunilor (vezi paragraful 4.4.3) urmăreşte asocierea regiunilor vecine<br />

de dimensiuni mici, având ca rezultat scăderea numărului total de regiuni, cu efect pozitiv asupra<br />

timpului de procesare.<br />

d) Clasificarea regiunilor (proces prezentat în capitolul 4.4) împarte cele patru categorii<br />

de semnal de la punctul b) în 10 clase distincte, clase care pot fi asociate cu reprezentarea sonoră<br />

a fonemelor limbii române.<br />

e) Segmentarea fonematică (capitolul 4.8) asociază simbolurile fonetice cu regiunile din<br />

semnal. Pentru aceasta, se foloseşte corpusul paralel text-voce de la punctul 5). Pe baza unor<br />

reguli speciale de asociere, se face o corespondenţă între grupurile fonetice prezente la intrarea<br />

de text cu secvenţele de regiuni detectate din semnalul vocal.<br />

TEXT<br />

SEMNAL<br />

secvenţă fonetică 1 ; secvenţă fonetică 2 ; secvenţă fonetică 3 . . .<br />

[Regiune 1] [Regiune 2] [Regiune 3] - - - [Regiune n] - - -<br />

Figura 7.6. Asocierea dintre grupurile fonematice şi secvenţele de regiuni<br />

7) Detecţia şi separarea silabelor din semnal<br />

După punerea în corespondenţă a secvenţelor fonematice cu regiunile din semnal,<br />

urmează faza de separare a silabelor utile din corpusul vocal. Pentru aceasta, s-a folosit o<br />

procedură semiautomată care selectează secvenţele dorite prin deplasarea capetelor intervalului<br />

de selecţie pe graniţele regiunilor fonematice. Regiunea selectată poate fi ajustată prin deplasarea<br />

manuală a marginilor ce au fost detectate în mod automat. Apoi regiunea corespunzătoare silabei<br />

dorite se salvează într-un fişier al bazei de date.<br />

T A T I T A T A D E T A<br />

Figura 7.7. Detecţia şi separarea silabelor din semnal<br />

250

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!