15.06.2013 Views

Teza doctorat (pdf) - Universitatea Tehnică

Teza doctorat (pdf) - Universitatea Tehnică

Teza doctorat (pdf) - Universitatea Tehnică

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Cap. 7. Proiectarea sistemului de sinteză de voce în limba română<br />

3) Înregistrarea digitală a rostirii<br />

Pentru înregistrarea corpusului vocal a fost ales un vorbitor masculin, urmărindu-se<br />

rostirea corpusul textual într-un ritm constant, cu o aceeaşi tonalitate a vocii. Procesul de<br />

înregistrare a semnalului vocal a presupus folosirea unei aparaturi speciale constituită dintr-un<br />

microfon, o placă digitizoare de semnal acustic, şi un program software specializat pentru lucrul<br />

cu fişiere audio.<br />

4) Normalizarea înregistrării<br />

Normalizarea semnalului reprezintă prelucrarea digitală a semnalului vocal pentru a-l<br />

aduce la o formă unitară în tot cuprinsul bazei vocale.<br />

Autorul a folosit o procedură semiautomată, disponibilă prin intermediul aplicaţiei Cool<br />

Edit Pro. În urma normalizării, corpusul vocal conţine toate înregistrările de aceeaşi amplitudine<br />

(rostirile prezentând aceeaşi tărie sonoră), precum şi frecvenţă fundamentală constantă<br />

(corespunzând unor rostiri de aceeaşi tonalitate, acelaşi ritm şi intonaţie constantă).<br />

5) Crearea corpusului paralel text-voce<br />

Pentru a realiza segmentarea automată a semnalului vocal, a fost necesară utilizarea a<br />

două corpusuri în paralel, şi anume: corpusul vorbit, înregistrat în fişiere audio, şi respectiv<br />

corpusul textual corespondent. Astfel, odată cu salvarea fiecărui fişier audio, a fost stocat şi<br />

fişierul text asociat conţinutului său.<br />

6) Segmentarea semnalului vocal în regiuni fonematice<br />

Operaţia de segmentare a semnalului vocal în regiuni fonematice urmăreşte<br />

descompunerea semnalului în regiuni corespunzătoare secvenţelor de foneme.<br />

Paşii implementaţi în această etapă au fost:<br />

a) analiza semnalului vocal, în scopul determinării parametrilor semnalului, utili în faza<br />

de segmentare;<br />

b) segmentarea în regiuni a semnalului vocal, ce are ca scop detectarea categoriilor<br />

fundamentale de semnal: linişte, sonor, nesonor, la care se adaugă şi categoria tranziţie;<br />

c) compactarea regiunilor, urmărind asocierea regiunilor vecine de dimensiuni mici,<br />

având ca rezultat scăderea numărului total de regiuni;<br />

d) clasificarea regiunilor: împarte regiunile din semnal în 10 clase distincte, clase care<br />

pot fi asociate cu reprezentarea sonoră a fonemelor limbii române;<br />

e) segmentarea fonematică, ce asociază simbolurile fonetice cu regiunile din semnal. Pe<br />

baza unor reguli speciale de asociere, se face o corespondenţă între grupurile fonetice prezente la<br />

intrarea de text cu secvenţele de regiuni detectate din semnalul vocal.<br />

7) Separarea silabelor utile din semnal<br />

Separarea silabelor din semnalul vocal s-a realizat printr-o procedură semiautomată care<br />

selectează secvenţele fonetice dorite prin deplasarea capetelor intervalului de selecţie pe<br />

graniţele regiunilor fonematice detectate anterior.<br />

8) Salvarea unităţilor acustice în baza de date<br />

După detecţia silabelor dorite din semnalul vocal, acestea se salvează ca fişiere distincte<br />

în structura ierarhică a bazei de date. Ierarhizarea s-a făcut în funcţie de parametrii unităţilor<br />

acustice:<br />

263

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!