15.06.2013 Views

Teza doctorat (pdf) - Universitatea Tehnică

Teza doctorat (pdf) - Universitatea Tehnică

Teza doctorat (pdf) - Universitatea Tehnică

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

2.7. Modelul producerii vorbirii<br />

15<br />

Cap. 2. Modalitatea producerii vorbirii<br />

Tehnicile care au ca scop sinteza sau recunoaşterea vorbirii au la bază modelul de<br />

producere a vorbirii umane arătat în figura 2.12. Acest model ţine cont de formarea diferită a<br />

sunetelor, în funcţie de modul de pronunţie. Astfel, sunetele vocii umane pot fi clasificate în două<br />

categorii: sunete sonore şi sunete fricative.<br />

Sunetele sonore se produc prin împingerea aerului din plămâni prin corzile vocale şi apoi<br />

pe nas şi/sau pe gură. Corzile vocale vibrează cu frecvenţe cuprinse între 50 şi 1000 Hz, fapt ce va<br />

avea ca efect stabilirea la această valoare a frecvenţei fundamentale a sunetului emis. Vocalele<br />

sunt un exemplu de sunete sonore. În figura 2.12, sunetele sonore sunt reprezentate de<br />

generatorul de impulsuri, cu amplitudinea reglabilă printr-un parametru de control.<br />

Zgomot<br />

alb<br />

Generator<br />

de impulsuri<br />

Frecvenţa fundamentală<br />

Sunete<br />

nesonore<br />

Sunete<br />

sonore<br />

Figura 2.12. Modelul producerii vorbirii [Ste97]<br />

Filtru<br />

digital<br />

Răspunsul<br />

tractului<br />

vocal<br />

Voce<br />

sintetizată<br />

Sunetele fricative provin din generarea unor zgomote ce intervin pe calea de evacuare a<br />

aerului, şi nu din vibraţii ale corzilor vocale. Aceasta se produce când circulaţia aerului este<br />

blocată de limbă, buze sau dinţi, aceasta având ca rezultat generarea unor turbulenţe de aer în<br />

apropierea locului de comprimare. Sunetele fricative includ consoane precum: /s/, /f/, /z/, /v/. În<br />

modelul prezentat în figura 2.12, fricativele sunt reprezentate de un generator de zgomot aleator.<br />

Ambele surse ale sunetelor sunt modificate de cavităţile acustice formate de limbă, buze,<br />

gură, gât şi pasajele nazale. Ţinând cont că propagarea sunetului prin aceste pasaje este un proces<br />

linear, el poate fi reprezentat ca un filtru liniar cu un răspuns la impuls ales corespunzător. De<br />

obicei se foloseşte un filtru recurent, ai cărui coeficienţi determină caracteristicile filtrului.<br />

Componenetele de frecvenţă maximă sunt numite frecvenţe formantice ale sunetului. Frecvenţele<br />

formantice se modifică odată cu schimbarea poziţiei limbii şi buzelor în timpul rostirii.<br />

După cum s-a prezentat anterior, o metodă uzuală de analiză a semnalelor foloseşte<br />

diagrama spectrală. Semnalul audio este împărţit în segmente scurte de aproximativ 2 până la 40<br />

milisecunde, iar prin transformata Fourier (FFT) se calculează spectrul corespunzător de frecvenţe<br />

pentru fiecare segment. Aceste spectre pot fi alăturate şi transformate într-o imagine a<br />

frecvenţelor componente pentru fiecare segment de timp.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!