Teza doctorat (pdf) - Universitatea Tehnică

Teza doctorat (pdf) - Universitatea Tehnică Teza doctorat (pdf) - Universitatea Tehnică

users.utcluj.ro
from users.utcluj.ro More from this publisher
15.06.2013 Views

2.7.1.2. Efectele tractului vocal 18 Cap. 2. Modalitatea producerii vorbirii Tractul vocal, aşa cum s-a prezentat anterior, este un tub acustic neuniform ce se întinde de la glotă la buze iar forma acestuia variază în timp [Fer97]. Tractul vocal, ce cuprinde cavitatea faringiană, bucală şi cea nazală, se comportă ca un sistem de cavităţi rezonatoare care modifică în timpul vorbirii caracteristicile sunetului de excitaţie care îl traversează. În timpul generării sunetelor nazale, vălul palatin separă tractul vocal de cavitatea nazală, care constituie un tub acustic adiţional pentru generarea şi transmiterea acestor sunete nazale. În cazul generării sunetelor sonore excitarea este dată de vibraţiile corzilor vocale. Componenta spectrală cea mai joasă care coincide cu frecvenţa de oscilaţie se numeşte frecvenţă fundamentală. Pe lângă aceasta spectrul mai conţine armonici superioare, situate la multipli întregi ai frecvenţei fundamentale. Sunetul, ajungând în cavităţile rezonatoare superioare ale tractului vocal va fi modificat în sensul că acele armonici superioare care au frecvenţele apropiate de frecvenţa de rezonanţă a acestor cavităţi, vor fi amplificate, altele fiind atenuate [Fer97]. Astfel, la frecvenţele de rezonanţă ale tractului vocal vor fi scoase în evidenţă armonicile corespunzătoare, determinante pentru tipul sunetului emis, motiv pentru care aceste componente spectrale de bază sunt numite formanţi. Se observă că pornind de la acelaşi sunet sonor de excitaţie, prin modificarea parametrilor fizici ai tractului vocal se pot obţine sunete diferite (în mod caracteristic la formarea vocalelor) . La excitare de tip zgomot rolul tractului vocal este asemănător, diferenţa constând în locul unde are loc excitarea. În acest caz la formarea formanţilor participă doar acele porţiuni ale tractului vocal care urmează după zona unde este localizată excitaţia (constricţia). Vorbirea şoptită şi sunetele nesonore sunt generate prin trecerea liberă a fluxului de aer prin glotă, dar prin intermediul constricţiilor tractului vocal şi forţarea aerului prin acestea cu o viteză suficient de mare, pentru a se putea genera un zgomot de excitaţie de spectru larg. Constricţiile împreună cu vibraţia corzilor vocale produc sunetele fricative sonore (ex: /v/, /z/) .

3. Procesarea digitală a semnalului vocal Prelucrarea şi analiza semnalului vocal constituie etapele premergătoare în abordarea sintezei şi recunoaşterii de voce. Procesarea semnalului cuprinde toate metodele de operare directă asupra semnalului sonor, începând cu achiziţia semnalului, filtrarea, codarea, compresia şi stocarea acestuia pe suport magnetic sau optic. Analiza semnalului vocal presupune determinarea parametrilor acestuia pe baza eşantioanelor de vorbire înregistrate de la vorbitor, şi apoi compararea acestor parametrii cu valorile aşteptate. 3.1. Metode de procesare a semnalului vocal Prelucrarea semnalului vocal începe cu achiziţia semnalului de la sursă: microfon, sau aparatură electronică de înregistrare. Achiziţia presupune conversia digitală a semnalului analogic şi apoi filtrarea sa pentru eliminarea zgomotelor de achiziţie. Conversia se face cu o frecvenţă de eşantionare de cel puţin 8 kHz (uzual se folosesc frecvenţe standard de 11 kHz, 16 kHz sau 22 kHz). Conversia analog-digitală a semnalului presupune un anumit mod de reprezentare a semnalului în format numeric. Stabilirea unui astfel de mod de reprezentare digitală se numeşte codarea semnalului [Kle95]. În continuare se prezintă câteva metode standard de codare şi compresie a semnalului vocal. 3.1.1. Metode de codare a semnalului vocal Tehnica cea mai utilizată în codarea semnalului vocal este tehnica modulării impulsurilor în cod (PCM – Pulse Code Modulation) [Vla97]. Folosind codarea PCM, fiecare eşantion al semnalului este cuantizat (i se atribuie o valoare numerică) independent de celelalte eşantioane. Astfel, un codor PCM determină nivelul de cuantizare al fiecărui eşantion fără să ţină cont de nivelul eşantioanelor precedente, iar apoi atribuie acestui nivel de cuantizare un cod binar (numit cuvânt de cod), ce reprezi ntă forma codată a semnalului. În tehnica PCM există diferite moduri de cuantizare a valorii fiecărui eşantion şi de asociere a cuvintelor de cod pentru un nivel de cuantizare. Cele mai uzuale tehnici folosite sunt codarea liniară şi codarea logaritmică [Vla97] : Codarea liniară constă în considerarea valorii scalate a eşantionului ca şi cuvânt de cod. Astfel, un semnal de intrare cu valori între 0 şi 1000 mV va fi codat liniar cu valori între 0 şi o valoare maximă VM (255 pentru valori reprezentate pe octet). Valoarea eşantionului poate fi o mărime cu semn, ţinând cont că semnalul vocal variază în jurul unei poziţii de referinţă, de nivel 0. Astfel, cuvântul de cod poate fi la rândul lui un număr cu semn. Codarea logaritmică aplică o transformare logaritmică valorii scalate a eşantionului, şi apoi atribuie o reprezentare numerică rezultatului obţinut. Astfel, cuvântul de cod va conţine semnul şi logaritmul valorii scalate a eşantionului. Acest standard de codare este folosit în telefonia digitală, datorită faptului că în telefonie valorile de amplitudine mare a eşantioanelor sunt puţin frecvente, şi ca urmare pot fi reprezentate cu o acurateţe mai mică decât valorile de amplitudine mică, aşa cum este cazul în transformarea logaritmică. 19

2.7.1.2. Efectele tractului vocal<br />

18<br />

Cap. 2. Modalitatea producerii vorbirii<br />

Tractul vocal, aşa cum s-a prezentat anterior, este un tub acustic neuniform ce se<br />

întinde de la glotă la buze iar forma acestuia variază în timp [Fer97].<br />

Tractul vocal, ce cuprinde cavitatea faringiană, bucală şi cea nazală, se comportă ca<br />

un sistem de cavităţi rezonatoare care modifică în timpul vorbirii caracteristicile sunetului<br />

de excitaţie care îl traversează. În timpul generării sunetelor nazale, vălul palatin separă<br />

tractul vocal de cavitatea nazală, care constituie un tub acustic adiţional pentru generarea şi<br />

transmiterea acestor sunete nazale.<br />

În cazul generării sunetelor sonore excitarea este dată de vibraţiile corzilor vocale.<br />

Componenta spectrală cea mai joasă care coincide cu frecvenţa de oscilaţie se numeşte<br />

frecvenţă fundamentală. Pe lângă aceasta spectrul mai conţine armonici superioare, situate<br />

la multipli întregi ai frecvenţei fundamentale. Sunetul, ajungând în cavităţile rezonatoare<br />

superioare ale tractului vocal va fi modificat în sensul că acele armonici superioare care au<br />

frecvenţele apropiate de frecvenţa de rezonanţă a acestor cavităţi, vor fi amplificate, altele<br />

fiind atenuate [Fer97].<br />

Astfel, la frecvenţele de rezonanţă ale tractului vocal vor fi scoase în evidenţă<br />

armonicile corespunzătoare, determinante pentru tipul sunetului emis, motiv pentru care<br />

aceste componente spectrale de bază sunt numite formanţi. Se observă că pornind de la<br />

acelaşi sunet sonor de excitaţie, prin modificarea parametrilor fizici ai tractului vocal se pot<br />

obţine sunete diferite (în mod caracteristic la formarea vocalelor) .<br />

La excitare de tip zgomot rolul tractului vocal este asemănător, diferenţa constând în<br />

locul unde are loc excitarea. În acest caz la formarea formanţilor participă doar acele<br />

porţiuni ale tractului vocal care urmează după zona unde este localizată excitaţia<br />

(constricţia).<br />

Vorbirea şoptită şi sunetele nesonore sunt generate prin trecerea liberă a fluxului de<br />

aer prin glotă, dar prin intermediul constricţiilor tractului vocal şi forţarea aerului prin<br />

acestea cu o viteză suficient de mare, pentru a se putea genera un zgomot de excitaţie de<br />

spectru larg. Constricţiile împreună cu vibraţia corzilor vocale produc sunetele fricative<br />

sonore (ex: /v/, /z/) .

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!