Teza doctorat (pdf) - Universitatea Tehnică
Teza doctorat (pdf) - Universitatea Tehnică Teza doctorat (pdf) - Universitatea Tehnică
2.7.1.2. Efectele tractului vocal 18 Cap. 2. Modalitatea producerii vorbirii Tractul vocal, aşa cum s-a prezentat anterior, este un tub acustic neuniform ce se întinde de la glotă la buze iar forma acestuia variază în timp [Fer97]. Tractul vocal, ce cuprinde cavitatea faringiană, bucală şi cea nazală, se comportă ca un sistem de cavităţi rezonatoare care modifică în timpul vorbirii caracteristicile sunetului de excitaţie care îl traversează. În timpul generării sunetelor nazale, vălul palatin separă tractul vocal de cavitatea nazală, care constituie un tub acustic adiţional pentru generarea şi transmiterea acestor sunete nazale. În cazul generării sunetelor sonore excitarea este dată de vibraţiile corzilor vocale. Componenta spectrală cea mai joasă care coincide cu frecvenţa de oscilaţie se numeşte frecvenţă fundamentală. Pe lângă aceasta spectrul mai conţine armonici superioare, situate la multipli întregi ai frecvenţei fundamentale. Sunetul, ajungând în cavităţile rezonatoare superioare ale tractului vocal va fi modificat în sensul că acele armonici superioare care au frecvenţele apropiate de frecvenţa de rezonanţă a acestor cavităţi, vor fi amplificate, altele fiind atenuate [Fer97]. Astfel, la frecvenţele de rezonanţă ale tractului vocal vor fi scoase în evidenţă armonicile corespunzătoare, determinante pentru tipul sunetului emis, motiv pentru care aceste componente spectrale de bază sunt numite formanţi. Se observă că pornind de la acelaşi sunet sonor de excitaţie, prin modificarea parametrilor fizici ai tractului vocal se pot obţine sunete diferite (în mod caracteristic la formarea vocalelor) . La excitare de tip zgomot rolul tractului vocal este asemănător, diferenţa constând în locul unde are loc excitarea. În acest caz la formarea formanţilor participă doar acele porţiuni ale tractului vocal care urmează după zona unde este localizată excitaţia (constricţia). Vorbirea şoptită şi sunetele nesonore sunt generate prin trecerea liberă a fluxului de aer prin glotă, dar prin intermediul constricţiilor tractului vocal şi forţarea aerului prin acestea cu o viteză suficient de mare, pentru a se putea genera un zgomot de excitaţie de spectru larg. Constricţiile împreună cu vibraţia corzilor vocale produc sunetele fricative sonore (ex: /v/, /z/) .
3. Procesarea digitală a semnalului vocal Prelucrarea şi analiza semnalului vocal constituie etapele premergătoare în abordarea sintezei şi recunoaşterii de voce. Procesarea semnalului cuprinde toate metodele de operare directă asupra semnalului sonor, începând cu achiziţia semnalului, filtrarea, codarea, compresia şi stocarea acestuia pe suport magnetic sau optic. Analiza semnalului vocal presupune determinarea parametrilor acestuia pe baza eşantioanelor de vorbire înregistrate de la vorbitor, şi apoi compararea acestor parametrii cu valorile aşteptate. 3.1. Metode de procesare a semnalului vocal Prelucrarea semnalului vocal începe cu achiziţia semnalului de la sursă: microfon, sau aparatură electronică de înregistrare. Achiziţia presupune conversia digitală a semnalului analogic şi apoi filtrarea sa pentru eliminarea zgomotelor de achiziţie. Conversia se face cu o frecvenţă de eşantionare de cel puţin 8 kHz (uzual se folosesc frecvenţe standard de 11 kHz, 16 kHz sau 22 kHz). Conversia analog-digitală a semnalului presupune un anumit mod de reprezentare a semnalului în format numeric. Stabilirea unui astfel de mod de reprezentare digitală se numeşte codarea semnalului [Kle95]. În continuare se prezintă câteva metode standard de codare şi compresie a semnalului vocal. 3.1.1. Metode de codare a semnalului vocal Tehnica cea mai utilizată în codarea semnalului vocal este tehnica modulării impulsurilor în cod (PCM – Pulse Code Modulation) [Vla97]. Folosind codarea PCM, fiecare eşantion al semnalului este cuantizat (i se atribuie o valoare numerică) independent de celelalte eşantioane. Astfel, un codor PCM determină nivelul de cuantizare al fiecărui eşantion fără să ţină cont de nivelul eşantioanelor precedente, iar apoi atribuie acestui nivel de cuantizare un cod binar (numit cuvânt de cod), ce reprezi ntă forma codată a semnalului. În tehnica PCM există diferite moduri de cuantizare a valorii fiecărui eşantion şi de asociere a cuvintelor de cod pentru un nivel de cuantizare. Cele mai uzuale tehnici folosite sunt codarea liniară şi codarea logaritmică [Vla97] : Codarea liniară constă în considerarea valorii scalate a eşantionului ca şi cuvânt de cod. Astfel, un semnal de intrare cu valori între 0 şi 1000 mV va fi codat liniar cu valori între 0 şi o valoare maximă VM (255 pentru valori reprezentate pe octet). Valoarea eşantionului poate fi o mărime cu semn, ţinând cont că semnalul vocal variază în jurul unei poziţii de referinţă, de nivel 0. Astfel, cuvântul de cod poate fi la rândul lui un număr cu semn. Codarea logaritmică aplică o transformare logaritmică valorii scalate a eşantionului, şi apoi atribuie o reprezentare numerică rezultatului obţinut. Astfel, cuvântul de cod va conţine semnul şi logaritmul valorii scalate a eşantionului. Acest standard de codare este folosit în telefonia digitală, datorită faptului că în telefonie valorile de amplitudine mare a eşantioanelor sunt puţin frecvente, şi ca urmare pot fi reprezentate cu o acurateţe mai mică decât valorile de amplitudine mică, aşa cum este cazul în transformarea logaritmică. 19
- Page 1: FACULTATEA DE ELECTRONICĂ, TELECOM
- Page 4 and 5: 4. Analiza semnalului vocal .......
- Page 6 and 7: 6. Metode de sinteză de voce......
- Page 9 and 10: Lista de abrevieri ADPCM - Adaptive
- Page 11 and 12: Figura 3.17. Vocala A1. Se observă
- Page 13 and 14: Figura 3.63. Vocala E porţiunea me
- Page 15 and 16: Figura 4.57. Asocierea foneme-regiu
- Page 17: Lista de tabele Tabelul 2.1. Relaţ
- Page 20 and 21: 2 Cap. 1. Introducere Se prezintă
- Page 22 and 23: 4 Cap. 1. Introducere Autorul tezei
- Page 24 and 25: 2. Modalitatea producerii vorbirii
- Page 26 and 27: Faringe nazal Vălul palatin Faring
- Page 28 and 29: 10 Cap. 2. Modalitatea producerii v
- Page 30 and 31: 12 Cap. 2. Modalitatea producerii v
- Page 32 and 33: 14 Cap. 2. Modalitatea producerii v
- Page 34 and 35: 16 Cap. 2. Modalitatea producerii v
- Page 38 and 39: 20 Cap. 3. Procesarea digitală a s
- Page 40 and 41: 22 Cap. 3. Procesarea digitală a s
- Page 42 and 43: 24 Cap. 3. Procesarea digitală a s
- Page 44 and 45: 3.2.1.1.1. Facilităţi de ordin ge
- Page 46 and 47: 28 Cap. 3. Procesarea digitală a s
- Page 48 and 49: 30 Cap. 3. Procesarea digitală a s
- Page 50 and 51: 1) Analiza spectrală a vocalelor p
- Page 52 and 53: 3) Analiza spectrală a sunetelor e
- Page 54 and 55: Figura 3.25. Cazul A. Semnalul x(t)
- Page 56 and 57: Figura 3.31. Cazul C. Semnal audio
- Page 58 and 59: Figura 3.39. Litera A din cuvântul
- Page 60 and 61: 11) Analiza spectrală a sunetelor
- Page 62 and 63: Figura 3.55. Vocala U -FM. In acest
- Page 64 and 65: 46 Cap. 3. Procesarea digitală a s
- Page 66 and 67: Vocala O : Figura 3.68. Vocala O se
- Page 68 and 69: 50 Cap. 3. Procesarea digitală a s
- Page 70 and 71: 52 Cap. 3. Procesarea digitală a s
- Page 72 and 73: 4. Analiza semnalului vocal După p
- Page 74 and 75: Figura 4.2. Structura spectrală a
- Page 76 and 77: Amplitudinea medie pentru N eşanti
- Page 78 and 79: 4.2.2. Analiza în domeniul frecven
- Page 80 and 81: F0 Excitaţie Figura 4.5. Modelul p
- Page 82 and 83: 64 Cap. 4. Analiza semnalului vocal
- Page 84 and 85: 4.3. Segmentarea semnalului vocal 6
2.7.1.2. Efectele tractului vocal<br />
18<br />
Cap. 2. Modalitatea producerii vorbirii<br />
Tractul vocal, aşa cum s-a prezentat anterior, este un tub acustic neuniform ce se<br />
întinde de la glotă la buze iar forma acestuia variază în timp [Fer97].<br />
Tractul vocal, ce cuprinde cavitatea faringiană, bucală şi cea nazală, se comportă ca<br />
un sistem de cavităţi rezonatoare care modifică în timpul vorbirii caracteristicile sunetului<br />
de excitaţie care îl traversează. În timpul generării sunetelor nazale, vălul palatin separă<br />
tractul vocal de cavitatea nazală, care constituie un tub acustic adiţional pentru generarea şi<br />
transmiterea acestor sunete nazale.<br />
În cazul generării sunetelor sonore excitarea este dată de vibraţiile corzilor vocale.<br />
Componenta spectrală cea mai joasă care coincide cu frecvenţa de oscilaţie se numeşte<br />
frecvenţă fundamentală. Pe lângă aceasta spectrul mai conţine armonici superioare, situate<br />
la multipli întregi ai frecvenţei fundamentale. Sunetul, ajungând în cavităţile rezonatoare<br />
superioare ale tractului vocal va fi modificat în sensul că acele armonici superioare care au<br />
frecvenţele apropiate de frecvenţa de rezonanţă a acestor cavităţi, vor fi amplificate, altele<br />
fiind atenuate [Fer97].<br />
Astfel, la frecvenţele de rezonanţă ale tractului vocal vor fi scoase în evidenţă<br />
armonicile corespunzătoare, determinante pentru tipul sunetului emis, motiv pentru care<br />
aceste componente spectrale de bază sunt numite formanţi. Se observă că pornind de la<br />
acelaşi sunet sonor de excitaţie, prin modificarea parametrilor fizici ai tractului vocal se pot<br />
obţine sunete diferite (în mod caracteristic la formarea vocalelor) .<br />
La excitare de tip zgomot rolul tractului vocal este asemănător, diferenţa constând în<br />
locul unde are loc excitarea. În acest caz la formarea formanţilor participă doar acele<br />
porţiuni ale tractului vocal care urmează după zona unde este localizată excitaţia<br />
(constricţia).<br />
Vorbirea şoptită şi sunetele nesonore sunt generate prin trecerea liberă a fluxului de<br />
aer prin glotă, dar prin intermediul constricţiilor tractului vocal şi forţarea aerului prin<br />
acestea cu o viteză suficient de mare, pentru a se putea genera un zgomot de excitaţie de<br />
spectru larg. Constricţiile împreună cu vibraţia corzilor vocale produc sunetele fricative<br />
sonore (ex: /v/, /z/) .