15.06.2013 Views

Teza doctorat (pdf) - Universitatea Tehnică

Teza doctorat (pdf) - Universitatea Tehnică

Teza doctorat (pdf) - Universitatea Tehnică

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

4.3.1. Detectarea automată a segmentelor semnalului vocal<br />

67<br />

Cap. 4. Analiza semnalului vocal<br />

În cele ce urmează se va prezenta o metodă de segmentare a semnalului vocal bazată pe<br />

detectori de caracteristici. Metoda a fost prezentată de către Childers şi Hu în [Chi00], [Hu93],<br />

putând fi considerată ca o metodă generică pentru rezolvarea acestei probleme.<br />

Detectarea automată a segmentelor vorbirii este realizată printr-o serie de algoritmi care<br />

analizează secvenţial semnalul sonor. Algoritmii pot fi grupaţi în trei categorii, aşa cum se arată<br />

în figura 4.9:<br />

(1) analiza vorbirii;<br />

(2) segmentarea sau împărţirea semnalului în segmente;<br />

(3) etichetarea adecvată a acestor segmente.<br />

Analiză Segmentare Etichetare<br />

DETECTARE<br />

CARACTERISTICI<br />

DETECTARE<br />

GRANIŢE DE<br />

SEGMENT<br />

STABILIRE<br />

CATEGORIE<br />

Figura 4.9. Detectarea automată a segmentelor vorbirii<br />

(1) Analiza iniţială a vorbirii este cea mai complexă dintre cele trei sarcini. Această<br />

analiză iniţială se poate face în doi paşi ([Hu93], [Chi94]).<br />

În primul pas, forma de undă eşantionată este divizată asincron în cadre (segmente de<br />

lungime fixă: 5-10 ms). Se realizează apoi o predicţie lineară LPC pentru fiecare cadru, iar<br />

reziduul este reţinut pentru determinarea punctelor de închidere glotale (GCI – Glotal Closure<br />

Instants) [Hu93].<br />

În cel de-al doilea pas, forma de undă eşantionată este din nou divizată în cadre. Cadrele<br />

sunt alese asincron pentru vorbirea nesonoră şi linişte şi sincron cu perioada la vorbirea sonoră -<br />

prin utilizarea punctelor de închidere glotală GCI ca şi referinţă. Se realizează o predicţie lineară<br />

pentru fiecare cadru iar coeficienţii LPC sunt memoraţi pentru analiză. Apoi un algoritm specific<br />

va analiza fiecare cadru în parte în scopul detectării caracteristicilor sale.<br />

Fiecare algoritm din set detectează o caracteristică acustică diferită. Această caracteristică<br />

se referă la calcularea unui scor de regăsire în cadrul respectiv a unor anumiţi parametri acustici,<br />

puşi în legătură cu o anumită categorie fonetică.<br />

De exemplu, un algoritm poate detecta prezenţa sau absenţa consoanelor, în timp ce alt<br />

algoritm va detecta prezenţa sau absenţa vocalelor. Fiecare algoritm de detectare a<br />

caracteristicilor utilizează o combinaţie de praguri fixe, filtrare mediană şi reguli empirice pentru<br />

calcularea rezultatului sau scorului final.<br />

(2) A doua sarcină a segmentării automate este determinarea graniţelor din domeniul timp<br />

care separă segmentele semnalului vocal.<br />

Graniţele sunt în aşa fel alese încât fiecare segment are proprietăţi acustice aproximativ<br />

constante pe durata segmentului. Segmentarea se bazează pe determinarea schimbărilor din<br />

spectrul de joasă frecvenţă, folosind şi rezultatele detectării caracteristicii de sonor, nesonor sau<br />

linişte S/U/V.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!