15.06.2013 Views

Teza doctorat (pdf) - Universitatea Tehnică

Teza doctorat (pdf) - Universitatea Tehnică

Teza doctorat (pdf) - Universitatea Tehnică

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

82<br />

Cap. 4. Analiza semnalului vocal<br />

Odată stabilite estimările medii pentru toate segmentele necunoscute, pentru fiecare<br />

segment j se stabilesc la început două etichete L1(j) şi L2(j). Prima etichetă este caracteristica cu<br />

estimarea medie cea mai bună. A doua etichetă o reprezintă caracteristica cu a doua estimare<br />

medie cea mai bună.<br />

Există cazuri când etichetarea trebuie să ţină seama şi de coarticularea segmentelor, când<br />

algoritmul de segmentare spectrală poate schimba categoria din care face parte segmentul.<br />

Se pot defini astfel estimările robuste pentru L1(j) şi L2(j).<br />

Estimarea robustă R1(j) pentru L1(j) este definită ca estimarea medie pentru categoria de<br />

segment corespunzătoare lui L1(j), împărţită la suma tuturor estimărilor medii pentru acest<br />

segment. De exemplu, dacă segmentul este sonor şi L1(j) este nazală, atunci R1(j) este dată de<br />

[Chi00]:<br />

ENmed<br />

( j)<br />

R1(<br />

j)<br />

(4.53)<br />

EV ( j)<br />

ESV<br />

( j)<br />

EN<br />

( j)<br />

EBS<br />

( j)<br />

EFS<br />

( j)<br />

med<br />

med<br />

med<br />

Dacă segmentul este nesonor şi scorul corespunzător lui L1(j) dă o fricativă nesonoră,<br />

atunci R1(j) este dată de [Chi00]:<br />

UFSmed<br />

( j)<br />

R1(<br />

j)<br />

(4.54)<br />

UFS ( j)<br />

USS<br />

( j)<br />

med<br />

În mod asemănător e definită şi estimarea robustă R2(j) pentru L2(j), ca estimarea medie<br />

pentru categoria de segment corespunzătoare lui L2(j) împărţită la suma tuturor estimărilor medii<br />

pentru acel segment.<br />

Dacă R2(j) > R1(j), iar scorul corespunzător lui L1(j) are valori mai mici decât o valoare<br />

de prag TS (TS ~ 0.5), atunci categoria de segment poate fi schimbată de la L1(j) la L2(j).<br />

4.3.7. Rezultate şi concluzii privind metoda generică de segmentare<br />

Metoda prezentată în acest capitol, propusă de Childers în [Chi00], poate detecta trei<br />

categorii principale din semnalul vocal: linişte (silence), sonor (voiced) şi nesonor (unvoiced), pe<br />

care le clasifică în 9 clase de regiuni: linişte, vocală, consoană sonoră, semivocală, nazală, bandă<br />

sonoră, fricativă sonoră, fricativă nesonoră şi stop nesonor. Astfel, în categoria sonor ( voiced)<br />

intră clasele: vocală, semivocală, consoană sonoră, nazală, fricativă sonoră şi bandă sonoră. În<br />

categoria nesonor (unvoiced) avem clasele: stop nesonor şi fricativă nesonoră. În categoria linişte<br />

(silence) există o singură clasă: linişte.<br />

Pentru fiecare clasă s-a definit câte un detector sau estimator de caracteristică, care<br />

calculează un scor al caracteristicii respective pe semnalul din cadrul curent. Cadrul se<br />

etichetează cu caracteristica având scorul cel mai mare, iar cadrele succesive care sunt etichetate<br />

la fel se grupează în regiuni. În faza finală se reevaluează cadrele singulare şi se ajustează<br />

graniţele de segment. În figura 4.11 se prezintă rezultatele segmentării pentru un semnal vocal<br />

rostit în limba engleză.<br />

med<br />

med<br />

med

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!