Teza doctorat (pdf) - Universitatea Tehnică

Teza doctorat (pdf) - Universitatea Tehnică Teza doctorat (pdf) - Universitatea Tehnică

users.utcluj.ro
from users.utcluj.ro More from this publisher
15.06.2013 Views

120 Cap. 4. Analiza semnalului vocal O primă metodă (HMM standard) utilizează antrenarea iterativă [You02] pe întreg corpus-ul. Frontierele de regiuni rezultate dintr-o parcurgere manuală a corpus-ului sunt utilizate pentru iniţializarea şi re-estimarea modelelor prin algoritmul Baum-Welch. După câteva iteraţii ale procesului de antrenare, diferenţele dintre frontierele obţinute manual şi cele obţinute prin metoda HMM se reduc semnificativ. O altă metodă (HMMSeg) este cea ilustrată în figura 4.49. Ea utilizează o bază de date de mici dimensiuni segmentată şi etichetată manual pentru estimarea modelelor [Mat03]. În faza următoare întreg corpus-ul va fi segmentat folosind aceste modele. Dacă baza de date iniţială folosită la antrenare conţine câteva variante ale fiecărei foneme, atunci procesul de iniţializare a modelelor este bun şi metoda va genera rezultate bune la segmentare [Jar06]. Estimare Baum-Welch Figura 4.49. Segmentarea HMM bazată pe un corpus segmentat manual [Jar08] 4.7.2. Segmentarea bazată pe rafinarea frontierelor Ideea principală a acestei metode este de a antrena un set de modele de segmentare folosind o bază de date de mici dimensiuni segmentată şi etichetată manual. Apoi, aceste modele vor servi la rafinarea frontierelor segmentării iniţiale pe corpusul dorit [Wan04]. Mai exact, această metodă este realizată în doi paşi, aşa cum se arată în figura 4.50. Segmentare iniţială Rafinarea frontierelor din segmentare Segmentare finală Iniţializare Modele Potrivire Viterbi Segmentare Corpus de antrenare segmentat manual Modele GMM Figura 4.50. Paşii algoritmului de segmentare bazat pe rafinarea frontierelor [Jar08] Pentru fiecare frontieră din corpusul de antrenare, se creează un supervector prin concatenarea vectorilor acustici a (2N+1) cadre din jurul frontierei stabilită manual. Fiecare frontieră B depinde de fonema din stânga X şi de fonema din dreapta Y, grupul (X,B,Y)

Pasul Frontiera Mărimea cadrului 121 Cap. 4. Analiza semnalului vocal alcătuind o aşa-numită pseudo-trifonă [Wan04]. Mai întâi pseudo-trifonele sunt grupate în clase folosind un arbore de regresie şi clasificare ( Classification and Regression Tree - CART) [Ode95], apoi se estimează un model Gaussian GMM (Gaussian Mixture Model) pentru fiecare clasă. Figura 4.51. Modul de construcţie a unui supervector [Jar08] Al doilea pas urmăreşte rafinarea frontierelor de segment pentru o segmentare iniţială dată. Având la intrare un corpus vorbit şi segmentarea lui iniţială, se caută în vecinătatea fiecărei frontiere de segment punctul care maximizează o funcţie de potrivire pentru supervectorul corespunzător acelui punct. Funcţia de potrivire se calculează astfel: pentru fiecare punct din vecinătatea frontierei considerate, se construieşte un supervector centrat pe cadrul curent, la fel ca în faza de antrenare; cum acest supervector reprezintă o pseudo-trifonă, se utilizează arborele de regresie CART [Ode95] pentru a determina clasa ce corespunde cu acea pseudo-trifonă. Funcţia de potrivire se calculează între clasa psedo-trifonei şi supervectorul curent folosind mixturi gaussiene GMM. Algoritmul foloseşte constrângerea lingvistică prin faptul că necesită cunoaşterea iniţială a secvenţei de foneme asociate corpusului pentru a crea modelele de segmentare. Figura 4.52. Pseudo-trifonele din propoziţia în limba franceză “On comptait deux projets d’entreprise distincts” [Jar08]

Pasul<br />

Frontiera Mărimea<br />

cadrului<br />

121<br />

Cap. 4. Analiza semnalului vocal<br />

alcătuind o aşa-numită pseudo-trifonă [Wan04]. Mai întâi pseudo-trifonele sunt grupate în clase<br />

folosind un arbore de regresie şi clasificare ( Classification and Regression Tree - CART)<br />

[Ode95], apoi se estimează un model Gaussian GMM (Gaussian Mixture Model) pentru fiecare<br />

clasă.<br />

Figura 4.51. Modul de construcţie a unui supervector [Jar08]<br />

Al doilea pas urmăreşte rafinarea frontierelor de segment pentru o segmentare iniţială<br />

dată. Având la intrare un corpus vorbit şi segmentarea lui iniţială, se caută în vecinătatea fiecărei<br />

frontiere de segment punctul care maximizează o funcţie de potrivire pentru supervectorul<br />

corespunzător acelui punct. Funcţia de potrivire se calculează astfel: pentru fiecare punct din<br />

vecinătatea frontierei considerate, se construieşte un supervector centrat pe cadrul curent, la fel<br />

ca în faza de antrenare; cum acest supervector reprezintă o pseudo-trifonă, se utilizează arborele<br />

de regresie CART [Ode95] pentru a determina clasa ce corespunde cu acea pseudo-trifonă.<br />

Funcţia de potrivire se calculează între clasa psedo-trifonei şi supervectorul curent folosind<br />

mixturi gaussiene GMM.<br />

Algoritmul foloseşte constrângerea lingvistică prin faptul că necesită cunoaşterea iniţială<br />

a secvenţei de foneme asociate corpusului pentru a crea modelele de segmentare.<br />

Figura 4.52. Pseudo-trifonele din propoziţia în limba franceză “On comptait deux projets<br />

d’entreprise distincts” [Jar08]

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!