Teza doctorat (pdf) - Universitatea Tehnică
Teza doctorat (pdf) - Universitatea Tehnică Teza doctorat (pdf) - Universitatea Tehnică
120 Cap. 4. Analiza semnalului vocal O primă metodă (HMM standard) utilizează antrenarea iterativă [You02] pe întreg corpus-ul. Frontierele de regiuni rezultate dintr-o parcurgere manuală a corpus-ului sunt utilizate pentru iniţializarea şi re-estimarea modelelor prin algoritmul Baum-Welch. După câteva iteraţii ale procesului de antrenare, diferenţele dintre frontierele obţinute manual şi cele obţinute prin metoda HMM se reduc semnificativ. O altă metodă (HMMSeg) este cea ilustrată în figura 4.49. Ea utilizează o bază de date de mici dimensiuni segmentată şi etichetată manual pentru estimarea modelelor [Mat03]. În faza următoare întreg corpus-ul va fi segmentat folosind aceste modele. Dacă baza de date iniţială folosită la antrenare conţine câteva variante ale fiecărei foneme, atunci procesul de iniţializare a modelelor este bun şi metoda va genera rezultate bune la segmentare [Jar06]. Estimare Baum-Welch Figura 4.49. Segmentarea HMM bazată pe un corpus segmentat manual [Jar08] 4.7.2. Segmentarea bazată pe rafinarea frontierelor Ideea principală a acestei metode este de a antrena un set de modele de segmentare folosind o bază de date de mici dimensiuni segmentată şi etichetată manual. Apoi, aceste modele vor servi la rafinarea frontierelor segmentării iniţiale pe corpusul dorit [Wan04]. Mai exact, această metodă este realizată în doi paşi, aşa cum se arată în figura 4.50. Segmentare iniţială Rafinarea frontierelor din segmentare Segmentare finală Iniţializare Modele Potrivire Viterbi Segmentare Corpus de antrenare segmentat manual Modele GMM Figura 4.50. Paşii algoritmului de segmentare bazat pe rafinarea frontierelor [Jar08] Pentru fiecare frontieră din corpusul de antrenare, se creează un supervector prin concatenarea vectorilor acustici a (2N+1) cadre din jurul frontierei stabilită manual. Fiecare frontieră B depinde de fonema din stânga X şi de fonema din dreapta Y, grupul (X,B,Y)
Pasul Frontiera Mărimea cadrului 121 Cap. 4. Analiza semnalului vocal alcătuind o aşa-numită pseudo-trifonă [Wan04]. Mai întâi pseudo-trifonele sunt grupate în clase folosind un arbore de regresie şi clasificare ( Classification and Regression Tree - CART) [Ode95], apoi se estimează un model Gaussian GMM (Gaussian Mixture Model) pentru fiecare clasă. Figura 4.51. Modul de construcţie a unui supervector [Jar08] Al doilea pas urmăreşte rafinarea frontierelor de segment pentru o segmentare iniţială dată. Având la intrare un corpus vorbit şi segmentarea lui iniţială, se caută în vecinătatea fiecărei frontiere de segment punctul care maximizează o funcţie de potrivire pentru supervectorul corespunzător acelui punct. Funcţia de potrivire se calculează astfel: pentru fiecare punct din vecinătatea frontierei considerate, se construieşte un supervector centrat pe cadrul curent, la fel ca în faza de antrenare; cum acest supervector reprezintă o pseudo-trifonă, se utilizează arborele de regresie CART [Ode95] pentru a determina clasa ce corespunde cu acea pseudo-trifonă. Funcţia de potrivire se calculează între clasa psedo-trifonei şi supervectorul curent folosind mixturi gaussiene GMM. Algoritmul foloseşte constrângerea lingvistică prin faptul că necesită cunoaşterea iniţială a secvenţei de foneme asociate corpusului pentru a crea modelele de segmentare. Figura 4.52. Pseudo-trifonele din propoziţia în limba franceză “On comptait deux projets d’entreprise distincts” [Jar08]
- Page 88 and 89: 70 Cap. 4. Analiza semnalului vocal
- Page 90 and 91: 1 BNP mean p( n) (4.23) 20 20 n1
- Page 92 and 93: 74 Cap. 4. Analiza semnalului vocal
- Page 94 and 95: 0, RN( i) T upper EN(i) 1, RN( i)
- Page 96 and 97: 78 Cap. 4. Analiza semnalului vocal
- Page 98 and 99: D(x,y) 255 m0 || H ( e x m j 256 2
- Page 100 and 101: 82 Cap. 4. Analiza semnalului vocal
- Page 102 and 103: 84 Cap. 4. Analiza semnalului vocal
- Page 104 and 105: 86 Cap. 4. Analiza semnalului vocal
- Page 106 and 107: 3. Regiune de tip vocală sonoră (
- Page 108 and 109: 90 Cap. 4. Analiza semnalului vocal
- Page 110 and 111: 92 Cap. 4. Analiza semnalului vocal
- Page 112 and 113: 4.4.2.3.1. Detectarea subregiunilor
- Page 114 and 115: 96 Cap. 4. Analiza semnalului vocal
- Page 116 and 117: 4.4.2.5. Detectarea categoriei Tran
- Page 118 and 119: Detectorul regiunii tranzitorii den
- Page 120 and 121: 102 Cap. 4. Analiza semnalului voca
- Page 122 and 123: Algoritmul de compactare în acest
- Page 124 and 125: 106 Cap. 4. Analiza semnalului voca
- Page 126 and 127: 108 Cap. 4. Analiza semnalului voca
- Page 128 and 129: 110 Cap. 4. Analiza semnalului voca
- Page 130 and 131: Punctul pivot se determină conform
- Page 132 and 133: 4.6.1.3. Detectarea maximelor de pe
- Page 134 and 135: 116 Cap. 4. Analiza semnalului voca
- Page 136 and 137: 118 Cap. 4. Analiza semnalului voca
- Page 140 and 141: 4.7.3. Segmentarea bazată pe proba
- Page 142 and 143: 124 Cap. 4. Analiza semnalului voca
- Page 144 and 145: 126 Cap. 4. Analiza semnalului voca
- Page 146 and 147: 128 Cap. 4. Analiza semnalului voca
- Page 148 and 149: 130 Cap. 4. Analiza semnalului voca
- Page 150 and 151: 132 Cap. 4. Analiza semnalului voca
- Page 152 and 153: 134 Cap. 4. Analiza semnalului voca
- Page 154 and 155: 136 Cap. 4. Analiza semnalului voca
- Page 156 and 157: 4.8.4.1. Calculul distanţei dintre
- Page 158 and 159: F(C1) C1 C2 Np E(a,b) 140 Dp Cap. 4
- Page 160 and 161: Tabelul 4.10. Stabilirea frontierel
- Page 162 and 163: 144 Cap. 4. Analiza semnalului voca
- Page 164 and 165: Tabelul 4.13. Stabilirea frontierel
- Page 166 and 167: 2) Compararea vectorilor din regiun
- Page 168 and 169: 150 Cap. 4. Analiza semnalului voca
- Page 170 and 171: c) În faza de etichetare s-a mers
- Page 172 and 173: 154 Cap. 4. Analiza semnalului voca
- Page 174 and 175: 156 Cap. 5. Sinteza de voce Aşa cu
- Page 176 and 177: 158 Cap. 5. Sinteza de voce Metodel
- Page 178 and 179: 160 Cap. 5. Sinteza de voce Urmeaz
- Page 180 and 181: 6. Metode de sinteză de voce 6.1.
- Page 182 and 183: 164 Cap. 6. Metode de sinteză de v
- Page 184 and 185: 166 Cap. 6. Metode de sinteză de v
- Page 186 and 187: 168 Cap. 6. Metode de sinteză de v
Pasul<br />
Frontiera Mărimea<br />
cadrului<br />
121<br />
Cap. 4. Analiza semnalului vocal<br />
alcătuind o aşa-numită pseudo-trifonă [Wan04]. Mai întâi pseudo-trifonele sunt grupate în clase<br />
folosind un arbore de regresie şi clasificare ( Classification and Regression Tree - CART)<br />
[Ode95], apoi se estimează un model Gaussian GMM (Gaussian Mixture Model) pentru fiecare<br />
clasă.<br />
Figura 4.51. Modul de construcţie a unui supervector [Jar08]<br />
Al doilea pas urmăreşte rafinarea frontierelor de segment pentru o segmentare iniţială<br />
dată. Având la intrare un corpus vorbit şi segmentarea lui iniţială, se caută în vecinătatea fiecărei<br />
frontiere de segment punctul care maximizează o funcţie de potrivire pentru supervectorul<br />
corespunzător acelui punct. Funcţia de potrivire se calculează astfel: pentru fiecare punct din<br />
vecinătatea frontierei considerate, se construieşte un supervector centrat pe cadrul curent, la fel<br />
ca în faza de antrenare; cum acest supervector reprezintă o pseudo-trifonă, se utilizează arborele<br />
de regresie CART [Ode95] pentru a determina clasa ce corespunde cu acea pseudo-trifonă.<br />
Funcţia de potrivire se calculează între clasa psedo-trifonei şi supervectorul curent folosind<br />
mixturi gaussiene GMM.<br />
Algoritmul foloseşte constrângerea lingvistică prin faptul că necesită cunoaşterea iniţială<br />
a secvenţei de foneme asociate corpusului pentru a crea modelele de segmentare.<br />
Figura 4.52. Pseudo-trifonele din propoziţia în limba franceză “On comptait deux projets<br />
d’entreprise distincts” [Jar08]