Teza doctorat (pdf) - Universitatea Tehnică
Teza doctorat (pdf) - Universitatea Tehnică Teza doctorat (pdf) - Universitatea Tehnică
170 Cap. 6. Metode de sinteză de voce Tabelul 6.1 indică domeniile de frecvenţă ale parametrilor Fk şi Bk (sunete sonore), Fz,n şi Fp,n (sunete nazale), respectiv F1 + , F2 - , Fz (sunete fricative), valori determinate statistic [Fer97]. Tabelul 6.1. Domeniile de frecvenţă ale parametrilor Fk şi Bk Sunete sonore Primul formant (F1) Al doilea formant (F2) Al treilea formant (F3) Rezonanţă nazală (Fp,n) Antirezonanţa (Fz,n) Sunete nesonore Primul formant (F1 + ) Al doilea formant (F2 - ) Antiformant (Fz) 6.2.2.3. Sinteza în paralel F (Hz) B (Hz) 100 – 1100 500 – 2500 1500 – 3500 200 – 1000 200 – 1000 200 – 500 1500 – 3500 800 – 2000 45 – 130 5 – 190 70 – 260 100 60 – 300 60 – 200 Structura în paralel a rezonatoarelor determină o situaţie mai delicată decât în cazul sintezei în cascadă, deoarece în acest caz este necesară cunoaşterea câştigului asociat fiecărui formant. Aceste câştiguri corespund reziduurilor polilor rezultaţi din descompunerea transmitanţei T(z) în fracţii simple. Calcularea şi realizarea lor trebuie să se facă cu mare precizie, fără a introduce zerouri în transmitanţa globală, care are expresia [Fer97]: T K z k1 1b 1 k h z k 1 b 2 k z 2 Prin procedee delicate, acest efect poate fi folosit pentru generarea sunetelor nazale. Se obţine o calitate superioară a semnalul generat, motiv pentru care sinteza în paralel este preferată, mai ales datorită progresului actual al tehnologiei. 6.3. Metode de sinteză în domeniul timp În continuare se vor prezenta două dintre cele mai cunoscute metode de sinteză în domeniul timp, care asigură totodată o calitate înaltă semnalului sintetizat: - metoda TD-PSOLA, ce foloseşte principiul compunerii de segmente vocale care se întrepătrund, şi - metoda bazată pe corpus, ce foloseşte o bază de date (corpus vocal) de dimensiuni mari în scopul producerii unei vorbiri de calitate cât mai naturală. (6.8)
6.3.1. Metoda TD-PSOLA 171 Cap. 6. Metode de sinteză de voce Numele metodei constituie un acronim pentru Time Domain - Pitch Synchronous Overlapp and Add, adică metoda în domeniul timp ce foloseşte suprapunerea şi compunerea formelor de undă sincron cu frecvenţa ([Dut93], [Ver93]). Metoda comportă două faze principale, care sunt comune şi altor metode: faza de analiză şi faza de sinteză. În faza de analiză se împarte semnalul original în segmente de durată mică (de obicei având ca durată dublul perioadei fundamentale a semnalului 2T0), segmente care nu sunt separate, ci se suprapun. Aceste segmente se aleg sincron cu frecvenţa (numită pitch). Pentru aceasta, aici în faza de analiză se aleg nişte indicatori de fecvenţă numiţi pitch marks, ce vor indica centrul segmentului corespunzător din cadrul semnalului vocal. În faza de sinteză se calculează durata şi frecvenţa de bază a semnalului din cadrul segmentului considerat. În funcţie de aceşti parametrii, ţinând cont şi de indicatorii pitch markers stabiliţi în faza de analiză, segmentul vocal se rearanjează pe axa timpului, modificându-şi frecvenţa fundamentală, dilatându-se sau contractându-se temporal dacă cum este necesar. În final semnalul sintetizat rezultă prin compunerea segmentelor vocale ce se suprapun (Overlap and Add). Aici va trebui avut grijă la îmbinarea segmentelor, pentru a nu apărea discontinuităţi spectrale deranjante în vorbirea sintetizată. 6.3.1.1. Modelare matematică Modelul metodei de sinteză TD-PSOLA este ilustrat în figura 6.5. (x1, p1) (X1, P1) (x2, p2) (X2, P2) x(n) Extragerea segmentelor . . . Mapare . . . Overlap X(n) . . (xn, pn) (Xm, Pm) ANALIZA SINTEZA Segmente suprapuse Segmente mapate Figura 6.5. Metoda de sinteză TD-PSOLA Faza de analiză porneşte de la semnalul original x(n), şi printr-un procedeu special de segmentare, se vor obţine segmentele suprapuse (adică segmente care se intersectează pe axa timpului): x1, x2, ... xn . Corespunzător fiecărui segment se aleg indicatorii de frecvenţă ( pitch marks): p1, p2, ... , pn . Indicatorii de frecvenţă se pot alege la mijlocul segmentului sau la valoarea maximă a intensităţii de semnal.
- Page 138 and 139: 120 Cap. 4. Analiza semnalului voca
- Page 140 and 141: 4.7.3. Segmentarea bazată pe proba
- Page 142 and 143: 124 Cap. 4. Analiza semnalului voca
- Page 144 and 145: 126 Cap. 4. Analiza semnalului voca
- Page 146 and 147: 128 Cap. 4. Analiza semnalului voca
- Page 148 and 149: 130 Cap. 4. Analiza semnalului voca
- Page 150 and 151: 132 Cap. 4. Analiza semnalului voca
- Page 152 and 153: 134 Cap. 4. Analiza semnalului voca
- Page 154 and 155: 136 Cap. 4. Analiza semnalului voca
- Page 156 and 157: 4.8.4.1. Calculul distanţei dintre
- Page 158 and 159: F(C1) C1 C2 Np E(a,b) 140 Dp Cap. 4
- Page 160 and 161: Tabelul 4.10. Stabilirea frontierel
- Page 162 and 163: 144 Cap. 4. Analiza semnalului voca
- Page 164 and 165: Tabelul 4.13. Stabilirea frontierel
- Page 166 and 167: 2) Compararea vectorilor din regiun
- Page 168 and 169: 150 Cap. 4. Analiza semnalului voca
- Page 170 and 171: c) În faza de etichetare s-a mers
- Page 172 and 173: 154 Cap. 4. Analiza semnalului voca
- Page 174 and 175: 156 Cap. 5. Sinteza de voce Aşa cu
- Page 176 and 177: 158 Cap. 5. Sinteza de voce Metodel
- Page 178 and 179: 160 Cap. 5. Sinteza de voce Urmeaz
- Page 180 and 181: 6. Metode de sinteză de voce 6.1.
- Page 182 and 183: 164 Cap. 6. Metode de sinteză de v
- Page 184 and 185: 166 Cap. 6. Metode de sinteză de v
- Page 186 and 187: 168 Cap. 6. Metode de sinteză de v
- Page 190 and 191: 172 Cap. 6. Metode de sinteză de v
- Page 192 and 193: x(t) x1(t) x2(t) x1(t) x2(t) X1(t)
- Page 194 and 195: 6.3.2. Metoda bazată pe corpus 176
- Page 196 and 197: 178 Cap. 6. Metode de sinteză de v
- Page 198 and 199: Cost 180 Cap. 6. Metode de sinteză
- Page 200 and 201: 6.3.2.5. Algoritmul metodei de sint
- Page 202 and 203: Fiecare fază cuprinde mai multe et
- Page 204 and 205: 186 Cap. 6. Metode de sinteză de v
- Page 206 and 207: cat(Cuvint,term[nrcif]); if(nrcif>0
- Page 208 and 209: TEXT Forma flexionată Figura 6.13.
- Page 210 and 211: 192 Cap. 6. Metode de sinteză de v
- Page 212 and 213: 194 Cap. 6. Metode de sinteză de v
- Page 214 and 215: {LIT}+(le|lui)/{SEP} {/*peştele*/
- Page 216 and 217: {LIT}+{CONS}e/{SEP} {/* merge */ Ca
- Page 218 and 219: 200 Cap. 6. Metode de sinteză de v
- Page 220 and 221: 202 Cap. 6. Metode de sinteză de v
- Page 222 and 223: 204 Cap. 6. Metode de sinteză de v
- Page 224 and 225: silaba: SILABA { ProcesareSilaba($1
- Page 226 and 227: 208 Cap. 6. Metode de sinteză de v
- Page 228 and 229: 210 Cap. 6. Metode de sinteză de v
- Page 230 and 231: 212 Cap. 6. Metode de sinteză de v
- Page 232 and 233: 214 Cap. 6. Metode de sinteză de v
- Page 234 and 235: 216 Cap. 6. Metode de sinteză de v
- Page 236 and 237: 218 Cap. 6. Metode de sinteză de v
6.3.1. Metoda TD-PSOLA<br />
171<br />
Cap. 6. Metode de sinteză de voce<br />
Numele metodei constituie un acronim pentru Time Domain - Pitch Synchronous<br />
Overlapp and Add, adică metoda în domeniul timp ce foloseşte suprapunerea şi compunerea<br />
formelor de undă sincron cu frecvenţa ([Dut93], [Ver93]).<br />
Metoda comportă două faze principale, care sunt comune şi altor metode: faza de analiză<br />
şi faza de sinteză.<br />
În faza de analiză se împarte semnalul original în segmente de durată mică (de obicei<br />
având ca durată dublul perioadei fundamentale a semnalului 2T0), segmente care nu sunt<br />
separate, ci se suprapun. Aceste segmente se aleg sincron cu frecvenţa (numită pitch). Pentru<br />
aceasta, aici în faza de analiză se aleg nişte indicatori de fecvenţă numiţi pitch marks, ce vor<br />
indica centrul segmentului corespunzător din cadrul semnalului vocal.<br />
În faza de sinteză se calculează durata şi frecvenţa de bază a semnalului din cadrul<br />
segmentului considerat. În funcţie de aceşti parametrii, ţinând cont şi de indicatorii pitch markers<br />
stabiliţi în faza de analiză, segmentul vocal se rearanjează pe axa timpului, modificându-şi<br />
frecvenţa fundamentală, dilatându-se sau contractându-se temporal dacă cum este necesar.<br />
În final semnalul sintetizat rezultă prin compunerea segmentelor vocale ce se suprapun<br />
(Overlap and Add). Aici va trebui avut grijă la îmbinarea segmentelor, pentru a nu apărea<br />
discontinuităţi spectrale deranjante în vorbirea sintetizată.<br />
6.3.1.1. Modelare matematică<br />
Modelul metodei de sinteză TD-PSOLA este ilustrat în figura 6.5.<br />
(x1, p1)<br />
(X1, P1)<br />
(x2, p2)<br />
(X2, P2)<br />
x(n) Extragerea<br />
segmentelor<br />
.<br />
.<br />
.<br />
Mapare<br />
.<br />
.<br />
.<br />
Overlap<br />
X(n)<br />
.<br />
.<br />
(xn, pn)<br />
(Xm, Pm)<br />
ANALIZA<br />
SINTEZA<br />
Segmente suprapuse Segmente mapate<br />
Figura 6.5. Metoda de sinteză TD-PSOLA<br />
Faza de analiză porneşte de la semnalul original x(n), şi printr-un procedeu special de<br />
segmentare, se vor obţine segmentele suprapuse (adică segmente care se intersectează pe axa<br />
timpului): x1, x2, ... xn . Corespunzător fiecărui segment se aleg indicatorii de frecvenţă ( pitch<br />
marks): p1, p2, ... , pn . Indicatorii de frecvenţă se pot alege la mijlocul segmentului sau la<br />
valoarea maximă a intensităţii de semnal.