Teza doctorat (pdf) - Universitatea Tehnică
Teza doctorat (pdf) - Universitatea Tehnică Teza doctorat (pdf) - Universitatea Tehnică
Cap. 7. Proiectarea sistemului de sinteză de voce în limba română fost determinaţi următorii parametri: amplitudinea semnalului, energia şi numărul de treceri prin zero. De asemeni, a fost calculată frecvenţa fundamentală a semnalului (vezi paragraful 4.6.1). b) Segmentarea SUV, descrisă în paragraful 4.4.2, are ca scop detectarea categoriilor fundamentale de semnal: linişte (Silence), sonor (Voiced), nesonor (Unvoiced), la care se adaugă şi categoria tranziţie. c) Compactarea regiunilor (vezi paragraful 4.4.3) urmăreşte asocierea regiunilor vecine de dimensiuni mici, având ca rezultat scăderea numărului total de regiuni, cu efect pozitiv asupra timpului de procesare. d) Clasificarea regiunilor (proces prezentat în capitolul 4.4) împarte cele patru categorii de semnal de la punctul b) în 10 clase distincte, clase care pot fi asociate cu reprezentarea sonoră a fonemelor limbii române. e) Segmentarea fonematică (capitolul 4.8) asociază simbolurile fonetice cu regiunile din semnal. Pentru aceasta, se foloseşte corpusul paralel text-voce de la punctul 5). Pe baza unor reguli speciale de asociere, se face o corespondenţă între grupurile fonetice prezente la intrarea de text cu secvenţele de regiuni detectate din semnalul vocal. TEXT SEMNAL secvenţă fonetică 1 ; secvenţă fonetică 2 ; secvenţă fonetică 3 . . . [Regiune 1] [Regiune 2] [Regiune 3] - - - [Regiune n] - - - Figura 7.6. Asocierea dintre grupurile fonematice şi secvenţele de regiuni 7) Detecţia şi separarea silabelor din semnal După punerea în corespondenţă a secvenţelor fonematice cu regiunile din semnal, urmează faza de separare a silabelor utile din corpusul vocal. Pentru aceasta, s-a folosit o procedură semiautomată care selectează secvenţele dorite prin deplasarea capetelor intervalului de selecţie pe graniţele regiunilor fonematice. Regiunea selectată poate fi ajustată prin deplasarea manuală a marginilor ce au fost detectate în mod automat. Apoi regiunea corespunzătoare silabei dorite se salvează într-un fişier al bazei de date. T A T I T A T A D E T A Figura 7.7. Detecţia şi separarea silabelor din semnal 250
8) Salvarea unităţilor acustice în baza de date Cap. 7. Proiectarea sistemului de sinteză de voce în limba română După detecţia silabelor dorite din semnalul vocal, acestea se salvează ca fişiere distincte în structura ierarhică a bazei de date. Aşa cum s-a prezentat în secţiunea 6.4.6, baza de date vocală este organizată în funcţie de parametrii unităţilor acustice, astfel: a) după lungimea unităţilor: silabe alcătuite din două, trei sau patru litere, precum şi foneme singulare ; b) după poziţia silabei în interiorul cuvântului: silabe iniţiale/mediane sau finale ; c) după accentuare: silabe accentuate sau neaccentuate. Ca urmare, baza de date vocală prezintă o structură arborescentă, în care unităţile acustice sunt stocate sub formă de fişiere. Pentru a implementa criteriul a), au fost create directoarele: S1, S2, S3 şi S4, în fiecare director fiind memorate doar unităţi de lungime corespunzătoare. Pentru a implementa criteriul b), în fiecare director a fost creat un subdirector Final, în care au fost memorate unităţile de tip silabă finală, în timp ce silabele acustice iniţiale/mediane au fost salvate în directorul părinte. Criteriul c) a fost rezolvat prin utilizarea unor convenţii de notaţie a numelui fişierelor; astfel silabele accentuate prezintă sufixul ‘_’ în numele fişierelor ce le conţine. De exemplu, pentru silaba neaccentuată sa avem fişierul sa.wav, iar pentru silaba accentuată sá a fost înregistrat fişierul sa_.wav (convenţiile de notaţie au fost prezentate în tabelul 6.5). Rezultă următoarea structură a colecţiei de fişiere din baza de date vocală : fF Rădăcină S1 S2 S3 S4 Final Final Final Final f A F f f A ffF ff A F ff ff A fffF fff A Figura 7.8. Structura colecţiei de fişiere din baza de date vocală În figura de mai sus, notând U = unitatea acustică (U = f pentru foneme singulare, U = ff pentru silabe de două litere, U = fff pentru silabe de trei litere, U = ffff pentru silabe de patru litere), avem : - U = unitatea acustică neaccentuată în poziţie mediană ; - U A = unitatea acustică accentuată în poziţie mediană ; - UF = unitatea acustică neaccentuată în poziţie finală ; - U A F = unitatea acustică accentuată în poziţie finală. 251 F fff fff A ffffF ffff A F ffff ffff A
- Page 218 and 219: 200 Cap. 6. Metode de sinteză de v
- Page 220 and 221: 202 Cap. 6. Metode de sinteză de v
- Page 222 and 223: 204 Cap. 6. Metode de sinteză de v
- Page 224 and 225: silaba: SILABA { ProcesareSilaba($1
- Page 226 and 227: 208 Cap. 6. Metode de sinteză de v
- Page 228 and 229: 210 Cap. 6. Metode de sinteză de v
- Page 230 and 231: 212 Cap. 6. Metode de sinteză de v
- Page 232 and 233: 214 Cap. 6. Metode de sinteză de v
- Page 234 and 235: 216 Cap. 6. Metode de sinteză de v
- Page 236 and 237: 218 Cap. 6. Metode de sinteză de v
- Page 238 and 239: 220 Cap. 6. Metode de sinteză de v
- Page 240 and 241: 222 Cap. 6. Metode de sinteză de v
- Page 242 and 243: -----------------------------------
- Page 244 and 245: 6.4.6. Proiectarea bazei de date vo
- Page 246 and 247: 228 Cap. 6. Metode de sinteză de v
- Page 248 and 249: 6.4.6.3. Organizarea bazei de date
- Page 250 and 251: 232 Cap. 6. Metode de sinteză de v
- Page 252 and 253: silabă conţinând litera ă silab
- Page 254 and 255: 236 Cap. 6. Metode de sinteză de v
- Page 256 and 257: 238 Cap. 6. Metode de sinteză de v
- Page 258 and 259: 240 Cap. 6. Metode de sinteză de v
- Page 260 and 261: 7. Realizarea sistemului de sintez
- Page 262 and 263: Figura 7.2. Sistemul de sinteză a
- Page 264 and 265: 1) Crearea listei de silabe Cap. 7.
- Page 266 and 267: Cap. 7. Proiectarea sistemului de s
- Page 270 and 271: Cap. 7. Proiectarea sistemului de s
- Page 272 and 273: Cap. 7. Proiectarea sistemului de s
- Page 274 and 275: Baza de date vocală Cap. 7. Proiec
- Page 276 and 277: 1 Procesare Separator Procesare Cuv
- Page 278 and 279: Cap. 7. Proiectarea sistemului de s
- Page 280 and 281: Cap. 7. Proiectarea sistemului de s
- Page 282 and 283: Cap. 7. Proiectarea sistemului de s
- Page 284 and 285: 8. Concluzii finale Cercetările ef
- Page 286 and 287: 268 Cap. 8. Concluzii finale 11. A
- Page 288 and 289: 270 Cap. 8. Concluzii finale percep
- Page 290 and 291: 272 Cap. 8. Concluzii finale b) pen
- Page 292 and 293: 274 Cap. 8. Concluzii finale - nive
- Page 294 and 295: Bibliografie [And88] André-Obrecht
- Page 296 and 297: 278 Bibliografie Quality and Testin
- Page 298 and 299: 280 Bibliografie [Giu06] Giurgiu M.
- Page 300 and 301: 282 Bibliografie [Nag05] Nageshwara
- Page 302 and 303: 284 Bibliografie Research Institute
- Page 304 and 305: Anexa 2. Silabele din setul S2 dup
- Page 306 and 307: Anexa 2. Silabele din setul S2 dup
- Page 308 and 309: Anexa 3. Silabe din setul S3 după
- Page 310 and 311: Anexa 4. Silabe din setul S4 după
- Page 312 and 313: Anexa 4. Silabe din setul S4 după
- Page 314 and 315: 296 Anexa 5. Activitatea ştiinţif
- Page 316 and 317: 298 Anexa 5. Activitatea ştiinţif
Cap. 7. Proiectarea sistemului de sinteză de voce în limba română<br />
fost determinaţi următorii parametri: amplitudinea semnalului, energia şi numărul de treceri prin<br />
zero. De asemeni, a fost calculată frecvenţa fundamentală a semnalului (vezi paragraful 4.6.1).<br />
b) Segmentarea SUV, descrisă în paragraful 4.4.2, are ca scop detectarea categoriilor<br />
fundamentale de semnal: linişte (Silence), sonor (Voiced), nesonor (Unvoiced), la care se adaugă<br />
şi categoria tranziţie.<br />
c) Compactarea regiunilor (vezi paragraful 4.4.3) urmăreşte asocierea regiunilor vecine<br />
de dimensiuni mici, având ca rezultat scăderea numărului total de regiuni, cu efect pozitiv asupra<br />
timpului de procesare.<br />
d) Clasificarea regiunilor (proces prezentat în capitolul 4.4) împarte cele patru categorii<br />
de semnal de la punctul b) în 10 clase distincte, clase care pot fi asociate cu reprezentarea sonoră<br />
a fonemelor limbii române.<br />
e) Segmentarea fonematică (capitolul 4.8) asociază simbolurile fonetice cu regiunile din<br />
semnal. Pentru aceasta, se foloseşte corpusul paralel text-voce de la punctul 5). Pe baza unor<br />
reguli speciale de asociere, se face o corespondenţă între grupurile fonetice prezente la intrarea<br />
de text cu secvenţele de regiuni detectate din semnalul vocal.<br />
TEXT<br />
SEMNAL<br />
secvenţă fonetică 1 ; secvenţă fonetică 2 ; secvenţă fonetică 3 . . .<br />
[Regiune 1] [Regiune 2] [Regiune 3] - - - [Regiune n] - - -<br />
Figura 7.6. Asocierea dintre grupurile fonematice şi secvenţele de regiuni<br />
7) Detecţia şi separarea silabelor din semnal<br />
După punerea în corespondenţă a secvenţelor fonematice cu regiunile din semnal,<br />
urmează faza de separare a silabelor utile din corpusul vocal. Pentru aceasta, s-a folosit o<br />
procedură semiautomată care selectează secvenţele dorite prin deplasarea capetelor intervalului<br />
de selecţie pe graniţele regiunilor fonematice. Regiunea selectată poate fi ajustată prin deplasarea<br />
manuală a marginilor ce au fost detectate în mod automat. Apoi regiunea corespunzătoare silabei<br />
dorite se salvează într-un fişier al bazei de date.<br />
T A T I T A T A D E T A<br />
Figura 7.7. Detecţia şi separarea silabelor din semnal<br />
250