Teza doctorat (pdf) - Universitatea Tehnică
Teza doctorat (pdf) - Universitatea Tehnică Teza doctorat (pdf) - Universitatea Tehnică
Cap. 7. Proiectarea sistemului de sinteză de voce în limba română Aceste unităţi silabice pot genera silabe care nu au fost cuprinse în baza de date vocală, dar care apar în componenţa unor cuvinte din dicţionar. Câteva exemple sunt date în tabelul următor: Tabelul 7.1. Unităţi silabice din afara dicţionarului care generează silabe din dicţionar Silabă Context Accent Notaţie 248 Cuvânt în dicţionar Silabă generată Cuvânt în dicţionar ce FIN ACC cé A F - cél A F acél de FIN ACC dé A F - dél A F modél ţe FIN ACC ţé A F - ţél A F oţél … zo FIN ACC zó A F - zót A F azót … 3) Înregistrarea digitală a rostirii După constituirea seturilor de cuvinte, s-a trecut la rostirea efectivă a acestora, în scopul înregistrării corpusului vocal. A fost ales un vorbitor masculin, urmărindu-se rostirea corpusul textual într-un ritm constant, cu o aceeaşi tonalitate a vocii. Construirea bazei de date a început efectiv odată cu procesul de înregistrare a rostirii vorbitorului uman, rostire care a inclus unităţile fonetice silabice în diferite contexte şi moduri de pronunţie. După cum am văzut, în baza de date nu au fost înregistrate toate silabele limbii române, ci doar un subset al acestora, silabele care n-au fost incluse fiind apoi generate pe baza celor existente. Procesul de înregistrare a semnalului vocal a presupus folosirea unei aparaturi speciale constituită dintr-un microfon, o placă digitizoare de semnal acustic, şi un program software specializat pentru lucrul cu fişiere audio. Autorul a folosit un microfon dinamic semiprofesional, o placă audio Creative SoundBlaster şi programul de digitizare audio Cool Edit Pro v2.0. Parametrii de înregistrare au fost următorii: înregistrare de tip uni-canal, frecvenţa de eşantionare: 16 kHz, dimensiunea eşantioanelor: 16 biţi, codificare: PCM, formatul fişierului audio: WAVE. 4) Normalizarea înregistrării În urma înregistrării, eşantioanele audio au urmat o fază de normalizare, adică de aducere a lor la o formă unitară în tot cuprinsul bazei vocale. Normalizarea presupune prelucrarea digitală a semnalului vocal înregistrat, proces care poate fi făcut manual sau semiautomat, prin intermediul unui program software specializat, sau automat, în cazul în care se proiectează algoritmi speciali de normalizare. Autorul a folosit o procedură semiautomată, disponibilă prin intermediul aplicaţiei Cool Edit Pro v2.0.
Cap. 7. Proiectarea sistemului de sinteză de voce în limba română În urma normalizării, corpusul vocal conţine toate înregistrările de aceeaşi amplitudine (rostirile prezentând aceeaşi tărie sonoră), precum şi frecvenţă fundamentală constantă (corespunzând unor rostiri de aceeaşi tonalitate, acelaşi ritm şi intonaţie constantă). În primul rând, aceste cerinţe legate de amplitudine şi frecvenţă fundamentală se referă la segmentele vocale care prezintă aceste caracteristici, cu alte cuvinte la segmentele corespunzătoare vocalelor fonetice. 5) Crearea corpusului paralel text-voce În vederea prelucrării semnalului şi descompunerii acestuia în unităţi acustice, înregistrările au fost salvate în fişiere audio în format WAVE. Fiecare fişier audio conţine una sau mai multe secvenţe de cuvinte din corpusul vorbit, depinzând de capacitatea vorbitorului de a păstra un ritm şi o tonalitate constante pe parcursul înregistrării. Pentru a realiza segmentarea automată a semnalului în regiuni fonematice a fost necesară utilizarea a două corpusuri în paralel, şi anume: corpusul vorbit, înregistrat în fişiere audio, şi respectiv corpusul textual corespondent. Astfel, odată cu salvarea fiecărui fişier audio, a fost stocat şi fişierul text asociat conţinutului său. VOCE TEXT Figura 7.4. Crearea corpusului paralel text-voce 6) Segmentarea semnalului vocal în regiuni fonematice Această etapă urmăreşte descompunerea semnalului vocal în regiuni corespunzătoare secvenţelor fonematice (şiruri de foneme). Această operaţie va d uce în final la separarea unităţilor silabice din semnalul vocal înregistrat. Paşii care au fost realizaţi sunt ilustraţi în figura 7.5. ANALIZA SEMNALULUI VOCAL Parametri de semnal FIS1.WAV FIS1.TXT SEGMENTARE S/U/V Regiuni de semnal FIS2.WAV FIS2.TXT COMPACTARE REGIUNI Regiuni compacte Figura 7.5. Paşii realizaţi pentru segmentarea semnalului în regiuni fonematice a) Analiza semnalului vocal presupune determinarea parametrilor semnalului utili în faza de segmentare. Conform paragrafului 4.2.1 (analiza în domeniul timp a semnalului vocal), au 249 FIS3.WAV FIS3.TXT CLASIFICARE REGIUNI Clase de regiuni ….. SEGMENTARE FONEMATICǍ Regiuni fonematice
- Page 216 and 217: {LIT}+{CONS}e/{SEP} {/* merge */ Ca
- Page 218 and 219: 200 Cap. 6. Metode de sinteză de v
- Page 220 and 221: 202 Cap. 6. Metode de sinteză de v
- Page 222 and 223: 204 Cap. 6. Metode de sinteză de v
- Page 224 and 225: silaba: SILABA { ProcesareSilaba($1
- Page 226 and 227: 208 Cap. 6. Metode de sinteză de v
- Page 228 and 229: 210 Cap. 6. Metode de sinteză de v
- Page 230 and 231: 212 Cap. 6. Metode de sinteză de v
- Page 232 and 233: 214 Cap. 6. Metode de sinteză de v
- Page 234 and 235: 216 Cap. 6. Metode de sinteză de v
- Page 236 and 237: 218 Cap. 6. Metode de sinteză de v
- Page 238 and 239: 220 Cap. 6. Metode de sinteză de v
- Page 240 and 241: 222 Cap. 6. Metode de sinteză de v
- Page 242 and 243: -----------------------------------
- Page 244 and 245: 6.4.6. Proiectarea bazei de date vo
- Page 246 and 247: 228 Cap. 6. Metode de sinteză de v
- Page 248 and 249: 6.4.6.3. Organizarea bazei de date
- Page 250 and 251: 232 Cap. 6. Metode de sinteză de v
- Page 252 and 253: silabă conţinând litera ă silab
- Page 254 and 255: 236 Cap. 6. Metode de sinteză de v
- Page 256 and 257: 238 Cap. 6. Metode de sinteză de v
- Page 258 and 259: 240 Cap. 6. Metode de sinteză de v
- Page 260 and 261: 7. Realizarea sistemului de sintez
- Page 262 and 263: Figura 7.2. Sistemul de sinteză a
- Page 264 and 265: 1) Crearea listei de silabe Cap. 7.
- Page 268 and 269: Cap. 7. Proiectarea sistemului de s
- Page 270 and 271: Cap. 7. Proiectarea sistemului de s
- Page 272 and 273: Cap. 7. Proiectarea sistemului de s
- Page 274 and 275: Baza de date vocală Cap. 7. Proiec
- Page 276 and 277: 1 Procesare Separator Procesare Cuv
- Page 278 and 279: Cap. 7. Proiectarea sistemului de s
- Page 280 and 281: Cap. 7. Proiectarea sistemului de s
- Page 282 and 283: Cap. 7. Proiectarea sistemului de s
- Page 284 and 285: 8. Concluzii finale Cercetările ef
- Page 286 and 287: 268 Cap. 8. Concluzii finale 11. A
- Page 288 and 289: 270 Cap. 8. Concluzii finale percep
- Page 290 and 291: 272 Cap. 8. Concluzii finale b) pen
- Page 292 and 293: 274 Cap. 8. Concluzii finale - nive
- Page 294 and 295: Bibliografie [And88] André-Obrecht
- Page 296 and 297: 278 Bibliografie Quality and Testin
- Page 298 and 299: 280 Bibliografie [Giu06] Giurgiu M.
- Page 300 and 301: 282 Bibliografie [Nag05] Nageshwara
- Page 302 and 303: 284 Bibliografie Research Institute
- Page 304 and 305: Anexa 2. Silabele din setul S2 dup
- Page 306 and 307: Anexa 2. Silabele din setul S2 dup
- Page 308 and 309: Anexa 3. Silabe din setul S3 după
- Page 310 and 311: Anexa 4. Silabe din setul S4 după
- Page 312 and 313: Anexa 4. Silabe din setul S4 după
- Page 314 and 315: 296 Anexa 5. Activitatea ştiinţif
Cap. 7. Proiectarea sistemului de sinteză de voce în limba română<br />
Aceste unităţi silabice pot genera silabe care nu au fost cuprinse în baza de date vocală,<br />
dar care apar în componenţa unor cuvinte din dicţionar. Câteva exemple sunt date în tabelul<br />
următor:<br />
Tabelul 7.1. Unităţi silabice din afara dicţionarului care generează silabe din dicţionar<br />
Silabă Context Accent Notaţie<br />
248<br />
Cuvânt în<br />
dicţionar<br />
Silabă<br />
generată<br />
Cuvânt în<br />
dicţionar<br />
ce FIN ACC cé A F - cél A F acél<br />
de FIN ACC dé A F - dél A F modél<br />
ţe FIN ACC ţé A F - ţél A F oţél<br />
…<br />
zo FIN ACC zó A F - zót A F azót<br />
…<br />
3) Înregistrarea digitală a rostirii<br />
După constituirea seturilor de cuvinte, s-a trecut la rostirea efectivă a acestora, în scopul<br />
înregistrării corpusului vocal. A fost ales un vorbitor masculin, urmărindu-se rostirea corpusul<br />
textual într-un ritm constant, cu o aceeaşi tonalitate a vocii.<br />
Construirea bazei de date a început efectiv odată cu procesul de înregistrare a rostirii<br />
vorbitorului uman, rostire care a inclus unităţile fonetice silabice în diferite contexte şi moduri de<br />
pronunţie. După cum am văzut, în baza de date nu au fost înregistrate toate silabele limbii<br />
române, ci doar un subset al acestora, silabele care n-au fost incluse fiind apoi generate pe baza<br />
celor existente.<br />
Procesul de înregistrare a semnalului vocal a presupus folosirea unei aparaturi speciale<br />
constituită dintr-un microfon, o placă digitizoare de semnal acustic, şi un program software<br />
specializat pentru lucrul cu fişiere audio. Autorul a folosit un microfon dinamic semiprofesional,<br />
o placă audio Creative SoundBlaster şi programul de digitizare audio Cool Edit Pro v2.0.<br />
Parametrii de înregistrare au fost următorii: înregistrare de tip uni-canal, frecvenţa de<br />
eşantionare: 16 kHz, dimensiunea eşantioanelor: 16 biţi, codificare: PCM, formatul fişierului<br />
audio: WAVE.<br />
4) Normalizarea înregistrării<br />
În urma înregistrării, eşantioanele audio au urmat o fază de normalizare, adică de aducere<br />
a lor la o formă unitară în tot cuprinsul bazei vocale. Normalizarea presupune prelucrarea<br />
digitală a semnalului vocal înregistrat, proces care poate fi făcut manual sau semiautomat, prin<br />
intermediul unui program software specializat, sau automat, în cazul în care se proiectează<br />
algoritmi speciali de normalizare. Autorul a folosit o procedură semiautomată, disponibilă prin<br />
intermediul aplicaţiei Cool Edit Pro v2.0.