Teza doctorat (pdf) - Universitatea Tehnică
Teza doctorat (pdf) - Universitatea Tehnică Teza doctorat (pdf) - Universitatea Tehnică
Cap. 7. Proiectarea sistemului de sinteză de voce în limba română 7.5. Rezultate experimentale şi dezvoltări de viitor În cadrul Facultăţii de Electronică, Telecomunicaţii şi Tehnologia Informaţiei din Cluj- Napoca, autorul a realizat un prototip al sistemului de sinteză vocală LIGHTVOX. Implementarea prototipului s-a făcut baza structurii cu cinci componente prezentate în paragraful 7.1: modulul de analiză lingvistică, modulul de analiză prozodică, modulul de gestiune a bazei de date vocale, modulul de potrivire a unităţilor fonetice şi modulul de sinteză propriu-zisă a rostirii. Etapele realizării sistemului au fost prezentate în paragrafele 7.3.1 şi 7.3.2. Mai întâi a fost construită baza de date acustică necesară pentru sinteză. În baza de date au fost înregistrate aproximativ 600 de unităţi acustice, foneme şi silabe, considerând atât silabele de segment median şi final, cât şi silabele accentuate şi neaccentuate: 386 de silabe alcătuite din două foneme, 139 de silabe tri-fonematice, 37 de silabe tetra-fonematice şi 36 de foneme singulare. Pentru conversia text-voce a fost realizată o interfaţă grafică prin care utilizatorul poate încărca un document text în fereastra aplicaţiei, pe care apoi îl poate audia prin intermediul vocii generate de sintetizator. Interfaţa aplicaţiei şi interacţiunea cu utilizatorul Interfaţa aplicaţiei este prezentată în figura 7.10: 1 2 3 4 Figura 7.10. Interfaţa aplicaţiei LIGHTVOX 260
Cap. 7. Proiectarea sistemului de sinteză de voce în limba română Se observă că interfaţa utilizator este simplă, uşor de utilizat chiar şi de către persoane cu disabilităţi vizuale; ea permite efectuarea următoarelor operaţii: 1. Operaţii efectuate asupra textului sursă : a) deschiderea unui fişier text în fereastra aplicaţiei (fişierul poate fi în format ASCII sau RTF): meniul File/Open, respectiv ALT+FO de la tastatură ; b) editarea textului direct în fereastra aplicaţiei : scriere/ştergere/selectare ; c) import/export de text dinspre/spre alte aplicaţii, prin intermediul Clipboard-ului: operaţiile COPY/CUT/PASTE (comenzile CTRL+C, CTRL+X, CTRL+V); c) salvarea textului pe hard-disk în cele două formate ASCII şi RTF: meniul File/Save, respectiv ALT+FS de la tastatură ; 2. Analiza lexicală a textului : a) despărţirea în silabe : toolbar button 1 sau comanda ALT+OS ; b) determinarea accentuaţiei : apăsarea succesivă a butonului 1 sau comanda ALT+OA; 3. Sinteza vocală a textului : a) sinteza întregului text din fereastra aplicaţiei: butonul 2 sau tasta F1. Sinteza textului poate fi oprită prin tasta ESC şi repornită din locul rămas (prin comanda F1) ; b) sinteza propoziţiei curente (propoziţia indicată de cursor): butonul 3 sau tasta F2; c) sinteza cuvântului curent (indicat de poziţia cursorului) : butonul 4 sau tasta F3. Aplicaţiile sistemului de sinteză vocală LIGHTVOX a. Sistemul se poate utiliza direct de către persoane cu disabilităţi vizuale sau nevăzători pentru citirea automată a textelor, prin utilizarea de comenzi simple de la tastatură ; b. Extinderea sistemului se poate face uşor şi pentru alte aplicaţii pentru nevăzători, precum: scrierea de texte asistată vocal de către calculator, aplicaţii de poştă electronică, citirea paginilor WEB, aplicaţii de tip bibliotecă electronică pentru nevăzători (în care, printr-un meniu interactiv vocal, nevăzătorul să-şi poată selecta un autor, o carte în format electronic, şi un capitol din acea carte, pe care sistemul îl va putea citi prin vocea sintetizată), etc. Rezultate şi observaţii experimentale În privinţa rezultatelor şi observaţiilor experimentale, s-a constatat o audiţie satisfăcătoare a textului sintetizat, care respectă prozodia segmentală (accentuarea cuvintelor) din limba română. Ceea ce se observă este fluenţa rostirii şi un grad ridicat de naturaleţe. Ca şi îmbunătăţiri viitoare, este clar că folosirea unor condiţii profesioniste de înregistrare a semnalului vocal şi utilizarea unei voci cu calităţi acustice superioare pot duce la creşterea semnificativă a calităţii rostirii sintetizate. Desigur că, pentru crearea unei noi baze de date vocale, de mare însemnătate va fi îmbunătăţirea algoritmilor de segmentare a semnalului vocal. Aceşti algoritmi, pe baza unei adnotări a corpusului textual folosit pentru crearea bazei de date vocale, vor fi capabili să extragă în mod automat unităţile fonetice silabice din semnalul vorbit. 261
- Page 228 and 229: 210 Cap. 6. Metode de sinteză de v
- Page 230 and 231: 212 Cap. 6. Metode de sinteză de v
- Page 232 and 233: 214 Cap. 6. Metode de sinteză de v
- Page 234 and 235: 216 Cap. 6. Metode de sinteză de v
- Page 236 and 237: 218 Cap. 6. Metode de sinteză de v
- Page 238 and 239: 220 Cap. 6. Metode de sinteză de v
- Page 240 and 241: 222 Cap. 6. Metode de sinteză de v
- Page 242 and 243: -----------------------------------
- Page 244 and 245: 6.4.6. Proiectarea bazei de date vo
- Page 246 and 247: 228 Cap. 6. Metode de sinteză de v
- Page 248 and 249: 6.4.6.3. Organizarea bazei de date
- Page 250 and 251: 232 Cap. 6. Metode de sinteză de v
- Page 252 and 253: silabă conţinând litera ă silab
- Page 254 and 255: 236 Cap. 6. Metode de sinteză de v
- Page 256 and 257: 238 Cap. 6. Metode de sinteză de v
- Page 258 and 259: 240 Cap. 6. Metode de sinteză de v
- Page 260 and 261: 7. Realizarea sistemului de sintez
- Page 262 and 263: Figura 7.2. Sistemul de sinteză a
- Page 264 and 265: 1) Crearea listei de silabe Cap. 7.
- Page 266 and 267: Cap. 7. Proiectarea sistemului de s
- Page 268 and 269: Cap. 7. Proiectarea sistemului de s
- Page 270 and 271: Cap. 7. Proiectarea sistemului de s
- Page 272 and 273: Cap. 7. Proiectarea sistemului de s
- Page 274 and 275: Baza de date vocală Cap. 7. Proiec
- Page 276 and 277: 1 Procesare Separator Procesare Cuv
- Page 280 and 281: Cap. 7. Proiectarea sistemului de s
- Page 282 and 283: Cap. 7. Proiectarea sistemului de s
- Page 284 and 285: 8. Concluzii finale Cercetările ef
- Page 286 and 287: 268 Cap. 8. Concluzii finale 11. A
- Page 288 and 289: 270 Cap. 8. Concluzii finale percep
- Page 290 and 291: 272 Cap. 8. Concluzii finale b) pen
- Page 292 and 293: 274 Cap. 8. Concluzii finale - nive
- Page 294 and 295: Bibliografie [And88] André-Obrecht
- Page 296 and 297: 278 Bibliografie Quality and Testin
- Page 298 and 299: 280 Bibliografie [Giu06] Giurgiu M.
- Page 300 and 301: 282 Bibliografie [Nag05] Nageshwara
- Page 302 and 303: 284 Bibliografie Research Institute
- Page 304 and 305: Anexa 2. Silabele din setul S2 dup
- Page 306 and 307: Anexa 2. Silabele din setul S2 dup
- Page 308 and 309: Anexa 3. Silabe din setul S3 după
- Page 310 and 311: Anexa 4. Silabe din setul S4 după
- Page 312 and 313: Anexa 4. Silabe din setul S4 după
- Page 314 and 315: 296 Anexa 5. Activitatea ştiinţif
- Page 316 and 317: 298 Anexa 5. Activitatea ştiinţif
- Page 318 and 319: Anexa 6. Lucrări ştiinţifice ale
- Page 320 and 321: O. Buza, G. Toderean, J. Domokos, A
- Page 322 and 323: O. Buza, G. Toderean, J. Domokos, A
- Page 324 and 325: O. Buza, G. Toderean, J. Domokos, A
- Page 326 and 327: O. Buza, G. Toderean, J. Domokos, A
Cap. 7. Proiectarea sistemului de sinteză de voce în limba română<br />
Se observă că interfaţa utilizator este simplă, uşor de utilizat chiar şi de către persoane cu<br />
disabilităţi vizuale; ea permite efectuarea următoarelor operaţii:<br />
1. Operaţii efectuate asupra textului sursă :<br />
a) deschiderea unui fişier text în fereastra aplicaţiei (fişierul poate fi în format ASCII sau<br />
RTF): meniul File/Open, respectiv ALT+FO de la tastatură ;<br />
b) editarea textului direct în fereastra aplicaţiei : scriere/ştergere/selectare ;<br />
c) import/export de text dinspre/spre alte aplicaţii, prin intermediul Clipboard-ului:<br />
operaţiile COPY/CUT/PASTE (comenzile CTRL+C, CTRL+X, CTRL+V);<br />
c) salvarea textului pe hard-disk în cele două formate ASCII şi RTF: meniul File/Save,<br />
respectiv ALT+FS de la tastatură ;<br />
2. Analiza lexicală a textului :<br />
a) despărţirea în silabe : toolbar button 1 sau comanda ALT+OS ;<br />
b) determinarea accentuaţiei : apăsarea succesivă a butonului 1<br />
sau comanda ALT+OA;<br />
3. Sinteza vocală a textului :<br />
a) sinteza întregului text din fereastra aplicaţiei: butonul 2 sau tasta F1. Sinteza textului<br />
poate fi oprită prin tasta ESC şi repornită din locul rămas (prin comanda F1) ;<br />
b) sinteza propoziţiei curente (propoziţia indicată de cursor): butonul 3 sau tasta F2;<br />
c) sinteza cuvântului curent (indicat de poziţia cursorului) : butonul 4 sau tasta F3.<br />
Aplicaţiile sistemului de sinteză vocală LIGHTVOX<br />
a. Sistemul se poate utiliza direct de către persoane cu disabilităţi vizuale sau<br />
nevăzători pentru citirea automată a textelor, prin utilizarea de comenzi simple de la tastatură ;<br />
b. Extinderea sistemului se poate face uşor şi pentru alte aplicaţii pentru nevăzători,<br />
precum: scrierea de texte asistată vocal de către calculator, aplicaţii de poştă electronică, citirea<br />
paginilor WEB, aplicaţii de tip bibliotecă electronică pentru nevăzători (în care, printr-un meniu<br />
interactiv vocal, nevăzătorul să-şi poată selecta un autor, o carte în format electronic, şi un<br />
capitol din acea carte, pe care sistemul îl va putea citi prin vocea sintetizată), etc.<br />
Rezultate şi observaţii experimentale<br />
În privinţa rezultatelor şi observaţiilor experimentale, s-a constatat o audiţie<br />
satisfăcătoare a textului sintetizat, care respectă prozodia segmentală (accentuarea cuvintelor) din<br />
limba română. Ceea ce se observă este fluenţa rostirii şi un grad ridicat de naturaleţe. Ca şi<br />
îmbunătăţiri viitoare, este clar că folosirea unor condiţii profesioniste de înregistrare a<br />
semnalului vocal şi utilizarea unei voci cu calităţi acustice superioare pot duce la creşterea<br />
semnificativă a calităţii rostirii sintetizate.<br />
Desigur că, pentru crearea unei noi baze de date vocale, de mare însemnătate va fi<br />
îmbunătăţirea algoritmilor de segmentare a semnalului vocal. Aceşti algoritmi, pe baza unei<br />
adnotări a corpusului textual folosit pentru crearea bazei de date vocale, vor fi capabili să extragă<br />
în mod automat unităţile fonetice silabice din semnalul vorbit.<br />
261