Teza doctorat (pdf) - Universitatea Tehnică

Teza doctorat (pdf) - Universitatea Tehnică Teza doctorat (pdf) - Universitatea Tehnică

users.utcluj.ro
from users.utcluj.ro More from this publisher
15.06.2013 Views

Cap. 7. Proiectarea sistemului de sinteză de voce în limba română 7.5. Rezultate experimentale şi dezvoltări de viitor În cadrul Facultăţii de Electronică, Telecomunicaţii şi Tehnologia Informaţiei din Cluj- Napoca, autorul a realizat un prototip al sistemului de sinteză vocală LIGHTVOX. Implementarea prototipului s-a făcut baza structurii cu cinci componente prezentate în paragraful 7.1: modulul de analiză lingvistică, modulul de analiză prozodică, modulul de gestiune a bazei de date vocale, modulul de potrivire a unităţilor fonetice şi modulul de sinteză propriu-zisă a rostirii. Etapele realizării sistemului au fost prezentate în paragrafele 7.3.1 şi 7.3.2. Mai întâi a fost construită baza de date acustică necesară pentru sinteză. În baza de date au fost înregistrate aproximativ 600 de unităţi acustice, foneme şi silabe, considerând atât silabele de segment median şi final, cât şi silabele accentuate şi neaccentuate: 386 de silabe alcătuite din două foneme, 139 de silabe tri-fonematice, 37 de silabe tetra-fonematice şi 36 de foneme singulare. Pentru conversia text-voce a fost realizată o interfaţă grafică prin care utilizatorul poate încărca un document text în fereastra aplicaţiei, pe care apoi îl poate audia prin intermediul vocii generate de sintetizator. Interfaţa aplicaţiei şi interacţiunea cu utilizatorul Interfaţa aplicaţiei este prezentată în figura 7.10: 1 2 3 4 Figura 7.10. Interfaţa aplicaţiei LIGHTVOX 260

Cap. 7. Proiectarea sistemului de sinteză de voce în limba română Se observă că interfaţa utilizator este simplă, uşor de utilizat chiar şi de către persoane cu disabilităţi vizuale; ea permite efectuarea următoarelor operaţii: 1. Operaţii efectuate asupra textului sursă : a) deschiderea unui fişier text în fereastra aplicaţiei (fişierul poate fi în format ASCII sau RTF): meniul File/Open, respectiv ALT+FO de la tastatură ; b) editarea textului direct în fereastra aplicaţiei : scriere/ştergere/selectare ; c) import/export de text dinspre/spre alte aplicaţii, prin intermediul Clipboard-ului: operaţiile COPY/CUT/PASTE (comenzile CTRL+C, CTRL+X, CTRL+V); c) salvarea textului pe hard-disk în cele două formate ASCII şi RTF: meniul File/Save, respectiv ALT+FS de la tastatură ; 2. Analiza lexicală a textului : a) despărţirea în silabe : toolbar button 1 sau comanda ALT+OS ; b) determinarea accentuaţiei : apăsarea succesivă a butonului 1 sau comanda ALT+OA; 3. Sinteza vocală a textului : a) sinteza întregului text din fereastra aplicaţiei: butonul 2 sau tasta F1. Sinteza textului poate fi oprită prin tasta ESC şi repornită din locul rămas (prin comanda F1) ; b) sinteza propoziţiei curente (propoziţia indicată de cursor): butonul 3 sau tasta F2; c) sinteza cuvântului curent (indicat de poziţia cursorului) : butonul 4 sau tasta F3. Aplicaţiile sistemului de sinteză vocală LIGHTVOX a. Sistemul se poate utiliza direct de către persoane cu disabilităţi vizuale sau nevăzători pentru citirea automată a textelor, prin utilizarea de comenzi simple de la tastatură ; b. Extinderea sistemului se poate face uşor şi pentru alte aplicaţii pentru nevăzători, precum: scrierea de texte asistată vocal de către calculator, aplicaţii de poştă electronică, citirea paginilor WEB, aplicaţii de tip bibliotecă electronică pentru nevăzători (în care, printr-un meniu interactiv vocal, nevăzătorul să-şi poată selecta un autor, o carte în format electronic, şi un capitol din acea carte, pe care sistemul îl va putea citi prin vocea sintetizată), etc. Rezultate şi observaţii experimentale În privinţa rezultatelor şi observaţiilor experimentale, s-a constatat o audiţie satisfăcătoare a textului sintetizat, care respectă prozodia segmentală (accentuarea cuvintelor) din limba română. Ceea ce se observă este fluenţa rostirii şi un grad ridicat de naturaleţe. Ca şi îmbunătăţiri viitoare, este clar că folosirea unor condiţii profesioniste de înregistrare a semnalului vocal şi utilizarea unei voci cu calităţi acustice superioare pot duce la creşterea semnificativă a calităţii rostirii sintetizate. Desigur că, pentru crearea unei noi baze de date vocale, de mare însemnătate va fi îmbunătăţirea algoritmilor de segmentare a semnalului vocal. Aceşti algoritmi, pe baza unei adnotări a corpusului textual folosit pentru crearea bazei de date vocale, vor fi capabili să extragă în mod automat unităţile fonetice silabice din semnalul vorbit. 261

Cap. 7. Proiectarea sistemului de sinteză de voce în limba română<br />

Se observă că interfaţa utilizator este simplă, uşor de utilizat chiar şi de către persoane cu<br />

disabilităţi vizuale; ea permite efectuarea următoarelor operaţii:<br />

1. Operaţii efectuate asupra textului sursă :<br />

a) deschiderea unui fişier text în fereastra aplicaţiei (fişierul poate fi în format ASCII sau<br />

RTF): meniul File/Open, respectiv ALT+FO de la tastatură ;<br />

b) editarea textului direct în fereastra aplicaţiei : scriere/ştergere/selectare ;<br />

c) import/export de text dinspre/spre alte aplicaţii, prin intermediul Clipboard-ului:<br />

operaţiile COPY/CUT/PASTE (comenzile CTRL+C, CTRL+X, CTRL+V);<br />

c) salvarea textului pe hard-disk în cele două formate ASCII şi RTF: meniul File/Save,<br />

respectiv ALT+FS de la tastatură ;<br />

2. Analiza lexicală a textului :<br />

a) despărţirea în silabe : toolbar button 1 sau comanda ALT+OS ;<br />

b) determinarea accentuaţiei : apăsarea succesivă a butonului 1<br />

sau comanda ALT+OA;<br />

3. Sinteza vocală a textului :<br />

a) sinteza întregului text din fereastra aplicaţiei: butonul 2 sau tasta F1. Sinteza textului<br />

poate fi oprită prin tasta ESC şi repornită din locul rămas (prin comanda F1) ;<br />

b) sinteza propoziţiei curente (propoziţia indicată de cursor): butonul 3 sau tasta F2;<br />

c) sinteza cuvântului curent (indicat de poziţia cursorului) : butonul 4 sau tasta F3.<br />

Aplicaţiile sistemului de sinteză vocală LIGHTVOX<br />

a. Sistemul se poate utiliza direct de către persoane cu disabilităţi vizuale sau<br />

nevăzători pentru citirea automată a textelor, prin utilizarea de comenzi simple de la tastatură ;<br />

b. Extinderea sistemului se poate face uşor şi pentru alte aplicaţii pentru nevăzători,<br />

precum: scrierea de texte asistată vocal de către calculator, aplicaţii de poştă electronică, citirea<br />

paginilor WEB, aplicaţii de tip bibliotecă electronică pentru nevăzători (în care, printr-un meniu<br />

interactiv vocal, nevăzătorul să-şi poată selecta un autor, o carte în format electronic, şi un<br />

capitol din acea carte, pe care sistemul îl va putea citi prin vocea sintetizată), etc.<br />

Rezultate şi observaţii experimentale<br />

În privinţa rezultatelor şi observaţiilor experimentale, s-a constatat o audiţie<br />

satisfăcătoare a textului sintetizat, care respectă prozodia segmentală (accentuarea cuvintelor) din<br />

limba română. Ceea ce se observă este fluenţa rostirii şi un grad ridicat de naturaleţe. Ca şi<br />

îmbunătăţiri viitoare, este clar că folosirea unor condiţii profesioniste de înregistrare a<br />

semnalului vocal şi utilizarea unei voci cu calităţi acustice superioare pot duce la creşterea<br />

semnificativă a calităţii rostirii sintetizate.<br />

Desigur că, pentru crearea unei noi baze de date vocale, de mare însemnătate va fi<br />

îmbunătăţirea algoritmilor de segmentare a semnalului vocal. Aceşti algoritmi, pe baza unei<br />

adnotări a corpusului textual folosit pentru crearea bazei de date vocale, vor fi capabili să extragă<br />

în mod automat unităţile fonetice silabice din semnalul vorbit.<br />

261

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!