Teza doctorat (pdf) - Universitatea Tehnică

Teza doctorat (pdf) - Universitatea Tehnică Teza doctorat (pdf) - Universitatea Tehnică

users.utcluj.ro
from users.utcluj.ro More from this publisher
15.06.2013 Views

8. Concluzii finale Cercetările efectuate în cadrul tezei au avut ca scop final dezvoltarea unei metode de sinteză a vorbirii adaptată specific limbii române precum şi a unei metodologii de lucru în vederea construirii unui sistem de sinteză vocală automată. Pentru aceasta, au fost studiate mai întâi modul de producere şi de percepţie a sunetului, proprietăţile fizice-acustice ale sunetului precum şi cele rezultate ca urmare a modelării sunetului ca un semnal. Au fost studiate modalităţile de procesare ale sunetului şi a fost dezvoltată o aplicaţie specială prin intermediul căreia au fost efectuate mai multe experimente în scopul îmbunătăţirii calităţii semnalului vorbit. S-au studiat diferite modalităţi de analiză a semnalului vocal, pentru extragerea şi modelarea parametrilor caracteristici. A fost creată o metodă proprie de segmentare a semnalului vocal capabilă să detecteze clase de regiuni cu proprietăţi specifice din semnalul vorbit, şi să le pună în corespondenţă cu tipurile de foneme din limba română. Această facilitate a fost utilizată pentru extragerea unităţilor acustice din semnalul vocal, unităţi ce vor fi folosite în procesul de sinteză. Mai departe, au fost studiate metodele cele mai performante de sinteză a vorbirii existente în momentul actual, ajungându-se la concluzia că metodele de sinteză bazate pe concatenarea unităţilor acustice de mărime medie/mică au raportul calitate/costuri cel mai avantajos. A fost aleasă astfel spre dezvoltare o metodă de sinteză bazată pe concatenarea silabelor. S-au definit în continuare paşii principali care trebuie urmaţi pentru ca, pornind de la un text de sintetizat, să se ajungă la generarea semnalului vocal corespondent. Mai întâi textul trebuie prelucrat în scopul transcrierii literale a numerelor şi abrevierilor. Apoi, textul va trebui să treacă printr-o fază de corectare ortografică, pentru a ne asigura că în faza de sinteză nu se vor produce distorsiuni ale rostirii datorită erorilor de sintaxă. Din textul corectat, se vor detecta apoi unităţile lingvistice de tipul silabelor împreună cu informaţia de accent, care va asigura prozodia segmentală a rostirii generate. Pentru fiecare din aceste etape amintite, şi anume: preprocesare, analiză de sintaxă, despărţirea în silabe, detectarea accentuării, s-au construit analizoare lexicale şi seturi de reguli speciale cu care s-au obţinut performanţe ridicate în analiza lingvistică a textului de sintetizat. A fost necesară proiectarea unei baze de date vocale care să furnizeze unităţile acustice necesare sintezei. Includerea unităţilor silabice în baza de date a ţinut cont de o statistică a silabelor din limba română, statistică ce a fost realizată utilizând analizorul propriu pentru despărţirea cuvintelor în silabe. În final, metoda de sinteză a fost implementată şi testată într-un sistem de sinteză vocală numit LIGHTVOX. Au fost definiţi paşii necesari în realizarea sistemului, care a decurs pe două direcţii principale: construirea bazei de date şi conversia text-voce. Rezultatele practice obţinute cu acest sistem de sinteză vocală au dovedit viabilitatea metodei propuse, a metodologiei de lucru, justificând eforturile depuse de autor pe durata a şase ani de studii şi cercetări în domeniul procesării automate a limbajului şi prelucrării semnalului vocal. 266

8.1. Principalele aspecte expuse în cadrul tezei 267 Cap. 8. Concluzii finale 1. La început a fost prezentată problematica sintezei de voce la modul general, oportunitatea temei alese, ţinând cont în primul rând de stadiul actual al cercetării în domeniul prelucrării vorbirii şi sintezei de voce. 2. A fost apoi expusă modalitatea producerii şi percepţiei vorbirii umane, fiind prezentat modelul producerii vorbirii. S-a făcut o clasificare a sunetelor produse de vocea umană şi s-au prezentat proprietăţile acustice ale sunetului. 3. S-a făcut o introducere în domeniul analizei şi prelucrării semnalului vocal, arătânduse mai întâi care sunt parametrii de bază ai semnalului vocal. Au fost prezentate principalele metode de procesare a semnalului vocal, metode de codare, metode şi standarde de compresie a semnalului vocal. 4. Au fost prezentate contribuţiile autorului în domeniul procesării semnalului vocal, aplicaţia de prelucrare digitală a semnalului vocal SPEA (Sound Processing and Enhancement Application), precum şi experimentele realizate asupra unor eşantioane reale de semnal audio şi vocal prin intermediul acestei aplicaţii. 5. Au fost prezentate modurile de analiză a semnalului vocal în scopul determinării parametrilor de bază ai acestuia: modul de analiză în domeniul timp şi modul de analiză în domeniul frecvenţă. La fiecare mod s-au arătat metodele specifice de determinare a parametrilor semnalului vocal. 6. Tot în cadrul domeniului analizei de semnal, s-au prezentat principiile segmentării semnalului vocal, cerinţele pe care trebuie să le îndeplinească algoritmii de segmentare, modalităţile şi etapele de detectare automată a segmentelor semnalului vocal. A fost extrasă din literatura de specialitate o metodă generică pentru segmentarea în domeniul timp, capabilă să detecteze diferite categorii de segmente, având proprietăţi specifice, din semnalul vocal. 7. Au fost prezentate contribuţiile aduse de autor în procesul segmentării automate a semnalului vocal, respectiv metoda proprie de segmentare în domeniul timp. S-au evidenţiat etapele algoritmului de segmentare precum şi rezultatele obţinute: detectarea a patru categorii fundamentale de semnal şi a zece clase de regiuni. 8. Au fost prezentate principiile procesului de segmentare fonematică, de asociere a segmentelor semnalului vocal cu secvenţele de foneme corespunzând semanticii (reprezentării textuale) a semnalului vorbit. Au fost expuse trei metode principale de segmentare fonematică, extrase din literatura de specialitate. 9. Au fost prezentate contribuţiile autorului în problematica segmentării fonematice a semnalului vocal, respectiv metoda de segmentare fonematică bazată pe reguli de asociere foneme-regiuni. S-au explicat paşii metodei, setul de reguli folosit, s-au prezentat rezultatele şi avantajele metodei. Au fost relevate aplicaţiile metodei de segmentare fonematică în procesul de construire a bazelor de date vocale. 10. Un alt capitol a fost dedicat prezentării domeniului sintezei vorbirii; a fost expus modelul general al sintezei vorbirii, sistemul de sinteză de tip text-to-speech, precum şi metodele de bază folosite în sinteza text-to-speech. Au fost descrise etapele procesului sintezei vocale pornind de la text.

8. Concluzii finale<br />

Cercetările efectuate în cadrul tezei au avut ca scop final dezvoltarea unei metode de<br />

sinteză a vorbirii adaptată specific limbii române precum şi a unei metodologii de lucru în<br />

vederea construirii unui sistem de sinteză vocală automată.<br />

Pentru aceasta, au fost studiate mai întâi modul de producere şi de percepţie a sunetului,<br />

proprietăţile fizice-acustice ale sunetului precum şi cele rezultate ca urmare a modelării sunetului<br />

ca un semnal. Au fost studiate modalităţile de procesare ale sunetului şi a fost dezvoltată o<br />

aplicaţie specială prin intermediul căreia au fost efectuate mai multe experimente în scopul<br />

îmbunătăţirii calităţii semnalului vorbit. S-au studiat diferite modalităţi de analiză a semnalului<br />

vocal, pentru extragerea şi modelarea parametrilor caracteristici. A fost creată o metodă proprie<br />

de segmentare a semnalului vocal capabilă să detecteze clase de regiuni cu proprietăţi specifice<br />

din semnalul vorbit, şi să le pună în corespondenţă cu tipurile de foneme din limba română.<br />

Această facilitate a fost utilizată pentru extragerea unităţilor acustice din semnalul vocal, unităţi<br />

ce vor fi folosite în procesul de sinteză.<br />

Mai departe, au fost studiate metodele cele mai performante de sinteză a vorbirii<br />

existente în momentul actual, ajungându-se la concluzia că metodele de sinteză bazate pe<br />

concatenarea unităţilor acustice de mărime medie/mică au raportul calitate/costuri cel mai<br />

avantajos. A fost aleasă astfel spre dezvoltare o metodă de sinteză bazată pe concatenarea<br />

silabelor.<br />

S-au definit în continuare paşii principali care trebuie urmaţi pentru ca, pornind de la un<br />

text de sintetizat, să se ajungă la generarea semnalului vocal corespondent. Mai întâi textul<br />

trebuie prelucrat în scopul transcrierii literale a numerelor şi abrevierilor. Apoi, textul va trebui<br />

să treacă printr-o fază de corectare ortografică, pentru a ne asigura că în faza de sinteză nu se vor<br />

produce distorsiuni ale rostirii datorită erorilor de sintaxă. Din textul corectat, se vor detecta apoi<br />

unităţile lingvistice de tipul silabelor împreună cu informaţia de accent, care va asigura prozodia<br />

segmentală a rostirii generate. Pentru fiecare din aceste etape amintite, şi anume: preprocesare,<br />

analiză de sintaxă, despărţirea în silabe, detectarea accentuării, s-au construit analizoare lexicale<br />

şi seturi de reguli speciale cu care s-au obţinut performanţe ridicate în analiza lingvistică a<br />

textului de sintetizat.<br />

A fost necesară proiectarea unei baze de date vocale care să furnizeze unităţile acustice<br />

necesare sintezei. Includerea unităţilor silabice în baza de date a ţinut cont de o statistică a<br />

silabelor din limba română, statistică ce a fost realizată utilizând analizorul propriu pentru<br />

despărţirea cuvintelor în silabe.<br />

În final, metoda de sinteză a fost implementată şi testată într-un sistem de sinteză vocală<br />

numit LIGHTVOX. Au fost definiţi paşii necesari în realizarea sistemului, care a decurs pe două<br />

direcţii principale: construirea bazei de date şi conversia text-voce. Rezultatele practice obţinute<br />

cu acest sistem de sinteză vocală au dovedit viabilitatea metodei propuse, a metodologiei de<br />

lucru, justificând eforturile depuse de autor pe durata a şase ani de studii şi cercetări în domeniul<br />

procesării automate a limbajului şi prelucrării semnalului vocal.<br />

266

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!