25.08.2013 Views

Rezumat teza - Facultatea de Electronica, Telecomunicatii si ...

Rezumat teza - Facultatea de Electronica, Telecomunicatii si ...

Rezumat teza - Facultatea de Electronica, Telecomunicatii si ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Investeşte în oameni!<br />

FONDUL SOCIAL EUROPEAN<br />

Programul Operaţional Sectorial Dezvoltarea Resurselor Umane 2007 – 2013<br />

FACULTATEA DE ELECTRONICĂ TELECOMUNICAŢII ŞI<br />

TEHNOLOGIA INFORMAŢIEI<br />

ing. Adriana Cornelia STAN<br />

TEZA DE DOCTORAT<br />

ROMANIAN HMM-BASED TEXT-TO-SPEECH SYNTHESIS<br />

WITH INTERACTIVE INTONATION OPTIMISATION<br />

SINTEZA TEXT-VORBIRE ÎN LIMBA ROMÂNĂ BAZATĂ PE MODELE<br />

MARKOV ŞI OPTIMIZAREA INTERACTIVĂ A INTONAŢIEI<br />

- REZUMAT -<br />

Comi<strong>si</strong>a <strong>de</strong> evaluare a tezei <strong>de</strong> doctorat:<br />

Conducător ştiinţific,<br />

Prof.dr.ing. Mircea GIURGIU<br />

PREŞEDINTE: - Prof.dr.ing. Dorin PETREUŞ - pro<strong>de</strong>can al Facultaţii <strong>de</strong> Electronică,<br />

Telecomunicaţii şi Tehnologia Informaţiei,<br />

Univer<strong>si</strong>tatea Tehnică din Cluj-Napoca;<br />

MEMBRI: - Prof.dr.ing. Mircea GIURGIU- conducător ştiinţific,<br />

Univer<strong>si</strong>tatea Tehnică din Cluj-Napoca;<br />

- Prof.dr.ing. Corneliu BURILEANU - referent,<br />

Univer<strong>si</strong>tatea Politehnica Bucureşti;<br />

- Prof.dr.ing. Horia-Nicolai TEODORESCU, m.c. A.R - referent,<br />

Univer<strong>si</strong>tatea Tehnică “Gh.Asachi” Iaşi;<br />

- Prof.dr.ing. Aurel VLAICU - referent,<br />

Univer<strong>si</strong>tatea Tehnică din Cluj-Napoca<br />

_______________________________________________2011________________________________________________


Sin<strong>teza</strong> text-vorbire în limba română bazată pe mo<strong>de</strong>le Markov ¸<strong>si</strong> optimizarea interactivă a intonat¸iei<br />

Cuprins<br />

1 Introducere 1<br />

1.1 Motivat¸ia tezei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1<br />

1.2 Obiectivele tezei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1<br />

1.3 Structura tezei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2<br />

2 Aspecte teoretice ale <strong>si</strong>ntezei vorbirii 3<br />

2.1 Sin<strong>teza</strong> text-vorbire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3<br />

2.2 Meto<strong>de</strong> <strong>de</strong> <strong>si</strong>nteză a vorbirii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3<br />

2.2.1 Sin<strong>teza</strong> bazată pe reguli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />

2.2.2 Sin<strong>teza</strong> bazată pe corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />

2.3 Sisteme <strong>de</strong> <strong>si</strong>nteză text-vorbire pentru limba română . . . . . . . . . . . . . . . . . . . 5<br />

3 Dezvoltarea resurselor necesare pentru un <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză parametrică în limba<br />

română 6<br />

3.1 Introducere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6<br />

3.2 Resurse <strong>de</strong> text . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6<br />

3.2.1 Corpusul <strong>de</strong> text . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6<br />

3.2.2 Transcrierea fonetică . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6<br />

3.2.3 Pozit¸ionarea accentului . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7<br />

3.2.4 Silabificare folo<strong>si</strong>nd principiul Maximal Onset . . . . . . . . . . . . . . . . . . . 7<br />

3.2.5 Adnotarea părt¸ii <strong>de</strong> vorbire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />

3.2.6 Lexiconul . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />

3.3 Resurse <strong>de</strong> vorbire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />

3.3.1 Select¸ia textului pentru înregistrări . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />

3.3.2 Propozit¸ii semantic impredictibile . . . . . . . . . . . . . . . . . . . . . . . . . 9<br />

3.3.3 Înregistrări la frecvent¸e <strong>de</strong> e¸santionare mari . . . . . . . . . . . . . . . . . . . . 10<br />

3.3.4 Segmentarea ¸<strong>si</strong> adnotarea datelor . . . . . . . . . . . . . . . . . . . . . . . . . . 10<br />

3.3.5 Corpusul <strong>de</strong> vorbire Romanian Speech Synthe<strong>si</strong>s (RSS) . . . . . . . . . . . . . 11<br />

3.3.6 Statistici ale textului înregistrat în corpusul RSS . . . . . . . . . . . . . . . . . 11<br />

4 Un <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză parametrică pentru limba română bazat pe mo<strong>de</strong>le Markov<br />

¸<strong>si</strong> frecvent¸e <strong>de</strong> e¸santionare mari 14<br />

4.1 Introducere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14<br />

4.2 Crearea unui <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză bazat pe mo<strong>de</strong>le Markov la frecvent¸e <strong>de</strong> e¸santionare mari 14<br />

4.2.1 Preprocesarea datelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14<br />

4.2.2 Configurarea parametrilor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />

4.3 Evaluare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />

4.3.1 Experiment 1 – Test <strong>de</strong> ascultare . . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />

4.3.2 Experiment 2 – Demonstrat¸ie interactivă online . . . . . . . . . . . . . . . . . . 18<br />

4.3.3 Experiment 3 – Adaptare la corpusul <strong>de</strong> vorbire cu opere literare . . . . . . . . 18<br />

5 O metodă <strong>de</strong> mo<strong>de</strong>lare a intonat¸iei in<strong>de</strong>pen<strong>de</strong>ntă <strong>de</strong> limbă 20<br />

5.1 Introducere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />

5.1.1 Problemele mo<strong>de</strong>lării F0 în <strong>si</strong>stemele <strong>de</strong> <strong>si</strong>nteză text-vorbire . . . . . . . . . . . 20<br />

5.1.2 Mo<strong>de</strong>le <strong>de</strong> intonat¸ie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21<br />

5.2 Parametrizarea F0 folo<strong>si</strong>nd transformata co<strong>si</strong>nus discretă . . . . . . . . . . . . . . . . 21<br />

5.2.1 Transformata co<strong>si</strong>nus discretă . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21<br />

5.2.2 Metoda propusă . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21<br />

i


Adriana Cornelia STAN<br />

5.2.3 Preprocesarea corpusului audio . . . . . . . . . . . . . . . . . . . . . . . . . . . 22<br />

5.2.4 Select¸ia atributelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22<br />

5.3 Evaluare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23<br />

5.3.1 Experiment 1 – Antrenarea arborilor <strong>de</strong> cla<strong>si</strong>ficare ¸<strong>si</strong> regre<strong>si</strong>e . . . . . . . . . . 23<br />

5.3.2 Experiment 2 – Predict¸ia coeficient¸ilor DCT folo<strong>si</strong>nd algoritmul <strong>de</strong> regre<strong>si</strong>e aditivă 24<br />

5.3.3 Experiment 3 – Test <strong>de</strong> ascultare . . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />

6 Optimizarea conturului F0 cu feedback interactiv al utilizatorilor non-expert¸i 26<br />

6.1 Introducere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />

6.2 Optimizarea interactivă a intonat¸iei folo<strong>si</strong>nd CMA-ES . . . . . . . . . . . . . . . . . . 26<br />

6.2.1 Cercetări conexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />

6.2.2 Parametrizarea DCT a conturului frecvent¸ei fundamentale la nivel <strong>de</strong> propozit¸ie 27<br />

6.2.3 Solut¸ia propusă . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />

6.3 Evaluare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />

6.3.1 Experiment 1 - Deviat¸ia standard init¸ială a populat¸iei . . . . . . . . . . . . . . 28<br />

6.3.2 Experiment 2 - Dimen<strong>si</strong>unea populat¸iei . . . . . . . . . . . . . . . . . . . . . . 29<br />

6.3.3 Experiment 3 - Expan<strong>si</strong>unea dinamică a frecvent¸ei fundamentale . . . . . . . . 30<br />

6.3.4 Experiment 4 - Test <strong>de</strong> ascultare . . . . . . . . . . . . . . . . . . . . . . . . . . 30<br />

7 Discut¸ii ¸<strong>si</strong> <strong>de</strong>zvoltări ulterioare 32<br />

7.1 Dezvoltarea resurselor pentru un <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză parametrică în limba română . . . 32<br />

7.2 Un <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză parametrică pentru limba română bazat pe mo<strong>de</strong>le Markov ¸<strong>si</strong><br />

frecvent¸e <strong>de</strong> e¸santionare mari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32<br />

7.3 O metodă <strong>de</strong> mo<strong>de</strong>lare a intonat¸iei in<strong>de</strong>pen<strong>de</strong>ntă <strong>de</strong> limbă . . . . . . . . . . . . . . . . 33<br />

7.4 Optimizarea conturului F0 cu feedback interactiv al utilizatorilor non-expert¸i . . . . . 33<br />

Contribut¸iile tezei 34<br />

Lista publicat¸iilor 38<br />

Selected Bibliography 38<br />

ii


Sin<strong>teza</strong> text-vorbire în limba română bazată pe mo<strong>de</strong>le Markov ¸<strong>si</strong> optimizarea interactivă a intonat¸iei<br />

1 Introducere<br />

1.1 Motivat¸ia tezei<br />

Sin<strong>teza</strong> vorbirii a <strong>de</strong>venit o tehnologie importantă în contextul interact¸iunii om-ma¸<strong>si</strong>nă. Cu toate că<br />

este un domeniu intens studiat, <strong>de</strong>pen<strong>de</strong>nt¸a <strong>de</strong> limbă face ca acesta să fie greu acce<strong>si</strong>bilă pentru marea<br />

majoritate a limbilor. Dacă pentru engleză, franceză, spaniolă sau germană <strong>de</strong> exemplu, spectrul<br />

<strong>de</strong> po<strong>si</strong>bilităt¸i variază <strong>de</strong> la <strong>si</strong>steme open-source configurabile <strong>de</strong> către utilizator, până la <strong>si</strong>steme<br />

comerciale, proprietare, <strong>de</strong> înaltă calitate, acesta nu este cazul ¸<strong>si</strong> pentru limba română. Lipsa resurselor<br />

disponibile în mod gratuit ingreunează <strong>de</strong>zvoltarea <strong>de</strong> către cercetători a unor <strong>si</strong>steme <strong>de</strong> <strong>si</strong>nteză<br />

complete sau a unor noi meto<strong>de</strong> <strong>de</strong> îmbunătăt¸ire a calităt¸ii vocilor <strong>si</strong>ntetizate. Sistemele <strong>de</strong> <strong>si</strong>nteză<br />

disponibile pentru limba română sunt în principal <strong>si</strong>steme comerciale sau bazate pe tehnologii <strong>de</strong>pă¸<strong>si</strong>te,<br />

cum ar fi <strong>si</strong>n<strong>teza</strong> formantică sau concatenarea difonemelor.<br />

O altă problemă ce se află în atent¸ia cercetătorilor este îmbunătăt¸irea prozodiei vorbirii <strong>si</strong>ntetizate.<br />

Rezultatele principalelor <strong>si</strong>steme <strong>de</strong> <strong>si</strong>nteză au un contur intonat¸ional plat, monoton ¸<strong>si</strong> neatractiv.<br />

Această problemă este rezolvată <strong>de</strong> obicei prin utilizarea meto<strong>de</strong>lor <strong>de</strong> mo<strong>de</strong>lare a conturului<br />

frecvent¸ei fundamentale ¸<strong>si</strong> controlul parametrilor în mod <strong>de</strong>terminist sau statistic. Majoritatea tehnicilor<br />

<strong>de</strong> parametrizare sau mo<strong>de</strong>lare se bazează pe un corpus extins <strong>de</strong> vorbire ¸<strong>si</strong> adnotarea manuală<br />

a intonat¸iei. Alte solut¸ii sunt <strong>de</strong>pen<strong>de</strong>nte <strong>de</strong> limbă ¸<strong>si</strong> implică tipare <strong>de</strong> accent sau frazare. Adaptarea<br />

acestor solut¸ii la limbi cu resurse limitate este greu <strong>de</strong> realizat.<br />

1.2 Obiectivele tezei<br />

Având în ve<strong>de</strong>re contextul prezentat anterior, principalul obiectiv al tezei este <strong>de</strong>zvoltarea unui <strong>si</strong>stem<br />

<strong>de</strong> <strong>si</strong>nteză text-vorbire pentru limba română, utilizând tehnologia <strong>de</strong> ultimă oră. Sistemul trebuie <strong>de</strong><br />

asemenea să permită adaptarea intonat¸iei. Astfel că obiectivele tezei pot fi separate în patru direct¸ii<br />

majore, după cum urmează:<br />

Obiectivul 1: Crearea unui corpus <strong>de</strong> vorbire <strong>de</strong> înaltă calitate în limba română ¸<strong>si</strong> a unui<br />

lexicon text asociat, care să permită antrenarea statistică a mo<strong>de</strong>lelor Markov,<br />

dar care să poată fi utilizat în paralel ¸<strong>si</strong> în cadrul altor aplicat¸ii bazate pe voce<br />

în limba română.<br />

Motivat¸ie: Nu există corpusuri <strong>de</strong> vorbire în limba română ce pot fi utilizate<br />

în antrenarea statistică a mo<strong>de</strong>lelor Markov.<br />

Obiectivul 2: Crearea unui <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză text-vorbire în limba română folo<strong>si</strong>nd tehnologii<br />

<strong>de</strong> ultimă oră, în principal <strong>si</strong>n<strong>teza</strong> parametrică bazată pe mo<strong>de</strong>le Markov.<br />

Motivat¸ie: Sistemele <strong>de</strong> <strong>si</strong>nteză text-vorbire pentru limba română folosesc fie<br />

<strong>si</strong>n<strong>teza</strong> formantică sau cea concatenativă. Aceste meto<strong>de</strong> <strong>de</strong> <strong>si</strong>nteză întâmpină<br />

dificultăt¸i în momentul în care se dore¸ste îmbunătăt¸irea naturalet¸ii sau a expre<strong>si</strong>vităt¸ii<br />

vorbirii <strong>si</strong>ntetizate.<br />

Obiectivul 3: Dezvoltarea unei tehnici noi <strong>de</strong> mo<strong>de</strong>lare a frecvent¸ei fundamentale, ce poate<br />

fi u¸sor aplicată în controlul intonat¸iei in<strong>de</strong>pen<strong>de</strong>nt <strong>de</strong> limbă.<br />

Motivat¸ie: Tehnicile <strong>de</strong> mo<strong>de</strong>lare a frecvent¸ei fundamentale existente nece<strong>si</strong>tă<br />

studii lingvistice extinse ¸<strong>si</strong> nu permit aplicarea lor in<strong>de</strong>pen<strong>de</strong>nt <strong>de</strong> limbă.<br />

Obiectivul 4: Dezvoltarea unei meto<strong>de</strong> <strong>de</strong> optimizare interactivă a intonat¸iei pentru vorbirea<br />

<strong>si</strong>ntetizată.<br />

Motivat¸ie: Chiar ¸<strong>si</strong> în <strong>si</strong>steme <strong>de</strong> <strong>si</strong>nteză <strong>de</strong> calitate înaltă, expre<strong>si</strong>vitatea<br />

vorbirii nu poate fi controlată <strong>de</strong> către utilizatorii non-expert¸i.<br />

1


Adriana Cornelia STAN<br />

1.3 Structura tezei<br />

Teza este organizată în 7 capitole, după cum urmează:<br />

Capitolul 1 <strong>de</strong>fine¸ste motivat¸ia ¸<strong>si</strong> obiectivele tezei ¸<strong>si</strong> prezintă <strong>de</strong> asemenea organizarea acesteia.<br />

Capitolul 2 oferă o privire <strong>de</strong> ansamblu asupra meto<strong>de</strong>lor <strong>de</strong> <strong>si</strong>nteză text-vorbire cu avantajele<br />

¸<strong>si</strong> <strong>de</strong>zavantajele aferente. O listă a <strong>si</strong>stemelor <strong>de</strong> <strong>si</strong>nteză disponibile pentru limba română este <strong>de</strong><br />

asemenea prezentată. Not¸iunile teoretice specifice sunt introduse în teză la capitolele corespunzătoare.<br />

Capitolul 3 prezintă modul <strong>de</strong> pregătire a resurselor necesare pentru un <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză parametrică<br />

în limba română. Capitolul <strong>de</strong>scrie uneltele ¸<strong>si</strong> procedurile <strong>de</strong> <strong>de</strong>zvoltare atât a resurselor text,<br />

cât ¸<strong>si</strong> a celor <strong>de</strong> vorbire. În cadrul resurselor text sunt prezentate următoarele aspecte: selectarea<br />

corpusului <strong>de</strong> text ¸<strong>si</strong> preprocesarea lui, transcrierea fonetică, pozit¸ionarea accentului, <strong>si</strong>labificarea ¸<strong>si</strong><br />

adnotarea părt¸ii <strong>de</strong> vorbire a cuvintelor. Resursele <strong>de</strong> vorbire includ înregistrarea unui corpus <strong>de</strong> voce<br />

extins ¸<strong>si</strong> <strong>de</strong> calitate înaltă (aprox. 4 ore) cu select¸ia textului <strong>de</strong> înregistrat ¸<strong>si</strong> segmentarea la nivel <strong>de</strong><br />

frază. Două elemente importante ale resurselor <strong>de</strong> vorbire le reprezintă o listă <strong>de</strong> propozit¸ii semantic<br />

impredictibile utilizate în evaluarea vorbirii <strong>si</strong>ntetizate ¸<strong>si</strong> pregătirea unui corpus <strong>de</strong> voce diponibil<br />

online în mod gratuit (Romanian Speech Synthe<strong>si</strong>s (RSS) corpus), ce inclu<strong>de</strong> înregistrările ¸<strong>si</strong> o serie<br />

<strong>de</strong> alte informat¸ii adit¸ionale: precum etichete HTS, pozit¸ionarea accentului pentru textul înregistrat<br />

sau exemple <strong>de</strong> vorbire <strong>si</strong>ntetizată folo<strong>si</strong>nd RSS.<br />

Capitolul 4 prezintă <strong>de</strong>zvoltarea unui <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză text-vorbire bazat pe mo<strong>de</strong>le Markov<br />

ascunse (HMM - Hid<strong>de</strong>n Markov Mo<strong>de</strong>l) pentru limba română pornind <strong>de</strong> la resursele prezentate<br />

în capitolul 3. Aspecte teoretice ale mo<strong>de</strong>lelor Markov ¸<strong>si</strong> ale <strong>si</strong>stemului HTS (HMM-based Speech<br />

Synthe<strong>si</strong>s System) sunt <strong>de</strong> asemenea prezentate. Pregătirea datelor necesare HTS este <strong>de</strong>scrisă sub<br />

formă <strong>de</strong> adnotare a textului, crearea întrebărilor utilizate <strong>de</strong> arborii <strong>de</strong> <strong>de</strong>cizie ¸<strong>si</strong> segmentarea ¸<strong>si</strong><br />

adnotarea corpusului <strong>de</strong> antrenare a mo<strong>de</strong>lelor Markov. Pe lângă elementul <strong>de</strong> noutate adus <strong>de</strong><br />

<strong>si</strong>stemul HTS pentru limba română, capitolul introduce ¸<strong>si</strong> o evaluarea a unor parametri <strong>de</strong> configurare<br />

ai <strong>si</strong>stemului. Rezultatele obt¸inute sunt evaluate apoi în cadrul unui test <strong>de</strong> ascultare (en. listening<br />

test) cu 3 sect¸iuni: naturalet¸e, <strong>si</strong>milaritate cu vorbitorul original ¸<strong>si</strong> inteligibilitate.<br />

Capitolul 5 <strong>de</strong>scrie o abordare nouă a parametrizării F0 folo<strong>si</strong>nd transformata co<strong>si</strong>nus discretă<br />

(DCT - Discrete Co<strong>si</strong>ne Transform). Capitolul începe prin analizarea unor tehnici comune <strong>de</strong> mo<strong>de</strong>lare<br />

a F0 ¸<strong>si</strong> potent¸iala lor aplicare într-un <strong>si</strong>stem ce nu utilizează informat¸ie adit¸ională, cu except¸ia celei<br />

prezente în text ¸<strong>si</strong> fără informat¸ie fonologică complexă. DCT a fost aleasă datorită <strong>si</strong>mplităt¸ii, a<br />

in<strong>de</strong>pen<strong>de</strong>nt¸ei <strong>de</strong> limbă, a capacităt¸ii înalte <strong>de</strong> mo<strong>de</strong>lare chiar ¸<strong>si</strong> cu un număr redus <strong>de</strong> caracteristici<br />

¸<strong>si</strong> <strong>de</strong> asemenea a transformatei inverse directe, utile în capitolul 6. Un mo<strong>de</strong>l superpozit¸ional folo<strong>si</strong>nd<br />

DCT este propus ¸<strong>si</strong> evaluat în contextul atât a mo<strong>de</strong>lării cât ¸<strong>si</strong> a predict¸iei conturului F0.<br />

Capitolul 6 utilizează rezultatele din capitolul 5 pentru a <strong>de</strong>fini o metodă interactivă <strong>de</strong> optimizare<br />

folo<strong>si</strong>nd strategii evolutive. Metoda folose¸ste coeficient¸ii DCT la nivel <strong>de</strong> propozit¸ie ai conturului F0<br />

în cadrul unui algoritm CMA-ES (Covariance Matrix Adaptation - Evolution Strategy). Elemente<br />

<strong>de</strong> bază ale teoriei calculului evolutiv sunt prezentate, cu accent pe strategiile evolutive ¸<strong>si</strong> în special<br />

CMA-ES. Evaluarea scenariului <strong>de</strong> aplicare a meto<strong>de</strong>i este apoi realizată. Aceasta inclu<strong>de</strong> analiza<br />

<strong>de</strong>viat¸iei standard init¸iale a populat¸iei, numărul <strong>de</strong> indivizi per generat¸ie ¸<strong>si</strong> expan<strong>si</strong>unea dinamică a<br />

conturului F0. Rezultatele <strong>de</strong> naturalet¸e ¸<strong>si</strong> expre<strong>si</strong>vitate din cadrul unui test <strong>de</strong> ascultare sunt apoi<br />

analizate.<br />

2<br />

Capitolul 7 prezintă contribut¸iile majore ale tezei, concluziile ¸<strong>si</strong> <strong>de</strong>zvoltările ulterioare.


Sin<strong>teza</strong> text-vorbire în limba română bazată pe mo<strong>de</strong>le Markov ¸<strong>si</strong> optimizarea interactivă a intonat¸iei<br />

2 Aspecte teoretice ale <strong>si</strong>ntezei vorbirii<br />

2.1 Sin<strong>teza</strong> text-vorbire<br />

Sin<strong>teza</strong> text-vorbire (TTS - Text-to-speech) este o metodă <strong>de</strong> a obt¸ine vorbire <strong>si</strong>milară celei umane<br />

pornind <strong>de</strong> la un text dat. Fig. 2.1 prezintă blocurile <strong>de</strong> bază ale unui <strong>si</strong>stem TTS. Procesul poate fi<br />

mai u¸sor înt¸eles dacă este realizată o paralelă cu învăt¸area unei limbi noi. Pornind <strong>de</strong> la un text într-o<br />

limbă necunoscută, primul pas este <strong>de</strong> a <strong>de</strong>termina segmentele <strong>de</strong> text ce trebuie preprocesate pentru<br />

o citire corectă, precum numere, abrevieri, neologisme etc. Apoi, fiecare literă trebuie transpusă într-o<br />

realizare acustică sau fonem. Corespon<strong>de</strong>nt¸a directă nu este suficientă, <strong>de</strong>oarece factori contextuali<br />

influent¸ează sunetul redat pentru o anumită literă. Având această succe<strong>si</strong>une corectă <strong>de</strong> foneme,<br />

acestea pot fi concatenate în <strong>si</strong>labe, cuvinte, propozit¸ii ¸s.a.m.d. Frazarea, durata ¸<strong>si</strong> o intonat¸ie <strong>si</strong>mplă<br />

sunt apoi <strong>de</strong>terminate. Iar în cele din urmă procesul fiziologic <strong>de</strong> producere a vorbirii este realizat,<br />

prin articularea mecanică a sunetelor. Dacă o persoană are un nivel mai avansat <strong>de</strong> cunoa¸stere a unei<br />

limbi, emfaza ¸<strong>si</strong> prozodia pot fi reproduse mult mai corect, chiar <strong>si</strong>milar cu un vorbitor nativ.<br />

PROCESARE TEXT<br />

‐ Normalizare text<br />

‐ Transcriere fonetică<br />

‐ Analiză <strong>si</strong>ntactică<br />

‐ Segmentare<br />

‐ Analiză semantică<br />

‐ Analiză prozodică, etc.<br />

SINTEZA VORBIRII<br />

‐ Selecţia parametrilor sau<br />

a segmentelor acustice<br />

‐ Control prozodic<br />

‐ Concatenare sau<br />

mo<strong>de</strong>larea parametrilor<br />

‐ Netezire<br />

‐ Sin<strong>teza</strong> vorbirii<br />

Intrare Text Ieşire audio<br />

Figura 2.1: Diagrama bloc a unui <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză text-vorbire<br />

În mod <strong>si</strong>milar, <strong>si</strong>stemele <strong>de</strong> <strong>si</strong>nteză text-vorbire au evoluat <strong>de</strong> la <strong>si</strong>mpla reproducere a sunetelor<br />

individuale prin tuburi <strong>de</strong> lemn, la <strong>si</strong>ntetizoare <strong>de</strong> ultimă generat¸ie ce utilizează analize semantice<br />

avansate ¸<strong>si</strong> care pot reda vorbire expre<strong>si</strong>vă <strong>de</strong> calitate înaltă. Întregul <strong>si</strong>stem este <strong>de</strong> obicei segmentat<br />

în două mari componente: procesarea textului ¸<strong>si</strong> <strong>si</strong>n<strong>teza</strong> vorbirii. Fiecare dintre acestea implică meto<strong>de</strong><br />

<strong>de</strong> analiză ¸<strong>si</strong> <strong>si</strong>nteză complexe ¸<strong>si</strong> întâmpină probleme specifice.<br />

Obiectivele unui <strong>si</strong>stem TTS potrivit [Taylor, 2009] sunt <strong>de</strong> a transmite corect mesajul către<br />

ascultător în termeni <strong>de</strong> inteligibilitate ¸<strong>si</strong> naturalet¸e, ¸<strong>si</strong> <strong>de</strong> a fi capabil să <strong>si</strong>ntetizeze orice text<br />

<strong>de</strong> intrare. Aceasta înseamnă că procesorul <strong>de</strong> text trebuie să fie capabil să transforme orice text <strong>de</strong><br />

intrare într-o secvent¸ă <strong>de</strong> etichete ¸<strong>si</strong> că <strong>si</strong>ntetizorul are capacitatea <strong>de</strong> a reda vorbire calitativă oricare<br />

ar fi secvent¸a <strong>de</strong> etichete <strong>de</strong> intrare.<br />

Nece<strong>si</strong>tatea unui <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză poate fi accentuată prin aplicat¸iile acestuia. Scopul init¸ial al unui<br />

TTS era <strong>de</strong> a facilita accesul persoanelor cu handicap <strong>de</strong> ve<strong>de</strong>re la informat¸ii ce nu sunt disponibile<br />

în alfabetul Braille. Odată cu aparit¸ia dispozitivelor <strong>de</strong> stocare analogice ¸<strong>si</strong> digitale, <strong>si</strong>stemele <strong>de</strong><br />

<strong>si</strong>nteză au fost utilizate în din ce în ce mai multe aplicat¸ii. Prin concatenarea segmentelor <strong>de</strong> vorbire<br />

preînregistrate, <strong>si</strong>stemele puteau reda un număr limitat <strong>de</strong> combinat¸ii dintre segmente. Acest tip<br />

<strong>de</strong> <strong>si</strong>ntetizor este utilizat în <strong>si</strong>stemele <strong>de</strong> răspuns automat pentru informat¸ii cu client¸ii, <strong>si</strong>steme GPS<br />

sau ATM. TTS mai avansate sunt utilizate în aplicat¸ii <strong>de</strong> dialog inteligent sau în combinat¸ie cu<br />

recunoa¸sterea automată a vorbirii, în aplicat¸ii <strong>de</strong> traducere voce-voce.<br />

2.2 Meto<strong>de</strong> <strong>de</strong> <strong>si</strong>nteză a vorbirii<br />

Producerea vorbirii este un proces complex ce implică un număr mare <strong>de</strong> resurse computat¸ionale ¸<strong>si</strong><br />

<strong>de</strong> memorie. In<strong>de</strong>pen<strong>de</strong>nt <strong>de</strong> sarcina ¸<strong>si</strong> mai complexă <strong>de</strong> purtare a unui dialog, chiar ¸<strong>si</strong> citirea cu voce<br />

tare a unui text implică antrenare ¸<strong>si</strong> procesare din partea vorbitorului. De-a lungul anilor au fost<br />

3


Adriana Cornelia STAN<br />

propuse mai multe meto<strong>de</strong> <strong>de</strong> <strong>si</strong>nteză. Primul <strong>si</strong>ntetizor electronic a fost VODER (Voice Operation<br />

DEmonstratoR) creat <strong>de</strong> Homer Dudley la Bell Laboratories în 1939 [Dudley, 1940]. VODER era<br />

capabil să producă doar două sunete <strong>de</strong> bază: un ton generat <strong>de</strong> către o valvă radio pentru sunetele<br />

sonore ¸<strong>si</strong> un zgomot alb produs <strong>de</strong> <strong>de</strong>scărcarea unui tub <strong>de</strong> gaz pentru sunetele nesonore. Sunetele<br />

<strong>de</strong> bază erau apoi trecute printr-o serie <strong>de</strong> filtre ¸<strong>si</strong> amplificatoare ce le combinau ¸<strong>si</strong> modulau pentru a<br />

produce vocale ¸<strong>si</strong> consoane. Pentru a produce vorbire era nevoie <strong>de</strong> o persoană care să opereze un set<br />

<strong>de</strong> pedale ¸<strong>si</strong> tastiere.<br />

Pornind <strong>de</strong> la metoda principală <strong>de</strong> generare a semnalului vocal, <strong>si</strong>ntetizoarele pot fi cla<strong>si</strong>ficate<br />

în <strong>si</strong>ntetizoare bazate pe reguli ¸<strong>si</strong> <strong>si</strong>ntetizoare bazate pe corpus. În cadrul <strong>si</strong>ntetizoarelor<br />

bazate pe reguli nu se utilizează segmente <strong>de</strong> vorbire preînregistrate, fiecare sunet fiind <strong>de</strong>finit <strong>de</strong> un<br />

set fix <strong>de</strong> parametri. Meto<strong>de</strong>le bazate pe corpus folosesc fie segmente întregi <strong>de</strong> vorbire înregistrată,<br />

fie o analiză directă a corpusului <strong>de</strong> vorbire, fiind astfel direct <strong>de</strong>pen<strong>de</strong>nte <strong>de</strong> acesta. Cea <strong>de</strong>-a doua<br />

metodă nu este con<strong>si</strong><strong>de</strong>rată o metodă pură <strong>de</strong> <strong>si</strong>nteză, cu toate că este cea mai <strong>de</strong>s folo<strong>si</strong>tă. Astfel că<br />

[Taylor, 2009] <strong>de</strong>fine¸ste <strong>si</strong>n<strong>teza</strong> vorbirii prin redarea unei secvent¸e <strong>de</strong> vorbire dintr-o resursă în care<br />

aceasta nu a mai fost rostită.<br />

2.2.1 Sin<strong>teza</strong> bazată pe reguli<br />

Sin<strong>teza</strong> formantică<br />

Sin<strong>teza</strong> formantică <strong>de</strong>fine¸ste un set <strong>de</strong> reguli privind modificarea frecvent¸ei fundamentale, a formant¸ilor<br />

¸<strong>si</strong> a altor parametri <strong>de</strong> la un sunet la altul [Huang et al., 2001]. Este bazată pe mo<strong>de</strong>lul sursăfiltru<br />

<strong>de</strong> producere a vorbirii. În <strong>si</strong>n<strong>teza</strong> formantică frecvent¸ele <strong>de</strong> rezonant¸ă ale formant¸ilor sunt<br />

reprezentate <strong>de</strong> un număr <strong>de</strong> filtre ce au ca intrare un tren <strong>de</strong> impulsuri pentru segmentele sonore ¸<strong>si</strong><br />

zgomot alb pentru segmentele nesonore. Cel mai reprezentativ mo<strong>de</strong>l <strong>de</strong> <strong>si</strong>nteză formantică este cel<br />

<strong>de</strong>scris <strong>de</strong> [Klatt, 1980], ce a <strong>de</strong>venit un produs comercial <strong>de</strong>numit MITalk [Allen et al., 1987].<br />

Prozodia în <strong>si</strong>n<strong>teza</strong> formantică poate fi realizată prin modificarea frecvent¸elor <strong>de</strong> rezonant¸ă sau a<br />

parametrilor filtrelor. Din păcate, aceasta implică un studiu extins al efectelor prozodice asupra F0<br />

sau a formant¸ilor. În [Wolf, 1981] anumite reguli <strong>de</strong> control a prozodiei sunt <strong>de</strong>finite, dar rezultatele<br />

lor nu pot fi generalizate, datorită caracteristicilor particulare ale analizei ¸<strong>si</strong> <strong>si</strong>ntezei parametrilor.<br />

Sin<strong>teza</strong> articulatorie<br />

Sin<strong>teza</strong> articulatorie are potent¸ialul <strong>de</strong> a <strong>de</strong>veni una dintre cele mai bune meto<strong>de</strong> <strong>de</strong> <strong>si</strong>nteză.<br />

Utilizează mo<strong>de</strong>le mecanice ¸<strong>si</strong> acustice <strong>de</strong> producere a vorbirii [Benesty et al., 2007]. Efectele fiziologice<br />

sunt mo<strong>de</strong>late, precum mi¸scarea limbii, a buzelor, a mandibulei sau dinamica tractului vocal ¸<strong>si</strong> a<br />

glottisului. Studii <strong>de</strong> biomecanică, aerodinamică ¸<strong>si</strong> acustică sunt implicate în proces.<br />

Prozodia nu este <strong>de</strong>ocamdată o problemă datorită stadiului incipient în care se află această metodă.<br />

2.2.2 Sin<strong>teza</strong> bazată pe corpus<br />

Sin<strong>teza</strong> concatenativă<br />

În cadrul acestei meto<strong>de</strong>, o propozit¸ie vocală este <strong>si</strong>ntetizată prin concatenarea unor segmente <strong>de</strong><br />

vorbire naturală preînregistrate. Segmentele sunt stocate într-o bază <strong>de</strong> date ¸<strong>si</strong> sunt in<strong>de</strong>xate prin<br />

cont¸inut fonetic ¸<strong>si</strong> markeri prozodici. Segmentele pot fi alcătuite din propozit¸ii întregi, cuvinte, <strong>si</strong>labe,<br />

difoneme sau chiar foneme. În funct¸ie <strong>de</strong> tipul <strong>de</strong> segment stocat în baza <strong>de</strong> date, <strong>si</strong>n<strong>teza</strong> concatenativă<br />

este fie cu inventar <strong>de</strong> dimen<strong>si</strong>une fixă – segmentele au aceea¸<strong>si</strong> dimen<strong>si</strong>une, fie cu select¸ia unităt¸ilor<br />

acustice – segmentele au lungimi variabile, iar <strong>si</strong>stemul <strong>de</strong>ci<strong>de</strong> segmentul optim pentru concatenare.<br />

Prozodia în cadrul <strong>si</strong>ntezei concatenative era obt¸inută init¸ial prin utilizarea unor corpusuri <strong>de</strong><br />

vorbire extinse (zeci <strong>de</strong> ore <strong>de</strong> înregistrări) ce inclu<strong>de</strong>au diferite realizări prozodice ale aceluia¸<strong>si</strong> segment<br />

vocal. Ulterior, odată cu aparit¸ia algoritmului PSOLA (Pitch Synchronous Overlap and Add)<br />

[Moulines and Charpentier, 1990] ¸<strong>si</strong> a altor tehnici avansate, prozodia poate fi controlată pentru fiecare<br />

segment în parte, cu riscul unei pier<strong>de</strong>ri <strong>de</strong> naturalet¸e. Cu toate acestea, cele mai bune rezultate sunt<br />

încă obt¸inute folo<strong>si</strong>nd corpusuri extinse.<br />

4


Sin<strong>teza</strong> text-vorbire în limba română bazată pe mo<strong>de</strong>le Markov ¸<strong>si</strong> optimizarea interactivă a intonat¸iei<br />

Sin<strong>teza</strong> parametrică statistică<br />

Sin<strong>teza</strong> parametrică bazată pe corpus implică utilizarea unui corpus <strong>de</strong> vorbire preînregistrat din<br />

care extrage un set specific <strong>de</strong> parametri. Astfel că <strong>si</strong>n<strong>teza</strong> vorbirii <strong>de</strong>vine o analiză statistică a corpusului<br />

<strong>de</strong> vorbire. Parametri sunt grupat¸i în funct¸ie <strong>de</strong> context sau caracteristici prozodice. Cea<br />

mai importantă tehnică parametrică este cea bazată pe mo<strong>de</strong>le Markov ascunse (HMM), un concept<br />

împrumutat din recunoa¸sterea automată a vorbirii. O dată cu introducerea <strong>si</strong>stemului HTS (H Triple<br />

S - HMM-based Speech Synthe<strong>si</strong>s System) [Zen et al., 2007b], această metodă a <strong>de</strong>venit alegerea speciali¸stilor<br />

din domeniul <strong>si</strong>ntezei <strong>de</strong> voce. În HTS, vorbirea este mo<strong>de</strong>lată cu 3 stări pentru fiecare fonem.<br />

Arbori <strong>de</strong> <strong>de</strong>cizie sunt utilizat¸i pentru gruparea contextuală a vectorilor <strong>de</strong> caracteristici. Caracteristicile<br />

contextuale includ elemente fonetice, accentuale ¸<strong>si</strong> <strong>si</strong>ntactice. Pornind <strong>de</strong> la o secvent¸ă <strong>de</strong> foneme<br />

t¸intă se <strong>de</strong>termină o secvent¸ă <strong>de</strong> stări HMM corespunzătoare folo<strong>si</strong>nd algoritmul ML (Maximum likelihood).<br />

Problemele <strong>de</strong> supra-netezire a secvent¸ei spectrale sunt rezolvate cu ajutorul principiului<br />

GV (Global Variance) [Toda and Tokuda, 2007], care maximizează variat¸ia dinamică a parametrilor<br />

vorbirii.<br />

Prozodia în HTS este obt¸inută prin modificarea arborilor <strong>de</strong> <strong>de</strong>cizie la nivel <strong>de</strong> F0 sau a secvent¸ei<br />

<strong>de</strong> stări generate în etapa <strong>de</strong> <strong>si</strong>nteză. Deoarece este o metodă parametrică bazată pe principiul ML,<br />

modificarea conturului F0 poate fi realizată fără a afecta caracteristicile spectrale ¸<strong>si</strong> astfel este relativ<br />

u¸sor să se testeze noi contururi F0 pentru aceea¸<strong>si</strong> propozit¸ie, fără a afecta naturalet¸ea vorbirii <strong>si</strong>ntetice.<br />

2.3 Sisteme <strong>de</strong> <strong>si</strong>nteză text-vorbire pentru limba română<br />

Sistemele <strong>de</strong> <strong>si</strong>nteză text-vorbire pentru limba română nu sunt atât <strong>de</strong> numeroase. Cu except¸ia<br />

câtorva <strong>si</strong>steme comerciale, calitatea <strong>si</strong>ntezei este relativ slabă. În continuare sunt enumerate <strong>si</strong>stemele<br />

disponibile pentru limba română. Se poate observa că meto<strong>de</strong>le <strong>de</strong> <strong>si</strong>nteză utilizate în <strong>si</strong>stemele pentru<br />

cercetare folosesc tehnologii <strong>de</strong>pă¸<strong>si</strong>te.<br />

• Ivona - Carmen www.ivona.com - select¸ia unităt¸ilor acustice - comercial<br />

• Nuance -Simona www.nuance.com - select¸ia unităt¸ilor acustice - comercial<br />

• Loquendo - Ioana www.loquendo.com - select¸ia unităt¸ilor acustice - comercial<br />

• AT&T Bell Labs - concatenare <strong>de</strong> difoneme, alofoni <strong>de</strong>pen<strong>de</strong>nt¸i <strong>de</strong> context sau chiar trifoneme<br />

• MBROLA http://tcts.fpms.ac.be/synthe<strong>si</strong>s/mbrola.html, [Dutoit et al., 1996] - concatenare<br />

<strong>de</strong> difoneme cu algoritm propriu <strong>de</strong> control al intonat¸iei ¸<strong>si</strong> a duratei<br />

• Romanian Formant Synthe<strong>si</strong>s [Jitcă et al., 2002] - <strong>si</strong>nteză formantică, cu o serie <strong>de</strong> meto<strong>de</strong><br />

<strong>de</strong> control a prozodiei [Jitcă et al., 2008], [Apopei and Jitcă 2005] or [Apopei and Jitcă 2007]<br />

• RomVox [Ferencz, 1997] - <strong>si</strong>nteză parametrică bazată pe LPC - permite modificarea manuală<br />

a unor parametri prozodici<br />

• RomSyn [Giurgiu and Peev, 2006] - concatenare <strong>de</strong> difoneme<br />

• LIGHTVOX [Buza, 2010] - concatenare <strong>de</strong> difoneme<br />

• BRVox [Bodo, 2009] - concatenare <strong>de</strong> difoneme cu atribuirea unor tipare prozodice <strong>si</strong>mple bazate<br />

pe cercetările lui [Hirst and Cristo, 1998]<br />

• Baum - Ancutza http://www.baum.ro/ - concatenare <strong>de</strong> difoneme - comercial<br />

• Phobos TTS http://www.phobos.ro/<strong>de</strong>mos/tts/in<strong>de</strong>x.html - bazat pe MBROLA<br />

• eSpeak http://espeak.sourceforge.net/ - <strong>si</strong>nteză formantică<br />

• LingvoSoft Talking Dictionary http://www.lingvosoft.com/ - indisponibil pentru testare<br />

5


Adriana Cornelia STAN<br />

3 Dezvoltarea resurselor necesare pentru un <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză parametrică<br />

în limba română<br />

3.1 Introducere<br />

Orice <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză text-vorbire nece<strong>si</strong>tă achizit¸ia preliminară a unor resurse <strong>de</strong>pen<strong>de</strong>nte <strong>de</strong> limbă<br />

pentru etapele <strong>de</strong> antrenare ¸<strong>si</strong> <strong>de</strong>zvoltare atât a procesorului <strong>de</strong> text, cât ¸<strong>si</strong> a <strong>si</strong>ntezei vorbirii. Resursele<br />

sunt esent¸iale pentru înt¸elegerea fenomenelor fonologice particulare ¸<strong>si</strong> conduc la o calitate crescută a<br />

<strong>si</strong>stemului rezultat.<br />

În contextul disponibilităt¸ii resurselor, limba română este con<strong>si</strong><strong>de</strong>rată ca fiind cu o limbă cu resurse<br />

limitate. O serie <strong>de</strong> grupuri <strong>de</strong> cercetare ¸<strong>si</strong>-au concentrat eforturile pentru a crea uneltele ¸<strong>si</strong> resursele<br />

necesare pentru studiul limbii române. Din păcate, <strong>de</strong> cele mai multe ori, aceste elemente nu sunt<br />

vizibile, standardizate sau publice.<br />

Pentru promovarea cercetării tehnologiei <strong>de</strong> voce în limba română, în special a <strong>si</strong>ntezei vorbirii,<br />

este necesară îmbunătăt¸irea infrastructurii existente, prin inclu<strong>de</strong>rea unor baze <strong>de</strong> date extinse ¸<strong>si</strong> a<br />

modulelor <strong>de</strong> procesare <strong>de</strong> text. Această teză oferă un set <strong>de</strong> resurse publice promovate pe internet<br />

¸<strong>si</strong> <strong>de</strong>monstrat¸iile aferente validării resurselor. Acestea nu sunt însă optimale, dar după cum vor arăta<br />

rezultatele, pot fi utilizate cu succes pentru un <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză parametrică bazată pe mo<strong>de</strong>le Markov.<br />

3.2 Resurse <strong>de</strong> text<br />

Elementele <strong>de</strong>scrise în sect¸iunile următoare cuprind uneltele, resursele ¸<strong>si</strong> preprocesarea datelor ce<br />

conduc la un <strong>si</strong>stem <strong>de</strong> adnotare în format HTS utilizat în <strong>si</strong>stemul <strong>de</strong> <strong>si</strong>nteză. În scopul acestui<br />

studiu, un nou procesor <strong>de</strong> text a fost <strong>de</strong>zvoltat, folo<strong>si</strong>nd Cereproc Development Frameword (CDF)<br />

[Aylett and Pidcock, 2007]. Datele <strong>de</strong>pen<strong>de</strong>nte <strong>de</strong> limbă au fost colectate, iar mo<strong>de</strong>le probabilistice au<br />

fost antrenate; procesorul <strong>de</strong> text crează etichete în format HTS ce cont¸in 53 <strong>de</strong> caracteristici specifice<br />

[Zen et al., 2007a].<br />

3.2.1 Corpusul <strong>de</strong> text<br />

Pentru crearea procesorului <strong>de</strong> text al unui TTS, primul pas îl constituie achizit¸ia unui corpus <strong>de</strong> text<br />

extins folo<strong>si</strong>t pentru antrenarea componentelor individuale. În perioada august-septembrie 2009, 4506<br />

articole <strong>de</strong> ziar cu peste 1.700.000 <strong>de</strong> cuvinte au fost colectate din ziarul ”A<strong>de</strong>vărul” online.<br />

Datorită faptului că autorii articolelor au folo<strong>si</strong>t modalităt¸i diferite <strong>de</strong> redactare ¸<strong>si</strong> tag-uri HTML<br />

în text, a fost nevoie <strong>de</strong> o preprocesare a articolelor. Aceasta a inclus normalizarea diacriticelor1 ,<br />

ortografiere corectă ¸<strong>si</strong> exclu<strong>de</strong>rea tag-urilor încorporate pentru link-uri ¸<strong>si</strong> vi<strong>de</strong>o. Rezultatul a fost o<br />

colect¸ie <strong>de</strong> articole scurte cu o medie <strong>de</strong> 15 rânduri pe articol.<br />

Din întreg corpusul <strong>de</strong> text, cele mai frecvente 65.000 <strong>de</strong> cuvinte au fost selectate. Acestea<br />

reprezintă lexiconul, ce a fost ulterior transcris fonetic ¸<strong>si</strong> s-a inserat pozit¸ionarea accentului pentru<br />

fiecare cuvânt. Cele 65.000 <strong>de</strong> cuvinte au fost verificate cu ajutorul bazei <strong>de</strong> date DEX online<br />

[DEX online-webpage, 2011]. Aceasta înseamnă că toate cuvintele există în limba română, au o transcriere<br />

ortografică corectă ¸<strong>si</strong> că nu există nume proprii sau neologisme în lexicon. 65.000 <strong>de</strong> cuvinte<br />

reprezintă 4% din totalul cuvintelor existente în baza <strong>de</strong> date DEX.<br />

3.2.2 Transcrierea fonetică<br />

Inventarul fonetic general al limbii române este alcătuit din 7 vocale, vocala scurtă i, 4 semivocale<br />

¸<strong>si</strong> 20 <strong>de</strong> consoane. Lingvi¸stii însă extind acest set <strong>de</strong> foneme prin alofoni ¸<strong>si</strong> pronunt¸ii except¸ionale<br />

[Giurgiu and Peev, 2006].<br />

Un avantaj important al utilizării HTS este că prin utilizarea grupării contextelor se pot <strong>de</strong>termina<br />

clase <strong>de</strong> foneme corespon<strong>de</strong>nte alofonilor, eliminând astfel nece<strong>si</strong>tatea unui vocabular fonetic extins.<br />

Aceasta duce la motivarea alegerii pentru experimente a unui set <strong>de</strong> numai 32 <strong>de</strong> foneme. Tabelul 3.1<br />

6<br />

1 Pentru limba romănă există două standar<strong>de</strong> <strong>de</strong> scriere a literelor ¸s ¸<strong>si</strong> t¸, unul cu virgulă ¸<strong>si</strong> unul cu cedilla


Sin<strong>teza</strong> text-vorbire în limba română bazată pe mo<strong>de</strong>le Markov ¸<strong>si</strong> optimizarea interactivă a intonat¸iei<br />

Tabel 3.1: Setul <strong>de</strong> foneme utilizat în transcrierea fonetică, în notat¸ie SAMPA.<br />

vocale a @ 1 e i o u i 0<br />

semivocale e X j o X w<br />

nazale m n<br />

plo<strong>si</strong>ve b d g k p t<br />

africate ts tS dZ<br />

fricative f v s z S Z h<br />

tril r<br />

aproximant l<br />

lini¸ste/pauză ‘<strong>si</strong>l’ ‘pau’<br />

prezintă setul utilizat în notat¸ie SAMPA 2 , un set minimal suficient pentru nece<strong>si</strong>tăt¸ile <strong>si</strong>stemului TTS<br />

<strong>de</strong>zvoltat.<br />

Limba română este în principal o limbă fonetică cu reguli literă-sunet relativ <strong>si</strong>mple ¸<strong>si</strong> directe.<br />

Cu toate acestea, există o serie <strong>de</strong> execept¸ii ce apar mai ales în secvent¸e <strong>de</strong> vocale, precum diftongi<br />

sau triftongi. Astfel că a fost aplicată o metodă u¸sor supervizată <strong>de</strong> transcriere fonetică, după cum<br />

urmează: din întreg corpusul <strong>de</strong> text au fost selectate cele mai frecvente 65.000 <strong>de</strong> cuvinte. Reguli<br />

init¸iale <strong>si</strong>mple <strong>de</strong> transcriere fonetică au fost redactate în fomat Festival <strong>de</strong> către un vorbitor nativ.<br />

Pe baza acestor reguli, întreg lexiconul a fost transcris. Un set <strong>de</strong> 1000 <strong>de</strong> cuvinte aleatoare au fost<br />

verificate manual. Folo<strong>si</strong>nd apoi algoritmi <strong>de</strong> cla<strong>si</strong>ficare ¸<strong>si</strong> regre<strong>si</strong>e (CART) [Breiman et al., 1984]<br />

regulile au fost reînvăt¸ate, iar lexiconul transcris din nou. Acuratet¸ea mo<strong>de</strong>lului obt¸inut este <strong>de</strong><br />

aprox. 87%, măsurată prin cross-validare. Un lexicon adit¸ional a fost pregă tit pentru a fi utilizat<br />

pentru neologisme ¸<strong>si</strong> nume proprii, a căror transcriere fonetică este greu <strong>de</strong> prezis din forma ortografică.<br />

Acest al doilea lexicon este verificat mai întâi ¸<strong>si</strong> doar apoi sunt aplicate regulile <strong>de</strong> transcriere fonetică.<br />

Exemple <strong>de</strong> transcriere fonetică obt¸inute sunt următoarele:<br />

3.2.3 Pozit¸ionarea accentului<br />

inedite i n e d i t e<br />

george dz e o@ r dz e<br />

excur<strong>si</strong>e e k s k u r s i e<br />

foarte f o@ a r t e<br />

În limba română accentul în cuvânt ca<strong>de</strong> <strong>de</strong> cele mai multe ori pe penultima <strong>si</strong>labă a unui cuvânt<br />

prozodic3 . Chiar dacă există un astfel <strong>de</strong> tipar <strong>de</strong> accent, orice formă morfologică <strong>de</strong>rivată va modifica<br />

această regulă aproximativ aleator [Chitoran, 2002].<br />

Din fericire, baza <strong>de</strong> date SQL a Dict¸ionarului Explicativ Român (DEX:http://<strong>de</strong>xonline.ro/)<br />

cont¸ine pozit¸ionarea accentului pentru toate intrările sale. Pe baza acestei informat¸ii direct din DEX,<br />

localizarea accentului pentru cele 65.000 <strong>de</strong> cuvinte din lexicon a fost stabilită. În <strong>si</strong>stemul TTS,<br />

acela¸<strong>si</strong> algoritm u¸sor supervizat ca ¸<strong>si</strong> pentru transcrierea fonetică a fost utilizat pentru pozit¸ionarea<br />

accentului.<br />

3.2.4 Silabificare folo<strong>si</strong>nd principiul Maximal Onset<br />

Există 7 reguli <strong>de</strong> <strong>si</strong>labificare pentru limba română care se aplică formei ortografice a cuvintelor. Dar<br />

acestea pot fi afectate <strong>de</strong> morfologie, precum cuvinte compuse sau legate cu cratimă.<br />

CDF utilizează pentru <strong>si</strong>labificare principiul Maximal Onset (MOP). Acest pricipiu preve<strong>de</strong> că<br />

majoritatea consoanelor intervocalice sunt atribuite maximal începutului unei <strong>si</strong>labe (en. onset) mai<br />

2 Speech Assessment Methods Phonetic Alphabet<br />

3 Cu except¸ia inflexiunilor ¸<strong>si</strong> a vocalelor inflexionale<br />

7


Adriana Cornelia STAN<br />

<strong>de</strong>grabă <strong>de</strong>cât finalului acesteia (en. coda), în conformitate cu condit¸ii universale ¸<strong>si</strong> <strong>de</strong>pen<strong>de</strong>nte <strong>de</strong><br />

limbă. MOP a fost evaluat pentru majoritatea limbilor europene ¸<strong>si</strong> obt¸ine o acuratet¸e medie <strong>de</strong> peste<br />

70%.<br />

MOP nu a fost aplicat anterior pentru limba română. Pentru a utiliza acest principiu, grupurile<br />

consonantice <strong>de</strong> onset ¸<strong>si</strong> vocalele nucleice au fost <strong>de</strong>finite. O evaluare part¸ială a fost realizată cu 500<br />

<strong>de</strong> cuvinte aleatoare <strong>si</strong>labificate manual. S-a obt¸inut o acuratet¸e medie <strong>de</strong> 75%.<br />

Una dintre except¸iile majore apare în grupurile vocală-semivocală-vocală, în care atât grupul<br />

vocală-semivocală cât ¸<strong>si</strong> cel semivocală-vocală pot fi diftongi. De exemplu cuvântul caiet cont¸ine<br />

grupurile vocalice a-i ¸<strong>si</strong> i-e, ambele putând fi diftongi. MOP va <strong>si</strong>labifica acest cuvânt cai-et, spre<br />

<strong>de</strong>osebire <strong>de</strong> ver<strong>si</strong>unea corectă ca-iet.<br />

O altă except¸ie este dată <strong>de</strong> cuvintele compuse, un<strong>de</strong> <strong>si</strong>labificarea este bazată pe <strong>de</strong>scompunere<br />

morfologică ¸<strong>si</strong> nu pe baza regulilor standard. Astfel că nici MOP nu poate <strong>si</strong>labifica în mod corect<br />

aceste cuvinte.<br />

3.2.5 Adnotarea părt¸ii <strong>de</strong> vorbire<br />

Adnotarea părt¸ii <strong>de</strong> vorbire (en.Part-of-speech tagging (POS)) este utilizată în principal pentru <strong>de</strong>zambiguarea<br />

cuvintelor, frazare sau accentuarea unor cuvinte în TTS. Pentru limba română, lucrările<br />

[Tufis et al., 2008], [Frunză et al., 2005] ¸<strong>si</strong> [Calacean and Nivre, 2009] <strong>de</strong>scriu rezultatele preliminare<br />

ale cercetării lor, însă resursele utilizate nu sunt disponibile. Există însă, un soft online bazat pe<br />

mo<strong>de</strong>le Markov [Sabou et al., 2008]. Cercetarea nu a fost publicată nicăieri, însă autorii raportează<br />

într-un document intern o acuratet¸e <strong>de</strong> aprox. 70%.<br />

Folo<strong>si</strong>nd această unealtă, întreg corpusul a fost segmentat la nivel <strong>de</strong> propozit¸iei ¸<strong>si</strong> adnotat cu<br />

partea <strong>de</strong> vorbire. Nu au fost realizate evaluări suplimentare ¸<strong>si</strong> astfel s-au folo<strong>si</strong>t doar două categorii<br />

<strong>de</strong> parte <strong>de</strong> vorbire: cuvinte funct¸ionale – includ substantive, verbe, adjective ¸<strong>si</strong> anumite adverbe<br />

– ¸<strong>si</strong> cuvinte <strong>de</strong> cont¸inut – restul cuvintelor.<br />

3.2.6 Lexiconul<br />

Pe baza resurselor <strong>de</strong> text create, transcrierea fonetică ¸<strong>si</strong> pozit¸ionarea accentului pentru cele mai<br />

frecvente 65,000 <strong>de</strong> cuvinte din corpusul <strong>de</strong> text au fost adunate în cadrul unui a¸sa numit lexicon.<br />

Un exemplu <strong>de</strong> intrare din lexicon este următoarea:<br />

abandoneze a0 b a0 n d o0 n e1 z e0<br />

Toate vocalele ¸<strong>si</strong> semivocalele au un marker <strong>de</strong> accent atrbuit. ”1” marchează accentul, iar ”0”<br />

lipsa acestuia. Poate să existe un <strong>si</strong>ngur accent per cuvânt.<br />

3.3 Resurse <strong>de</strong> vorbire<br />

Ca ¸<strong>si</strong> resursele <strong>de</strong> text, resursele <strong>de</strong> vorbire pentru limba română sunt put¸ine. Există o serie <strong>de</strong><br />

corpusuri <strong>de</strong> vorbire limitate, precum [Teodorescu et al., 2010] – o colect¸ie redusă <strong>de</strong> sunete ale limbii<br />

române (vocale, consoane, diftongi ¸<strong>si</strong> triftongi) ¸<strong>si</strong> câteva propozit¸ii cu diferite emot¸ii ¸<strong>si</strong> diferit¸i vorbitori.<br />

În [Kabir and Giurgiu, 2010] <strong>de</strong>zvoltarea unui corpus <strong>de</strong> limba română <strong>de</strong> tipul GRID este prezentat.<br />

Alte corpusuri reduse <strong>de</strong> vorbire mai sunt prezentate în [Giurgiu and Peev, 2006], [Bodo, 2009] ¸<strong>si</strong><br />

[Ferencz, 1997]. Toate bazele <strong>de</strong> date au fost construite pentru un scop precis ¸<strong>si</strong> nu pot fi aplicate în<br />

mod optim în cadrul altor <strong>si</strong>steme.<br />

3.3.1 Select¸ia textului pentru înregistrări<br />

I<strong>de</strong>ea <strong>de</strong> bază a corpusului <strong>de</strong> vorbire este <strong>de</strong> a putea fi utilizat în mai multe scenarii, <strong>de</strong> la recunoa¸sterea<br />

automată a vorbirii, la <strong>si</strong>n<strong>teza</strong> prin concatenare <strong>de</strong> difoneme sau select¸ia unităt¸ilor ¸<strong>si</strong> evi<strong>de</strong>nt pentru<br />

un <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză parametrică bazat pe mo<strong>de</strong>le Markov. Una dintre principalele cerint¸e ale unui<br />

<strong>si</strong>stem concatenativ bazat pe difoneme este acoperirea difonemelor 4 . Această cerint¸ă a fost obt¸inută<br />

8<br />

4 Corpusul <strong>de</strong> vorbire trebuie să cont¸ină toate combinat¸iile po<strong>si</strong>bile <strong>de</strong> foneme ale unei limbi.


Sin<strong>teza</strong> text-vorbire în limba română bazată pe mo<strong>de</strong>le Markov ¸<strong>si</strong> optimizarea interactivă a intonat¸iei<br />

prin înregistrarea unui set <strong>de</strong> propozit¸ii ce cont¸in mai multe aparit¸ii ale aceluia¸<strong>si</strong> difonem ¸<strong>si</strong> dacă e<br />

po<strong>si</strong>bil toate difonemele unei limbi. Select¸ia frazelor pentru limba română a fost realizată cu ajutorul<br />

CDF. Numărul <strong>de</strong> difoneme utilizat este <strong>de</strong> 731, pe baza aparit¸iei difonemului în cel put¸in 10 cuvinte<br />

ale bazei <strong>de</strong> date DEX online. Fiecare difonem a trebuit să apară în cel put¸in 3 contexte (începutul,<br />

mijlocul ¸<strong>si</strong> sfâr¸<strong>si</strong>tul cuvântului), iar fiecare context apare <strong>de</strong> 3 ori. CDF utilizează un algoritm greedy<br />

pentru select¸ia celor mai bune fraze. Aceasta înseamnă ca propozit¸ia să cont¸ină un număr maxim <strong>de</strong><br />

difoneme. Din păcate, algoritmul nu a reu¸<strong>si</strong>t să selecteze toate difonemele datorită corpusului <strong>de</strong> text<br />

limitat. Cu toate acestea, un set <strong>de</strong> 1000 <strong>de</strong> fraze au fost select¸ionate.<br />

Un avantaj important al <strong>si</strong>stemului HTS este po<strong>si</strong>bilitatea <strong>de</strong> a crea o vorbire apropiată <strong>de</strong> cea<br />

naturală folo<strong>si</strong>nd un set <strong>de</strong> date limitat, fără a utiliza meto<strong>de</strong> <strong>de</strong> preprocesare sau select¸ie. Pentru<br />

a testa această ipoteză, un set <strong>de</strong> 1500 <strong>de</strong> fraze aleatoare au fost selectate din corpusul <strong>de</strong> text cu<br />

articole <strong>de</strong> ziar. Corpusul este împărt¸iti în 3 subseturi: rnd1 , rnd2 ¸<strong>si</strong> rnd3 , fiecare cont¸inând în<br />

medie 500 <strong>de</strong> fraze.<br />

Init¸ial, corpusurile <strong>de</strong> vorbire pentru procesarea <strong>de</strong> voce erau alcătuite din opere literare, datorită<br />

disponibilităt¸ii ¸<strong>si</strong> a modului <strong>de</strong> utilizare a limbii. Pentru a se conforma cu aceste cerint¸e, înregistrările<br />

cont¸in două basme culte: ”Povestea lui Stan Păt¸itul” ¸<strong>si</strong> ”Ivan Turbincă” <strong>de</strong> Ion Creangă.<br />

Alegerea a fost făcută ¸<strong>si</strong> datorită prozodiei cu care sunt citite <strong>de</strong> obicei aceste texte. Fiecare dintre<br />

cele două basme sunt segmentate în fraze ¸<strong>si</strong> citite individual. S-au obt¸inut astfel 407 fraze pentru<br />

Povestea lui Stan Păt¸itul ¸<strong>si</strong> 297 pentru Ivan Turbincă.<br />

Propozit¸iile prezentate anterior, aleatoare, pentru acoperirea difonemelor ¸<strong>si</strong> cele două basme culte,<br />

reprezintă setul <strong>de</strong> antrenare al <strong>si</strong>stemului <strong>de</strong> <strong>si</strong>nteză. Din motive <strong>de</strong> testare, trei seturi adit¸ionale <strong>de</strong><br />

fraze au fost <strong>de</strong>zvoltate. Acestea includ 210 propozit¸ii aleatoare din articole <strong>de</strong> ziar, 110 propozit¸ii<br />

aleatoare din opere literare ¸<strong>si</strong> 216 propozit¸ii semantic impredictibile. Propozit¸iile semantic impredictibile<br />

(en. Semantically Unpredictable Sentence - SUS) sunt <strong>de</strong>scrise în sect¸iunea următoare ¸<strong>si</strong><br />

reprezintă un element important al evaluării <strong>si</strong>stemelor TTS.<br />

3.3.2 Propozit¸ii semantic impredictibile<br />

Propozit¸iile semantic impredictibile (SUS) au fost introduse ca ¸<strong>si</strong> un element obligatoriu în partea <strong>de</strong><br />

evaluare a inteligibilităt¸ii <strong>si</strong>stemelor TTS [Benoit et al., 1996]. I<strong>de</strong>ea din spatele lor este că ascultătorul<br />

nu ar trebui să facă preuspuneri privind cuvintele auzite pe baza contextului, sau a semanticii frazei.<br />

De exemplu, dacă s-ar spune Iarba este ver<strong>de</strong>, chiar dacă ascultătorul nu înt¸elege complet cuvântul<br />

ver<strong>de</strong>, poate să presupună cu o probabilitate mare că ultimul cuvânt este ver<strong>de</strong>.<br />

Pe baza ipotezelor anterioare, o propozit¸ie SUS este o propozit¸ie corectă din punct <strong>de</strong> ve<strong>de</strong>re<br />

gramatical, dar fără sens semantic. De exemplu: Piatra ascultă garajul.<br />

Pentru a crea astfel <strong>de</strong> propozit¸ii există o serie <strong>de</strong> indicat¸ii în [Benoit et al., 1996]. Primul pas<br />

este <strong>de</strong> a <strong>de</strong>termina un set <strong>de</strong> tipare semantice ce vor fi utilizate. Tiparele selectate pentru limba<br />

română sunt prezentate în Tabelul 3.2, iar categoriile reprezintă: Sbst - substantiv; SbstM - substantiv<br />

masculin; SbstF - substantiv feminin; VbIntranz - verb intranzitiv; VbTranz - verb tranzitiv; Prep -<br />

prepozit¸ie; Conj - conjunct¸ie ¸<strong>si</strong> WhWd - adverb interogativ, (cum, când, un<strong>de</strong>, cât).<br />

Cuvintele din categorii sunt selectate pentru a minimiza lungimea propozit¸iei. Acest lucru este<br />

important datorită faptului că memoria ascultătorului nu trebuia ¸<strong>si</strong> ea evaluată. S-a arătat că o medie<br />

<strong>de</strong> 5 cuvinte/propozit¸ie este suficientă în contextul unui test <strong>de</strong> ascultare. Lungimea propozit¸iei este<br />

dată ¸<strong>si</strong> <strong>de</strong> numărul <strong>de</strong> <strong>si</strong>labe cont¸inute, astfel că este necesară minimizarea ¸<strong>si</strong> a numărului <strong>de</strong> <strong>si</strong>labe<br />

cont¸inut. Cuvintele din propozit¸ii nu sunt repetate în cadrul setului <strong>de</strong>zvoltat. Exemple <strong>de</strong> propozit¸ii<br />

SUS sunt următoarele:<br />

Pier<strong>de</strong> paiul sau poporul.<br />

Cât prescrie rucsacul bobul acru?<br />

Cum lipe¸ste căminul ciclul bun?<br />

Cortul <strong>de</strong>scurcă ¸sahul care usucă.<br />

9


Adriana Cornelia STAN<br />

Tabel 3.2: Tiparele semantice pentru SUS pentru limba română. Ultima coloană reprezintă numărul<br />

<strong>de</strong> <strong>si</strong>labe <strong>de</strong>ja existente în propozit¸ie.<br />

Cuvânt1 Cuvânt2 Cuvânt3 Cuvânt4 Cuvânt5 Semn <strong>de</strong> Nr. <strong>de</strong><br />

punctuat¸ie <strong>si</strong>labe<br />

{Sbst} {VbIntranz} {Prep} {SbstM} {AdjM} . 0<br />

{Sbst} {VbIntranz} {Prep} {SbstF} {AdjF} . 0<br />

{SbstM} {AdjM} {VbTranz} {Sbst} - . 0<br />

{SbstF} {AdjF} {VbTranz} {Sbst} - . 0<br />

{VbTranz} {Sbst} {Conj} {Sbst} - . 0<br />

{WhWd} {VbTranz} {Sbst} {SbstM} {AdjM} ? 0<br />

{WhWd} {VbTranz} {Sbst} {SbstM} {AdjM} ? 0<br />

{Sbst} {VbTranz} {Sbst} care {VbTranz} . 2<br />

3.3.3 Înregistrări la frecvent¸e <strong>de</strong> e¸santionare mari<br />

Înregistrările textului au fost realizate într-o cameră hemianecoică 5 la Univer<strong>si</strong>tatea din Edinburgh,<br />

Centre for Speech Technology Research. Deoarece efectul microfonului asupra caracteristicilor vocii<br />

HTS nu este cunoscut încă, trei microfoane <strong>de</strong> calitate înaltă au fost utilizate: Neumann u89i,<br />

Sennheiser MKH 800 ¸<strong>si</strong> DPA 4035. Frecvent¸a <strong>de</strong> e¸santionare a înregistrărilor este <strong>de</strong> 96kHz, cu<br />

24 bit¸i per e¸santion, ¸<strong>si</strong> apoi sube¸santionate la 48kHz. Această metodă <strong>de</strong> suprae¸santionare este utilizată<br />

pentru reducerea zgomotului. Suprae¸santionarea cu un factor <strong>de</strong> 4 relativ la frecvent¸a Nyquist<br />

(24kHz) ¸<strong>si</strong> apoi sube¸santionarea la 48 kHz duce la o îmbunătăt¸iere a raportului semnal zgomot cu<br />

un factor <strong>de</strong> 4. Pentru înregistrări, sube¸santionare ¸<strong>si</strong> conver<strong>si</strong>a ratei <strong>de</strong> bit s-a folo<strong>si</strong>t software-ul<br />

profe<strong>si</strong>onal Pro Tools HD.<br />

Au fost realizate 8 se<strong>si</strong>uni <strong>de</strong> înregistrare <strong>de</strong>-a lungul unei luni, cu aproximativ 500 <strong>de</strong> fraze per<br />

se<strong>si</strong>une. La începutul fiecărei se<strong>si</strong>uni, vorbitorul a ascultat un segment din înregistrarea anterioară<br />

pentru a utiliza o calitate a vocii ¸<strong>si</strong> o intonat¸ie <strong>si</strong>milară. Prozodia utilizată pentru seturile aleator<br />

¸<strong>si</strong> <strong>de</strong> acoperire a difonemelor este una relativ plată, iar pentru basmele culte, una dinamică <strong>si</strong>milară<br />

tipului <strong>de</strong> intonat¸ie narativ, ceea ce înseamnă că acest subset are o <strong>de</strong>viat¸ie standard a F 0 mai mare<br />

<strong>de</strong>cât celălalte subseturi.<br />

3.3.4 Segmentarea ¸<strong>si</strong> adnotarea datelor<br />

După realizarea înregistrărilor, acestea au fost segmentate la nivel <strong>de</strong> propozit¸ie. Toate cele 4 ore <strong>de</strong><br />

înregistrări, atât din setul <strong>de</strong> antrenare, cât ¸<strong>si</strong> din cel <strong>de</strong> testare au fost adnotate manual la nivel <strong>de</strong><br />

frază ¸<strong>si</strong> segmentate utilizând Wavesurfer6 . Unele dintre fraze au fost eliminate datorită unor distor<strong>si</strong>uni<br />

sau pronunt¸ii incorecte.<br />

Setul <strong>de</strong> antrenare rezultat cont¸ine 983fraze pentru acoperirea difonemelor, cu o durată totală <strong>de</strong><br />

53 <strong>de</strong> minute, 1493 fraze aleatoare cu o durată <strong>de</strong> 104 minute ¸<strong>si</strong> basmele culte segmentate în 704 <strong>de</strong><br />

fraze <strong>de</strong> durată 67 <strong>de</strong> minute. Setul <strong>de</strong> testare este mai mic comparativ, cu o durată <strong>de</strong> 28 <strong>de</strong> minute.<br />

Cont¸ine 210 fraze din articole <strong>de</strong> ziar cu o durată <strong>de</strong> 13 minute, 110 fraze aleatoare din opere literare<br />

– 8 minute ¸<strong>si</strong> 216 propozit¸ii semantic impredictibile <strong>de</strong> 7 minute.<br />

Tabelul 3.3 prezintă numărul total <strong>de</strong> difoneme ¸<strong>si</strong> quinfoneme din setul <strong>de</strong> antrenare. Difonemele<br />

sunt utilizate <strong>de</strong> obicei în <strong>si</strong>steme concatenative <strong>de</strong> <strong>si</strong>nteză, iar quinfonemele în <strong>si</strong>stemele bazate pe<br />

mo<strong>de</strong>le Markov. Din coloana Difoneme/frază se poate observa că subsetul pentru acoperirea difonemelor<br />

este mai bine construit <strong>de</strong>cât cel aleator din punct <strong>de</strong> ve<strong>de</strong>re al numărului <strong>de</strong> difoneme<br />

disctincte per frază. În coloana Quinfoneme/frază însă setul <strong>de</strong> acoperire a difonemelor are rezultate<br />

mai slabe. Aceasta indică faptul că select¸ia textului pentru <strong>si</strong>stemul HTS trebuie să fie diferită <strong>de</strong> cea<br />

pentru <strong>si</strong>steme <strong>de</strong> concatenare a unităt¸ilor acustice.<br />

10<br />

5 peret¸i ¸<strong>si</strong> tavan anecoic, po<strong>de</strong>a part¸ial anecoică<br />

6 http://www.speech.kth.se/wavesurfer/


Sin<strong>teza</strong> text-vorbire în limba română bazată pe mo<strong>de</strong>le Markov ¸<strong>si</strong> optimizarea interactivă a intonat¸iei<br />

Tabel 3.3: Acoperirea fonetică a fiecărui subset din corpusul <strong>de</strong> antrenare.<br />

Subset Fraze Durata [min] Difoneme Difoneme/ Quinfon. Quinfon./<br />

frază frază<br />

Aleator 1493 104 662 0.44 41285 27.5<br />

Difoneme 983 53 706 0.71 26385 26.3<br />

Basme culte 704 67 646 0.65 29484 29.4<br />

3.3.5 Corpusul <strong>de</strong> vorbire Romanian Speech Synthe<strong>si</strong>s (RSS)<br />

Resursele <strong>de</strong> text ¸<strong>si</strong> vorbire prezentate până acum alcătuiesc structura unui corpus <strong>de</strong> vorbire <strong>de</strong>numit<br />

Romanian Speech Synthe<strong>si</strong>s (RSS). Acesta poate fi obt¸inut <strong>de</strong> la adresa http://www.romaniantts.<br />

com/new/rssdb/rssdb.html ¸<strong>si</strong> inclu<strong>de</strong> înregistrările setului <strong>de</strong> antrenare ¸<strong>si</strong> testare, transcrierea lor<br />

fonetică ¸<strong>si</strong> ortografică, etichetele HTS corespon<strong>de</strong>nte, pozit¸ionarea accentului ¸<strong>si</strong> exemple <strong>de</strong> semnal<br />

vocal <strong>si</strong>ntetizat cu <strong>si</strong>stemul TTS <strong>de</strong>zvoltat în cadrul acestei teze. Etichetele HTS pentru setul <strong>de</strong><br />

antrenare cont¸in alinierea temporală a fonemelor, iar cele din setul <strong>de</strong> testare nu.<br />

3.3.6 Statistici ale textului înregistrat în corpusul RSS<br />

Pentru a analiza elementele textuale prezente în RSS, anumite statistici au fost realizate pe subseturile<br />

aleator ¸<strong>si</strong> difonem [Stan and Giurgiu, 2010]. Acestea includ: cele mai frecvente <strong>si</strong>labe, cele mai<br />

frecvente difoneme, frecvent¸a fonemelor ¸<strong>si</strong> în contextul HTS, cele mai frecvente quinfoneme.<br />

Cele mai frecvente <strong>si</strong>labe<br />

Folo<strong>si</strong>nd etichetele HTS pentru subseturile cu fraze aleatoare din articole <strong>de</strong> ziar ¸<strong>si</strong> cel pentru<br />

acoperirea difonemelor, s-au stabilit cele mai frecvente <strong>si</strong>labe. De¸<strong>si</strong> nu există studii care să <strong>de</strong>termine<br />

influent¸a <strong>si</strong>labificării corecte asupra rezultatelor <strong>si</strong>stemului HTS, această informat¸ie este utilizată pentru<br />

crearea arborilor <strong>de</strong> <strong>de</strong>cizie. Tabelul 3.4 prezintă cele mai frecvente 20 <strong>de</strong> <strong>si</strong>labe ¸<strong>si</strong> frecvent¸ele lor<br />

relative, precum ¸<strong>si</strong> accentul lor. Există un total <strong>de</strong> 2920 <strong>de</strong> <strong>si</strong>labe diferite în subseturile RSS utilizate,<br />

ce însumează peste 48.000 <strong>de</strong> <strong>si</strong>labe. Rezultatele statistice sunt în corespon<strong>de</strong>nt¸ă cu rezultatele din<br />

[Buza, 2010] pentru un corpus <strong>de</strong> text extins.<br />

Tabel 3.4: Cele mai frecvente 20 <strong>de</strong> <strong>si</strong>labe ¸<strong>si</strong> frecvent¸ele relative în corpusul <strong>de</strong> vorbire selectat.<br />

Coloana Accent marchează accentul <strong>si</strong>labei (0-neaccentuat, 1-accentuat).<br />

Silaba Accent Frecvent¸a[%] Silaba Accent Frecvent¸a [%])<br />

a 0 3.02 ne 0 0.88<br />

te 0 2.36 nu 1 0.83<br />

<strong>de</strong> 1 2.13 tă 0 0.78<br />

a 1 1.69 ca 1 0.76<br />

re 0 1.55 ri 0 0.75<br />

le 0 1.32 <strong>de</strong> 0 0.72<br />

e 0 1.2 ce 0 0.7<br />

¸<strong>si</strong> 1 1.19 u 0 0.67<br />

la 1 1.03 să 1 0.67<br />

Frecvent¸a fonemelor<br />

Având în ve<strong>de</strong>re important¸a fonemelor în <strong>si</strong>stemul HTS, frecvent¸a lor relativă în cele două subseturi<br />

a fost calculată ¸<strong>si</strong> este prezentată în Tabelul 3.5. Se poate observa că fonemele cu cea mai<br />

mică frecvent¸ă sunt fricativele zh ¸<strong>si</strong> dz ¸<strong>si</strong> africativul h. Acestea au <strong>de</strong>terminat anumite probleme <strong>de</strong><br />

naturalet¸e în vorbirea <strong>si</strong>ntetică. Astfel că s-ar putea extin<strong>de</strong> într-o primă fază corpusul RSS pentru a<br />

inclu<strong>de</strong> mai multe exemple ale acestor foneme.<br />

11


Adriana Cornelia STAN<br />

Tabel 3.5: Frecvent¸ele fonemelor în corpusul <strong>de</strong> vorbire selectatat.<br />

Fonem Frecvent¸a[%] Fonem Frecvent¸a[%]<br />

e 10.64 ch 1.58<br />

a 10.33 a@ 1.49<br />

i 7.09 v 1.38<br />

r 6.78 sh 1.28<br />

t 6.67 f 1.26<br />

n 6.35 ij 1.14<br />

u 5.58 ts 1.08<br />

l 4.67 b 1.02<br />

s 4.12 z 0.92<br />

o 4.05 e@ 0.86<br />

k 3.74 w 0.73<br />

m 3.39 g 0.69<br />

p 3.18 o@ 0.47<br />

@ 3.13 zh 0.31<br />

d 3.10 dz 0.28<br />

j 2.41 h 0.13<br />

Tabel 3.6: Cele mai frecvente 20 <strong>de</strong> difoneme ¸<strong>si</strong> frecvent¸ele relative în corpusul <strong>de</strong> vorbire selectat.<br />

Cele mai frecvente difoneme<br />

Difonem Frecvent¸a [%] Difonem Frecvent¸a[%])<br />

r-e 1.47 n-t 1<br />

d-e 1.32 e-s 1<br />

t-e 1.28 u-n 0.96<br />

a-r 1.28 r-i 0.94<br />

a-t 1.17 e-n 0.94<br />

i-n 1.16 o-r 0.89<br />

a@-n 1.1 t-r 0.86<br />

s-t 1.06 l-e 0.83<br />

u-l 1.02 l-a 0.82<br />

e-r 1.02 ch-e 0.82<br />

Difonemele au fost principalele segmente utilizate pentru <strong>si</strong>n<strong>teza</strong> concatenativă, înainte <strong>de</strong> select¸ia<br />

unităt¸ilor. Important¸a lor este încă recunoscută în meto<strong>de</strong>le curente datorită efectelor <strong>de</strong> corelat¸ie<br />

dintre două foneme succe<strong>si</strong>ve. Tabelul 3.6 prezintă cele mai frecvente 20 <strong>de</strong> difoneme din subseturile<br />

selectate ¸<strong>si</strong> frecvent¸ele lor relative. Inventarul difonemelor din limba română inclu<strong>de</strong> 731 <strong>de</strong> difoneme<br />

distincte. Numărul total <strong>de</strong> difoneme din subseturile aleator ¸<strong>si</strong> difonem este <strong>de</strong> peste 120.000.<br />

Cele mai frecvente quinfoneme<br />

În cadrul <strong>si</strong>ntezei bazate pe mo<strong>de</strong>le Markov arborii <strong>de</strong> <strong>de</strong>cizie sunt construit¸i pe baza unor caracteristici<br />

lingvistice, iar cea mai importantă este contextul fonemului 7 Această informat¸ie este cunoscută ca<br />

¸<strong>si</strong> quinfonem 8 . Este importantă în construct¸ia unui corpus <strong>de</strong> vorbire pentru HTS, analiza acoperirii<br />

quinfonemelor. Acesta este însă un obiectiv impo<strong>si</strong>bil, <strong>de</strong>oarece chiar ¸<strong>si</strong> pentru cele 32 <strong>de</strong> foneme<br />

7 Fonemul <strong>de</strong> dinaintea fonemului anterior, fonemul anterior, fonemul curent, fonemul următor ¸<strong>si</strong> fonemul <strong>de</strong> după<br />

fonemul următor.<br />

8 Există 5 foneme ce <strong>de</strong>termină contextul fonemului<br />

12


Sin<strong>teza</strong> text-vorbire în limba română bazată pe mo<strong>de</strong>le Markov ¸<strong>si</strong> optimizarea interactivă a intonat¸iei<br />

Tabel 3.7: Cele mai frecvente 20 <strong>de</strong> quinfoneme ¸<strong>si</strong> frecvent¸ele relative în corpusul <strong>de</strong> vorbire selectat.<br />

Quinfonem Frecvent¸a[%] Quinfonem Frecvent¸a[%]<br />

j-e-s-t-e 0.187 o@-a-m-e-n 0.048<br />

e-n-t-r-u 0.182 a-w-f-o-s 0.047<br />

p-e-n-t-r 0.177 w-f-o-s-t 0.047<br />

a-ch-e-s-t 0.109 r-i-l-o-r 0.045<br />

a-f-o-s-t 0.093 e-z-e-ch-e 0.044<br />

o@-a-r-t-e 0.073 t-u-l-u-j 0.042<br />

f-o@-a-r-t 0.071 t-a-t-e-a 0.041<br />

p-r-e-z-e 0.066 t-r-e-b-u 0.041<br />

u-r-i-l-e 0.056 a@-n-ch-e-p 0.039<br />

e-k-a-r-e 0.055 s-p-u-n-e 0.038<br />

utilizate pentru limba română, numărul <strong>de</strong> foneme po<strong>si</strong>bile ar fi <strong>de</strong> peste 270.000.<br />

În subseturile selectate există aproximativ 57.000 <strong>de</strong> quinfoneme diferite cu un număr total <strong>de</strong><br />

110.000 <strong>de</strong> aparit¸ii, ceea ce înseamnă că există o acoperire <strong>de</strong> aproximativ 25% cu o medie <strong>de</strong> aparit¸ie<br />

<strong>de</strong> 2. Tabelul 3.7 prezintă cele mai frecvente 20 <strong>de</strong> quinfoneme ¸<strong>si</strong> frecvent¸ele lor relative.<br />

13


Adriana Cornelia STAN<br />

4 Un <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză parametrică pentru limba română bazat pe<br />

mo<strong>de</strong>le Markov ¸<strong>si</strong> frecvent¸e <strong>de</strong> e¸santionare mari<br />

4.1 Introducere<br />

Sin<strong>teza</strong> parametrică statistică bazată pe mo<strong>de</strong>le Markov [Zen et al., 2009] a fost intens studiată ¸<strong>si</strong> a<br />

<strong>de</strong>venit astfel o metodă importantă pentru <strong>si</strong>stemele <strong>de</strong> <strong>si</strong>nteză text-vorbire. Sistemul HTS (HMMbased<br />

Speech Synthe<strong>si</strong>s System) [Zen et al., 2007a] este principalul cadru soft ce permite <strong>de</strong>zvoltarea<br />

aplicat¸iilor <strong>de</strong> <strong>si</strong>nteză parametrică pentru noi limbi. HTS are abilitatea <strong>de</strong> a genera vorbire <strong>si</strong>ntetizată<br />

aproape naturală, iar în ultimii ani, anumite <strong>si</strong>steme bazate pe HMM au atins performant¸e comparabile<br />

cu ale <strong>si</strong>stemelor <strong>de</strong> <strong>si</strong>nteză cu select¸ia unităt¸ilor <strong>de</strong> ultimă generat¸ie [Karaiskos et al., 2008] în<br />

ceea ce prive¸ste naturalet¸ea ¸<strong>si</strong> inteligibilitatea. Cu toate acestea, o problemă rămâne <strong>si</strong>milaritatea<br />

cu vorbitorul original [Yamagishi et al., 2008b]. Motive po<strong>si</strong>bile pentru <strong>si</strong>milaritatea redusă sunt utilizarea<br />

voco<strong>de</strong>r-ului ¸<strong>si</strong> configurarea parametrilor HTS, precum frecvent¸a <strong>de</strong> e¸santionare sau metoda <strong>de</strong><br />

analiză. Aceste probleme sunt revizuite în cadrul acestui capitol pentru a <strong>de</strong>termina dacă parametri<br />

actuali <strong>de</strong> configurare sunt satisfăcători în special pentru <strong>si</strong>milaritatea cu vorbitorul original.<br />

Corpusul RSS este <strong>de</strong> asemenea evaluat pentru a <strong>de</strong>termina setul optim <strong>de</strong> date <strong>de</strong> antrenare<br />

pentru o vorbire <strong>si</strong>ntetizată <strong>de</strong> calitate. Se testează astfel o serie <strong>de</strong> combinat¸ii ale subseturilor din<br />

RSS pentru a antrena mo<strong>de</strong>lele Markov. Sect¸iunea 4.3 raportează rezultatele unui test <strong>de</strong> ascultare<br />

<strong>de</strong> tip Blizzard Challenge [Karaiskos et al., 2008] pentru evaluarea <strong>si</strong>ntezei pe bază <strong>de</strong> HMM folo<strong>si</strong>nd<br />

frecvent¸e <strong>de</strong> e¸santionare mari, precum ¸<strong>si</strong> a unui <strong>si</strong>stem minimal bazat pe select¸ia unităt¸ilor acustice.<br />

Rezultatele sugerează că o frecvent¸ă <strong>de</strong> e¸santionare mai mare are un efect substant¸ial asupra <strong>si</strong>ntezei<br />

HTS.<br />

4.2 Crearea unui <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză bazat pe mo<strong>de</strong>le Markov la frecvent¸e <strong>de</strong><br />

e¸santionare mari<br />

S-a utilizat un <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză bazat pe mo<strong>de</strong>le Markov recent, <strong>de</strong>scris în [Zen et al., 2007b]. Acesta<br />

utilizează un set <strong>de</strong> mo<strong>de</strong>le Markov semi-ascunse (HSMM) [Zen et al., 2007c] cu distribut¸ie multispat¸ială<br />

(MSD) [Tokuda et al., 2002] <strong>de</strong>pen<strong>de</strong>nte <strong>de</strong> context ¸<strong>si</strong> <strong>de</strong> limbă [Shinoda and Watanabe, 2000]<br />

ce mo<strong>de</strong>lează trei tipuri <strong>de</strong> parametri necesari pentru voco<strong>de</strong>rul STRAIGHT [Kawahara et al., 1999]<br />

cu excitat¸ie mixtă. O dată ce etichetele <strong>de</strong>pen<strong>de</strong>nte <strong>de</strong> context ¸<strong>si</strong> <strong>de</strong> limbă sunt <strong>de</strong>finite <strong>de</strong> procesorul<br />

<strong>de</strong> text, <strong>si</strong>stemul este practic in<strong>de</strong>pen<strong>de</strong>nt <strong>de</strong> limbă ¸<strong>si</strong> poate fi utilizat direct asupra datelor. Frecvent¸a<br />

<strong>de</strong> e¸santionare afectează însă metoda <strong>de</strong> extragere a caracteristicilor ¸<strong>si</strong> în mod indirect antrenarea<br />

mo<strong>de</strong>lelor HMM prin ordinul <strong>de</strong> analiză a caracteristicilor spectrale.<br />

În continuare sunt prezentate meto<strong>de</strong>le <strong>de</strong> preprocesare a datelor necesare HTS ¸<strong>si</strong> <strong>de</strong> asemenea<br />

metoda <strong>de</strong> configurare a parametrilor acestuia.<br />

4.2.1 Preprocesarea datelor<br />

Cerint¸ele HTS pentru adnotarea textului<br />

Deoarece scopul acestei teze este <strong>de</strong> a studia <strong>si</strong>n<strong>teza</strong> vorbirii ¸<strong>si</strong> nu neapărat procesarea textului, un<br />

procesor <strong>de</strong> text minimal a fost creat pentru limba română folo<strong>si</strong>nd Cereproc Development Framework<br />

[Aylett and Pidcock, 2007]. Principala utilitate a acestui procesor <strong>de</strong> text este <strong>de</strong> a crea etichete în<br />

format HTS pornind <strong>de</strong> la textul în formă brută. Nu s-a utilizat normalizarea textului, iar regulile <strong>de</strong><br />

transcriere fonetică sunt <strong>si</strong>mplificate. Resursele text prezentate în capitolul 3 reprezintă baza procesorului<br />

<strong>de</strong> text. CDF este un software comercial, astfel că anumite aspecte intrinseci ale implementării<br />

nu sunt făcute publice.<br />

Din setul complet <strong>de</strong> caracteristici necesare HTS, o parte au fost lăsate <strong>de</strong>oparte sau au o formă<br />

redusă datorită lipsei cuno¸stint¸elor sau a resurselor disponibile.<br />

Întrebări din arborii <strong>de</strong> <strong>de</strong>cizie pentru limba română<br />

Mo<strong>de</strong>lele HMM sunt grupate folo<strong>si</strong>nd arbori <strong>de</strong> <strong>de</strong>cizie binari. Nodurile arborilor sunt <strong>de</strong>finite<br />

<strong>de</strong> contexte semnificative pentru fonemul curent ¸<strong>si</strong> influent¸ează cla<strong>si</strong>ficarea din etapa <strong>de</strong> antrenare.<br />

14


Sin<strong>teza</strong> text-vorbire în limba română bazată pe mo<strong>de</strong>le Markov ¸<strong>si</strong> optimizarea interactivă a intonat¸iei<br />

Toate caracteristicile din etichetele HTS sunt utilizate în arborele <strong>de</strong> <strong>de</strong>cizie final, însă influent¸a lor<br />

este pon<strong>de</strong>rată în funct¸ie <strong>de</strong> construct¸ia arborelui <strong>de</strong> <strong>de</strong>cizie. Anumite caracteristici contextuale sunt<br />

<strong>de</strong>pen<strong>de</strong>nte <strong>de</strong> limbă, precum contextul fonetic, iar restul sunt caracteristici in<strong>de</strong>pen<strong>de</strong>nte <strong>de</strong> limbă<br />

¸<strong>si</strong> reprezintă <strong>de</strong> exemplu numărul <strong>de</strong> <strong>si</strong>labe dinaintea <strong>si</strong>labei curente sau numărul <strong>de</strong> cuvinte din<br />

propozit¸ie. Pentru caracteristicile fonetice au fost scrise întrebările corespunzătoare pentru limba<br />

română. Mai jos sunt prezentate o serie <strong>de</strong> întrebări <strong>de</strong>finite pentru <strong>si</strong>stemul HTS în limba română ¸<strong>si</strong><br />

care sunt construite folo<strong>si</strong>nd mo<strong>de</strong>lul Unilex pentru engleză:<br />

QS ”LL-Trill” {r˜* }<br />

QS ”LL-Approximant” {l ˜* }<br />

QS ”LL-BilabialNasal” {m˜*}<br />

QS ”L-m” m˜*<br />

QS ”L-n” n˜*<br />

QS ”C-Nasal” *-m+*,*-n+*<br />

QS ”C-Plo<strong>si</strong>ve” *-p+*,*-t+*,*-k+*,*-b+*,*-d+*,*-g+*<br />

QS ”R-Front nearback vowel” *+iw=*,*+ew=*,*+we=*,*+jew=*<br />

QS ”R-Front nearfront vowel” *+ij=*,*+ej=*,*+je=*,*+jej=*,*+jew=*<br />

QS ”RR-o@” *=o@:*<br />

Se poate observa că gradul <strong>de</strong> <strong>de</strong>taliere a informat¸iei din întrebări este relativ ridicat. Pe lângă categoriile<br />

vocală/consoană, fiecare fonem este <strong>de</strong>scris ¸<strong>si</strong> prin calitatea sunetului. Doar pentru contextul<br />

fonetic au fost scrise 712 întrebări, 178 distincte pentru fiecare pozit¸ie din quinfonem.<br />

Cerint¸ele HTS pentru corpusul <strong>de</strong> vorbire<br />

Principala cerint¸ă a HTS este ca setul <strong>de</strong> date <strong>de</strong> antrenare să fie adnotat în format HTS, iar ca<br />

aceste etichete să cont¸ină alinierea temporală la nivel <strong>de</strong> fonem. Având la dispozit¸ie procesorul <strong>de</strong><br />

text <strong>de</strong>ja <strong>de</strong>zvoltat, întreg corpusul RSS <strong>de</strong> antrenare a fost adnotat. Toate cuvintele din propozit¸iile<br />

înregistrate au fost verificate în lexicon pentru a avea o transcriere fonetică corectă. Alinierea temporală<br />

a fost realizată în mod recur<strong>si</strong>v folo<strong>si</strong>nd rezultatele unor antrenări preliminare ale <strong>si</strong>stemului<br />

HTS. Alinierea temporală init¸ială a fost obt¸inută prin <strong>si</strong>mpla divizare a duratei frazei la numărul <strong>de</strong><br />

foneme cont¸inut.<br />

4.2.2 Configurarea parametrilor<br />

Pentru a stabili <strong>si</strong>stemul <strong>de</strong> bază utilizat în evaluările ulterioare diferit¸ii parametri configurabili ai<br />

HTS au fost ajustat¸i init¸ial.<br />

Dintr-o evaluare init¸ială <strong>de</strong> tipul analiză prin <strong>si</strong>nteză folo<strong>si</strong>nd 5 propozit¸ii urmată <strong>de</strong> o evaluare<br />

euristică s-a stabilit metoda <strong>de</strong> analiză cepstrală ¸<strong>si</strong> ordinul cepstral. S-au analizat meto<strong>de</strong>le cepstrum<br />

pe scară mel ¸<strong>si</strong> cepstrum generalizat pe scară mel (MGC) [Tokuda et al., 1994] la ordinele 50, 55, 60,<br />

65 ¸<strong>si</strong> 70 folo<strong>si</strong>nd scalele <strong>de</strong> frecvent¸ă Bark ¸<strong>si</strong> ERB cu date e¸santionate la 48kHz. Rezultatele au indicat<br />

utilizarea MGC cu un ordin <strong>de</strong> 60 pe o scală Bark. Acela¸<strong>si</strong> proces a fost repetat ¸<strong>si</strong> pentru datele<br />

e¸santionate la 32kHz ¸<strong>si</strong> s-a ales MGC cu ordinul 44 pe o scală Bark.<br />

O serie <strong>de</strong> antrenări preliminare au fost apoi realizate pentru a <strong>de</strong>termina setul <strong>de</strong> date optim. Un<br />

total <strong>de</strong> 20 <strong>de</strong> <strong>si</strong>steme au rezultat prin combinarea seturilor din RSS în grupuri <strong>de</strong> 500, 1000, 1500,<br />

2500 ¸<strong>si</strong> 3500 <strong>de</strong> fraze. Din teste <strong>de</strong> ascultare informale s-a <strong>de</strong>terminat că setul <strong>de</strong> date cu basme culte<br />

duce la scă<strong>de</strong>rea calităt¸ii <strong>si</strong>stemului rezultat, astfel că aceste set a fost lăsat <strong>de</strong>oparte.<br />

Scala <strong>de</strong> transfomare logF0 generalizată [Yamagishi and King, 2010] a fost validată. Estimatorul<br />

ML pentru această transformată obt¸inut din valorile F0 ale datelor <strong>de</strong> antrenare din RSS este <strong>de</strong><br />

0.333, calculat folo<strong>si</strong>nd metoda <strong>de</strong> optimizare <strong>de</strong>scrisă în [Yamagishi and King, 2010].<br />

Arborii <strong>de</strong> <strong>de</strong>cizie pentru unităt¸ile non-vorbire (pauză ¸<strong>si</strong> lini¸ste) au fost separat¸i folo<strong>si</strong>nd întrebarea<br />

rădăcină C − <strong>si</strong>l, pentru a nu avea un <strong>si</strong>ngur arbore comun.<br />

In experimentele raportate în acest capitol, doar înregistrările realizate cu microfonul Sennheiser<br />

15


Sin<strong>teza</strong> text-vorbire în limba română bazată pe mo<strong>de</strong>le Markov ¸<strong>si</strong> optimizarea interactivă a intonat¸iei<br />

A<br />

Înregistrări originale, vorbire naturală la 48 kHz<br />

B Sistem cu select¸ia unităt¸ilor la 16 kHz, folo<strong>si</strong>nd 3500 <strong>de</strong> fraze<br />

C Sistem cu select¸ia unităt¸ilor la 32 kHz, folo<strong>si</strong>nd 3500 <strong>de</strong> fraze<br />

D Sistem cu select¸ia unităt¸ilor la 48 kHz, folo<strong>si</strong>nd 3500 <strong>de</strong> fraze<br />

E Sistem bazat pe HMM la 48 kHz, folo<strong>si</strong>nd 500 <strong>de</strong> fraze <strong>de</strong> antrenare<br />

F Sistem bazat pe HMM la 48 kHz, folo<strong>si</strong>nd 1500 <strong>de</strong> fraze <strong>de</strong> antrenare<br />

G Sistem bazat pe HMM la 16 kHz, folo<strong>si</strong>nd 2500 <strong>de</strong> fraze <strong>de</strong> antrenare<br />

H Sistem bazat pe HMM la 32 kHz, folo<strong>si</strong>nd 2500 <strong>de</strong> fraze <strong>de</strong> antrenare<br />

I Sistem bazat pe HMM la 48 kHz, folo<strong>si</strong>nd 2500 <strong>de</strong> fraze <strong>de</strong> antrenare<br />

Prin compararea <strong>si</strong>stemelor B, C ¸<strong>si</strong> D cu E, F, G, H ¸<strong>si</strong> I, se poate observa efectul meto<strong>de</strong>i <strong>de</strong> <strong>si</strong>nteză.<br />

Prin compararea <strong>si</strong>stemelor B, C, D sau G, H, I, se analizează efectul frecvent¸ei <strong>de</strong> e¸santionare asupra<br />

meto<strong>de</strong>i <strong>de</strong> <strong>si</strong>nteză. Compararea <strong>si</strong>stemelor E, F, I duce la evaluarea dimen<strong>si</strong>unii datelor <strong>de</strong> antrenare<br />

pentru mo<strong>de</strong>lele Markov.<br />

În sect¸iunea <strong>de</strong> <strong>si</strong>milaritate cu vorbitorul original, după ce ascultătorii au ascultat până la 4<br />

înregistrări naturale, le-a fost prezentată vorbire <strong>si</strong>ntetizată <strong>de</strong> cele 9 <strong>si</strong>steme ¸<strong>si</strong> au fost rugat¸i să<br />

noteze <strong>si</strong>milaritatea cu vorbitorul original pe o scară <strong>de</strong> la [1-Sună ca ¸<strong>si</strong> o persoană diferită] la [5-Sună<br />

ca aceea¸<strong>si</strong> persoană]. Pentru evaluarea naturalet¸ii ascultătorii au notat vorbirea <strong>si</strong>ntetică pe o scară<br />

<strong>de</strong> la [1-Complet nenatural] la [5-Complet natural]. În sect¸iunea <strong>de</strong> inteligibilitate ascultătorii au<br />

trebuit să transcrie ortografic rostirile <strong>si</strong>ntetizate ale propozit¸iilor SUS. Erorile <strong>de</strong> tehnoredactare sau<br />

<strong>de</strong> ortografiere nu au fost luate în con<strong>si</strong><strong>de</strong>rare.<br />

Similaritate cu vorbitorul original – coloana din stânga a Fig. 4.1 arată rezultatele sect¸iunii <strong>de</strong><br />

<strong>si</strong>milaritate cu vorbitorul original. Se poate observa o separare clară între vocea originală (<strong>si</strong>stemul<br />

A), vocile HMM (<strong>si</strong>stemele E, F, G, H ¸<strong>si</strong> I) ¸<strong>si</strong> vocile bazate pe select¸ia unităt¸ilor (<strong>si</strong>stemele<br />

B, C ¸<strong>si</strong> D). Se poate observa <strong>de</strong> asemenea ¸<strong>si</strong> o influent¸ă clară a frecvent¸ei <strong>de</strong> e¸santionare, însă<br />

îmbunătăt¸irile sunt limitate la 32kHz. Influent¸a dimen<strong>si</strong>unii datelor <strong>de</strong> antrenare <strong>de</strong>termină<br />

diferent¸e între <strong>si</strong>stemele F ¸<strong>si</strong> I, dar nu ¸<strong>si</strong> între <strong>si</strong>stemele E ¸<strong>si</strong> F. Pentru a reproduce o <strong>si</strong>milaritate<br />

bună nu au fost <strong>de</strong> ajuns nici 500 ¸<strong>si</strong> nici 1500 <strong>de</strong> fraze <strong>de</strong> antrenare a mo<strong>de</strong>lelor, <strong>de</strong>oarece<br />

dimen<strong>si</strong>unea caracteristicilor este foarte mare ca urmare a ordinului cepstral selectat.<br />

Cu toate că se a¸stepta ca select¸ia unităt¸ilor să aibă o <strong>si</strong>milaritate mai bună <strong>de</strong>cât <strong>si</strong>stemele HMM,<br />

rezultatele sunt contradictorii. Acest lucru poate fi explicat ¸<strong>si</strong> prin proiectarea corpusului <strong>de</strong><br />

voce: în corpus doar 1000 <strong>de</strong> fraze au fost selectate pentru acoperirea difonemelor, iar restul <strong>de</strong><br />

2500 reprezintă 1500 <strong>de</strong> fraze aleatoare din articole <strong>de</strong> ziar ¸<strong>si</strong> 1000 <strong>de</strong> fraze din opere literare.<br />

Chiar dacă ambele tipuri <strong>de</strong> fraze sunt combinate, rămân lipsă 16 difoneme, iar 79 <strong>de</strong> difoneme<br />

au mai put¸in <strong>de</strong> 3 aparit¸ii în corpus. Sin<strong>teza</strong> bazată pe select¸ia unităt¸ilor este mai sen<strong>si</strong>bilă la<br />

lipsă acoperirii fonetice în comparat¸ie cu cea bazată pe mo<strong>de</strong>le Markov [Yamagishi et al., 2008a].<br />

Naturalet¸ea – tendint¸e <strong>si</strong>milare cu cele <strong>de</strong> la <strong>si</strong>milaritate pot fi observate, cu except¸ia faptului că<br />

frecvent¸a <strong>de</strong> e¸santionare nu pare să aibă vreun efect. Utilizarea unei frecvent¸e <strong>de</strong> e¸santionare<br />

mai mari nu a îmbunătăt¸it naturalet¸ea. În ceea ce prive¸ste datele <strong>de</strong> antrenare, există câteva<br />

fluctuat¸ii, cu toate că dimen<strong>si</strong>unea cea mai mare <strong>de</strong> date <strong>de</strong>termină cea mai bună naturalet¸e<br />

pentru ambele meto<strong>de</strong> <strong>de</strong> <strong>si</strong>nteză.<br />

Inteligibilitatea – din păcate se pare că există un efect <strong>de</strong> limitare a inteligibilităt¸ii. Valorile absolute<br />

ale ratei <strong>de</strong> eroare <strong>de</strong> cuvânt (WER - word error rate) sunt în general mici: ambele meto<strong>de</strong> <strong>de</strong><br />

<strong>si</strong>nteză au inteligibilitate bună. Cu toate că <strong>si</strong>stemele D ¸<strong>si</strong> F au o rată <strong>de</strong> eroare mai mare, nu<br />

există diferent¸e statistice între oricare două perechi <strong>de</strong> <strong>si</strong>stem. Pentru a confirma acest lucru,<br />

17


Adriana Cornelia STAN<br />

s-a realizat un test suplimentar care a cont¸inut o serie <strong>de</strong> perechi <strong>de</strong> paronime, iar rezultatele<br />

au fost <strong>si</strong>milare. Lipsa diferent¸elor semnificative se datorează în mare parte datorită regulilor<br />

relativ <strong>si</strong>mple <strong>de</strong> transcriere fonetică a limbii române. Atât pentru SUS cât ¸<strong>si</strong> pentru paronime,<br />

atât vorbirea naturală cât ¸<strong>si</strong> cea <strong>si</strong>ntetică sunt u¸sor <strong>de</strong> transcris ¸<strong>si</strong> duc la WER apropiate <strong>de</strong><br />

zero. Acest rezultat sugerează că este necesară <strong>de</strong>zvoltarea unor meto<strong>de</strong> <strong>de</strong> evaluarea mai bune<br />

pentru inteligibilitatea <strong>si</strong>stemelor în limbi <strong>si</strong>milare cu româna.<br />

Mediul <strong>de</strong> ascultare – pentru a <strong>de</strong>scoperi dacă mediul în care s-au ascultat rostirile influent¸ează<br />

rezultate, s-a efectuat un test ANOVA. Testul ANOVA la un nivel <strong>de</strong> semnificat¸ie <strong>de</strong> 1% a arătat<br />

că doar <strong>si</strong>stemul C (select¸ia unităt¸ilor la 32kHz, folo<strong>si</strong>nd 3500 <strong>de</strong> fraze) este afectat <strong>de</strong> mediul<br />

<strong>de</strong> ascultare. Subiect¸ii care au ascultat în cabinele speciale au notat mai slab <strong>si</strong>stemul C în<br />

sect¸iunea <strong>de</strong> <strong>si</strong>milaritate.<br />

Sumarul testului <strong>de</strong> ascultare<br />

Corpusul RSS este probabil mai bine adaptat <strong>si</strong>ntezei bazate pe HMM <strong>de</strong>cât pentru cea cu select¸ia<br />

unităt¸ilor. Toate <strong>si</strong>stemele <strong>de</strong> <strong>si</strong>nteză construite folo<strong>si</strong>nd acest corpus au o inteligibilitate bună. Cu<br />

toate acestea, o evaluare mai bună a inteligibilităt¸ii <strong>si</strong>stemului în limbi cu reguli <strong>si</strong>mple <strong>de</strong> transcriere<br />

foneticăprecum română, ar trebui proiectată.<br />

Frecvent¸a <strong>de</strong> e¸santionare este un factor important pentru <strong>si</strong>milaritatea cu vorbitorul original. Mai<br />

exact, sube¸santionarea vorbirii la 32kHz nu afectează rezultatele, însă sube¸santionarea la 16kHz <strong>de</strong>gra<strong>de</strong>ază<br />

<strong>si</strong>milaritatea cu vorbitorul. Utilizarea unor frecvent¸e <strong>de</strong> e¸santionare mari însă nu aduc<br />

îmbunătăt¸iri ale naturalet¸ei sau inteligibilităt¸ii vorbirii <strong>si</strong>ntetizate.<br />

Rezultate sunt în concordant¸ă cu cercetările existente: [Fant, 2005] ment¸ionează că aproape toată<br />

informat¸ia lingvistică din vorbire este stocată în banda <strong>de</strong> 0-8 kHz. Aceasta înseamnă că o frecvent¸ă <strong>de</strong><br />

e¸santionare <strong>de</strong> 16kHz este suficientă pentru a transmite informat¸ia lingvistică. Rezultatele au arătat<br />

<strong>de</strong> asemenea că utilizarea unor frecvent¸e <strong>de</strong> peste 16kHz nu au îmbunătăt¸it inteligibilitatea. Pe <strong>de</strong> altă<br />

parte, un articol <strong>de</strong> referint¸ă legat <strong>de</strong> frecvent¸a <strong>de</strong> e¸santionare [Muraoka et al., 1978] a raportat că o<br />

frecvent¸ă <strong>de</strong> tăiere mai mică <strong>de</strong> 15kHz poate afecta calitatea semnalului vocal. Aceasta înseamnă că<br />

frecvent¸a <strong>de</strong> e¸santionare ar trebui să fie mai mare <strong>de</strong> 30kHz. De fapt, rezultatele arată că <strong>si</strong>milaritatea<br />

cu vorbitorul original la 16kHz este scăzută. Se poate concluziona astfel că naturalet¸ea ¸<strong>si</strong> inteligibilitatea<br />

nece<strong>si</strong>tă transmiterea doar a informat¸iei lingvistice, ce poate fi obt¸inută ¸<strong>si</strong> la 16kHz frecvent¸ă <strong>de</strong><br />

e¸santionare, pe când <strong>si</strong>milaritatea cu vorbitorul original este afectată <strong>de</strong> calitatea semnalului audio,<br />

nece<strong>si</strong>tând astfel frecvent¸e <strong>de</strong> tăiere mai mari.<br />

4.3.2 Experiment 2 – Demonstrat¸ie interactivă online<br />

Un <strong>si</strong>stem TTS nece<strong>si</strong>tă o evaluare inten<strong>si</strong>vă a vorbirii rezultate pentru a obt¸ine un feedback <strong>de</strong> la<br />

un grup mai mare <strong>de</strong> persoane care îl utilizează. Sistemul <strong>de</strong> <strong>si</strong>nteză HTS pentru limba română este<br />

astfel disponibil online la www.romaniantts.com sub forma unei <strong>de</strong>monstrat¸ii interactive. Prezent¸a<br />

sa a fost promovată folo<strong>si</strong>nd o serie <strong>de</strong> forumuri <strong>de</strong> specialitate.<br />

În plus fat¸ă <strong>de</strong> <strong>de</strong>monstrat¸ie, pagina web cont¸ine ¸<strong>si</strong> exemple <strong>de</strong> vorbire <strong>si</strong>ntetizată sub forma<br />

primelor trei capitole ale operei ”Moara cu noroc” <strong>de</strong> Ioan Slavici 9 10 cu transcriere ortografică <strong>si</strong>ncronizată<br />

în fi¸<strong>si</strong>erul mp3.<br />

4.3.3 Experiment 3 – Adaptare la corpusul <strong>de</strong> vorbire cu opere literare<br />

Unul dintre cele mai importante aspecte ale unui <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză parametrică este po<strong>si</strong>bilitatea<br />

<strong>de</strong> adaptare a mo<strong>de</strong>lelor la un corpus <strong>de</strong> voce nou. [Yamagishi, 2006] <strong>de</strong>scrie o metodă eficientă <strong>de</strong><br />

adaptare folo<strong>si</strong>nd Maximum Likelihood Linear Regres<strong>si</strong>on (MLLR) [Leggetter and Woodland, 1995] ¸<strong>si</strong><br />

Structural Maximum A Posteriori Linear Regres<strong>si</strong>on (SMAPLR) [Shiohan et al., 2002]. HTS a <strong>de</strong>dicat<br />

o întreagă sect¸iune adaptării la noi vorbitori cu minim <strong>de</strong> date <strong>de</strong> antrenare, pornind <strong>de</strong> la mo<strong>de</strong>le<br />

18<br />

9 http://romaniantts.com/moaraCuNoroc/chapter1-2.mp3<br />

10 http://romaniantts.com/moaraCuNoroc/chapter3.mp3


Sin<strong>teza</strong> text-vorbire în limba română bazată pe mo<strong>de</strong>le Markov ¸<strong>si</strong> optimizarea interactivă a intonat¸iei<br />

HMM <strong>de</strong>ja antrenate. Este raportat faptul că pentru voci HTS construite in<strong>de</strong>pen<strong>de</strong>nt <strong>de</strong> vorbitor,<br />

sunt suficiente doar 5 minute <strong>de</strong> vorbire pentru a realiza adaptarea.<br />

În contextul <strong>si</strong>stemului <strong>de</strong>zvoltat, un interes <strong>de</strong>osebit îl reprezintă adaptarea celui mai bun <strong>si</strong>stem 11<br />

la setul <strong>de</strong> antrenare cu opere literare eliminat din datele <strong>de</strong> antrenare. I<strong>de</strong>ea a fost <strong>de</strong> a îmbunătăt¸i<br />

mo<strong>de</strong>lele <strong>de</strong> intonat¸ie cu noi date <strong>de</strong> antrenare, <strong>de</strong>oarece setul cu basme culte are un domeniul <strong>de</strong> valori<br />

F0 mai dinamic. Cele 67 <strong>de</strong> minute ale setului cu basme culte este arhisuficient pentru adaptare, mai<br />

ales fiindcă sunt citite <strong>de</strong> acela¸<strong>si</strong> vorbitor.<br />

După adaptare au putut fi observate modificări ale contururilor F0. Acestea sunt sust¸inute ¸<strong>si</strong> <strong>de</strong> un<br />

test <strong>de</strong> ascultare. 15 fraze au fost <strong>si</strong>ntetizate cu <strong>si</strong>stemul HTS <strong>de</strong> bază ¸<strong>si</strong> cu cel adaptat. Ascultătorii au<br />

fost rugat¸i să specifice care dintre cele două rostiri este mai expre<strong>si</strong>vă în fiecare pereche. Ascultătorii nu<br />

au fost expert¸i în procesarea semnalului vocal ¸<strong>si</strong> astfel li s-a părut relativ dificilă se<strong>si</strong>zarea diferent¸elor<br />

subtile.<br />

Rezultatele au arătat o preferint¸ă <strong>de</strong> 55% pentru vocea adaptată, 35% pentru vocea HTS originală<br />

¸<strong>si</strong> 10% nici o preferint¸ă. Rezultatele nu sunt astfel concluzive ¸<strong>si</strong> ar trebui testate mai amplu. Cu toate<br />

acestea reprezintă o metodă rapidă <strong>de</strong> îmbunătăt¸ire a intonat¸iei <strong>si</strong>stemelor parametrice <strong>de</strong> <strong>si</strong>nteză.<br />

Fig. 4.2 prezintă contururile generate <strong>de</strong> <strong>si</strong>stemul HTS original ¸<strong>si</strong> <strong>de</strong> către cel adaptat. Se poate<br />

observa că sect¸iunea <strong>de</strong> mijloc a conturului este modificată ¸<strong>si</strong> la fel ¸<strong>si</strong> durata propozit¸iei.<br />

Frequency[Hz]<br />

300<br />

250<br />

200<br />

150<br />

100<br />

50<br />

0<br />

No adaptation<br />

Adapted to fairytale corpus<br />

0.2 0.4 0.6 0.8 1 1.2 1.4<br />

Time[s]<br />

Figura 4.2: Comparat¸ie între contururile F0 generate <strong>de</strong> <strong>si</strong>stemul HTS <strong>de</strong> bază ¸<strong>si</strong> <strong>de</strong> cel adaptat la<br />

corpusul <strong>de</strong> vorbire cu basme culte<br />

11 HTS, 2500 <strong>de</strong> fraze <strong>de</strong> antrenare, 48kHz frecvent¸a <strong>de</strong> e¸santionare<br />

19


Adriana Cornelia STAN<br />

5 O metodă <strong>de</strong> mo<strong>de</strong>lare a intonat¸iei in<strong>de</strong>pen<strong>de</strong>ntă <strong>de</strong> limbă<br />

5.1 Introducere<br />

Rezultatele <strong>de</strong> <strong>si</strong>stemelor <strong>de</strong> <strong>si</strong>nteză sunt <strong>de</strong> cele mai multe ori orientate mai mult către inteligibilitate<br />

¸<strong>si</strong> mai put¸in către expre<strong>si</strong>vitate. În special pentru limbile cu resurse limitate, expre<strong>si</strong>vitatea este greu<br />

<strong>de</strong> obt¸inut. Pentru a optimiza vorbirea expre<strong>si</strong>vă se utilizează tehnici <strong>de</strong> mo<strong>de</strong>lare a F0 ce utilizează<br />

adnotări manuale sau semi-automate ale vorbirii ¸<strong>si</strong> care sunt predispuse la erori. Alte tehnici utilizează<br />

caracteristici fonologice <strong>de</strong>pen<strong>de</strong>nte <strong>de</strong> limbă.<br />

În contextul resurselor limitate pentru limba română este importantă <strong>de</strong>zvoltarea unei meto<strong>de</strong><br />

in<strong>de</strong>pen<strong>de</strong>ntă <strong>de</strong> limbă ce nu utilizează adnotări suplimentare ale textului sau ale vorbirii. Acest<br />

capitol introduce o astfel <strong>de</strong> metodă sub forma parametrizării DCT a nivelelor <strong>de</strong> propozit¸ie ¸<strong>si</strong> <strong>si</strong>labă<br />

ale conturului F0. Studii recente au <strong>de</strong>monstrat că pe baza meto<strong>de</strong>lor in<strong>de</strong>pen<strong>de</strong>nte <strong>de</strong> limbă se poate<br />

obt¸ine o analiză mai bună a efectelor intonat¸iei, iar cla<strong>si</strong>ficarea contururilor poate fi realizată pe baza<br />

unor evenimente abstracte, altele <strong>de</strong>cât accent, frazare sau ritm.<br />

5.1.1 Problemele mo<strong>de</strong>lării F0 în <strong>si</strong>stemele <strong>de</strong> <strong>si</strong>nteză text-vorbire<br />

Mo<strong>de</strong>larea F0 reprezintă corelat¸ia dintre intonat¸ia vorbirii ¸<strong>si</strong> evenimentele din conturul frecvent¸ei fundamentale.<br />

Dar în momentul proiectării unui mo<strong>de</strong>l intonat¸ional universal, apar o serie <strong>de</strong> probleme,<br />

după cum urmează:<br />

Variabilitatea inter-limbă - Limbile se bazează pe o evolut¸ie într-un areal limitat ¸<strong>si</strong> rezultatul<br />

interact¸iunii umane ¸<strong>si</strong> a mimetismului. Tiparele intonat¸ionale sau prozodice sunt rezultatul<br />

interact¸iunii sociale ¸<strong>si</strong> au caracteristici specifice în cadrul unei limbi sau a unei familii <strong>de</strong> limbi.<br />

Variabilitatea inter-vorbitor - Vorbitorii aceleaia¸<strong>si</strong> limbi pot uneori să-¸<strong>si</strong> exprime emot¸iile folo<strong>si</strong>nd<br />

intonat¸ii diferite <strong>de</strong>terminate <strong>de</strong> dialect sau <strong>de</strong> educat¸ia socială.<br />

Variabilitatea intra-vorbitor - În condit¸iile unei <strong>si</strong>tuat¸ii conversat¸ionale, stare emot¸ională a vorbitorului<br />

variază <strong>de</strong> la o <strong>si</strong>tuat¸ie la alta ¸<strong>si</strong> <strong>de</strong> asemeanea în timp.<br />

Intrarea <strong>si</strong>stemului <strong>de</strong> <strong>si</strong>nteză - Textul este <strong>si</strong>ngurul element aflat la intrarea unui <strong>si</strong>stem TTS,<br />

fără alte informat¸ii adit¸ionale. Sistemul este astfel fort¸at să estimeze pe baza unor reguli <strong>de</strong>terministe<br />

sau statistice, un output prozodic probabil. La momentul actual, acest output este<br />

direct <strong>de</strong>pen<strong>de</strong>nt <strong>de</strong> corpusul <strong>de</strong> vorbire utilizat pentru antrenarea <strong>si</strong>stemului.<br />

Aspectul semantic al vorbirii - Vorbirea nu este rezultatul doar a înlănt¸uirii unor cuvinte în cadrul<br />

unei propozit¸ii. Ea cont¸ine <strong>de</strong> asemenea înt¸elesul sau semantica propozit¸iei. Diferite cuvinte<br />

cont¸in <strong>de</strong>ja un anumit grad <strong>de</strong> emot¸ie implicit (<strong>de</strong> ex. furie în cuvântul ură), astfel că reproducerea<br />

lor este influent¸ată <strong>de</strong> emot¸ia <strong>de</strong> bază.<br />

Solut¸ii po<strong>si</strong>bile ale acestor probleme sunt cele enumerate mai jos. Ele au fost <strong>de</strong>ja aplicate în<br />

<strong>si</strong>stemele <strong>de</strong> <strong>si</strong>nteză pentru a îmbunătăt¸i expre<strong>si</strong>vitatea <strong>si</strong>stemului.<br />

• utilizarea punctuat¸iei ca ¸<strong>si</strong> o evaluare <strong>si</strong>mplistă a intonat¸iei. Virgula, punctul, semnele <strong>de</strong> exclamare<br />

sau întrebare oferă indici rudimentari referitor la tiparul intonat¸ional;<br />

• utilizarea adnotării prozodice manuale a textului folo<strong>si</strong>nd <strong>de</strong> exemplu tag-uri XML 12 pentru a<br />

controla <strong>de</strong> exemplu valoarea frecvent¸ei fundamentale sau a duratei unor segmente vocale;<br />

• utilizarea unor analize semantice pentru <strong>de</strong>terminarea emfazei în rostire;<br />

12 SSML - Speech Synthe<strong>si</strong>s Markup Language este un limbaj <strong>de</strong> adnotare XML folo<strong>si</strong>t în VoiceXML pentru controlul<br />

anumitor aspecte prozodice ale vorbirii <strong>si</strong>ntetizate<br />

20


Sin<strong>teza</strong> text-vorbire în limba română bazată pe mo<strong>de</strong>le Markov ¸<strong>si</strong> optimizarea interactivă a intonat¸iei<br />

5.1.2 Mo<strong>de</strong>le <strong>de</strong> intonat¸ie<br />

Problemele evi<strong>de</strong>nt¸iate în sect¸iunea anterioară ar putea fi rezolvate dacă s-ar <strong>de</strong>termina o metodă <strong>de</strong><br />

mo<strong>de</strong>lare a F0 universală. Există un număr mare <strong>de</strong> mo<strong>de</strong>le propuse pornind <strong>de</strong> la aspecte fonologice<br />

ale limbii până la <strong>si</strong>mple parametrizări ale frecvent¸ei fundamentale ca o <strong>si</strong>mplă curbă continuă.<br />

În Tabelul 5.1 este prezentată o comparat¸ie dintre cele mai importante meto<strong>de</strong> <strong>de</strong> mo<strong>de</strong>lare a<br />

intonat¸iei în funct¸ie <strong>de</strong> mo<strong>de</strong>lul utilizat, tipul (fonologic, acustic sau fonetic), caracterul reprezentării<br />

F0 (ton sau forme F0 ¸<strong>si</strong> dinamica) ¸<strong>si</strong> numărul <strong>de</strong> nivele <strong>de</strong> parametrizare (superpozit¸ional sau liniar).<br />

Tabel 5.1: O comparat¸ie între cele mai cunoscute meto<strong>de</strong> <strong>de</strong> mo<strong>de</strong>lare a F0<br />

Mo<strong>de</strong>l<br />

Tilt Scop Descrierea evenimentelor F0<br />

Tip Acustic<br />

Reprezentarea F0 Formă<br />

Nivel Liniar<br />

ToBI Scop Teorie a modului în care intonat¸ia<br />

apare în comunicarea interumană<br />

Tip Fonologic<br />

Reprezentarea F0 Ton<br />

Nivel Liniar<br />

INTSINT Scop Un echivalent al IPA pentru intonat¸ie<br />

Tip Fonetic<br />

Reprezentarea F0 Formă<br />

Nivel Liniar<br />

Fujisaki Scop Reproducerea efectivă a articulării<br />

Tip Acustic<br />

Reprezentarea F0 Formă<br />

Nivel Superpozitional<br />

5.2 Parametrizarea F0 folo<strong>si</strong>nd transformata co<strong>si</strong>nus discretă<br />

5.2.1 Transformata co<strong>si</strong>nus discretă<br />

Transformata co<strong>si</strong>nus discretă este o transformată ce parametrizează o secvent¸ă <strong>de</strong> puncte discrete cu<br />

ajutorul unei sume <strong>de</strong> funct¸ii co<strong>si</strong>nus ce oscilează la frecvent¸e diferite ¸<strong>si</strong> <strong>de</strong> fază zero. Cea mai cunoscută<br />

forma a transformatei este DCT-II. Coeficient¸ii se calculează cu ajutorul Ec.1, iar transformata inversă<br />

cu ajutorul Ec.2.<br />

N−1 <br />

C(u) = α(u) f(x)cos<br />

f(x) =<br />

N−1 <br />

u=0<br />

x=0<br />

În ambele ecuat¸ii α(u) este <strong>de</strong>finit ca:<br />

5.2.2 Metoda propusă<br />

π(2x + 1)u<br />

2N<br />

<br />

, u = 0, 1, 2, ..., N − 1 (1)<br />

<br />

π(2x + 1)u<br />

α(u)C(u)cos<br />

, x = 0, 1, 2, ..., N − 1 (2)<br />

2N<br />

α(u) =<br />

1/N , u = 0<br />

sqrt(2/N) , u = 0<br />

[Latorre and Akamine, 2008], [Qian et al., 2009], [Teutenberg et al., 2008] ¸<strong>si</strong> [Wu et al., 2008] au prezentat<br />

în lucrările lor argumentele ¸<strong>si</strong> rezultatele parametrizării conturului F0 folo<strong>si</strong>nd DCT. Aceste meto<strong>de</strong><br />

(3)<br />

21


Adriana Cornelia STAN<br />

se bazează pe principiul superpozit¸ional al intonat¸iei. Pornind <strong>de</strong> la aceste studii, o nouă metodă <strong>de</strong><br />

parametrizare folo<strong>si</strong>nd DCT este propusă [Stan and Giurgiu, 2011]. În cadrul meto<strong>de</strong>i se utilizează<br />

nivelul <strong>de</strong> <strong>si</strong>labă ¸<strong>si</strong> propozit¸ie. Noutatea rezidă în modul <strong>de</strong> parametrizare a nivelului <strong>de</strong> <strong>si</strong>labă ¸<strong>si</strong><br />

anume prin scă<strong>de</strong>rea IDCT a nivelului <strong>de</strong> propozit¸ie din conturul original F0. Cu alte cuvinte, <strong>si</strong>laba<br />

este con<strong>si</strong><strong>de</strong>rată ca având un efect aditiv peste nivelul propozit¸iei ¸<strong>si</strong> nu ca ¸<strong>si</strong> o valoare absolută. Pe<br />

<strong>de</strong> altă parte, în [Qian et al., 2009] autorii ment¸ionează utilizarea doar a segmentelor vocale pentru<br />

parametrizare, însă nu este clar modul în care sunt evaluat¸i coeficient¸ii DCT doar ale acestor segmente.<br />

Din acest motiv metoda propusă utilizează o interpolare liniară a segmentelor nesonore din<br />

rostiri. Numărul <strong>de</strong> coeficient¸i DCT utilizat¸i este <strong>de</strong> 8 la nivel <strong>de</strong> propozit¸ie ¸<strong>si</strong> <strong>de</strong> 7 la nivel <strong>de</strong> <strong>si</strong>labă.<br />

Alegerea este bazată pe o evaluare preliminară a erorii introduse <strong>de</strong> limitarea numărului <strong>de</strong> coeficient¸i<br />

DCT. Pentru nivelul <strong>de</strong> propozit¸ie, s-au folo<strong>si</strong>t 8 coeficient¸i <strong>de</strong>oarece DCT0 reprezintă media curbei<br />

¸<strong>si</strong> este <strong>de</strong>pen<strong>de</strong>nt <strong>de</strong> vorbitor.<br />

Pa¸<strong>si</strong>i meto<strong>de</strong>i propuse sunt următorii:<br />

(1) Extragerea contururilor F0 din întreg corpusul audio<br />

(2) interpolarea liniară a segmentelor nesonore<br />

(3) Segmentare la nivel <strong>de</strong> propozit¸ie<br />

(4) Extragerea primilor 8 coeficient¸i DCT din conturul F0 la nivel <strong>de</strong> propozit¸ie<br />

(5) Scă<strong>de</strong>rea IDCT a conturului la nivel <strong>de</strong> propozit¸ie din conturul original<br />

(6) Segmentare la nivel <strong>de</strong> <strong>si</strong>labă<br />

(7) Extragerea primilor 7 coeficient¸i DCT din conturul F0 la nivel <strong>de</strong> <strong>si</strong>labă<br />

(8) Extragerea caracteristicilor adit¸ionale<br />

(9) Antrenarea arborilor <strong>de</strong> cla<strong>si</strong>ficare ¸<strong>si</strong> regre<strong>si</strong>e<br />

(10) Predict¸ia coeficient¸ilor DCT pe baza celui mai bun algoritm <strong>de</strong>terminat în pasul anterior<br />

(11) Compararea contururilor F0 prezise cu cele generate <strong>de</strong> <strong>si</strong>stemul <strong>de</strong> <strong>si</strong>nteză <strong>de</strong> bază<br />

(12) Sin<strong>teza</strong> vorbirii folo<strong>si</strong>nd contururile F0 prezise ¸<strong>si</strong> evaluarea subiectivă a rezultatului<br />

5.2.3 Preprocesarea corpusului audio<br />

Pentru a estima coeficient¸ii DCT ai conturului F0 folo<strong>si</strong>nd arbori <strong>de</strong> cla<strong>si</strong>ficare ¸<strong>si</strong> regre<strong>si</strong>e, este nevoie<br />

<strong>de</strong> un set <strong>de</strong> date <strong>de</strong> antrenare. A fost selectat în acest scop subsetul rnd1 al RSS, ce cont¸ine 500<br />

<strong>de</strong> fraze aleatoare din articole <strong>de</strong> ziar. Au fost folo<strong>si</strong>te <strong>de</strong> asemenea etichetele HTS corespon<strong>de</strong>nte.<br />

Segmentarea la nivel <strong>de</strong> propozit¸ie ¸<strong>si</strong> propozit¸ie a fost realizată pe baza acestor etichete.<br />

După segmentare au fost obt¸inute un număr <strong>de</strong> 730 <strong>de</strong> propozit¸ii ¸<strong>si</strong> 13029 <strong>de</strong> <strong>si</strong>labe. Pentru<br />

evaluare, 10 fraze au fost lăsate <strong>de</strong>oparte. Acestea cont¸in 16 propozit¸ii ¸<strong>si</strong> 301 <strong>si</strong>labe. Coeficient¸ii<br />

DCT au fost extra¸<strong>si</strong> folo<strong>si</strong>nd scripturi Python. Alături <strong>de</strong> coeficient¸i au fost selectate ¸<strong>si</strong> o serie <strong>de</strong><br />

caracteristici prezente în etichetele HTS ¸<strong>si</strong> care sunt direct legate <strong>de</strong> propozit¸ii sau <strong>si</strong>labe. Împreună<br />

cu acestea s-au obt¸inut un vector <strong>de</strong> 20 <strong>de</strong> parametri la nivel <strong>de</strong> propozit¸ie ¸<strong>si</strong> <strong>de</strong> 40 <strong>de</strong> parametri<br />

la nivel <strong>de</strong> <strong>si</strong>labă, incluzând astfel ¸<strong>si</strong> coeficient¸ii DCT.<br />

5.2.4 Select¸ia atributelor<br />

Numărul <strong>de</strong> caracteristici existente în etichetele HTS este relativ mare, astfel că folo<strong>si</strong>nd capabilităt¸ile<br />

Weka 13 , s-a optat pentru un algoritm <strong>de</strong> select¸ie a atributelor semnificative în ve<strong>de</strong>rea reducerii complexităt¸ii<br />

meto<strong>de</strong>i. Algoritmul selectat este unul <strong>de</strong> tip greedy stepwise without backtracking. Algoritmii<br />

greedy stepwise pot să se <strong>de</strong>plaseze atât înainte cât ¸<strong>si</strong> înapoi în spat¸iul <strong>de</strong> căutare pentru a selecta<br />

cea mai bună caracteristică pe baza cross-validării. O evaluare ulterioară a estimat pier<strong>de</strong>rea <strong>de</strong><br />

performant¸ă prin limitarea numărului <strong>de</strong> caracteristici utilizat, fat¸ă <strong>de</strong> setul complet.<br />

Pentru o implementare corectă a meto<strong>de</strong>i bazată pe DCT, a fost nevoie <strong>de</strong> o analiză statistică<br />

preliminară a coeficient¸ilor DCT din subsetul ales (Tabel 5.3 ¸<strong>si</strong> 5.4). S-a evaluat <strong>de</strong> asemenea ¸<strong>si</strong><br />

durata medie a contururilor F0 pentru cele două nivele alese (Tabel 5.2).<br />

22<br />

13 http://www.cs.waikato.ac.nz/ml/weka/


Sin<strong>teza</strong> text-vorbire în limba română bazată pe mo<strong>de</strong>le Markov ¸<strong>si</strong> optimizarea interactivă a intonat¸iei<br />

Tabel 5.2: Statistici ale duratei propozit¸iilor ¸<strong>si</strong> <strong>si</strong>labelor din subsetul rnd1.<br />

Medie Dev. std. Min Max<br />

Silabă 0.150 0.068 0.025 0.763<br />

Propozit¸ie 1.694 3.161 0.319 8.265<br />

Tabel 5.3: Statistici ale coeficient¸ilor DCT la nivel <strong>de</strong> propozit¸ie. 730 <strong>de</strong> coeficient¸i au fost analizat¸i<br />

¸<strong>si</strong> corespund numărului <strong>de</strong> propozit¸ii din rnd1<br />

Coeficient DCT Medie Dev. std. Min. Max.<br />

DCT0 4690.300 1318.300 1511.162 7762.336<br />

DCT1 331.750 185.850 -366.800 1046.777<br />

DCT2 -95.087 197.470 -961.830 526.653<br />

DCT3 168.270 161.030 -314.262 652.300<br />

DCT4 -57.100 151.600 -787.123 446.700<br />

DCT5 94.427 130.15 0 -298.882 552.150<br />

DCT6 -22.312 123.020 -501.100 409.565<br />

DCT7 67.095 110.370 -335.890 390.000<br />

Tabel 5.4: Statistici ale coeficient¸ilor DCT la nivel <strong>de</strong> <strong>si</strong>labă. 13029 <strong>de</strong> coeficient¸i au fost analizat¸i ¸<strong>si</strong><br />

corespund numărului <strong>de</strong> <strong>si</strong>labe din rnd1<br />

5.3 Evaluare<br />

Coeficient DCT Medie Dev. std. Min. Max.<br />

DCT0 33.82 82.21 -365.68 433.13<br />

DCT1 18.18 50.31 -528.90 566.26<br />

DCT2 -99.45 34.84 -555.98 357.08<br />

DCT3 58.54 25.63 -284.07 401.15<br />

DCT4 -74.09 19.14 -349.23 201.05<br />

DCT5 1.93 15.01 -225.75 317.72<br />

DCT6 -0.04 12.96 -235.32 202.99<br />

5.3.1 Experiment 1 – Antrenarea arborilor <strong>de</strong> cla<strong>si</strong>ficare ¸<strong>si</strong> regre<strong>si</strong>e<br />

Folo<strong>si</strong>nd caracteristicile prezentate în sect¸iunile 5.2.3 ¸<strong>si</strong> 5.2.4 au fost construite fi¸<strong>si</strong>erele Attribute-<br />

Relation File Format (ARFF) necesare pentru antrenarea arborilor <strong>de</strong> <strong>de</strong>cizie. ARFF este compatibil<br />

Weka ¸<strong>si</strong> este un format u¸sor <strong>de</strong> creat ¸<strong>si</strong> citit.<br />

Un prim pas în antrenare se referă la <strong>de</strong>terminarea celui mai bun algoritm <strong>de</strong> antrenare ¸<strong>si</strong> predict¸ie<br />

pentru setul <strong>de</strong> date utilizat. A fost realizată astfel o select¸ie pe baza vitezei ¸<strong>si</strong> a eficient¸ei dintre<br />

algoritmii prezentat¸i în [Witten and Frank, 2005]. Această select¸ie inclu<strong>de</strong>: regre<strong>si</strong>a liniară, reguli<br />

M5 ¸<strong>si</strong> regre<strong>si</strong>a aditivă.<br />

Fiecare dintre ace¸sti algoritmi a fost evaluat atât la nivel <strong>de</strong> propozit¸ie, cât ¸<strong>si</strong> <strong>de</strong> <strong>si</strong>labă. Pentru<br />

a estima corectitudinea select¸iei atributelor <strong>de</strong>scrisă anterior, rezultatele obt¸inute cu setul redus <strong>de</strong><br />

caracteristici au fost analizate. Pentru fiecare coeficient în parte a fost construit câte un arbore<br />

<strong>de</strong> <strong>de</strong>cizie. S-a observat că setul redus are performant¸e <strong>si</strong>milare cu cel complet. Pe baza analizei<br />

23


Adriana Cornelia STAN<br />

rezultatelor s-a <strong>de</strong>terminat că algoritmul <strong>de</strong> regre<strong>si</strong>e aditivă este cel mai potrivit pentru estimarea<br />

coeficient¸ilor atât la nivel <strong>de</strong> propozit¸ie cât ¸<strong>si</strong> <strong>de</strong> <strong>si</strong>labă. Datorită diferent¸elor mici dintre setul complet<br />

¸<strong>si</strong> cel redus <strong>de</strong> caracteristici ¸<strong>si</strong> pentru a reduce complexitatea meto<strong>de</strong>i, s-a folo<strong>si</strong>t doar setul redus în<br />

etapa <strong>de</strong> predict¸ie.<br />

Tabel 5.5: Rezultatele predict¸iei coeficient¸ilor DCT folo<strong>si</strong>nd regre<strong>si</strong>a aditivă. Coloanele tabelului<br />

reprezintă: [1] Coeficientul <strong>de</strong> corelat¸ie, [2] Eroarea medie absolută, [3] Eroarea medie pătratică, [4]<br />

Eroarea medie relativă[%], [5] Eroarea medie pătratică relativă[%].<br />

Coeficient DCT [1] [2] [3] [4] [5]<br />

Propozit¸ie DCT0 0.99 108.99 133.89 8.54 9.29<br />

DCT1 0.57 104.64 119.99 105.10 92.78<br />

DCT2 0.64 114.48 141.04 93.14 80.71<br />

DCT3 0.59 78.77 97.60 71.63 75.76<br />

DCT4 0.59 81.83 96.40 78.90 72.59<br />

DCT5 0.52 61.79 86.01 75.74 89.91<br />

DCT6 0.63 43.04 53.32 88.98 83.99<br />

DCT7 0.72 46.80 71.69 61.89 72.72<br />

Silabă DCT0 0.66 38.12 49.57 74.36 76.60<br />

DCT1 0.45 24.26 36.13 87.96 93.79<br />

DCT2 0.28 20.16 29.88 94.26 96.86<br />

DCT3 0.36 13.03 19.58 94.90 94.78<br />

DCT4 0.14 10.02 15.24 104.08 104.78<br />

DCT5 0.15 18.73 15.04 100.00 100.20<br />

DCT6 0.15 7.54 13.06 100.74 100.73<br />

5.3.2 Experiment 2 – Predict¸ia coeficient¸ilor DCT folo<strong>si</strong>nd algoritmul <strong>de</strong> regre<strong>si</strong>e aditivă<br />

Întreaga preprocesare ¸<strong>si</strong> antrenare a fost realizată în ve<strong>de</strong>rea pregătirii unui mo<strong>de</strong>l <strong>de</strong> predict¸ie a<br />

coeficient¸ilor DCT folo<strong>si</strong>nd doar caracteristicile disponibile în etichetele HTS, chiar mai mult <strong>de</strong>cât<br />

atât, setul redus <strong>de</strong> atribute. Coeficient¸ii DCT au fost extra¸<strong>si</strong> din conturul F0 interpolat liniar al<br />

subsetului rnd1 al corpusului RSS la nivel <strong>de</strong> propozit¸ie ¸<strong>si</strong> <strong>si</strong>labă. Arbori <strong>de</strong> cla<strong>si</strong>ficare ¸<strong>si</strong> regre<strong>si</strong>e<br />

au fost antrenat¸i pentru fiecare coeficient individual. Folo<strong>si</strong>nd cel mai bun algoritm <strong>de</strong>terminat, s-a<br />

realizat estimarea coeficient¸ilor DCT pentru cele 10 fraze <strong>de</strong> test. Tabelul 5.5 prezintă eroarea <strong>de</strong><br />

estimare pentru fiecare dintre cei 15 coeficient¸i. Se poate observa că odată cu cre¸sterea ordinului<br />

coeficientului, cre¸ste ¸<strong>si</strong> eroarea. Aceasta se datorează <strong>de</strong>viat¸iei standard mai mari ¸<strong>si</strong> a unui factor <strong>de</strong><br />

corelat¸ie mai scăzut între caracteristicile utilizate ¸<strong>si</strong> coeficient¸i.<br />

5.3.3 Experiment 3 – Test <strong>de</strong> ascultare<br />

Un experiment secundar a fost realizat pentru a <strong>de</strong>termina eroarea perceptibilă a estimării conturului<br />

F0. Acesta a implicat <strong>si</strong>n<strong>teza</strong> frazelor <strong>de</strong> test pe <strong>de</strong> o parte contururile F0 generate <strong>de</strong> <strong>si</strong>stemul HTS<br />

¸<strong>si</strong> pe <strong>de</strong> altă parte conturul estimat cu CART. Fig. 5.1 prezintă o comparat¸ie a acestor contururi.<br />

Chiar dacă se poate observa u¸sor că variat¸iile mari ale conturului F0 nu pot fi estimate corect <strong>de</strong><br />

către coeficient¸ii prezi¸<strong>si</strong>, valoarea medie a erorii conturului F0 este <strong>de</strong> 15Hz, valoare comparabilă cu<br />

cea obt¸inută <strong>de</strong> [Latorre and Akamine, 2008] sau [Sun, 2002], 13Hz pentru nivelul <strong>de</strong> <strong>si</strong>labă ¸<strong>si</strong> 8Hz la<br />

nivelul <strong>de</strong> propozit¸ie. Eroarea mai mare la nivel <strong>de</strong> <strong>si</strong>labă sust¸ine i<strong>de</strong>ea introducerii unui nivel separat<br />

la nivel <strong>de</strong> fonem ca ¸<strong>si</strong> <strong>de</strong>zvoltare ulterioară.<br />

Un test <strong>de</strong> ascultare a fost <strong>de</strong> asemenea realizat. 10 ascultători au comparat 20 <strong>de</strong> perechi <strong>de</strong><br />

rostiri alcătuite din <strong>si</strong>n<strong>teza</strong> <strong>de</strong> voce cu conturul generat <strong>de</strong> HTS ¸<strong>si</strong> cel prezis pe baza coeficient¸ilor<br />

DCT. Ascultătorii au trebuit să noteze pe o scară <strong>de</strong> la [1-Nici o diferent¸ă] la [5-Complet diferite]<br />

24


Sin<strong>teza</strong> text-vorbire în limba română bazată pe mo<strong>de</strong>le Markov ¸<strong>si</strong> optimizarea interactivă a intonat¸iei<br />

gradul <strong>de</strong> <strong>si</strong>milaritate dintre cele două rostiri. Scorul mediu MOS a fost <strong>de</strong> 2,5, ceea ce înseamnă că<br />

nu au fost <strong>de</strong>terminate diferent¸e semnificative între cele două <strong>si</strong>steme ¸<strong>si</strong> astfel metoda <strong>de</strong> estimare<br />

poate fi utilizată cu succes pornind doar <strong>de</strong> la date textuale.<br />

Figura 5.1: Contururile F0 original ¸<strong>si</strong> prezis - propozit¸ia: Băimăreanul ură¸ste lipsa <strong>de</strong> punctualitate<br />

¸<strong>si</strong> făt¸ărnicia.<br />

25


Adriana Cornelia STAN<br />

6 Optimizarea conturului F0 cu feedback interactiv al utilizatorilor<br />

non-expert¸i<br />

6.1 Introducere<br />

În ultimul <strong>de</strong>ceniu <strong>si</strong>stemele <strong>de</strong> <strong>si</strong>nteză text-vorbire au evoluat până în punctul în care în anumite<br />

scenarii, ascultătorii non-expert¸i nu pot face diferent¸a dintre vocea naturală ¸<strong>si</strong> cea <strong>si</strong>ntetică cu o<br />

acuratet¸e <strong>de</strong> 100%. O problemă rămâne însă în momentul în care se dore¸ste obt¸inerea unei voci<br />

naturale expre<strong>si</strong>ve. Datorită subiectivităt¸ii exprimării emot¸iilor în vorbire, oamenii nu pot să distingă<br />

obiectiv dacă un <strong>si</strong>stem este mai expre<strong>si</strong>v <strong>de</strong>cât altul. Se i<strong>de</strong>ntifică astfel următoarele probleme ale<br />

<strong>si</strong>stemelor <strong>de</strong> <strong>si</strong>nteză <strong>de</strong> ultimă generat¸ie care limitează expre<strong>si</strong>vitatea vorbirii <strong>si</strong>ntetizate:<br />

Problema #1: Unele dintre cele mai bune <strong>si</strong>steme TTS beneficiază <strong>de</strong> pe urma achizit¸iei anterioare<br />

a unui corpus <strong>de</strong> voce extins, iar în anumite cazuri <strong>de</strong> pe urma adnotării manuale sau a unor<br />

reguli intonat¸ionale. Din păcate acest ucru implică resurse ¸<strong>si</strong> eforturi sprorite ce nu sunt disponibile<br />

pentru majoritatea limbilor.<br />

Problema #2: Cele mai multe <strong>si</strong>steme TTS actuale oferă utilizatorilor un <strong>si</strong>ngur rezultat ce nu<br />

poate modificat ¸<strong>si</strong> care în anumite cazuri nu cont¸ine emfaza sau expre<strong>si</strong>vitatea dorită <strong>de</strong> utilizator.<br />

Problema #3: Dacă rezultatele unui <strong>si</strong>stem pot fi îmbunătăt¸ite, aceasta implică <strong>de</strong> cele mai<br />

multe ori intervent¸ia unei persoane specializate ¸<strong>si</strong> nece<strong>si</strong>tă reconstruct¸ia întregului <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză.<br />

Problema #4: Recent au fost publicate o serie <strong>de</strong> studii legate <strong>de</strong> evaluarea obiectivă a vorbirii<br />

<strong>si</strong>ntetice, însă în cele din urmă utilizatorul final este cel care poate evalua rezultatele într-un mod pur<br />

subiectiv.<br />

6.2 Optimizarea interactivă a intonat¸iei folo<strong>si</strong>nd CMA-ES<br />

Problemele prezentate la începutul acestui capitol sunt part¸ial rezolvate prin metoda prezentată în<br />

continuare [Stan et al., 2011a]. Metoda este următoarea: având dat rezultatul unui <strong>si</strong>ntetizor <strong>de</strong> voce,<br />

utilizatorul poate opta pentru o îmbunătăt¸ire a intonat¸iei acestuia. Sistemul evaluează apoi conturul<br />

init¸ial al F0 ¸<strong>si</strong> crează un număr mic <strong>de</strong> variante ale rostirii propozit¸iei. Con<strong>si</strong><strong>de</strong>rând că utilizatorul<br />

selectează în mod subiectiv cel mai bun individ al fiecărui set, următoarea generat¸ie este construită<br />

pe baza acestei alegeri. Dialogul se opre¸ste în momentul în care utilizatorul con<strong>si</strong><strong>de</strong>ră un individ<br />

al unei generat¸ii satisfăcător. Solut¸ia aleasă pentru parametrizarea frecvent¸ei fundamentale este cea<br />

bazată pe transformata co<strong>si</strong>nus discretă, iar pentru partea interactivă, algoritmul Covariance Matrix<br />

Adaptation-Evolution Strategy (CMA-ES).<br />

Această metodă este utilă pentru cazul în care un utilizator non-expert dore¸ste să modifice rezultatul<br />

<strong>si</strong>stemului <strong>de</strong> <strong>si</strong>nteză în funct¸ie <strong>de</strong> preferint¸ele sale. De asemenea limbile cu resurse limitate pot<br />

beneficia <strong>de</strong> pe urma acesteia, nefiind necesară achizit¸ia unui corpus extins <strong>de</strong> voce. Îmbunătăt¸irile<br />

prozodice selectate <strong>de</strong> utilizator pot oferi un feedback pe termen lung pentru <strong>de</strong>zvoltatori sau pot duce<br />

la un <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză adaptiv.<br />

6.2.1 Cercetări conexe<br />

Un studiu al algoritmilor genetici aplicat¸i pentru <strong>si</strong>n<strong>teza</strong> vorbirii emot¸ionale este prezentat în cercetă<br />

rile lui [Lv et al., 2009]. Autorii utilizează adnotarea XML a prozodiei în cadrul Microsoft Speech<br />

SDK ¸<strong>si</strong> încearcă să convertească o vorbire neutră la una dintre cele 6 emot¸ii <strong>de</strong> bază: bucurie, furie,<br />

frică, <strong>de</strong>zgust ¸<strong>si</strong> surprin<strong>de</strong>re. Tag-urile XML ale vorbirii <strong>si</strong>ntetizate reprezintă genomul. Ascultătorii<br />

sunt rugat¸i să selecteze dintre 10 variante <strong>de</strong> rostire la fiecare generat¸ie ¸<strong>si</strong> să se oprească în momentul<br />

în care con<strong>si</strong><strong>de</strong>ră emot¸ia uneia dintre rostiri <strong>si</strong>milară cu cea dorită. Rezultatele sunt apoi comparate<br />

cu cele ale unui <strong>si</strong>stem emot¸ional expert. Adaptarea prozodiei este realizată la nivel <strong>de</strong> cuvânt ¸<strong>si</strong> nu<br />

<strong>de</strong> frază sau propozit¸ie.<br />

Pe baza documentării nu au fost i<strong>de</strong>ntificate studii care să aplice strategii evolutive pentru optimizarea<br />

prozodiei vorbirii <strong>si</strong>ntetizate.<br />

26


Sin<strong>teza</strong> text-vorbire în limba română bazată pe mo<strong>de</strong>le Markov ¸<strong>si</strong> optimizarea interactivă a intonat¸iei<br />

Frequency[Hz]<br />

250<br />

200<br />

150<br />

100<br />

50<br />

0<br />

Synthe<strong>si</strong>ser output pitch<br />

Phrase level pitch<br />

High level pitch information<br />

0 0.2 0.4 0.6 0.8<br />

Time[s]<br />

1 1.2 1.4 1.6<br />

Figura 6.1: Un exemplu <strong>de</strong> <strong>de</strong>scompunere a conturului F0 în nivel <strong>de</strong> propozit¸ie ¸<strong>si</strong> informat¸ie<br />

intonat¸ională <strong>de</strong> nivel înalt. Conturul la nivel <strong>de</strong> propozit¸ie este bazat pe transformata DCT inversă<br />

a coeficient¸ilor DCT1-DCT7 – propozit¸ia ”Ce mai faci?”.<br />

6.2.2 Parametrizarea DCT a conturului frecvent¸ei fundamentale la nivel <strong>de</strong> propozit¸ie<br />

Metoda propusă adresează problema mo<strong>de</strong>lării intonat¸iei la nivel <strong>de</strong> propozit¸ie. Pornind <strong>de</strong> la un<br />

contur intonat¸ional plat, un contur mai dinamic ¸<strong>si</strong> mai expre<strong>si</strong>v este <strong>de</strong>rivat. Astfel că, se con<strong>si</strong><strong>de</strong>ră<br />

că nivelul <strong>de</strong> propozit¸ie este reprezentat <strong>de</strong> transformata co<strong>si</strong>nus discretă inversă a coeficient¸ilor<br />

DCT1 până la DCT7 ai F0. Această presupunere este sust¸inută ¸<strong>si</strong> <strong>de</strong> rezultatele prezentate în<br />

[Teutenberg et al., 2008] ¸<strong>si</strong> cele din capitolul anterior. DCT0 reprezintă media curbei, iar în acest<br />

caz este <strong>de</strong>pen<strong>de</strong>ntă <strong>de</strong> vorbitor. Folo<strong>si</strong>nd DCT0 în codarea genomului ar modifica în mod nedorit<br />

frecvent¸a fundamentală a vorbitorului, lucru nedorit <strong>de</strong> altfel, accentul fiind asupra tendint¸ei globale a<br />

intonat¸iei la nivel <strong>de</strong> propozit¸ie. Nivelul propozit¸iei este apoi scăzut din conturul global, iar rezultatul<br />

este ret¸inut ¸<strong>si</strong> referit ca fiind informat¸ie intonat¸ională <strong>de</strong> nivel înalt. Fig. 6.1 prezintă un exemplu <strong>de</strong><br />

contur F0 alături <strong>de</strong> conturul la nivel <strong>de</strong> propozit¸ie ¸<strong>si</strong> informat¸ia intonat¸ională <strong>de</strong> nivel înalt. Se poate<br />

observa că la nivel <strong>de</strong> propozit¸ie conturul reprezintă tendinta intonat¸ională a segmentelor sonore, iar<br />

informat¸ia <strong>de</strong> nivel înalt are un contur relativ plat, cu variat¸ii date <strong>de</strong> nivelele <strong>de</strong> cuvânt, <strong>si</strong>labă sau<br />

fonem.<br />

Deoarece DCT nu poate parametriza variat¸iile mari cu un număr redus <strong>de</strong> coeficient¸i, segmentele<br />

nesonore ale conturului F0 sau fost interpolate folo<strong>si</strong>nd o funct¸ie cubică. În cadrul pasului interactiv,<br />

transformata DCT inversă este aplicată asupra indivizilor generat¸i, după care se adaugă informat¸ia<br />

<strong>de</strong> nivel înalt, iar apoi se re<strong>si</strong>ntetizează folo<strong>si</strong>nd noul contur obt¸inut.<br />

6.2.3 Solut¸ia propusă<br />

Combinând potent¸ialul parametrizării DCT cu cel al strategiilor evolutive, o solut¸ie interactivă pentru<br />

optimizarea intonat¸iei este introdusă. Aceasta nu nece<strong>si</strong>tă nici o analiză sau cuno¸stint¸ă anterioară <strong>de</strong><br />

procesare a semnalului vocal. Pentru aceasta, trebuie rezolvate trei probleme: 1 generarea unor variante<br />

ale semnalului vocal din care utilizatorul să poată să aleagă, 2 minimizarea efortului utilizatorului<br />

¸<strong>si</strong> 3 aplicarea feedback-ului utillizatorului pentru îmbunătăt¸irea intonat¸iei.<br />

Prima problemă este solut¸ionată prin utilizarea CMA-ES pentru a genera diferite rostiri ale aceleaia¸<strong>si</strong><br />

propozit¸ie, conform unei distribut¸ii normale în jurul rezultatului <strong>si</strong>stemului <strong>de</strong> <strong>si</strong>nteză HTS<br />

pentru limba română [Stan et al., 2011b]. Genomul este codat folo<strong>si</strong>nd un vector cu 7 gene, un<strong>de</strong><br />

fiecare genă stochează valoarea unui coeficient DCT, <strong>de</strong> la DCT 1 la DCT7. Se porne¸ste <strong>de</strong> la un<br />

vector medie init¸ial m ce cont¸ine coeficient¸ii DCT ai conturului F0 la nivel <strong>de</strong> propozit¸ie generat <strong>de</strong><br />

<strong>si</strong>stemul HTS ¸<strong>si</strong> o matrice <strong>de</strong> covariant¸ă init¸ială C = I ∈ R 7×7 .<br />

În pasul următor, utilizatorul trebuie să evalueze indivizii generat¸i. Dacă dimen<strong>si</strong>unea populat¸iei<br />

este prea mare, utilizatorul poate obo<strong>si</strong> înainte <strong>de</strong> a ajunge la un individ satisfăcător sau ar putea<br />

să nu se<strong>si</strong>zeze diferent¸e semnificative între indivizi. Pe <strong>de</strong> altă parte, dacă dimen<strong>si</strong>unea populat¸iei<br />

este prea mică ¸<strong>si</strong> spat¸iul <strong>de</strong> căutare nu este explorat corect, un individ potrivit poate să nu fie gă<strong>si</strong>t.<br />

CMA-ES este cunoscut datorită convergent¸ei rapi<strong>de</strong> chiar ¸<strong>si</strong> cu populat¸ii <strong>de</strong> dimen<strong>si</strong>une redusă fat¸ă<br />

<strong>de</strong> alt¸i algoritmi evolutivi, dar nu a fost aplicată anterior pentru solut¸ionarea problemelor interactive.<br />

27


Adriana Cornelia STAN<br />

STOP DA<br />

Vorbire <strong>si</strong>ntetizată<br />

Rezultat<br />

satisfăcător<br />

?<br />

NU<br />

Evaluează F0 şi extrage<br />

coeficienţi DCT<br />

Generează individ iniţial<br />

Feedback utilizator<br />

(fitness subiectiv)<br />

Mostre <strong>de</strong> vorbire<br />

IDCT şi re<strong>si</strong>nteză<br />

Generează o nouă<br />

populaţie<br />

Stochează<br />

coeficienţii DCT ai<br />

celui mai bun<br />

individ<br />

Continuă?<br />

Figura 6.2: Diagrama bloc a meto<strong>de</strong>i propuse pentru optimizarea interactivă a intonat¸iei.<br />

Pe <strong>de</strong> altă parte, algoritmii genetici interactivi (IGA) au fost studiat¸i inten<strong>si</strong>v, dar nu converg la fel<br />

<strong>de</strong> rapid ca ¸<strong>si</strong> CMA-ES pentru probleme neliniare non-convexe. Convergent¸a rapidă înseamnă mai<br />

put¸ine evaluări din parea utilizatorului, <strong>de</strong>ci un efort redus.<br />

Pentru ver<strong>si</strong>unea interactivă a CMA-ES s-a utilizat o funct¸ie fitness <strong>de</strong> tipul campionat cu elimiare<br />

<strong>si</strong>mplă. În acest caz, indivizii sunt împerecheat¸i aleator ¸<strong>si</strong> joacă un joc per pereche. Pierzătorii sunt<br />

automat eliminat¸i din campionat. Procesul se repetă până ce se obt¸ine un <strong>si</strong>ngur campion. Valoarea<br />

funct¸iei fitness a fiecărui individ este egală cu numărul <strong>de</strong> jocuri jucate. Fiecare pereche <strong>de</strong> indivizi este<br />

prezentată utilizatorilor sub forma a două rostiri <strong>si</strong>ntetizate. Datorită evaluării subiective, alegerea<br />

celui mai bun individ <strong>de</strong>pin<strong>de</strong> în totalitate <strong>de</strong> utilizator.<br />

Valoarea funct¸iei fitness este utilizată apoi <strong>de</strong> CMA-ES pentru a actualiza vectorul medie m,<br />

matricea <strong>de</strong> covariant¸ă C ¸<strong>si</strong> <strong>de</strong>viat¸ia standard σ. O nouă populat¸ie <strong>de</strong> indivizi este generată pe baza<br />

valorilor actualizate, iar procesul se repetă. Diagrama bloc a meto<strong>de</strong>i propuse este prezentată în Fig.<br />

6.2.<br />

6.3 Evaluare<br />

Rezultatele prezentate în continuare sunt axate pe stabilirea scenariului corect <strong>de</strong> aplicare a solut¸iei<br />

interactive ¸<strong>si</strong> u¸surint¸a în utilizare la partea <strong>de</strong> utilizator non-expert.<br />

6.3.1 Experiment 1 - Deviat¸ia standard init¸ială a populat¸iei<br />

Pentru a stabili <strong>de</strong>viat¸ia stadard init¸ială a populat¸iei s-a realizat mai întâi un studiu statistic prezentat<br />

¸<strong>si</strong> în capitolul 5. Acesta inclu<strong>de</strong> analiza coefiecient¸ilor DCT ai subsetului rnd1 din RSS. Numărul <strong>de</strong><br />

propozit¸ie din acest subset este <strong>de</strong> 730 cu o durată medie <strong>de</strong> 1.7 secun<strong>de</strong>. Intonat¸ia este relativ plată,<br />

<strong>de</strong>clarativă. DCT0 a fost inclus pentru o viziune generală, <strong>de</strong>oarece reprezintă media conturului F0<br />

¸<strong>si</strong> este <strong>de</strong>pen<strong>de</strong>nt <strong>de</strong> vorbitor. Acest coeficient nu este utilizat în estimarea conturului la nivel <strong>de</strong><br />

propozit¸ie. Mediile ¸<strong>si</strong> <strong>de</strong>viat¸iile standard ale coeficient¸ilor sunt prezentate în Tabelul 6.1 ¸<strong>si</strong> cont¸in ¸<strong>si</strong><br />

valorile corespon<strong>de</strong>nte ale F0 în Hz. Din Tabelul 6.1 se poate observa că DCT0 este un indicator bun<br />

al frecvent¸ei fundamentale a vorbitorului, cu o valoare medie <strong>de</strong> 254Hz.<br />

DCT1 are cea mai importantă influent¸ă asupra conturului F0 după DCT0. Valoarea medie a<br />

coeficientului DCT este <strong>de</strong> 331,75 cu o <strong>de</strong>viat¸iei standard <strong>de</strong> 185,85 ¸<strong>si</strong> o variat¸ie maximă a F0 dată<br />

<strong>de</strong> +1 std. <strong>de</strong>v. (331.75+185.85 = 517.6) <strong>de</strong> aprox. 40Hz. Una dintre problemele abordata în cadrul<br />

acestei teze este expan<strong>si</strong>unea domeniului frecvent¸ei fundamentale. Aceasta înseamnă că pornind <strong>de</strong> la<br />

28<br />

DA<br />

NU


Sin<strong>teza</strong> text-vorbire în limba română bazată pe mo<strong>de</strong>le Markov ¸<strong>si</strong> optimizarea interactivă a intonat¸iei<br />

Tabel 6.1: Mediile ¸<strong>si</strong> <strong>de</strong>viat¸iile standard ale coeficient¸ilor DCT la nivel <strong>de</strong> propozit¸ie din subsetul rnd1<br />

al RSS ¸<strong>si</strong> valorile corespon<strong>de</strong>nte ale F0 date în Hz pentru o durată medie <strong>de</strong> 1.7 secun<strong>de</strong>.<br />

Coeficient Medie Medie F0 Deviat¸ie Deviat¸ia<br />

[Hz] standard F0 maximă [Hz]<br />

- 1 std <strong>de</strong>v +1 std <strong>de</strong>v<br />

DCT0 4690.300 251-257 1318.300 179-186 322-329<br />

DCT1 331.750 ± 4 185.850 ±12 ±40<br />

DCT2 -95.087 ±7 197.470 ±22 ±7<br />

DCT3 168.270 ±12 161.030 ±0.55 ±25<br />

DCT4 -57.100 ±4 151.600 ±16 ±7<br />

DCT5 94.427 ±7 130.150 ±2 ±17<br />

DCT6 -22.312 ±1 123.020 ±11 ±7<br />

DCT7 67.095 ±5 110.370 ±3 ±13<br />

Frequency[Hz]<br />

Frequency[Hz]<br />

400<br />

350<br />

300<br />

250<br />

200<br />

150<br />

100<br />

50<br />

0<br />

0 0.2 0.4 0.6 0.8 1 1.2 1.4<br />

Time[s]<br />

400<br />

350<br />

300<br />

250<br />

200<br />

150<br />

100<br />

50<br />

3rd generation; std. <strong>de</strong>v. = 150<br />

3rd generation; std. <strong>de</strong>v. = 350<br />

OriginalF0<br />

Individual 1<br />

Individual 2<br />

Individual 3<br />

Individual 4<br />

OriginalF0<br />

Individual 1<br />

Individual 2<br />

Individual 3<br />

Individual 4<br />

0<br />

0 0.2 0.4 0.6 0.8 1 1.2 1.4<br />

Time[s]<br />

Figura 6.3: Cea <strong>de</strong>-a treia generat¸ie a conturului F0 pentru o <strong>de</strong>viat¸ie standard init¸ială <strong>de</strong> 150 ¸<strong>si</strong><br />

respectiv 350. F0 original reprezintă conturul produs <strong>de</strong> <strong>si</strong>stemul <strong>de</strong> <strong>si</strong>nteză– propozit¸ia ”Ce mai<br />

faci?”<br />

<strong>de</strong>viat¸ia standard a unui corpus <strong>de</strong> vorbire cu intonat¸ie plată se dore¸ste <strong>de</strong>pă¸<strong>si</strong>rea acestei valori pentru<br />

generarea noilor rostiri, dar limitată superior <strong>de</strong> valoarea ce sca<strong>de</strong> naturalet¸ea vorbirii <strong>si</strong>ntetizate. În<br />

Fig. 6.3 cea <strong>de</strong>-a treia generat¸ie <strong>de</strong> indivizi pentru o <strong>de</strong>viat¸ie standard init¸ială <strong>de</strong> 150, respectiv 350<br />

este prezentată. Se poate observa pentru cazul cu 350 că individul 3 are valori F0 ce ating pragul<br />

<strong>de</strong> 50Hz con<strong>si</strong><strong>de</strong>rat nenatural pentru vorbire, iar pentru o <strong>de</strong>viat¸ie standard <strong>de</strong> 150, contururile nu<br />

variază suficient. Având aceste rezultate, s-a selectat o <strong>de</strong>viat¸ie standard init¸ială <strong>de</strong> 250. Un aspect<br />

important ce trebuie remarcat din Tabelul 6.1 este că tot¸i cei 7 coeficient¸i au aproximativ aceea¸<strong>si</strong><br />

<strong>de</strong>viat¸ie standard. Aceasta înseamnă că impunând o variat¸ie bazată pe DCT1, nu se <strong>de</strong>pă¸sesc valorile<br />

naturale pentru ceilalt¸i coeficient¸i.<br />

6.3.2 Experiment 2 - Dimen<strong>si</strong>unea populat¸iei<br />

Funct¸ia fitness <strong>de</strong> tip campionat cu eliminare <strong>si</strong>mplă nece<strong>si</strong>tă feedback pentru n − 1 jocuri, un<strong>de</strong> n<br />

este dimen<strong>si</strong>unea populat¸iei. Astfel că dimen<strong>si</strong>unea populat¸iei are o important¸ă <strong>de</strong>osebită în crearea<br />

aplicat¸iei interactive. Au fost selectate un set <strong>de</strong> valori diferite pentru dimen<strong>si</strong>unea populat¸iei, iar<br />

29


Adriana Cornelia STAN<br />

rezultatele sunt prezentate în Fig. 6.4. Chiar dacă cu cât este mai mare numărul <strong>de</strong> indivizi cu<br />

atât este mai mare numărul <strong>de</strong> rostiri din care utilizatorul poate alege, aceasta nu este neapărat<br />

un lucru bun în contextul efortului <strong>de</strong>pus <strong>de</strong> utilizator. Având însă doar 2 indivizi nu se pot oferi<br />

opt¸iuni suficiente. Astfel că utilizarea a 4 indivizi per generat¸ie este sugerată ca ¸<strong>si</strong> un compromis între<br />

variabilitatea rostirilor ¸<strong>si</strong> a efortului <strong>de</strong>pus <strong>de</strong> utilizator.<br />

Frequency[Hz]<br />

Frequency[Hz]<br />

Frequency[Hz]<br />

400<br />

350<br />

300<br />

250<br />

200<br />

150<br />

100<br />

50<br />

0<br />

0 0.2 0.4 0.6 0.8 1 1.2 1.4<br />

Time[s]<br />

Initial population, 4 individuals/generation<br />

400<br />

350<br />

300<br />

250<br />

200<br />

150<br />

100<br />

50<br />

0<br />

OriginalF0<br />

Individual 1<br />

Individual 2<br />

Individual 3<br />

Individual 4<br />

0 0.2 0.4 0.6 0.8 1 1.2 1.4<br />

Time[s]<br />

Initial population, 8 individuals/generation<br />

400<br />

350<br />

300<br />

250<br />

200<br />

150<br />

100<br />

50<br />

0<br />

Initial population, 2 individuals/generation<br />

OriginalF0<br />

Individual 1<br />

Individual 2<br />

OriginalF0<br />

Individual 1<br />

Individual 2<br />

Individual 3<br />

Individual 4<br />

Individual 5<br />

Individual 6<br />

Individual 7<br />

Individual 8<br />

0 0.2 0.4 0.6 0.8 1 1.2 1.4<br />

Time[s]<br />

Figura 6.4: Variat¸ia dimen<strong>si</strong>unii populat¸iei. F0 original reprezintă conturul generat <strong>de</strong> <strong>si</strong>stemul <strong>de</strong><br />

<strong>si</strong>nteză– propozit¸ia ”Ce mai faci?”<br />

6.3.3 Experiment 3 - Expan<strong>si</strong>unea dinamică a frecvent¸ei fundamentale<br />

O altă evaluare este analiza modificării conturului F0 <strong>de</strong> la o generat¸ie la alta. Fig. 6.5 prezintă variat¸ia<br />

conturului propozit¸iei <strong>de</strong> la populat¸ia init¸ială la cea <strong>de</strong>-a treia. Se poate observa că pornind la un<br />

contur relativ plat, la cea <strong>de</strong>-a treia generat¸ie dinamica F0 este mult extinsă, rezultând o variabiliate<br />

mai mare a intonat¸iei inter ¸<strong>si</strong> intra generat¸ie.<br />

6.3.4 Experiment 4 - Test <strong>de</strong> ascultare<br />

Pentru a stabili naturalet¸ea indivizilor generat¸i ¸<strong>si</strong> expre<strong>si</strong>vitatea îmbunătăt¸ită a câ¸stigătorilor fiecărei<br />

generat¸ii, un test <strong>de</strong> ascultare minimal a fost realizat. În primă fază, un utilizator a fost rugat să<br />

selecteze câ¸stigătorii din 4 generat¸ii pentru 10 propozit¸ii. Deviat¸ia standard init¸ială a fost <strong>de</strong> 250 ¸<strong>si</strong><br />

o dimen<strong>si</strong>une a populat¸iei <strong>de</strong> 4 indivizi. Apoi, 10 ascultători au acordat scoruri MOS pentru rostiri<br />

în două categorii: Naturalet¸e – rostirile generate au fost comparate cu înregistrările originale pe o<br />

scară <strong>de</strong> la [1-Nenatural] la [5-Natural]; tot¸i indivizii din cele 4 generat¸ii au fost evaluat¸i; Expre<strong>si</strong>vitate<br />

– câ¸stigătorii fiecărei generat¸ii au fost comparat¸i cu ver<strong>si</strong>unea originală <strong>si</strong>ntetizată. Ascultătorii au<br />

trebuit să noteze rostirile pe o scară <strong>de</strong> la [1-Mai put¸in expre<strong>si</strong>v] la [5-Mai expre<strong>si</strong>v].<br />

Rezultatele testului sunt prezentate în Fig. 6.6. În testul <strong>de</strong> naturalet¸e toate generat¸iile au<br />

obt¸inut un scor MOS relativ mare, cu mici diferent¸e pentru generat¸ia a patra. Testul <strong>de</strong> expre<strong>si</strong>vitate<br />

a arătat că tot¸i câ¸stigătorii generat¸iilor au o expre<strong>si</strong>vitate mai bună <strong>de</strong>cât vorbirea <strong>si</strong>ntetizată <strong>de</strong><br />

<strong>si</strong>stemul <strong>de</strong> bază HTS. Acest test preliminar concluzionează avantajele acestei meto<strong>de</strong>: păstrând<br />

naturalet¸ea vorbirii, expre<strong>si</strong>vitatea este îmbunătăt¸ită. Exemple <strong>de</strong> rostiri generate <strong>de</strong> această metodă<br />

pot fi ascultate la adresa http://www.romaniantts.com/nicso2011.<br />

30


Sin<strong>teza</strong> text-vorbire în limba română bazată pe mo<strong>de</strong>le Markov ¸<strong>si</strong> optimizarea interactivă a intonat¸iei<br />

Frequency[Hz]<br />

Frequency[Hz]<br />

100<br />

80<br />

60<br />

40<br />

20<br />

0<br />

-20<br />

-40<br />

100<br />

80<br />

60<br />

40<br />

20<br />

0<br />

-20<br />

-40<br />

Initial population<br />

2nd generation<br />

Original Contour<br />

Individual 1<br />

Individual 2<br />

Individual 3<br />

Individual 4<br />

0 0.2 0.4 0.6 0.8 1 1.2 1.4<br />

Time[s]<br />

Original Contour<br />

Individual 1<br />

Individual 2<br />

Individual 3<br />

Individual 4<br />

0 0.2 0.4 0.6 0.8 1 1.2 1.4<br />

Time[s]<br />

Frequency[Hz]<br />

Frequency[Hz]<br />

100<br />

80<br />

60<br />

40<br />

20<br />

0<br />

-20<br />

-40<br />

100<br />

80<br />

60<br />

40<br />

20<br />

0<br />

-20<br />

-40<br />

1st generation<br />

0 0.2 0.4 0.6 0.8 1 1.2 1.4<br />

Time[s]<br />

3rd generation<br />

Original Contour<br />

Individual 1<br />

Individual 2<br />

Individual 3<br />

Individual 4<br />

Original Contour<br />

Individual 1<br />

Individual 2<br />

Individual 3<br />

Individual 4<br />

0 0.2 0.4 0.6 0.8 1 1.2 1.4<br />

Time[s]<br />

Figura 6.5: Evolut¸ia conturului la nivel <strong>de</strong> propozit¸ie <strong>de</strong>-a lungul a trei generat¸ii pentru propozit¸ia<br />

”Ce mai faci?”. F0 original reprezintă conturul produs <strong>de</strong> <strong>si</strong>ntetizor.<br />

2.5 3.0 3.5 4.0 4.5 5.0<br />

●<br />

●<br />

N.G0 N.G1 N.G2 N.G3 E.W0 E.W1 E.W2 E.W3<br />

Figura 6.6: Rezultatele testului <strong>de</strong> ascultare pentru <strong>si</strong>stemul <strong>de</strong> optimizare interactivă a intonat¸iei.<br />

N-Gx reprezintă naturalet¸ea indivizilor din generat¸ii, iar E-Wx reprezintă rezultatele testului <strong>de</strong> expre<strong>si</strong>vitate<br />

pentru fiecăre câ¸stigător al unei generat¸ii.<br />

●<br />

31


Adriana Cornelia STAN<br />

7 Discut¸ii ¸<strong>si</strong> <strong>de</strong>zvoltări ulterioare<br />

7.1 Dezvoltarea resurselor pentru un <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză parametrică în limba<br />

română<br />

Dezvoltarea resurselor pentru o limbă <strong>de</strong> <strong>si</strong>nteză nouă este o etapă importantă a oricărui <strong>si</strong>stem <strong>de</strong><br />

procesare a vorbirii. Analiza unor corpusuri <strong>de</strong> vorbire extinse oferă informat¸ii esent¸iale. Resursele <strong>de</strong><br />

text, precum ¸<strong>si</strong> cele <strong>de</strong> vorbire au fost introduse gradual în capitolul 3. Chiar dacă resursele acoperă<br />

o varietate mare <strong>de</strong> aspecte, ele pot fi con<strong>si</strong><strong>de</strong>rate doar un punct <strong>de</strong> pornire spre o sursă <strong>de</strong> informat¸ie<br />

mai elaborată ¸<strong>si</strong> mai complexă.<br />

Resursele <strong>de</strong> text includ un corpus <strong>de</strong> text cu articole <strong>de</strong> ziar, reguli <strong>si</strong>mple <strong>de</strong> transcriere fonetică,<br />

pozit¸ionarea accentului, <strong>si</strong>labificare ¸<strong>si</strong> adnotarea părt¸ii <strong>de</strong> vorbire. Resursele <strong>de</strong> text nu au reprezentat<br />

elementul principal al acestei cercetări, astfel că fiecare element are i<strong>de</strong>ntificată o problemă aferentă.<br />

Corpusul <strong>de</strong> text cont¸ine aproximativ 4000 <strong>de</strong> articole scurte din ziar. Chiar dacă limbajul din massmedia<br />

este con<strong>si</strong><strong>de</strong>rat la ora actuală ca fiind o referint¸ă importantă pentru majoritatea vorbitorilor, nu<br />

este neapărat o sursă optimă pentru studiile lingvistice. Operele literare ar trebui <strong>de</strong> asemenea incluse<br />

în astfel <strong>de</strong> resurse. Regulile <strong>de</strong> transcrierea fonetică scrise în Festival includ doar un set minim ¸<strong>si</strong> nu<br />

acoperă setul complet <strong>de</strong>scris <strong>de</strong> foneticieni. Cu toate acestea, regulile implementate pot fi con<strong>si</strong><strong>de</strong>rate<br />

ca fiind suficiente prin analiza rezultatelor testului <strong>de</strong> inteligibilitate.<br />

Pentru pozit¸ionarea accentului, o resursă importantă o reprezintă baza <strong>de</strong> date DEX online, însă nu<br />

este practică utilizarea ei într-un procesor <strong>de</strong> text cu aplicat¸ii în timp real. Chiar dacă limba română<br />

nu are reguli <strong>de</strong>terministe <strong>de</strong> pozitionare a accentului, accentul poate fi <strong>de</strong>rivat folo<strong>si</strong>nd algoritmi <strong>de</strong><br />

inteligent¸a artificială. Evaluarea init¸ială a principiului MOP pentru <strong>si</strong>labificare este doar o analiză<br />

preliminară, iar rezultatele sale nu pot fi con<strong>si</strong><strong>de</strong>rate conclu<strong>si</strong>ve. O analiză extinsă în combinat¸ie cu<br />

reguli standard <strong>de</strong> <strong>si</strong>labificare pentru limba română ar trebui realizată. Adnotare părt¸ii <strong>de</strong> vorbire a<br />

fost <strong>de</strong> asemenea <strong>de</strong>terminată dintr-o sursă externă ¸<strong>si</strong> nu poate fi astfel complet controlată.<br />

Lexiconul <strong>de</strong>zvoltat inclu<strong>de</strong> pozit¸ionarea accentului ¸<strong>si</strong> transcrierea fonetică. Extin<strong>de</strong>ri ale sale<br />

implică adăugarea unor informat¸ii adit¸ionale, cum ar fi <strong>si</strong>labificarea <strong>de</strong> exemplu.<br />

Resursele <strong>de</strong> vorbire <strong>de</strong>zvoltate în contextul acestei teze reprezintă probabil una dintre cele mai importante<br />

contribut¸ii , luând în con<strong>si</strong><strong>de</strong>rare lipsa acestui tip <strong>de</strong> resurse pentru limba română. Proiectarea<br />

corpusului <strong>de</strong> vorbire permite utilizarea sa în cadrul mai multor tipuri <strong>de</strong> aplicat¸ii <strong>de</strong> procesare <strong>de</strong><br />

voce, precum recunoa¸sterea automată a vorbirii, codarea semnalului vocal ¸<strong>si</strong> evi<strong>de</strong>nt <strong>si</strong>n<strong>teza</strong> vorbirii.<br />

Calitatea sa înaltă ¸<strong>si</strong> frecvent¸a <strong>de</strong> e¸santionare sunt <strong>de</strong> asemnea o caracteristică importantă. Inclu<strong>de</strong>rea<br />

atât a textului din articolele <strong>de</strong> ziar, cât ¸<strong>si</strong> a celor două basme culte fac RSS o resursă comprehen<strong>si</strong>vă.<br />

Întreg corpusul este disponibil în mod gratuit sub <strong>de</strong>numirea <strong>de</strong> Romanian Speech Synthe<strong>si</strong>s (RSS).<br />

O extin<strong>de</strong>re po<strong>si</strong>bilă a acestei resurse este în mod evi<strong>de</strong>nt înregistrarea mai multor date.<br />

7.2 Un <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză parametrică pentru limba română bazat pe mo<strong>de</strong>le<br />

Markov ¸<strong>si</strong> frecvent¸e <strong>de</strong> e¸santionare mari<br />

După cum a fost arătat în capitolul 4, limba română nu dispune <strong>de</strong> resursele necesare cercetării <strong>si</strong>ntezei<br />

<strong>de</strong> vorbire. Sistemul HTS împreună cu resursele sunt o contribut¸ie importantă pentru domeniul <strong>de</strong><br />

cercetare. Capitolul 4 inclu<strong>de</strong> pregătirea datelor <strong>de</strong> la procesarea <strong>de</strong> text la segmentarea semnalului<br />

vocal ¸<strong>si</strong> adnotarea acestuia. O primă problemă a <strong>si</strong>stemului TTS este lipsa unui procesor <strong>de</strong> text<br />

optimal, cu normalizarea completă a textului ¸<strong>si</strong> adnotarea părt¸ii <strong>de</strong> vorbire. Chiar dacă nu a fost<br />

dovedit <strong>de</strong>ocamdată, adnotarea corectă a părt¸ii <strong>de</strong> vorbire poate influent¸a rezultatele <strong>si</strong>ntezei.<br />

Rezultatele testelor <strong>de</strong> ascultare au arătat că resursele <strong>de</strong> voce, parametri <strong>de</strong> configurare ¸<strong>si</strong> frecvent¸a<br />

<strong>de</strong> e¸santionare au fost select¸ionate în mod corespunzător. Evaluarea <strong>si</strong>stemului a inclus <strong>de</strong> asemenea<br />

¸<strong>si</strong> evaluarea setului <strong>de</strong> date <strong>de</strong> antrenare. Este cunoscut faptul că în <strong>si</strong>n<strong>teza</strong> <strong>de</strong> voce, cu cât este<br />

mai mare corpusul, cu atât este mai bună <strong>si</strong>n<strong>teza</strong>. Cu toate acestea, o <strong>de</strong>zvoltare interesantă ar<br />

reprezenta-o select¸ia unui corpus <strong>de</strong> durată minimă cu ajutorul căruia să se obt¸ină rezultate <strong>si</strong>milare<br />

celor prezentate. Testul <strong>de</strong> ascultare a arătat pe <strong>de</strong> altă parte, că pentru limba română, propozit¸iile<br />

32


Sin<strong>teza</strong> text-vorbire în limba română bazată pe mo<strong>de</strong>le Markov ¸<strong>si</strong> optimizarea interactivă a intonat¸iei<br />

semantic impredictibile generice nu <strong>de</strong>termină diferent¸e semnificative între <strong>si</strong>steme. Astfel că este<br />

nevoie <strong>de</strong> <strong>de</strong>zvoltarea unei meto<strong>de</strong> alternative pentru testarea inteligibilităt¸ii în limba română.<br />

7.3 O metodă <strong>de</strong> mo<strong>de</strong>lare a intonat¸iei in<strong>de</strong>pen<strong>de</strong>ntă <strong>de</strong> limbă<br />

Capitolul 5 a prezentat o analiză a capacităt¸ii <strong>de</strong> evaluare ¸<strong>si</strong> parametrizare a transformatei DCT<br />

pentru contururile F0. Metoda propusă face o <strong>de</strong>marcare clară între nivelul <strong>de</strong> propozit¸ie ¸<strong>si</strong> <strong>de</strong> <strong>si</strong>labă<br />

ale frecvent¸ei fundamentale pentru parametrizare. Fiecare nivel este mo<strong>de</strong>lat individual folo<strong>si</strong>nd un<br />

număr limitat <strong>de</strong> coeficient¸i DCT. Analiza statistică a coeficient¸ilor a arătat că odată cu cre¸sterea<br />

ordinului coeficient¸ilor, <strong>de</strong>viat¸ia stadard relativă sca<strong>de</strong>, ceea ce înseamnă o mai mică variabilitate. Se<br />

poate astfel concluziona că prin extin<strong>de</strong>rea numărului <strong>de</strong> coeficient¸i DCT, nu s-ar obt¸ine îmbunătăt¸iri<br />

semnificative.<br />

Fiecare coeficient DCT este prezis individual folo<strong>si</strong>nd algoritmi CART. Caracteristicile utilizate<br />

pentru vectorul <strong>de</strong> antrenare sunt cele disponibile în formatul HTS, ceea ce înseamnă cu nu sunt<br />

realizate procesări suplimentare. Algoritmii CART sunt meto<strong>de</strong> rapi<strong>de</strong> ¸<strong>si</strong> eficiente <strong>de</strong> estimare pentru<br />

probleme <strong>de</strong> complexitate redusă. Rezultatele au arătat că performant¸ele pentru coeficient¸ii <strong>de</strong> ordin<br />

înalt sunt reduse drastic. Aceasta înseamnă că este necesară analiza unor meto<strong>de</strong> avansate <strong>de</strong> învăt¸are<br />

automată, precum ret¸ele neuronale sau mo<strong>de</strong>le Markov. În acela¸<strong>si</strong> timp datorită estimării individuale<br />

a coeficient¸ilor, anumite caracteristici corelate pot fi omise. Un mecanism <strong>de</strong> estimare comună ar<br />

putea astfel duce la rezultate mai bune ale predict¸iei.<br />

Select¸ia atributelor a oferit mijloacele <strong>de</strong> reducere a complexităt¸ii problemei, dar nu a <strong>de</strong>terminat<br />

o corespon<strong>de</strong>nt¸ă directă între coeficient¸ii DCT ¸<strong>si</strong> caracteristicile fonologice utilizate în vectorul <strong>de</strong><br />

antrenare ¸<strong>si</strong> predict¸ie. O analiză mai elaborată a acestei corespon<strong>de</strong>nt¸e este <strong>de</strong> asemenea importantă.<br />

7.4 Optimizarea conturului F0 cu feedback interactiv al utilizatorilor non-expert¸i<br />

Optimizarea conturului F0 in<strong>de</strong>pen<strong>de</strong>nt <strong>de</strong> limbă este un aspect important al domeniului <strong>si</strong>ntezei<br />

vorbirii. Metoda ¸<strong>si</strong> <strong>si</strong>stemul prototip prezentate în capitolul 6 pot fi cu u¸surint¸ă adaptate oricărui<br />

<strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză bazat pe mo<strong>de</strong>le Markov cu minim <strong>de</strong> modificări. Evaluările preliminare au propus<br />

parametri <strong>de</strong> setare ai unui astfel <strong>de</strong> <strong>si</strong>stem ¸<strong>si</strong> au arătat că expan<strong>si</strong>unea dinamică poate fi obt¸inută<br />

chiar ¸<strong>si</strong> cu un număr redus <strong>de</strong> indivizi pe populat¸ie.<br />

Deoarece rezultatele obt¸inute în cadrul acestei analize preliminare au obt¸inut un grad ridicat <strong>de</strong><br />

variat¸ie intonat¸ională ¸<strong>si</strong> au minimizat efortul <strong>de</strong>pus <strong>de</strong> utilizatori, se dore¸ste implementarea algoritmului<br />

în cadrul <strong>de</strong>monstrat¸iei online a <strong>si</strong>stemului HTS pentru limba română. Aplicat¸ia ar permite pe<br />

<strong>de</strong> altă parte ca utilizatorii să selecteze pentru procesul <strong>de</strong> optimizare întrega rostire, sau doar părt¸i<br />

ale acesteia, <strong>de</strong> exemplu propozit¸ii, cuvinte sau doar <strong>si</strong>labe. Pentru o optimizare completă a prozodiei,<br />

este necesară introducerea ¸<strong>si</strong> a duratei segmentelor vocale în cadrul aplicat¸iei interactive.<br />

O <strong>de</strong>ficient¸ă a solut¸iei prezentate este lipsa po<strong>si</strong>bilităt¸ii manipulării individuale a fiecărui coeficient<br />

DCT din genom, ce nu poate fi obt¸inută în contextul algoritmului evolutiv selectat. Cu toate acestea,<br />

statisticile coeficient¸ilor au arătat că <strong>de</strong>viat¸ia standard medie este <strong>si</strong>milară pentru tot¸i coeficient¸ii,<br />

astfel că selectarea <strong>de</strong>viat¸iei standard init¸iale nu afectează coeficient¸ii <strong>de</strong> ordin înalt.<br />

O <strong>de</strong>zvoltare interesantă ar fi un <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză adaptiv, <strong>de</strong>pen<strong>de</strong>nt <strong>de</strong> utilizator. Pe baza<br />

opt¸iunilor anterioare al utilizatorului, <strong>si</strong>stemul ar putea să se adapteze unui anumit tip <strong>de</strong> realizare<br />

prozodică.<br />

33


Adriana Cornelia STAN<br />

Contribut¸iile tezei<br />

Principalele contribut¸ii ale tezei sunt organizate în capitolele 3, 4, 5 ¸<strong>si</strong> 6 ¸<strong>si</strong> pot fi rezumate după cum<br />

urmează, alături <strong>de</strong> lucrările corespon<strong>de</strong>nte publicate:<br />

1. Un lexicon <strong>de</strong> 65.000 <strong>de</strong> cuvinte transcrise fonetic ¸<strong>si</strong> cu pozit¸ionarea accentului<br />

Lucrări publicate: [Stan et al., 2011c], [Stan and Giurgiu, 2010], [Stan, 2010]<br />

Transcrierea fonetică ¸<strong>si</strong> pozit¸ionarea accentului sunt două aspecte importante ale modulelor <strong>de</strong><br />

procesare <strong>de</strong> text în <strong>si</strong>stemele <strong>de</strong> <strong>si</strong>nteză text-vorbire. Lexiconul <strong>de</strong> 65.000 <strong>de</strong> cuvinte reprezintă 4.7%<br />

din totalul cuvintelor disponibile în baza <strong>de</strong> date DEX online. Transcrierea fonetică a fost realizată<br />

folo<strong>si</strong>nd un set minim <strong>de</strong> foneme ale limbii române, fără a inclu<strong>de</strong> alofoni ¸<strong>si</strong> pronunt¸ii speciale. Reguli<br />

int¸iale <strong>si</strong>mple <strong>de</strong> transcriere fonetică au fost create în Festival, iar altele au fost adăugate ulterior<br />

manual în lexicon. Pozit¸ionarea accentului a fost preluată direct din baza <strong>de</strong> date DEX online.<br />

Lexiconul reprezintă o resursă lingvistică importantă mai ales datorită dimen<strong>si</strong>unii ¸<strong>si</strong> a informat¸iei<br />

cont¸inute. În cadrul documentării, nu au fost i<strong>de</strong>ntificate alte resurse <strong>de</strong> acest gen disponibile în mod<br />

gratuit. Corectitudinea informat¸iei a fost testată prin utilizarea acestui lexicon în partea <strong>de</strong> procesare<br />

<strong>de</strong> text a <strong>si</strong>stemului <strong>de</strong> <strong>si</strong>nteză pentru limba română.<br />

Contribut¸ia este sust¸inută <strong>de</strong> următoarele resurse adit¸ionale:<br />

• Un corpus <strong>de</strong> text ce cont¸ine 4506 articole <strong>de</strong> ziar colectate în perioada august-septembrie 2009<br />

<strong>de</strong> la ziarul online ”A<strong>de</strong>vărul”. Cont¸ine peste 1.700.000 <strong>de</strong> cuvinte, iar cele mai frecvente 65.000<br />

sunt utilizate în lexicon;<br />

• Un set minimal <strong>de</strong> reguli <strong>de</strong> transcriere fonetică pentru limba română scris în format Festival<br />

pentru transcrierea fonetică init¸ială a lexiconului;<br />

2. Corpusul <strong>de</strong> vorbire Romanian Speech Synthe<strong>si</strong>s (RSS): o resursă <strong>de</strong> semnal vocal<br />

<strong>de</strong> înaltă calitate cu aplicat¸ii variate<br />

Lucrări publicate: [Stan et al., 2011c], [Stan and Giurgiu, 2010], [Stan, 2010]<br />

Pornind <strong>de</strong> la cerint¸ele unui <strong>si</strong>ntetizor <strong>de</strong> voce bazat pe mo<strong>de</strong>le Markov, a fost i<strong>de</strong>ntificată nece<strong>si</strong>tatea<br />

unui corpus <strong>de</strong> vorbire extins. Corpusul Romanian Speech Synthe<strong>si</strong>s are o durată totală <strong>de</strong> 4<br />

ore ¸<strong>si</strong> cont¸ine următoarele informat¸ii:<br />

• Fraze <strong>de</strong> antrenare - approx. 3.5 ore<br />

– 1493 fraze aleatoare din articole <strong>de</strong> ziar<br />

– 983 fraze pentru acoperirea difonemelor<br />

– 704 fraze din opere literare - basmele culte ”Povestea lui Stan Păt¸itul” ¸<strong>si</strong> ”Ivan Turbincă”<br />

<strong>de</strong> Ion Creangă<br />

• Fraze <strong>de</strong> testare - approx. 0.5 ore<br />

– 210 fraze aleatoare din articole <strong>de</strong> ziar<br />

– 110 fraze aleatoare din opere literare<br />

– 216 propozit¸ii semantic impredictibile<br />

Înregistrările au fost realizate la o frecvent¸ă <strong>de</strong> e¸santionare <strong>de</strong> 96kHz, 24 bit¸i per e¸santion ¸<strong>si</strong><br />

apoi sube¸santionate la 48kHz folo<strong>si</strong>nd aparatură ¸<strong>si</strong> software profe<strong>si</strong>onal. Întregul corpus, alături <strong>de</strong><br />

transcrierea ortografică ¸<strong>si</strong> fonetică, etichetele HTS aliniate temporal ¸<strong>si</strong> pozit¸ionarea accentului sunt<br />

disponibile în mod gratuit la www.romaniantts.com, ¸<strong>si</strong> reprezintă cel mai extins corpus <strong>de</strong> vorbire în<br />

limba română.<br />

34


Sin<strong>teza</strong> text-vorbire în limba română bazată pe mo<strong>de</strong>le Markov ¸<strong>si</strong> optimizarea interactivă a intonat¸iei<br />

Corpusul a fost testat prin utilizarea sa în partea <strong>de</strong> antrenare a mo<strong>de</strong>lelor pentru <strong>si</strong>ntetizorul HTS<br />

în limba română, ¸<strong>si</strong> <strong>de</strong> asemenea în cadrul unui <strong>si</strong>stem concatenativ <strong>si</strong>mplu bazat pe select¸ia unităt¸ilor.<br />

Propozit¸iile semantic impredictibile au fost evaluate în cadrul testului <strong>de</strong> ascultare, în sect¸iunea <strong>de</strong><br />

inteligibilitate. Propozit¸iile din operele literare au fost utilizate pentru adaptarea mo<strong>de</strong>lelor <strong>si</strong>stemului<br />

init¸ial, pentru a obt¸ine o intonat¸ie mai dinamică a vorbirii <strong>si</strong>ntetice. Analiza statistică a textului<br />

înregistrat în cadrul corpusului a dovedit <strong>si</strong>milarităt¸i cu distribut¸iile statistice ale limbii române.<br />

Contribut¸ia este sust¸inută <strong>de</strong> următoarele resurse adit¸ionale:<br />

• Dezvoltarea unui set <strong>de</strong> 216 propozit¸ii semantic impredictibile utilizate pentru evaluarea vorbirii<br />

<strong>si</strong>ntetizate. Este prima resursă <strong>de</strong> acest tip pentru limba română;<br />

• Un procesor <strong>de</strong> text minimal ce permite crearea etichetelor HTS specifice.<br />

3. Evaluarea parametrilor <strong>de</strong> configurare ai <strong>si</strong>stemului HTS<br />

Lucrări publicate: [Stan et al., 2011c], [Stan, 2010]<br />

Sin<strong>teza</strong> parametric-statistică bazată pe mo<strong>de</strong>le Markov a <strong>de</strong>venit cea mai importantă metodă <strong>de</strong><br />

<strong>si</strong>nteză a vorbirii. Sistemul HTS oferă un număr mare <strong>de</strong> po<strong>si</strong>bilităt¸i <strong>de</strong> configurare a parametrilor<br />

<strong>si</strong>stemului generic. Parametri evaluat¸i sunt următorii: scala <strong>de</strong> frecvent¸e, metoda <strong>de</strong> analiză spectrală,<br />

ordinul cepstral, frecvent¸a <strong>de</strong> e¸santionare ¸<strong>si</strong> dimen<strong>si</strong>unea setului <strong>de</strong> date <strong>de</strong> antrenare. Primii trei<br />

parametri au fost <strong>de</strong>terminat¸i în mod euristic pe baza unei meto<strong>de</strong> <strong>de</strong> analiză prin <strong>si</strong>nteză, iar ultimii<br />

doi în cadrul testului <strong>de</strong> ascultare al <strong>si</strong>stemului HTS pentru limba română.<br />

Rezultatele au arătat că:<br />

• nu există diferent¸e perceptuale semnificative între scalele Bark ¸<strong>si</strong> ERB când se utilizează date<br />

e¸santionate la 48kHz în cadrul voco<strong>de</strong>r-ului;<br />

• scala <strong>de</strong> frecvent¸e logF0 generalizată a fost validată;<br />

• MGC a avut performant¸e mai bune <strong>de</strong>cât metoda <strong>de</strong> analiză cepstrum pe scară mel;<br />

• ordinul <strong>de</strong> analiză cepstrală este <strong>de</strong>pen<strong>de</strong>nt <strong>de</strong> frecvent¸a <strong>de</strong> e¸santionare;<br />

• utilizarea unei frecvent¸e <strong>de</strong> e¸santionare <strong>de</strong> 48kHz cre¸ste calitatea vocii <strong>si</strong>ntetizate, dar diferent¸ele<br />

dintre 32kHz ¸<strong>si</strong> 48kHz nu sunt semnificative;<br />

• un corpus <strong>de</strong> antrenare mai mare cre¸ste calitate vorbirii <strong>si</strong>ntetizate.<br />

4. Un <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză pentru limba română bazat pe mo<strong>de</strong>le Markov<br />

Lucrări publicate: [Stan et al., 2011c], [Stan, 2010]<br />

Sistemul TTS <strong>de</strong>zvoltat utilizează cea mai nouă tehnologie disponibilă pentru <strong>si</strong>n<strong>teza</strong> vorbirii.<br />

Folo<strong>si</strong>nd resursele <strong>de</strong> text ¸<strong>si</strong> voce <strong>de</strong>zvoltate anterior, precum ¸<strong>si</strong> parametri <strong>de</strong> configurare, au fost<br />

antrenate un număr <strong>de</strong> 5 <strong>si</strong>steme diferite. Ele diferă prin dimen<strong>si</strong>unea ¸<strong>si</strong> frecvent¸a <strong>de</strong> e¸santionare a<br />

setului <strong>de</strong> date <strong>de</strong> antrenare.<br />

Sistemele au fost evaluate <strong>de</strong> către 54 <strong>de</strong> ascultători, într-un test <strong>de</strong> ascultare <strong>de</strong> tipul Blizzard Challenge<br />

cu 3 sect¸iuni: naturalet¸e, <strong>si</strong>milaritate cu vorbitorul original ¸<strong>si</strong> inteligibilitate, prin comparat¸ie<br />

printre altele ¸<strong>si</strong> cu înregistrările originale. Rezultatele testului au arătat o medie <strong>de</strong> 3.0 pe scară MOS<br />

pentru toate <strong>si</strong>stemele HTS, ¸<strong>si</strong> un scor <strong>de</strong> 3.3 pentru cel mai bun <strong>si</strong>stem. Frecvent¸a <strong>de</strong> e¸santionare a<br />

influent¸at direct <strong>si</strong>milaritatea cu vobitorul original, dar nu la fel <strong>de</strong> mult ¸<strong>si</strong> naturalet¸ea. Dimen<strong>si</strong>unea<br />

setului <strong>de</strong> date <strong>de</strong> antrenare a afectat ambele sect¸iuni. Rata <strong>de</strong> cuvinte eronate din sect¸iunea <strong>de</strong><br />

inteligibilitate pentru toate <strong>si</strong>stemele a fost sub 10%.<br />

Toate <strong>si</strong>stemele HTS au avut performant¸e mai bune <strong>de</strong>cât un <strong>si</strong>stem concatenativ <strong>si</strong>mplu. Adit¸ional,<br />

HTS are po<strong>si</strong>bilitatea <strong>de</strong> adaptare la un corpus <strong>de</strong> vorbire cu o intonat¸ie mai dinamică, dovedit prin<br />

adaptarea la setul <strong>de</strong> antrenare ce cont¸ine opere literare.<br />

O <strong>de</strong>monstrat¸ie interactivă a <strong>si</strong>ntetizorului HTS pentru limba română este disponibilă la www.<br />

romaniantts.com.<br />

Contribut¸ia este sust¸inută <strong>de</strong> următoarele elemente adit¸ionale:<br />

35


Adriana Cornelia STAN<br />

• Un set <strong>de</strong> 179 <strong>de</strong> întrebări <strong>de</strong> tip fonetic pentru arborii <strong>de</strong> <strong>de</strong>cizie pentru grupare contextuală ai<br />

<strong>si</strong>stemului HTS;<br />

• Un procesor <strong>de</strong> text minimal ce utilizează Cereproc Development Framework pentru crearea<br />

etichetelor în format HTS.<br />

5. O metodă <strong>de</strong> mo<strong>de</strong>lare a frecvent¸ei fundamentale in<strong>de</strong>pen<strong>de</strong>ntă <strong>de</strong> limbă, bazată<br />

pe transformata co<strong>si</strong>nus discretă<br />

Lucrări publicate: [Stan and Giurgiu, 2011], [Stan, 2011a]<br />

Această contribut¸ie rezolvă problema in<strong>de</strong>pen<strong>de</strong>nt¸ei <strong>de</strong> limbă pentru meto<strong>de</strong>le <strong>de</strong> mo<strong>de</strong>lare a F0 în<br />

<strong>si</strong>stemele <strong>de</strong> <strong>si</strong>nteză text-vorbire. Metoda a<strong>de</strong>ră la principiul superpozit¸ional al frecvent¸ei fundamentale<br />

prin mo<strong>de</strong>larea contururilor la nivel <strong>de</strong> <strong>si</strong>labă ¸<strong>si</strong> propozit¸ie ¸<strong>si</strong> utilizează parametrizarea bazată pe<br />

transformata co<strong>si</strong>nus discretă. Doar caracteristicile textuale existente în etichetele HTS sunt utilizate,<br />

fără alte informat¸ii lingvistice adit¸ionale sau adnotări manuale. Coeficient¸ii DCT ai conturului F0<br />

sunt utilizat¸i pentru mo<strong>de</strong>larea ¸<strong>si</strong> predict¸ia frecvent¸ei fundamentale.<br />

Predict¸ia F0 a fost realizată utilizând arbori <strong>de</strong> cla<strong>si</strong>ficare ¸<strong>si</strong> regre<strong>si</strong>e antrenat¸i individual pentru<br />

fiecare coeficient DCT. Rezultatele au <strong>de</strong>terminat o eroare medie <strong>de</strong> 15Hz, valoare comparabilă cu alte<br />

meto<strong>de</strong> <strong>de</strong> mo<strong>de</strong>lare. De asemenea, testul <strong>de</strong> ascultare a arătat că utilizatorii nu con<strong>si</strong><strong>de</strong>ră ca fiind<br />

perceptibile diferent¸ele dintre conturul generat <strong>de</strong> <strong>si</strong>stemul HTS ¸<strong>si</strong> cel prezis pe baza coeficient¸ilor<br />

DCT.<br />

Contribut¸ia este sust¸inută <strong>de</strong> următoarele analize adit¸ionale:<br />

• Evaluarea statistică a coeficient¸ilor DCT cont¸inut¸i în subsetul rnd1 ai corpusului RSS;<br />

• Evaluarea predict¸iei coeficient¸ilor DCT folo<strong>si</strong>nd 3 algoritmi CART: reguli M5, regre<strong>si</strong>e liniară ¸<strong>si</strong><br />

regre<strong>si</strong>e aditivă;<br />

• Evaluarea obiectivă ¸<strong>si</strong> subiectivă a conturului F0 estimat pe baza coeficient¸ilor DCT ¸<strong>si</strong> folo<strong>si</strong>nd<br />

arbori <strong>de</strong> cla<strong>si</strong>ficare ¸<strong>si</strong> regre<strong>si</strong>e.<br />

6. O metodă <strong>de</strong> aplicare a CMA-ES interactiv în optimizarea intonat¸iei pentru <strong>si</strong>n<strong>teza</strong><br />

vorbirii<br />

Lucrări publicate: [Stan et al., 2011a], [Stan, 2011b]<br />

Metoda <strong>de</strong> optimizare interactivă a intonat¸iei rezolvă o problemă complexă legată <strong>de</strong> îmbunătăt¸irea<br />

expre<strong>si</strong>vităt¸ii vorbirii <strong>si</strong>ntetizate, pe baza subiectivităt¸ii utilizatorilor non-expert¸i. Originalitatea<br />

meto<strong>de</strong>i constă în lipsa adnotării prozodice a textului sau a regulilor <strong>de</strong>terministe sau stilurilor <strong>de</strong><br />

vorbire pre<strong>de</strong>finite. CMA-ES este aplicată interactiv asupra coeficient¸ilor DCT ai conturului F0 la<br />

nivel <strong>de</strong> frază generat <strong>de</strong> <strong>si</strong>stemul HTS pentru limba română.<br />

Principalii parametri ai CMA-ES interactiv sunt evaluat¸i ¸<strong>si</strong> includ:<br />

• <strong>de</strong>viat¸ia standard init¸ială a populat¸iei utilizată pentru controlul naturalet¸ii vorbirii rezultate,<br />

prin limitarea domeniului <strong>de</strong> valori al F0;<br />

• dimen<strong>si</strong>unea populat¸iei utilizată pentru a reduce efortul utilizatorilor, dar în acela¸<strong>si</strong> timp pentru<br />

generarea unui număr suficient <strong>de</strong> rostiri diferite din care utilizatorul să poată alege;<br />

• expan<strong>si</strong>unea dinamică a frecvent¸ei fundamentale <strong>de</strong>-a lungul unui numă r <strong>de</strong> generat¸ii succe<strong>si</strong>ve<br />

pentru a <strong>de</strong>termina evolut¸ia conturului F0 în funct¸ie <strong>de</strong> opt¸iunile utilizatorului.<br />

Ace¸sti parametri sunt <strong>de</strong> asemenea evaluat¸i în cadrul unui <strong>si</strong>stem prototip <strong>de</strong> optimizare a intonat¸iei.<br />

Această metodă este ¸<strong>si</strong> o primă aplicare a unui algoritm CMA-ES în mod interactiv.<br />

36


Sin<strong>teza</strong> text-vorbire în limba română bazată pe mo<strong>de</strong>le Markov ¸<strong>si</strong> optimizarea interactivă a intonat¸iei<br />

7. Un <strong>si</strong>stem prototip <strong>de</strong> optimizare interactivă a intonat¸iei folo<strong>si</strong>nd CMA-ES ¸<strong>si</strong><br />

parametrizarea DCT a conturului F0<br />

Lucrări publicate: [Stan et al., 2011a], [Stan, 2011b]<br />

Metoda propusă pentru optimizarea interactivă a intonat¸iei a fost implementată în cadrul unui<br />

<strong>si</strong>stem prototip. Sistemul este in<strong>de</strong>pen<strong>de</strong>nt <strong>de</strong> limbă ¸<strong>si</strong> utilizează <strong>si</strong>stemul HTS pentru limba română,<br />

precum ¸<strong>si</strong> parametri CMA-ES <strong>de</strong>terminat¸i anterior. Având la dispozit¸ie vorbirea generată <strong>de</strong> <strong>si</strong>stemul<br />

HTS, utilizatorul poate opta pentru o îmbunătăt¸ire a intonat¸iei acesteia. Sunt astfel generate 4 noi<br />

rostiri diferite ale frazei init¸iale pornind <strong>de</strong> la conturul F0 original ¸<strong>si</strong> sunt prezentate utilizatorilor<br />

pentru evaluare într-o manieră <strong>de</strong> tip campionat. Pornind <strong>de</strong> la câ¸stigătorul ales al unei generat¸ii,<br />

următorii 4 indivizi sunt generat¸i.<br />

Rezultatele <strong>si</strong>stemului prototip au fost evaluate în cadrul unui test <strong>de</strong> ascultare ce a inclus naturalet¸ea<br />

¸<strong>si</strong> expre<strong>si</strong>vitatea noilor indivizi. Naturalet¸ea a fost evaluată cu scor MOS mediu <strong>de</strong> 3.1, iar tot¸i indivizii<br />

noi au fost con<strong>si</strong><strong>de</strong>rat¸i ca fiind mai expre<strong>si</strong>vi <strong>de</strong>cât cel original. Ceea ce înseamnă că <strong>si</strong>stemul prototip<br />

este capabil să păstreze naturalet¸ea vorbirii, dar în acela¸<strong>si</strong> timp să-i îmbunătăt¸ească expre<strong>si</strong>vitatea.<br />

Contribut¸iile tezei pot fi incluse în schema generală <strong>de</strong> procesare a unui <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză bazat pe<br />

mo<strong>de</strong>le Markov conform Fig. 7.1 .<br />

Configurarea<br />

parametrilor HTS<br />

3<br />

SISTEM TTS<br />

INTRARE TEXT<br />

Procesare text<br />

Estimarea şi<br />

generarea<br />

parametrilor<br />

Sin<strong>teza</strong> vorbirii<br />

VORBIRE SINTETIZATĂ<br />

Îmbunătăţiri ale<br />

vorbirii <strong>si</strong>ntetizate<br />

VORBIRE SINTETIZATĂ<br />

ÎMBUNĂTĂŢITĂ<br />

1<br />

Lexicon <strong>de</strong> 65.000<br />

<strong>de</strong> cuvinte<br />

4<br />

5 6 7<br />

HMM<br />

mo<strong>de</strong>ls<br />

2<br />

Sistem HTS în limba<br />

română<br />

Corpus<br />

RSS<br />

Optimizarea interactivă<br />

a intonaţiei<br />

Figura 7.1: Aplicarea contribut¸iilor tezei în schema generală <strong>de</strong> procesare a unui <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză<br />

text-vorbire bazat pe mo<strong>de</strong>le Markov (contribut¸iile sunt marcate cu numere <strong>de</strong> la 1 la 7)<br />

37


Adriana Cornelia STAN<br />

Lista publicat¸iilor<br />

În jurnale ISI:<br />

1. Adriana STAN, Junichi YAMAGISHI, Simon KING, Matthew AYLETT, The Romanian<br />

speech synthe<strong>si</strong>s (RSS) corpus: Building a high quality HMM-based speech synthe<strong>si</strong>s system u<strong>si</strong>ng<br />

a high sampling rate, Speech Communication, vol 53, pg. 442-450, 2011.<br />

Volume ale conferint¸elor:<br />

1. Adriana STAN, Florin-Claudiu POP, Marcel CREMENE, Mircea GIURGIU, Denis PALLEZ,<br />

Interactive Intonation Optimisation U<strong>si</strong>ng CMA-ES and DCT Parametrisation of the F0 Contour<br />

for Speech Synthe<strong>si</strong>s, In Proceedings of the 5 th Workshop on Nature Inspired Cooperative<br />

Strategies for Optimisation, in series Studies in Computational Intelligence, vol. 387, Springer,<br />

2011.<br />

2. Adriana STAN, Mircea GIURGIU, A Superpo<strong>si</strong>tional Mo<strong>de</strong>l Applied to F0 Parametrisation<br />

u<strong>si</strong>ng DCT for Text-to-Speech Synthe<strong>si</strong>s, In Proceedings of the 6 th Conference on Speech Technology<br />

and Human-Computer Dialogue, doi: 10.1109/SPED.2011.5940734, Bra¸sov, România,<br />

18-21 Mai 2011,<br />

3. Adriana STAN, Mircea GIURGIU, Romanian language statistics and resources for text-tospeech<br />

systems, In Proceedings of the 9 th Edition of the International Sympo<strong>si</strong>um on Electronics<br />

and Telecommunications, pg. 381-384, Timi¸soara, România, 11-12 Noiembrie 2010.<br />

4. Adriana STAN, Linear Interpolation of Spectrotemporal Excitation Pattern Representations<br />

for Automatic Speech Recognition in the Presence of Noise, In Proceedings of the 5 th Conference<br />

on Speech Technology and Human-Computer Dialogue, pg. 199-206, Constant¸a, România, 18-21<br />

Iunie 2009.<br />

Rapoarte ¸stiint¸ifice<br />

1. Adriana STAN, Raport <strong>de</strong> cercetare ¸stiint¸ifică 1: Elaborarea ¸<strong>si</strong> <strong>de</strong>zvoltarea unui <strong>si</strong>stem <strong>de</strong> <strong>si</strong>nteză<br />

text-vorbire în limba românăbazat pe mo<strong>de</strong>le Markov, in<strong>de</strong>pen<strong>de</strong>nt <strong>de</strong> elementele <strong>de</strong> prozodie<br />

aferente textului, mai 2010<br />

2. Adriana STAN, Raport <strong>de</strong> cercetare ¸stiint¸ifică 2: Elaborarea ¸<strong>si</strong> <strong>de</strong>zvoltarea unor meto<strong>de</strong> <strong>de</strong>terministe<br />

<strong>de</strong> analiză ¸<strong>si</strong> control a prozodiei în limba română, ianuarie 2011<br />

3. Adriana STAN, Raport <strong>de</strong> cercetare ¸stiint¸ifică 3: Elaborarea ¸<strong>si</strong> <strong>de</strong>zvoltarea unor meto<strong>de</strong> probabilistice<br />

<strong>de</strong> analiză ¸<strong>si</strong> control a prozodiei în limba română, aprilie 2011<br />

Bibliografie selectivă<br />

[Allen et al., 1987] Allen, J., Hunnicut, S., and Klatt, D. (1987). From Text to Speech: the MITalk<br />

System. Cambridge Univer<strong>si</strong>ty Press.<br />

[Apopei and Jitcă 2005] Apopei, V. and Jitcă D. (2005). Romanian Intonational Annotation Based<br />

on Tone Sequence Mo<strong>de</strong>. In Proceedings of SASM 2005.<br />

[Apopei and Jitcă 2007] Apopei, V. and Jitcă D. (2007). Module for F0 Contour Generation U<strong>si</strong>ng<br />

as Input a Text Structured by Prosodic Information. In Proceedings of SPED 2007.<br />

[Aylett and Pidcock, 2007] Aylett, M. and Pidcock, C. (2007). The CereVoice characterful speech<br />

synthe<strong>si</strong>ser SDK. In Proceedings of AISB 2007, pages 174–178, Newcastle, U.K.<br />

[Benesty et al., 2007] Benesty, J., Sondhi, M. M., and Huang, Y. A. (2007). Springer Handbook of<br />

Speech Proces<strong>si</strong>ng. Springer-Verlag New York, Inc., Secaucus, NJ, USA.<br />

38


Sin<strong>teza</strong> text-vorbire în limba română bazată pe mo<strong>de</strong>le Markov ¸<strong>si</strong> optimizarea interactivă a intonat¸iei<br />

[Benoit et al., 1996] Benoit, C., Grice, M., and Hazan, V. (1996). The SUS test: A method for the<br />

assessment of text-to-speech synthe<strong>si</strong>s intelligibility u<strong>si</strong>ng Semantically Unpredictable Sentences.<br />

Speech Communication, 18(4):381–392.<br />

[Bodo, 2009] Bodo, A. Z. (2009). Contribut¸ii la <strong>si</strong>n<strong>teza</strong> vorbirii în limba română. PhD the<strong>si</strong>s, Technical<br />

Univer<strong>si</strong>ty of Cluj-Napoca.<br />

[Breiman et al., 1984] Breiman, L., Friedman, J., Olshen, R., and Stone, C. (1984). Clas<strong>si</strong>fication and<br />

Regres<strong>si</strong>on Trees. Wadsworth and Brooks, Monterey, CA.<br />

[Buza, 2010] Buza, O. (2010). Contribut¸ii la analiza ¸<strong>si</strong> <strong>si</strong>n<strong>teza</strong> vorbirii din text pentru limba română.<br />

PhD the<strong>si</strong>s, Technical Univer<strong>si</strong>ty of Cluj-Napoca.<br />

[Calacean and Nivre, 2009] Calacean, M. and Nivre, J. (2009). A Data-Driven Depen<strong>de</strong>ncy Parser<br />

for Romanian. In Proceedings of the Seventh International Workshop on Treebanks and Linguistic<br />

Theories., pages 65–76.<br />

[Chitoran, 2002] Chitoran, I. (2002). The phonology and morphology of Romanian diphtongization.<br />

Probus.<br />

[DEX online-webpage, 2011] DEX online-webpage (2011). http://<strong>de</strong>xonline.ro/download/<br />

<strong>de</strong>x-database.sql.gz.<br />

[Dudley, 1940] Dudley, H. (1940). The Carrier Nature of Speech. The Bell System Technical Journal.<br />

[Dutoit et al., 1996] Dutoit, T., Pagel, V., Pierret, N., Bataille, F., and <strong>de</strong>r Vrecken, O. V. (1996). The<br />

MBROLA project: Towards a set of high quality speech synthe<strong>si</strong>zers free of use for non commercial<br />

purposes. In Proc. ICSLP ’96, volume 3, pages 1393–1396, Phila<strong>de</strong>lphia, PA.<br />

[Fant, 2005] Fant, G. (2005). Speech Acoustics and Phonetics: Selected Writings, chapter Speech<br />

Perception, pages 199–220. Springer Netherlands.<br />

[Ferencz, 1997] Ferencz, A. (1997). Contribut¸ii la <strong>de</strong>zvoltarea <strong>si</strong>ntezei text-vorbire pentru limba<br />

română. PhD the<strong>si</strong>s, Technical Univer<strong>si</strong>ty of Cluj-Napoca.<br />

[Frunză et al., 2005] Frunză O., Inkpen, D., and Na<strong>de</strong>au, D. (2005). A text proces<strong>si</strong>ng tool for the<br />

Romanian language. In Proceedings of EuroLAN 2005: Workshop on Cross-Language Knowledge<br />

Induction.<br />

[Giurgiu and Peev, 2006] Giurgiu, M. and Peev, L. (2006). Sin<strong>teza</strong> din text a semnalului vocal. Risoprint.<br />

[Hirst and Cristo, 1998] Hirst, D. and Cristo, A. D. (1998). Intonation Systems: a survey of twenty<br />

languages. Cambridge Univer<strong>si</strong>ty Press.<br />

[Huang et al., 2001] Huang, X., Acero, A., and Hon, H. (2001). Spoken Language Proces<strong>si</strong>ng: A Gui<strong>de</strong><br />

to Theory, Algorithm, and System Development. Prentice Hall.<br />

[Jitcă et al., 2002] Jitcă D., Apopei, V., and Grigora¸s F. (2002). Text-to-Speech System for Romanian<br />

Language based on Formantic Synthe<strong>si</strong>s. In European Conference on Intelligent Technologies.<br />

[Jitcă et al., 2008] Jitcă D., Apopei, V., and Jitcă M. (2008). A <strong>de</strong>scription language at the accentual<br />

unit level for Romanian intonation. In In Proceedings ”LangTech2008”.<br />

[Kabir and Giurgiu, 2010] Kabir, A. and Giurgiu, M. (2010). A Romanian Corpus for Speech Perception<br />

and Automatic Speech Recognition. In Recent Researches in Communications, Automation,<br />

Signal Proces<strong>si</strong>ng, Nanotechnology, Astronomy and Nuclear Phy<strong>si</strong>cs.<br />

[Karaiskos et al., 2008] Karaiskos, V., King, S., Clark, R. A. J., and Mayo, C. (2008). The Blizzard<br />

Challenge 2008. In Proceedings of Blizzard Challenge Workshop, Brisbane, Australia.<br />

[Kawahara et al., 1999] Kawahara, H., Masuda-Katsuse, I., and Cheveigné, A. (1999). Restructuring<br />

speech representations u<strong>si</strong>ng a pitch-adaptive time-frequency smoothing and an instantaneousfrequency-based<br />

F0 extraction: pos<strong>si</strong>ble role of a repetitive structure in sounds. Speech Communication,<br />

27:187–207.<br />

[Klatt, 1980] Klatt, D. H. (1980). Software for a casca<strong>de</strong>/parallel formant synthe<strong>si</strong>zer. Journal of The<br />

Acoustical Society of America, 67.<br />

[Latorre and Akamine, 2008] Latorre, J. and Akamine, M. (2008). Multilevel Parametric-Base F0<br />

39


Adriana Cornelia STAN<br />

Mo<strong>de</strong>l for Speech Synthe<strong>si</strong>s. In Proceedings of Interspeech.<br />

[Leggetter and Woodland, 1995] Leggetter, C. and Woodland, P. (1995). Maximum likelihood linear<br />

regres<strong>si</strong>on for speaker adaptation of continuous <strong>de</strong>n<strong>si</strong>ty hid<strong>de</strong>n Markov mo<strong>de</strong>ls. 9:171.<br />

[Lv et al., 2009] Lv, S., Wang, S., and Wang, X. (2009). Emotional speech synthe<strong>si</strong>s by XML file<br />

u<strong>si</strong>ng interactive genetic algorithms. In Proceedings of GEC Summit, pages 907–910.<br />

[Moulines and Charpentier, 1990] Moulines, E. and Charpentier, F. (1990). Pitch-synchronous waveform<br />

proces<strong>si</strong>ng techniques for text-to-speech synthe<strong>si</strong>s u<strong>si</strong>ng diphones. Speech Communication,<br />

9(5-6):453–468.<br />

[Muraoka et al., 1978] Muraoka, T., Yamada, Y., and Yamazaki, M. (1978). Sampling-frequency<br />

con<strong>si</strong><strong>de</strong>rations in digital audio. J. Audio Eng. Soc, 26(4):252–256.<br />

[Qian et al., 2009] Qian, Y., Wu, Z., and Soong, F. (2009). Improved Prosody Generation by Maximizing<br />

Joint Likelihood of State and Longer Units. In Proceedings of ICASSP.<br />

[Sabou et al., 2008] Sabou, O., Borza, P., and Tatar, D. (2008). POS Tagger for Romanian Language.<br />

http://www.cs.ubbcluj.ro/~dtatar/nlp/WebTagger/WebTagger.htm.<br />

[Shinoda and Watanabe, 2000] Shinoda, K. and Watanabe, T. (2000). MDL-based context-<strong>de</strong>pen<strong>de</strong>nt<br />

subword mo<strong>de</strong>ling for speech recognition. J. Acoust. Soc. Japan (E), 21:79–86.<br />

[Shiohan et al., 2002] Shiohan, O., Myrvoll, T., and Lee, C. (2002). Structural maximum a posteriori<br />

linear regres<strong>si</strong>on for fast hmm adaptation. 16:5–24.<br />

[Stan, 2010] Stan, A. (2010). Raport <strong>de</strong> cercetare ¸stiint¸ifică 1: Elaborarea ¸<strong>si</strong> <strong>de</strong>zvoltarea unui <strong>si</strong>stem<br />

<strong>de</strong> <strong>si</strong>nteză text-vorbire în limba română bazat pe mo<strong>de</strong>le Markov, in<strong>de</strong>pen<strong>de</strong>nt <strong>de</strong> elementele <strong>de</strong><br />

prozodie aferente textului.<br />

[Stan, 2011a] Stan, A. (2011a). Raport <strong>de</strong> cercetare ¸stiint¸ifică 2: Elaborarea ¸<strong>si</strong> <strong>de</strong>zvoltarea unor<br />

meto<strong>de</strong> <strong>de</strong>terministe <strong>de</strong> analiză ¸<strong>si</strong> control a prozodiei în limba română.<br />

[Stan, 2011b] Stan, A. (2011b). Raport <strong>de</strong> cercetare ¸stiint¸ifică 3: Elaborarea ¸<strong>si</strong> <strong>de</strong>zvoltarea unor<br />

meto<strong>de</strong> probabilistice <strong>de</strong> analiză ¸<strong>si</strong> control a prozodiei în limba română.<br />

[Stan and Giurgiu, 2010] Stan, A. and Giurgiu, M. (2010). Romanian language statistics and resources<br />

for text-to-speech systems. In Proceedings of the 9 th Edition of the International Sympo<strong>si</strong>um on<br />

Electronics and Telecommunications, Timi¸soara, România.<br />

[Stan and Giurgiu, 2011] Stan, A. and Giurgiu, M. (2011). A Superpo<strong>si</strong>tional Mo<strong>de</strong>l Applied to F0<br />

Parametrisation u<strong>si</strong>ng DCT for Text-to-Speech Synthe<strong>si</strong>s. In Proceedings of the 6 th Conference on<br />

Speech Technology and Human-Computer Dialogue, Bra¸sov, Romania.<br />

[Stan et al., 2011a] Stan, A., Pop, F.-C., Cremene, M., Giurgiu, M., and Pallez, D. (2011a). Interactive<br />

Intonation Optimisation U<strong>si</strong>ng CMA-ES and DCT Parametrisation of the F0 Contour for<br />

Speech Synthe<strong>si</strong>s. In Proceedings of the 5 th Workshop on Nature Inspired Cooperative Strategies for<br />

Optimisation, volume 387 of Studies in Computational Intelligence. Springer.<br />

[Stan et al., 2011b] Stan, A., Yamagishi, J., King, S., and Aylett, M. (2011b). The Romanian speech<br />

synthe<strong>si</strong>s (RSS) corpus: Building a high quality HMM-based speech synthe<strong>si</strong>s system u<strong>si</strong>ng a high<br />

sampling rate. Speech Communication, 53(3):442 – 450.<br />

[Stan et al., 2011c] Stan, A., Yamagishi, J., King, S., and Aylett, M. (2011c). The Romanian speech<br />

synthe<strong>si</strong>s (RSS) corpus: Building a high quality HMM-based speech synthe<strong>si</strong>s system u<strong>si</strong>ng a high<br />

sampling rate. Speech Communication, 53(3):442 – 450.<br />

[Sun, 2002] Sun, X. (2002). F0 generation for speech synthe<strong>si</strong>s u<strong>si</strong>ng a multi-tier approach. In Proceedings<br />

of ICSLP.<br />

[Taylor, 2009] Taylor, P. (2009). Text-to-Speech Synthe<strong>si</strong>s. Cambridge Univer<strong>si</strong>ty Press.<br />

[Teodorescu et al., 2010] Teodorescu, H.-N., Pistol, L., Feraru, M., Zbancioc, M., and Trandabat, D.<br />

(2010). Sounds of the Romanian Language Corpus. http://www.etc.tuia<strong>si</strong>.ro/<strong>si</strong>bm/romanian_<br />

spoken_language/in<strong>de</strong>x.htm.<br />

[Teutenberg et al., 2008] Teutenberg, J., Wilson, C., and Riddle, P. (2008). Mo<strong>de</strong>lling and Synthe<strong>si</strong><strong>si</strong>ng<br />

F0 Contours with the Discrete Co<strong>si</strong>ne Transform. In Proceedings of ICASSP.<br />

40


Sin<strong>teza</strong> text-vorbire în limba română bazată pe mo<strong>de</strong>le Markov ¸<strong>si</strong> optimizarea interactivă a intonat¸iei<br />

[Toda and Tokuda, 2007] Toda, T. and Tokuda, K. (2007). A speech parameter generation algorithm<br />

con<strong>si</strong><strong>de</strong>ring global variance for HMM-based speech synthe<strong>si</strong>s. IEICE Trans. Inf. & Syst., E90-<br />

D(5):816–824.<br />

[Tokuda et al., 1994] Tokuda, K., Kobayashi, T., Masuko, T., and Imai, S. (1994). Mel-generalized<br />

cepstral analy<strong>si</strong>s – a unified approach to speech spectral estimation. In Proc. ICSLP-94, pages<br />

1043–1046, Yokohama, Japan.<br />

[Tokuda et al., 2002] Tokuda, K., Masuko, T., Miyazaki, N., and Kobayashi, T. (2002). Multi-space<br />

probability distribution HMM. IEICE Trans. Inf. & Syst., E85-D(3):455–464.<br />

[Tufis et al., 2008] Tufis, D., Irimia, E., Ion, R., and Ceausu, A. (2008). Unsupervised lexical acqui<strong>si</strong>tion<br />

for part of speech tagging. In LREC. European Language Resources Association.<br />

[Witten and Frank, 2005] Witten, I. H. and Frank, E. (2005). Data Mining: Practical Machine Learning<br />

Tools and Techniques. Morgan Kaufmann Series in Data Management Sys. Morgan Kaufmann,<br />

second edition.<br />

[Wolf, 1981] Wolf, H. (1981). Control of prosodic parameters for a formant synthe<strong>si</strong>zer based on<br />

diphone concatenation. In IEEE International Conference Acoustics, Speech, and Signal Proces<strong>si</strong>ng,<br />

page 106.<br />

[Wu et al., 2008] Wu, Z., Qian, Y., Soong, F., and Zhang, B. (2008). Mo<strong>de</strong>ling and Generating Tone<br />

Contour with phrase Intonation for Mandarin Chinese Speech. In Proceedings of ISCSLP.<br />

[Yamagishi, 2006] Yamagishi, J. (2006). Average-Voice-Based Speech Synthe<strong>si</strong>s. PhD the<strong>si</strong>s, Tokyo<br />

Institute of Technology, Tokyo.<br />

[Yamagishi and King, 2010] Yamagishi, J. and King, S. (2010). Simple methods for improving speaker<strong>si</strong>milarity<br />

of HMM-based speech synthe<strong>si</strong>s. In Proc. ICASSP 2010, pages 4610–4613, Dallas, TX.<br />

[Yamagishi et al., 2008a] Yamagishi, J., Ling, Z., and King, S. (2008a). Robustness of HMM-based<br />

speech synthe<strong>si</strong>s. In Proc. Interspeech 2008, pages 581–584, Brisbane, Australia.<br />

[Yamagishi et al., 2008b] Yamagishi, J., Zen, H., Wu, Y.-J., Toda, T., and Tokuda, K. (2008b). The<br />

HTS-2008 system: Yet another evaluation of the speaker-adaptive HMM-based speech synthe<strong>si</strong>s<br />

system in the 2008 Blizzard Challenge. In Proc. Blizzard Challenge 2008, Brisbane, Australia.<br />

[Zen et al., 2007a] Zen, H., Nose, T., Yamagishi, J., Sako, S., and Tokuda, K. (2007a). The HMMbased<br />

speech synthe<strong>si</strong>s system (HTS) ver<strong>si</strong>on 2.0. In Proceedings of the Sixth ISCA Workshop on<br />

Speech Synthe<strong>si</strong>s, pages 294–299.<br />

[Zen et al., 2007b] Zen, H., Toda, T., Nakamura, M., and Tokuda, K. (2007b). Details of Nitech<br />

HMM-based speech synthe<strong>si</strong>s system for the Blizzard Challenge 2005. IEICE Trans. Inf. & Syst.,<br />

E90-D(1):325–333.<br />

[Zen et al., 2009] Zen, H., Tokuda, K., and Black, A. W. (2009). Statistical parametric speech synthe<strong>si</strong>s.<br />

Speech Communication, 51(11):1039–1064.<br />

[Zen et al., 2007c] Zen, H., Tokuda, K., Masuko, T., Kobayashi, T., and Kitamura, T. (2007c). A hid<strong>de</strong>n<br />

semi-Markov mo<strong>de</strong>l-based speech synthe<strong>si</strong>s system. IEICE Trans. Inf. & Syst., E90-D(5):825–<br />

834.<br />

41

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!