REZUMAT TEZ? DE DOCTORAT

REZUMAT TEZ? DE DOCTORAT REZUMAT TEZ? DE DOCTORAT

from etti.utcluj.ro More from this publisher

25.08.2013 Views

FACULTATEA DE ELECTRONICĂ, TELECOMUNICAŢII ŞI TEHNOLOGIA INFORMAŢIEI Ing. Ovidiu Buza REZUMAT TEZĂ DE DOCTORAT CONTRIBUŢII LA ANALIZA ŞI SINTEZA VORBIRII DIN TEXT PENTRU LIMBA ROMÂNĂ Conducător ştiinţific: Prof.dr.ing. Gavril TODEREAN Cluj-Napoca, 2010 -

FACULTATEA DE ELECTRONICĂ, TELECOMUNICAŢII

ŞI TEHNOLOGIA INFORMAŢIEI

Ing. Ovidiu Buza

REZUMAT

TEZĂ DE DOCTORAT

CONTRIBUŢII LA ANALIZA ŞI SINTEZA VORBIRII DIN TEXT

PENTRU LIMBA ROMÂNĂ

Conducător ştiinţific: Prof.dr.ing. Gavril TODEREAN

Cluj-Napoca, 2010

Cuprins

1. Introducere.............................................................................................................................................1

1.1. Scopul tezei de doctorat ........................................................................................................................... 1

1.2. Problematica sintezei de voce .................................................................................................................. 1

2. Procesarea digitală a semnalului vocal .............................................................................................1

2.1. Contribuţii în procesarea semnalului vocal ............................................................................................... 1

2.1.1. Aplicaţia de prelucrare digitală a semnalului vocal SPEA ............................................................ 1

2.1.2. Experimente realizate asupra unor eşantioane reale de semnal audio şi vocal........................... 2

3. Analiza semnalului vocal .....................................................................................................................2

3.1. Parametrii de bază ai semnalului vocal .................................................................................................... 2

3.2. Analiza semnalului pentru determinarea parametrilor caracteristici ......................................................... 3

3.2.1. Analiza în domeniul timp a semnalului vocal ................................................................................ 3

3.2.2. Analiza în domeniul frecvenţă a semnalului vocal ........................................................................ 4

3.3. Segmentarea semnalului vocal................................................................................................................. 6

3.4. Contribuţii aduse în procesul segmentării automate a semnalului vocal .................................................. 6

3.4.1. Segmentarea S/U/V şi detecţia de regiuni .................................................................................... 7

3.4.1.1. Detectarea categoriei Linişte.......................................................................................................... 7

3.4.1.2. Detectarea categoriei Vocală......................................................................................................... 8

3.4.1.3. Împărţirea în subregiuni vocalice................................................................................................... 8

3.4.1.4. Detectarea categoriei Consoană................................................................................................... 9

3.4.1.5. Detectarea categoriei Tranziţie...................................................................................................... 9

3.4.2. Compactarea regiunilor............................................................................................................... 10

3.4.3. Rezultatul final al segmentării în clase de regiuni....................................................................... 10

3.5. Detectarea perioadelor din forma de undă. Punctele de închidere glotală............................................. 11

3.6. Contribuţii ale autorului în determinarea perioadelor de semnal ............................................................ 11

3.6.1. Determinarea pivotului ................................................................................................................ 11

3.6.2. Estimarea perioadei .................................................................................................................... 12

3.6.3. Detectarea maximelor de perioadă............................................................................................. 12

3.6.4. Marcarea intervalelor de perioadă .............................................................................................. 12

3.6.5. Rezultate obţinute cu algoritmul propriu de determinare a intervalelor de perioadă................... 13

3.7. Segmentarea fonematică........................................................................................................................ 13

3.8. Contribuţii ale autorului în problematica segmentării fonematice automate a semnalului vocal ............ 13

3.8.1. Transcrierea fonetică a textului de la intrare............................................................................... 14

3.8.2. Proiectarea regulilor de asociere pentru fiecare grup fonetic ..................................................... 14

3.8.3. Rezultate obţinute în urma aplicării metodei propuse de asociere foneme-regiuni .................... 14

3.8.4. Experimente privind segmentarea în subregiuni fonematice ...................................................... 15

3.8.4.1. Calculul distanţei dintre două seturi de coeficienţi fonematici.................................................... 15

3.8.4.2. Metoda de segmentare în subregiuni fonematice bazată pe determinarea tranziţiilor

bruşte din regiune......................................................................................................................... 17

3.8.4.3. Metoda de segmentare în subregiuni fonematice bazată pe modelarea caracteristicilor

spectrale........................................................................................................................................17

4. Metode de sinteză de voce.................................................................................................................19

4.1. Contribuţii în proiectarea metodelor de sinteză de voce......................................................................... 19

4.1.1. Metoda de sinteză bazată pe silabe pentru limba română ......................................................... 19

4.1.2. Preprocesarea textului................................................................................................................ 20

4.1.3. Analiza sintaxei........................................................................................................................... 20

4.1.3.1. Modul de funcţionare al analizorului de sintaxă..........................................................................20

4.1.4. Determinarea unităţilor lingvistice: silabele................................................................................. 21

4.1.4.1. Analizorul sintactic folosit în extragerea propoziţiilor şi cuvintelor .............................................21

4.1.4.2. Analizorul lexical utilizat în determinarea silabelor .....................................................................21

4.1.5. Determinarea aspectelor prozodice: accentele........................................................................... 22

4.1.5.1. Analizorul lexical utilizat în determinarea accentelor..................................................................22

4.1.6. Proiectarea bazei de date vocale................................................................................................ 22

4.1.6.1. O statistică a silabelor limbii române........................................................................................... 22

4.1.6.2. Caracteristicile silabelor înregistrate în baza de date acustică.................................................. 23

4.1.6.3. Organizarea bazei de date acustice............................................................................................ 23

4.1.7. Regăsirea unităţilor acustice şi sinteza de voce ......................................................................... 23

4.1.8. Rezultate obţinute cu metoda de sinteză dezvoltată de autor .................................................... 24

4.1.9. Avantajele metodei de sinteză a vorbirii pe bază de silabe dezvoltată de autor......................... 24

5. Realizarea sistemului de sinteză de voce în limba română LIGHTVOX......................................25

5.1. Structura funcţională a sistemului........................................................................................................... 25

5.2. Metodologia de proiectare a sistemului de sinteză LIGHTVOX.............................................................. 26

5.2.1. Construirea bazei de date acustice............................................................................................. 26

5.2.2. Conversia text-voce .................................................................................................................... 28

5.3. Rezultate experimentale şi dezvoltări de viitor ....................................................................................... 28

6. Concluzii...............................................................................................................................................29

Bibliografie ...………………………………………………………………………………………………..30

1. Introducere

1.1. Scopul tezei de doctorat

Teza de doctorat are ca scop studiul modalităţilor de procesare a vorbirii şi realizarea de cercetări în domeniul sintezei de

voce, având următoarele obiective:

a) dezvoltarea unor metode automate de analiză a semnalului vocal;

b) dezvoltarea unei metode de sinteză a vorbirii adaptată specific limbii române;

c) dezvoltarea unei metodologii de lucru în scopul construirii unui sistem de sinteză vocală automată;

d) implementarea unui prototip al unui sistem de sinteză de voce pentru limba română.

1.2. Problematica sintezei de voce

Sinteza automată de voce constituie o etapă distinctă a procesului de interacţiune vocală cu utilizatorul uman. Sinteza vorbirii

porneşte de la un text (răspunsul care trebuie rostit), îl descompune în unităţi lingvistice de bază (foneme sau grupuri de foneme),

generează parametrii acustici corespunzători fiecărei unităţi lingvistice, şi apoi foloseşte aceşti parametrii pentru comanda procesorului

audio ce va genera secvenţa acustică dorită. Cu cât parametrii acustici generaţi de calculator sunt mai apropiaţi de parametrii rostirii

umane, cu atât vorbirea sintetizată va fi mai naturală, mai plăcută interlocutorului şi mai uşor de înţeles.

Autorul tezei a mers pe această linie a realizării unei sinteze de voce care să respecte parametrii de calitate ai vorbirii

naturale. A fost proiectată în acest sens o metodă de sinteză a vorbirii pentru limba română şi s-a indicat o metodologie de lucru

pentru realizarea unui sistem de sinteză vocală automată.

Utilizând ca unităţi lingvistice silabele, metoda de sinteză proiectată se integrează în categoria metodelor de calitate

superioară, bazate pe concatenare. Metoda este adaptată specific limbii române, şi propune ca noutate o abordare bazată pe reguli

atât în faza de procesare a textului, de extragere a unităţilor lingvistice şi informaţiilor prozodice, cât şi în faza de construire a bazei de

date vocale prin extragerea unităţilor acustice din semnalul vorbit.

2. Procesarea digitală a semnalului vocal

Prelucrarea şi analiza semnalului vocal constituie etapele premergătoare în abordarea sintezei şi recunoaşterii de voce.

Procesarea semnalului cuprinde toate metodele de operare directă asupra semnalului sonor, începând cu achiziţia semnalului, filtrarea,

codarea, compresia şi stocarea acestuia pe suport magnetic sau optic. Analiza semnalului vocal presupune determinarea parametrilor

acestuia pe baza eşantioanelor de vorbire înregistrate de la vorbitor, şi apoi compararea acestor parametri cu valorile aşteptate.

Prima parte a capitolului cuprinde un studiu sintetic realizat de autor asupra metodelor de procesare, codare şi compresie a

semnalului vocal. Au fost prezentate metodele standard de codare a semnalului vocal: tehnica modulării impulsurilor în cod, codarea

liniară, codarea logaritmică, codarea entropică, codarea predictivă, modulaţia diferenţială a impulsurilor de cod, codificarea adaptivă

ADPCM, modulaţia delta; au fost prezentate metode uzuale de compresie a semnalului vocal, precum: compresia prin transformări,

tehnica predicţiei liniare, predicţia liniară cu cod excitat (CELP).

2.1. Contribuţii în procesarea semnalului vocal

În această secţiune au fost prezentate rezultatele cercetărilor efectuate de autor în domeniul procesării semnalului vocal. S-a

prezentat aplicaţia de prelucrare a semnalului prin intermediul căreia a fost efectuată o serie întreagă de experimente asupra unor

eşantioane de semnal vocal, precum şi rezultatele acestor experimentări.

2.1.1. Aplicaţia de prelucrare digitală a semnalului vocal SPEA

În vederea studierii proprietăţilor semnalului vocal, a fost proiectată o aplicaţie specială numită SPEA – Sound Processing

and Enhancement Application (aplicaţie pentru procesarea şi îmbunătăţirea calităţii semnalului vocal) – figura 2.1. În această fază a

proiectării, aplicaţia SPEA prezintă următoarele facilităţi:

(1) încărcarea şi vizualizarea semnalului vocal înregistrat în fişiere Wave în diferite formate;

(2) creşterea rezoluţiei de afişare pentru vizualizarea formei de undă şi a eşantioanelor de semnal pe diferite scale de mărime;

(3) determinarea parametrilor principali ai semnalului vocal;

(4) selectarea porţiunii de lucru dintr-un fişier Wave;

(5) calculul transformatei Fourier şi vizualizarea spectrelor de amplitudini şi faze a semnalului;

(6) posibilitatea de modificare interactivă a componentelor din spectrele de amplitudini şi faze în scopul îmbunătăţirii calităţii acustice

a semnalului vocal.

Figura 2.1. Fereastra principală a aplicaţiei SPEA Figura 2.2. Frecvenţa fundamentală a semnalului este 204 Hz

Aplicaţia detectează în mod automat formanţii sau valorile maxime locale ale anvelopei spectrale, maxime care se situează

deasupra unor valori de prag. Pentru fiecare formant, se calculează amplitudinea, frecvenţa centrală şi lăţimea de bandă, parametrii

importanţi în sinteza de voce. Frecvenţa centrală a formantului cu cea mai mare amplitudine (în cele mai multe cazuri primul sau al

doilea formant) se asumă a fi frecvenţa fundamentală a semnalului. Această regulă se aplică doar segmentelor vocale din semnal,

segmentele nesonore neavând frecvenţă fundamentală.

Un exemplu de detectare automată a formanţilor este arătat în figura 2.2, în care se detectează formanţi cu valorile de

frecvenţă: 204 Hz, 414 Hz, 613 Hz, şi 824 Hz. Frecvenţa fundamentală este dată în acest caz de frecvenţa primului formant: 204 Hz.

Aplicaţia SPEA permite filtrarea selectivă a frecvenţelor şi editarea interactivă a spectrului FFT, aspect foarte important

pentru analiza vorbirii şi îmbunătăţirea calităţii semnalului vocal. Comanda FILTRU oferă filtrarea interactivă a frecvenţelor şi editarea

grafică a formanţilor şi armonicilor semnalului vocal. Prin glisarea mouse-ul în zona spectrului FFT, utilizatorul poate elimina benzile de

frecvenţe corespunzătoare zgomotului sau să mărească energia semnalului în benzile dorite.

Utilizatorul poate modifica, de asemenea, spectrul de formanţi şi de armonici, pentru a îmbunătăţi timbrul sunetului.

Experimentele care s-au făcut arată că o voce de calitate implică un set bogat de armonici. Mai ales armonicile de frecvenţă înaltă

constituie un factor determinant pentru calitatea unei rostiri. Acest lucru este util in procesul de creare a unei baze de date vocale

utilizate pentru sinteza vorbirii, în care unele dintre segmentele vocale înregistrate ar putea fi îmbogăţite prin adăugarea de armonici

înalte.

2.1.2. Experimente realizate asupra unor eşantioane reale de semnal audio şi vocal

În această secţiune au fost prezentate rezultatele experimentelor realizate prin intermediul aplicaţiei SPEA pe eşantioane

reale de semnal. Scopul acestor experimente a fost de a determina caracteristicile specifice ale semnalului vocal în cazul rostirii unor

sunete distincte în limba română, în condiţii diferite, de către mai mulţi vorbitori.

Semnalul a fost preluat prin intermediul unui microfon dinamic unidirecţional de tip SM-500, iar apoi semnalul a fost eşantionat

şi stocat pe disc în format WAVE PCM prin intermediul unei plăci de achiziţie audio Creative Soundblaster Live 1024. De asemenea, au

fost analizate eşantioane de semnal audio generat prin intermediul unui sintetizator de sunete furnizat de firma Creative Labs.

Au fost realizate experimente axate pe studiul proprietăţilor specifice ale semnalului vocal ce asigură o calitate superioară

sunetului emis. Astfel, au fost efectuate diverse analize spectrale de sunet: analiza spectrală a vocalelor emise de diferiţi vorbitori,

analiza spectrală a consoanelor, analiza spectrală a sunetelor emise multitonal, evidenţiându-se importanţa alegerii ferestrei de

semnal asupra rezultatului analizei spectrale; comportarea semnalelor modulate; analize sonore perceptuale: analiza perceptuală a

sunetelor emise în fază diferită, relaţia dintre timbrul sunetului şi percepţia auditivă.

Au fost studiaţi de asemeni factorii care determină în mod semnificativ calitatea vocii, arătându-se care este influenţa

frecvenţei de eşantionare şi a mediului de înregistrare asupra calităţii vocii şi a sunetului emis, precum şi factorii determinanţi pentru a

realiza o sinteză vocală de calitate superioară.

Analiza comportării sunetelor vocalice are o mare importanţă în scopul realizării unei sinteze a vorbirii de calitate. În acest

sens au fost studiate caracteristicile sunetelor vocalice în diferite contexte fonematice şi prozodice, realizându-se diagrame

comparative ale rostirii lor în aceste contexte.

3. Analiza semnalului vocal

După procesarea semnalului, analiza semnalului vocal constituie următoarea etapă necesară în sinteza de voce. Analiza

semnalului vocal presupune:

1) determinarea parametrilor şi caracteristicilor acestuia pe baza eşantioanelor de vorbire înregistrate de la vorbitor;

2) descompunerea semnalului în segmente sau regiuni cu proprietăţi comune (segmentarea semnalului);

3) evidenţierea segmentelor semnificative şi punerea lor în corespondenţă cu informaţia cunoscută (extragerea informaţiei).

3.1. Parametrii de bază ai semnalului vocal

Reprezentarea cea mai obişnuită a semnalelor, la fel şi a celor vocale se face în spaţiul amplitudine-timp, ceea ce descrie evoluţia

undei acustice în timp. Semnalul acustic preluat de la un microfon şi transformat în semnal electric poate fi memorat şi studiat ulterior.

Semnalul vocal face parte din categoria semnalelor nestaţionare (ale căror proprietăţi medii variază în timp) şi continue (nu

este tranzitoriu). Cu toate acestea, datorită schimbării lente a caracteristicilor de articulaţie, pe perioade scurte de timp (20ms) semnalul

vocal poate fi considerat staţionar (cvasistaţionar). Pe aceste perioade se pot determina anumiţi parametri care caracterizează

semnalul vocal pe acel interval, numit în continuare segment.

O informaţie utilă ce caracterizează semnalul rezultă din componentele sale spectrale, numite pe scurt spectru.

Se notează spectrul semnalului vocal cu S(ω), care rezultă din produsul dintre funcţia de transfer a sistemului fonator H(ω)

şi spectrul semnalului de excitaţie E(ω) de la nivelul glotei [Fer97]:

S(ω) =H(ω) E(ω) (3.1)

După cum rezultă, spectrul semnalului conţine atât informaţii privitoare la funcţia de transfer a sistemului fonator cât şi

informaţii referitoare la spectrul semnalului de excitaţie.

Echivalentul în domeniul timp al formulei (3.1) este [Fer97]:

t

s ( t ) e(

) h ( t )

d

(3.2)

ceea ce exprimă faptul că semnalul vocal reprezintă răspunsul sistemului liniar având funcţia pondere h(t) la excitaţia cu

semnalul e(t). Altfel spus s(t) reprezintă convoluţia (produsul de convoluţie) funcţiei pondere h(t) cu semnalul de excitaţie e(t). O altă

notaţie folosită pentu exprimarea produsului de convoluţie este [Fer97]:

s(t) =h(t)*e(t) (3.3)

Datorită caracterului deosebit al spectrului semnalului de intrare (spectru de linii) amplitudinile liniilor spectrale variind lent cu

frecvenţa, iar funcţia de transfer fiind o funcţie continuă, rezultă forma specială a spectrului, şi anume: modulul spectrului S(ω) conţine

linii spectrale ale căror vârfuri reunite de curba numită înfăşurătoare spectrală urmăreşte modulul funcţiei de transfer H(ω).

Vârfurile spectrale de energie mare care corespund locurilor de maxim a modului funcţiei de transfer H(ω) sunt caracteristice

pentru fiecare fonemă în parte, motiv pentru care acestea se numesc frecvenţe de formanţi sau formanţi. Aceştia constituie un

ansamblu de parametri importanţi în analiza şi sinteza semnalului vocal.

Un alt parametru important îl constituie cel care specifică tipul semnalului de excitaţie rezultat din analiză, respectiv utilizat la

sinteză. Sunetelor sonore li se poate asocia tipul de semnal de excitaţie sonor (echi valat cu trenuri de impulsuri unitate, dinte de

fierăstrău sau alte semnale periodice cu spectru de linii relativ larg), iar sunetelor fricative li se poate asocia tipul de semnal de excitaţie

nesonor (echivalat cu un zgomot alb). Parametrului care specifică tipul semnalului de excitaţie i se pot atribui deci două valori, respectiv

sonor şi nesonor.

În cazul semnalelor sonore este importantă specificarea frecvenţei semnalului de excitaţie, ceea ce se numeşte frecvenţă

fundamentală. Acest parametru este strâns legat de aspectele de inonaţie din cadrul vorbirii. Prin modificarea acestui parametru se pot

exprima diferite stări subiective (exclamare, stări emoţionale, interogări). Pe de altă parte modul de intonaţie aj ută la creşterea

inteligibilităţii mesajului transmis. Frecvenţa fundamentală variază nu numai în cadrul cuvintelor, ci şi în interiorul fonemelor (celor

sonore) şi variază şi de la om la om. Valorile uzuale pe care le are acest parametru se situează în domeniul 90÷150 Hz pentru vocea

de bărbaţi şi 150÷200 Hz în cazul vocii femeilor [Fer97].

3.2. Analiza semnalului pentru determinarea parametrilor caracteristici

Ţinând cont că semnalul vocal este cvasistaţionar pe segmente scurte de timp, adică îşi păstrează proprietăţile nealterate pe

parcursul fiecărui interval, metodele actuale de prelucrare a semnalului vocal folosesc aşa-numita analiză pe termen scurt. Pentru a

aborda această modalitate de analiză, semnalul vocal este împărţit în segmente cu lungimea de 10-30 ms, pe parcursul cărora

semnalul se consideră staţionar.

3.2.1. Analiza în domeniul timp a semnalului vocal

Prin analizarea directă a formei de undă a semnalului se pot extrage următorii parametrii: amplitudinea maximă şi medie,

energia semnalului vocal, numărul trecerilor prin zero şi frecvenţa fundamentală.

Amplitudinea semnalului ne dă informaţii despre prezenţa sau absenţa semnalului vocal, despre faptul că semnalul este

sonor sau nesonor pe segmentul considerat. În cazul sonor (rostirea unor sunete vocalice) amplitudinea este mare, pe când în cazul

sunetelor nesonore (zgomote, rostire de consoane) amplitudinea este redusă.

Amplitudinea medie pentru N eşantioane se calculează astfel [Pic93]:

1

M ( n ) | x ( m ) | w ( n m

)

N m

unde: x(m) este eşantionul curent al semnalului vocal, iar

w(n-m) este fereastra utilizată în segmentul considerat.

Energia semnalului este utilă în determinarea caracteristicilor de putere transportată a semnalului vocal. Pentru un semnal

cu valoare medie nulă, energia pe termen scurt se defineşte astfel [Lup04]:

1

E ( n )

N m

[

x ( n ) w

( n m

)]

Segmentele sonore (vocalele) au o energie medie ridicată, pe când consoanele au energie scăzută. Pentru majoritatea

fonemelor, energia se concentrează în banda de frecvenţe între 300 şi 3000 Hz.

Numărul trecerilor prin zero este util pentru determinarea caracteristicilor de frecvenţă în interiorul unui segment de timp.

Numărul trecerilor prin zero se calculează astfel [Pic93]:

NTZ

unde sgn(n) este funcţia semn:

1

[ 0

N

n

1,

n 0

sgn( n )

1,

n 0

1 sgn(

s ( n 1

) T ) sgn(

s ( nT ))]

2

Numărul trecerilor prin zero este o caracteristică ce se foloseşte în recunoaşterea vorbirii, precum şi în determinarea

caracterului sonor/nesonor. În interiorul segmentelor sonore numărul trecerilor prin zero este mai redus, în timp ce în segmentele

nesonore acest parametru este mai ridicat.

Frecvenţa fundamentală este un parametru deosebit de important folosit atât în sinteza cât şi în recunoaşterea vorbirii.

Frecvenţa fundamentală corespunde cu periodicitatea semnalului vocal. Determinarea acestui parametru nu se poate face

întotdeauna cu exactitate, din cauza variabilităţi semnalului vocal chiar pe porţiuni scurte de timp. Rostirea vocalelor prezintă o

frecvenţă fundamentală ce poate fi determinată, pe când consoanele, care sunt rostiri neperiodice, nu au frecvenţă fundamentală.

Dintre metodele uzuale de determinare a frecvenţei fundamentale a semnalului vocal amintim următoarele:

A. Metoda autocorelaţiei

Metoda se bazează pe calculul funcţiei de autocorelaţie a semnalului vocal, care ne dă informaţii despre interdependenţa

temporală a eşantioanelor. Funcţia de autocorelaţie se defineşte astfel [Sto84]:

3

2

(3.4)

(3.5)

(3.6)

(3.7)

R

n

( k )

N k 1

[

m 0

unde x(n) este valoarea eşantionului de semnal, iar

w(m) este funcţia fereastră utilizată.

x ( m n

) w ( m )][ x ( n m

k

) w ( m k

)]

Funcţia de autocorelaţie prezintă maxime la intervale de timp egale cu perioada semnalului. Determinarea acestor maxime şi

măsurarea distanţei dintre ele conduce la determinarea frecvenţei fundamentale a semnalului.

B. Metoda funcţiei diferenţă de amplitudine medie

Metoda se bazează pe calculul funcţiei diferenţă de amplitudine medie, care are expresia [Sto84]:

N 1

k 0

4

(3.8)

1

D ( n ) | s k s

k n

| , cu 0 n N

1

(3.9)

N

Funcţia diferenţă de amplitudine medie D(n) prezintă minime la distanţă egală cu perioada semnalului, şi are avantajul că se

poate calcula mai rapid decât funcţia de autocorelaţie.

C. Metoda cu limitare centrală

Metoda urmăreşte simplificarea calculelor prin reţinerea în procesul de calcul doar a eşantioanelor de semnal ce depăşesc

în valoare absolută o anumită valoare de prag. Apoi semnalul se accentuează în felul următor: valorile pozitive se adună cu valoarea

de prag, iar din cele negative se scade valoarea de prag P:

x

( n ) P , x ( n ) 0

x ( n )

x

( n ) P , x ( n ) 0

În varianta metodei cu limitare infinită, valorile pozitive se înlocuiesc cu o valoare maximă, iar cele negative cu o valoare minimă.

După faza de accentuare, se calculează funcţia de autocorelaţie definită anterior, ale cărei maxime se vor putea determina

mult mai uşor.

De asemeni, se poate utiliza cu bune rezultate o metodă combinată în care după limitarea centrală se aplică metoda funcţiei

diferenţă de amplitudine medie.

3.2.2. Analiza în domeniul frecvenţă a semnalului vocal

Analiza în domeniul frecvenţă a semnalului presupune descompunerea semnalului în componente de frecvenţă cunoscută,

cum este cazul analizei Fourier, sau în componente a căror comportare în frecvenţă este cunoscută, cum e cazul analizei bazate pe

filtre digitale. Parametrii obţinuţi în urma descompunerii semnalului în componente diferă de cazul analizei în domeniul timp, cele două

abordări fiind complementare. Principalele metode folosite în cadrul analizei în domeniul frecvenţă sunt [Lup04]: analiza prin banc de

filtre, analiza Fourier, analiza LPC, analiza cepstrală şi analiza perceptuală.

A. Analiza prin banc de filtre digitale

Analiza prin banc de filtre digitale are ca scop descompunerea semnalului în benzi de frecvenţă şi determinarea ponderii

componentelor din aceste benzi în semnalul iniţial, de unde se va putea trage o concluzie asupra comportării în frecvenţă a semnalului

vocal.

Semnalul iniţial x(n) este descompus în N benzi de frecvenţă prin intermediul filtrelor trece-bandă FTB1...FTBN. Fiecare

bandă este supusă apoi unei transformări neliniare pentru deplasarea spectrului către domeniul frecvenţelor joase. Vectorii rezultaţi

xk(n) pentru fiecare subbandă vor fi analizaţi separat, iar în vederea sintezei sau recunoaşterii li se va aplica în continuare anumiţi

operatori matematici (netezire, normalizare). Deseori se foloseşte calculul energiei vectorilor rezultaţi pentru a determina ponderea lor

în alcătuirea semnalului iniţial.

B. Analiza Fourier

Analiza Fourier este cea mai răspândită metodă de analiză a semnalului vocal pentru că ea oferă imaginea completă a

componentelor semnalului pe scara frecvenţei, rezultând astfel spectrul de frecvenţe asociat. Analiza Fourier se bazează pe

proprietatea unui semnal periodic de a putea fi descompus în componente sinusoidale.

Această metodă de analiză foloseşte calculul transformatei Fourier discrete, de forma [Mat01]:

X ( k )

N 1

n 0

x ( n ) e

j 2 nk / N , k = 1,2,...,N , (3.11)

unde: x(n) reprezintă eşantioanele de semnal,

X(k) este valoarea componentei k din spectrul de frecvenţe,

N este numărul de eşantioane considerate, iar

j este unitatea imaginară.

Calculul se face în domeniul complex, rezultând pentru fiecare componentă X(k) două valori reale corespondente:

- modulul sau amplitudinea: Ak= |X(k)| , respectiv

- faza: φk=arg(X(k)).

În practică se foloseşte mai mult spectrul amplitudinilor, sau spectrul de putere al semnalului. Aceasta deoarece urechea

umană e mai puţin sensibilă la spectrul de faze al unui semnal vocal.

Cum pentru fiecare k e necesar calculul sumei (3.11) cu N valori, rezultă o complexitate a algoritmului de calcul de forma

O(N 2 ). Pentru rapidizare sunt disponibili diverşi algoritmi, dintre care cei mai cunoscuţi sunt algoritmii FFT (Fast Fourier Transform -

(3.10)

Transformata Fourier Rapidă) cu decimare în frecvenţă sau decimare în timp. Algoritmul FFT se bazează pe calculul recursiv al

valorilor spectrale [Tod05] şi reduce complexitatea algoritmului la O(Nlog2N).

Pe baza aflării spectrului de frecvenţe se pot determina o serie de parametrii specifici, cum ar fi anvelopa spectrală sau

forma şi valoarea formanţilor, ce ne dau informaţii despre comportamentul în domeniul frecvenţei a semnalului pe segmentul de timp

considerat.

C. Analiza prin predicţie liniară

Analiza prin predicţie liniară sau analiza LPC (Linear Prediction Coding) este o metodă eficientă de determinare a unor

parametrii recursivi ai semnalului vocal, care se vor putea folosi în cadrul procesului de sinteză sau recunoaştere a vorbirii.

Modelul LPC al producerii vorbirii este generat în concordanţă cu producerea sunetului de către sistemul fonator uman.

Astfel, energia sonoră de bază este furnizată de către un semnal de excitaţie, care poate să fie periodic sau neperiodic, în funcţie de

sunetul produs (tren de impulsuri periodice pentru cazul vocalelor sau zgomot alb în cazul consoanelor). Pentru un semnal de excitaţie

periodic, se furnizează frecvenţa fundamentală F0 ca parametru de intrare în generator.

Semnalul de excitaţie este apoi amplificat cu un factor G (numit câştigul modelului) şi trecut printr-un filtru variabil având

funcţia de transfer H(z). Filtrul variabil modelează comportamentul tractului vocal din cadrul sistemului fonator, şi va produce la ieşire

semnalul scontat s(n). Filtrul este controlat pe baza unor parametrii care sunt coeficienţii LPC {ak}. Parametrii sunt calculaţi pentru

fiecare segment de vorbire de aproximativ 10-30 ms.

Funcţia de transfer a filtrului are expresia [Tod05]:

G

H ( z )

p

1

k 1

a

k

z

k

G

A ( z )

unde: G este câştigul filtrului, iar

ak sunt coeficienţii de predicţie LPC.

Câştigul se poate determina pe baza erorii de predicţie dintre semnalul calculat cu ajutorul filtrului recursiv şi semnalul

original. Pentru calculul parametrilor ak există mai multe metode, dintre care cele mai cunoscute sunt metoda autocorelaţiei (prin

algoritmul Levinson-Durbin) şi metoda covarianţei.

Metoda de analiză prin predicţie liniară LPC are avantajul că necesită efort computaţional relativ redus, rezultând un set de

parametrii ce aproximează bine comportamentul semnalului în domeniul frecvenţă. Analiza LPC determină simplificarea spectrului

semnalului, situaţie foarte avantajoasă în cazul recunoaşterii vorbirii, când se va genera un set de vectori mult mai adecvaţi tratării prin

mijloace specifice inteligenţei artificiale, cum ar fi reţelele neuronale. Totodată, analiza LPC este utilă şi în cazul sintezei de voce,

generând reducerea volumului de date în condiţiile menţinerii inteligibilităţii vocii.

D. Analiza cepstrală

Analiza cepstrală este o metodă ce derivă din analiza Fourier, şi se utilizează pentru determinarea unor parametrii ai

semnalului vocal utili mai ales în procesul recunoaşterii vorbirii [Tod05]. Modelul acustic pe care se bazează analiza cepstrală este

următorul:

Semnalul vocal s(n) este produs de către un semnal de excitaţie e(n) corespunzător corzilor vocale din sistemul fonator, care

este filtrat de către un filtru variabil având răspunsul la impuls h(n), ce corespunde tractului vocal. Avem astfel:

s( n)

e(

n)

h

( n)

(3.13)

unde: s(n) e semnalul rezultat;

e(n) – excitaţia;

h(n) – răspunsul filtrului.

Dacă translatăm ecuaţia (3.13) în domeniul frecvenţă, se poate scrie:

5

(3.12)

S ( f ) E ( f ) H

( f )

(3.14)

Prin logaritmare obţinem:

log S ( f ) log E ( f ) log

H ( f ) (3.15)

Din ecuaţia (3.15) rezultă posibilitatea separării excitaţiei sonore de influenţa tractului vocal, de aici rezultând şi modul de

calcul al cepstrumului [Gav00]:

- se calculează mai întâi spectrul S(f) al semnalului prin transformata Fourier;

- se aplică logaritmul;

- se aplică transformata Fourier inversă pentru a determina cepstrumul în domeniul timp.

Analiza cepstrală ne oferă informaţii atât despre excitaţia sonoră, permiţând estimarea frecvenţei fundamentale a semnalului,

cât şi despre influenţa tractului vocal, ducând la calculul spectrului netezit al semnalului vocal. Componentele cepstrale inferioare

(corespunzătoare unui segment de timp de la 0 la 2ms) permit estimarea frecvenţei fundamentale prin determinarea maximului

funcţiei cepstrale pe acest segment de timp. Pentru calculul spectrului netezit se folosesc componentele cepstrale superioare, cărora

li se aplică din nou transformata Fourier.

De asemenea, se mai poate calcula un set de parametrii numiţi coeficienţi cepstrali LPC, derivaţi direct din coeficienţii LPC.

Formulele de calcul pentru aceşti parametri sunt [Fur01]:

c

1

n

a

1

a

n

n k

a

k c

k n

1

( 1 )

1

n k

a

k c n k

n

,

) 1 (

1

k 1

n k

,

n p

1 n p

(3.16)

unde: ak sunt coeficienţii LPC calculaţi până la ordinul p;

cn sunt coeficienţii cepstrali LPC.

Coeficienţii cepstrali s-au dovedit a fi un set de parametri mai robuşti decât coeficienţii simpli LPC, utilizănd-se cu succes mai

ales în procesul de recunoaştere a vorbirii sau a vorbitorului [Lup04].

E. Analiza perceptuală

Acest mod de analiză este adaptat după modul de funcţionare al sistemului perceptual auditiv al omului, şi anume după

faptul că sesizarea diferitelor tonalităţi ale sunetelor se face pe o scară logaritmică în interiorul urechii, proporţional cu frecvenţa

fundamentală a sunetului. Astfel, răspunsul urechii umane este neliniar în raport cu frecvenţa, ea detectând diferenţe mici de

frecvenţă mai uşor la frecvenţe joase decât la frecvenţe înalte [Lup04].

Din acest motiv au fost adoptate diferite scări neliniare de frecvenţă, pentru care se va calcula spectrul semnalului. Cele mai

cunoscute sunt scara de frecvenţă Bark şi scara Mel. Ambele sunt scări cu comportare logaritmică obţinute prin studii realizate

asupra percepţiei umane. În paragraful corespunzător din teză au fost expuse două metode de lucru în cadrul analizei perceptuale:

analiza PLP şi analiza cepstrală Mel.

3.3. Segmentarea semnalului vocal

După extragerea caracteristicilor semnalului vorbit, în analiză urmează etapa de segmentare a semnalului vocal. Segmentarea

se referă la detectarea diferitelor categorii de semnal şi clasificarea acestora în funcţie de proprietăţile semnalului [Gla86].

Complexitatea algoritmilor de segmentare depinde de tipul categoriilor pe care vrem să le detectăm. De exemplu, algoritmii

care separă semnalul în regiuni ce respectă anumiţi parametri fizici vor fi mai puţin complecşi decât algoritmii care determină categoria

fonetică (vocală sau consoană). La rândul lor, aceştia vor fi mai puţin complecşi decât algoritmii care determină nu doar categoria, ci şi

identitatea fonemelor. La fel, algoritmii care determină toate variaţiile alofonice ale unei foneme particulare pot fi şi mai complecşi,

datorită variaţiilor fonemei respective în cursul vorbirii [Chi00].

Detectarea categoriilor şi clasificarea semnalului vocal se face în trei paşi:

1) detectarea segmentelor de bază S/U/V ;

2) identificarea categoriilor fonematice;

3) identificarea exactă a fonemelor.

Primul pas în acest algoritm este împărţirea semnalului vocal în trei categorii de segmente de bază: linişte (Silence - S),

nesonor (Unvoiced - U), sonor (Voiced - V).

Al doilea pas este punerea în corespondenţă a fiecărui segment al vorbirii cu o anumită categorie fonetică. Tipurile de

foneme precum şi categoriile fonetice diferă în funcţie de limbă. De exemplu, pentru limba engleză se definesc 9 categorii de foneme:

vocale, consoane sonore, nazale, semivocale, fricative sonore, fricative nesonore, stopuri sonore, stopuri nesonore şi linişte.

Pasul al treilea, mai complex, îl reprezintă identificarea exactă a fonemelor din fluxul de intrare. Aici se urmăreşte potrivirea

segmentului analizat cu una din fonemele limbii respective.

În general, alegerea numărului de categorii în care este segmentat semnalul se face printr-un compromis între complexitatea

algoritmilor şi rezoluţia segmentelor de vorbire rezultate. Dacă se presupune că recunoaşterea fonemelor individuale nu este

necesară, se va reduce complexitatea algoritmilor de recunoaştere a segmentelor, deoarece alegerile necesare procesului de potrivire

sunt reduse de la numărul de foneme la numărul de clase fonematice (de exemplu pentru limba engleză de la 41 de foneme la 9 clase

fonematice). În plus, sunt mai uşor de recunoscut diferenţele dintre două categorii fonematice decât diferenţele dintre două foneme din

aceeaşi categorie.

3.4. Contribuţii aduse în procesul segmentării automate a semnalului vocal

Aşa cum s-a precizat în paragraful anterior, găsirea unei metode optime de segmentare a semnalului vocal reprezintă o

operaţie absolut necesară în procesul de construire a bazei de date vocale. În secţiunea curentă este prezentată metoda proiectată de

autor, care este capabilă să detecteze automat componentele S/U/V ale semnalului (Silence – linişte, Unvoiced – nesonor, Voiced –

sonor), să împartă aceste componente în regiuni şi subregiuni cu anumite proprietăţi, iar apoi să pună în corespondenţă aceste regiuni

cu o secvenţă cunoscută de foneme (figura 3.1).

Semnal vocal Algoritmul propus utilizează analiza în domeniul timp a semnalului

vocal. După o filtrare trece-jos a semnalului, se detectează mai întâi punctele

Segmentare S/U/V

Detecţie regiuni

Compactare

Segmentare fonematică

Subregiuni

Figura 3.1. Metoda de segmentare automată

propusă de autor

de trecere prin zero Zi din forma de undă. Apoi se calculează punctele de

valoare minimă mi şi maximă Mi dintre două puncte de zero.

Separarea linişte/vorbire se realizează utilizând o valoare de prag Ts

aplicată asupra amplitudinii semnalului vocal. În segmentele de linişte (silence),

toate punctele mi şi Mi trebuie să fie mai mici decât Ts .

Pentru fiecare segment din semnalul vocal se calculează apoi distanţa

dintre două puncte de zero adiacente Di . Se ia decizia de segment sonor

(voiced) dacă această distanţă este mai mare decât o valoare de prag V.

Un segment este considerat nesonor ( unvoiced) dacă distanţa Di

dintre punctele de zero adiacente este mai mică decât un prag U.

Se definesc de asemeni segmente tranzitorii, acestea fiind segmentele

pentru care condiţiile de mai sus nu sunt îndeplinite.

În urma operaţiei de segmentare S/U/V (detectarea segmentelor de tip silence/ unvoiced /voiced), va avea loc o împărţire a

semnalului vocal în clase de regiuni distincte, în scopul determinării proprietăţilor semnalului pe regiuni şi punerii în corespondenţă cu

setul de foneme de la intrare.

După o primă aplicare a algoritmului de mai sus, va fi generat un număr mare de regiuni. În timp ce regiunile sonore sunt

determinate corect de la început, regiunile nesonore sunt fragmentate de o serie de regiuni de linişte, din cauza faptului că de obicei

aceste regiuni nesonore au amplitudine mică. Toate aceste regiuni vor fi compactate într-o singură regiune nesonoră în cea de-a doua

trecere a algoritmului.

După segmentare, regiunile detectate vor fi puse în corespondenţă cu şirul de foneme prezent la intrare, pe baza unor reguli

stabilite în funcţie de proprietăţile acustice ale fiecărei foneme rostite în limba română. Aşa cum se va arăta în paragrafele următoare,

acest proces de punere în corespondenţă între regiunile distincte din semnalul vocal şi foneme are un rol foarte important în

generarea automată a bazei de date vocale, şi se pretează la multe alte aplicaţii – inclusiv în domeniul recunoaşterii vorbirii.

În continuare se vor detalia algoritmii corespunzători fiecărei etape.

3.4.1. Segmentarea S/U/V şi detecţia de regiuni

Pasul preliminar al metodei de segmentare îl reprezintă detectarea punctelor de zero, minim şi maxim din semnalul vocal.

După o filtrare trece-jos a semnalului, folosind analiza în domeniul timp, se detectează mai întâi punctele de trecere prin zero (Zi) din

forma de undă. Apoi se calculează punctele de valoare minimă (mi) şi maximă (Mi) dintre două puncte de zero.

Algoritmul propus de autor realizează segmentarea automată a semnalului vocal în 10 clase de regiuni. Se împarte mai întâi

semnalul vocal în 4 categorii de bază: linişte (Silence), vocală sonoră (Voiced), consoană nesonoră (Unvoiced), respectiv tranziţie,

apoi se realizează clasificarea acestora în 10 clase distincte de regiuni: linişte, consoană nesonoră, vocală sonoră, linişte-nesonoră,

regiune de tip salt, neregulată, tranzitorie, tranzitorie densă, discontinuă de tip R şi discontinuă de tip G.

Corespondenţele dintre categoriile de bază şi clasele de regiuni sunt arătate în figura 3.2.

CLASĂ

CATEGORIE

Figura 3.2. Relaţia dintre categoriile de bază şi clasele de regiuni

Cele 10 clase de regiuni sunt următoarele:

1. Regiune de tip linişte (L). Este o regiune în care nu se detectează semnal vorbit, respectiv amplitudinea semnalului este foarte

mică.

2. Regiune de tip consoană nesonoră (C). Pentru limba română, aici intră consoanele fricative /S/, /Ş/, /Ţ/, /F/, /Z/, /J/, /H/, precum şi

africativele /Ce/, /Ci/, /Ge/, /Gi/ .

3. Regiune de tip vocală sonoră (V). Aici avem toate vocalele din limba română: /A/, /E/, /I/, /O/, /U/, /Ǎ/, /Î/, dar tot aici intră consoanele

glide şi nazale /L/, /M/, /N/, precum şi unele dintre consoanele plozive /P/, /B/, /D/.

4. Regiune de tip linişte-nesonoră (LB). Acest tip de regiune este o combinaţie între regiunea de tip linişte şi regiunea de tip consoană

nesonoră. Detectarea acestei regiuni ca o categorie separată a fost necesară deoarece consoanele fricative sunt rostite de multe

ori cu o intensitate scăzută, putând să fie regăsite în regiuni de tip linişte.

5. Regiune de tip salt (VS). Este o regiune asemănătoare cu regiunea vocalică, dar fără să fie periodică. Se datoreşte balansului de

semnal vocal deasupra sau dedesubtul liniei de zero. Necesitatea distingerii acesteia de regiunea vocalică se datoreşte faptului că

ei nu-i corespunde în semnalul vorbit o vocală, ci o zonă tranzitorie sau de coarticulare.

6. Regiune neregulată scurtă (TN). Este o regiune ce permite detectarea consoanelor plozive precum /C/, /G/ sau /P/. De obicei apare

după o zonă de linişte, având o durată scurtă şi o gamă de frecvenţe intermediară între vocale şi consoanele nesonore.

7. Regiune tranzitorie (T). Este regiunea intermediară situată şi ea în domeniul de frecvenţe dintre vocale şi consoane, dar fără să aibă

caracteristicile regiunilor (R4)-(R6).

8. Regiune tranzitorie densă (TD ). Este o regiune tranzitorie în care apar frecvenţe de ordin superior, ce poate corespunde

consoanelor fricative. Semnalul nu este catalogat în categoria (R2) datorită balansului pozitiv sau negativ faţă de linia de zero.

9. Regiune de discontinuitate de tip “R” (VR). Corespunde unei regiuni de discontinuitate vocalică asociată cu un minim de energie, ce

poate fi datorată în mod particular consoanei glide /R/ care desparte o secvenţă de vocale.

10. Regiune de discontinuitate de tip “G” (VG). Este o regiune de discontinuitate vocalică ce corespunde frecvenţelor intermediare

asociate cu consoanele plozive (în particular cu /C/ şi /G/), ce apar atunci când aceste consoane se află în interiorul unei secvenţe

vocalice.

Experimentele efectuate au condus la realizarea unor corespondenţe între fonemele limbii române şi clasele de regiuni.,

corespondenţe care au fost prezentate în capitolul curent al tezei. În cele ce urmează vor fi detaliate modurile de detectare a celor

patru categorii de bază precum şi modurile de clasificare în cele 10 clase de regiuni.

3.4.1.1. Detectarea categoriei Linişte

Separarea linişte/vorbire din semnalul vocal se realizează utilizând o valoare de prag Ts aplicată asupra amplitudinii

semnalului. În segmentele de Linişte (Silence), toate punctele de minim mi şi maxim Mi (detectate prin algoritmul Zero-Min-Max)

trebuie să fie mai mici decât pragul Ts :

|

M i | T

s

|

m i | T

s

Regiune

L V T C

L LB V VR VG VS T TN TD C

, i = s… s+n (3.17)

unde:

- s reprezintă indexul eşantionului curent din segmentul vocal, iar

- n este numărul de eşantioane din acel segment.

3.4.1.2. Detectarea categoriei Vocală

Categoria Vocală corespunde segmentelor sonore din semnalul vocal. Pentru segmentele de vorbire se calculează distanţa

dintre două puncte de zero adiacente Di = d(Zi, Zi+1). Se ia decizia de segment Sonor (Voiced) dacă această distanţă este mai mare

decât o valoare de prag V :

Di V , i = s,… , s+n (3.18)

În figura 3.3, Z1, A, B, Zn reprezintă puncte de zero, M1 este un punct de maxim, iar m2 e un punct de minim, punctele fiind

detectate prin algoritmul Zero-Min-Max.

M

Pentru ca puncte de zero precum cele dintre punctele A şi B din

figură să fie incluse în segmentul sonor, se aplică o tehnică de tip look-

1

ahead. Astfel, un număr de maximum Nk puncte de zero dintre Zi şi Zi+k pot fi

Z1 A Zn

inserate în regiunea sonoră dacă Di-1 > V şi Di+k > V :

B

D1

m

Figura 3.3. Porţiune sonoră dintr-un segment de vorbire

D j V

D

i 1

V

D

i k

V

, i = s,… , s+n ; j = i .. k ; k P[1] > P[2] > P[3] (3.21)

P[6] > P[5] > P[4] > P[3]

Figura 3.4. Detectarea unei regiuni de tip vocală sonoră

Modul de detectare a hiatusurilor de periodicitate

va fi explicat în paragraful dedicat determinării

perioadelor din regiunile vocalice sonore.

În continuare s-a arătat modul de detectare a

minimelor locale de amplitudine a perioadelor,

corespunzătoare subregiunilor de tip

Discontinuitate R.

Dacă relaţiile (3.21) sunt satisfăcute, punctul P[3] corespunzător perioadei PC este un punct de minim şi intervalul

considerat se va eticheta ca regiune de tip Discontinuitate R.

Dacă relaţiile (3.21) nu sunt satisfăcute din cauza punctelor de capăt P[0] sau P[6], atunci se admite şi condiţia ca P[3] să fie

minim pentru intervalul ordonat [1,5], iar punctele de capăt P[0] şi P[6] să fie apropiate ca valoare de P[1], respectiv P[5].

3.4.1.3.2. Detectarea subregiunilor corespunzătoare consoanelor /C/, /G/

Detecţia regiunilor de tip Discontinuitate G, corespunzătoare consoanelor /C/ şi /G/ se bazează pe faptul că în banda de

[3500-6500] Hz există în acest caz frecvenţe spectrale de amplitudine mărită, spre deosebire de cazul vocalelor în care aceste

frecvenţe nu există.

Algoritmul pentru detectarea subregiunilor de tip G este următorul:

(1) Se calculeaza maximul amplitudinii spectrale din banda [1,2500] Hz MAX1, pentru o fereastră W de N perioade din

regiunea curentă.

(2) Se calculează maximul amplitudinii spectrale din banda [3500,6500] Hz MAX2 pentru fereastra W.

(3) Se calculează raportul RGC[W] = MAX2/MAX1.

(4) Dacă RGC[W] > KGC , se returnează True pentru a indica detecţia subregiunii de tip G.

3.4.1.4. Detectarea categoriei Consoană

Categoria Consoană corespunde segmentelor nesonore. Un segment de vorbire este considerat Nesonor (Unvoiced) dacă

distanţa Di dintre două puncte de zero adiacente este mai mică decât un prag U:

Di

Di U , i = s,… , s+n (3.22)

Figura 3.6. Porţiune nesonoră dintr-un segment de vorbire Figura 3.7. Detectarea unei regiuni de tip consoană nesonoră

Figura 3.6 prezintă modul de detectare al regiunii, iar figura 3.7 prezintă rezultatele detectării automate a unei regiuni din

categoria Consoană. Caracteristic este numărul mare de treceri prin zero a semnalului.

3.4.1.5. Detectarea categoriei Tranziţie

Detectarea categoriei Tranziţie se face pe următorul nivelul al algoritmului de segmentare, după ce categoriile Linişte, Vocală

şi Consoană au fost identificate. Se parcurg regiunile în ordine iar cele care nu au fost etichetate la nivelul 1 se etichetează ca regiuni

de tranziţie. Pentru aceste regiuni se lansează clasificatorul categoriei Tranziţie.

În cadrul acestei categorii, detectarea regiunilor de tip Neregulată are ca scop evidenţierea “zimţurilor” care apar în semnal,

adică a unor neregularităţi care indică posibilitatea rostirii unor consoane plozive (/C/ sau /G/). Aceste consoane au forma unor

impulsuri de durată scurtă ce urmează după o perioadă de aprox. 5 ms de linişte.

Figura 3.8. Detectarea regiunilor de tip Neregulată. Regiunile clasificate astfel sunt figurate cu galben.

Detectarea regiunilor de tip Tranzitorie densă este necesară pentru evidenţierea unor regiuni cu pondere mare a frecvenţelor

ridicate în spectru, care pot fi de tipul consoanelor fricative. Detecţia acestui tip de regiuni se bazează pe calculul unui raport dintre

amplitudinile frecvenţelor spectrale ale unui filtru trece-bandă 2500 – 4000Hz şi ale unui filtru trece-jos cu frecvenţa de tăiere 1000Hz:

R

dens

T 2

P

kT

1

k1

FFT ( k)

9

(3.23)

unde:

- FFT(k) este modulul transformatei Fourier a semnalului din poziţia spectrală k ;

- T1 este poziţia spectrală corespunzătoare frecvenţei de 2000Hz :

2500N

T1 , cu N = numărul de eşantioane din segmentul curent, Fes fiind frecvenţa de eşantionare ;

Fes

/ 2

- T2 este poziţia spectrală corespunzătoare frecvenţei de 3000Hz :

4000 N

T2 , cu N = numărul de eşantioane din segmentul curent, Fes = frecvenţa de eşantionare ;

Fes

/ 2

1000 N

- P este poziţia spectrală corespunzătoare frecvenţei de 700Hz : P

Ca modalitate de detecţie, se calculează energia

negativă (adică energia semnalului de amplitudine negativă)

Eneg(m) din stânga fiecărui punct de minim m, începind cu dx = -

0.225 ms, pe o durată D = 1 ms. Dacă raportul: Rneg = m 2 /

Eneg(m) este mai mare decât un prag dat, atunci regiunea este

de tip Neregulată.

Fes

/ 2

3.4.2. Compactarea regiunilor

După etapa de detectare a regiunilor, integrarea acestora într-o categorie segmentală de tipul Linişte, Sonoră, Nesonoră

respectiv Tranziţie, şi după clasificarea într-una din cele 10 clase de regiuni, urmează faza de compactare. Compactarea realizează

gruparea regiunilor de dimensiuni mici într-o aceeaşi categorie segmentală.

S-a remarcat faptul că după prima aplicare a algoritmului de segmentare se generează un număr mare de regiuni. Dacă

regiunile sonore sunt determinate corect de la început, regiunile nesonore sunt fragmentate de o serie de regiuni de linişte, din cauza

faptului că de obicei aceste regiuni nesonore au amplitudine mică.

De asemeni, din cauza balansării semnalului deasupra sau dedesubtul liniei de zero, în cadrul unui segment nesonor pot

apărea şi segmente tranzitorii.

Algoritmul de compactare stabileşte întâi o secvenţă de regiuni ale cărei capete pot fi Vocale sonore sau Linişte:

R R ,..., R R

S , , cu

0 , 1 n 1

R , R n VL {

V , L}

(3.24)

0

c k 1

, VL

R i C k | 10 , i 1, n 1

n

unde Ri reprezintă regiunile clasificate într-una din cele 10 clase ck ; V reprezintă clasa Vocală Sonoră ; L reprezintă clasa

Linişte. După stabilirea secvenţei de regiuni de compactat (regiunile de capăt R0 şi Rn nu se compactează), se încearcă gruparea

regiunilor într-una sau eventual mai multe regiuni nesonore astfel :

Cazul 1. Dacă ponderea regiunilor de tip consoană nesonoră este mai mare decât un prag K1, atunci secvenţa S se

compactează într-o singură regiune de tip consoană nesonoră.

Cazul 2. Dacă ponderea regiunilor de tip consoană nesonoră şi a regiunilor de tip linişte-nesonoră este mai mare decât un

prag K2, atunci secvenţa S se compactează într-o singură regiune de tip linişte-nesonoră.

Un exemplu de segmentare pentru o regiune de tip linişte nesonoră este arătat în figurile 3.9, respectiv 3.10. Aici regiunile

numerotate sunt nesonore, regiunile figurate cu o singură linie, nenumerotate, sunt regiuni de linişte, iar regiunile figurate cu linie

îngroşată sunt regiuni tranzitorii. Toate aceste regiuni vor fi compactate în cea de-a doua trecere a algoritmului, astfel că rezultatul va fi

o singură regiune de tip linişte-nesonoră, aşa cum se poate vedea în figura 3.10.

Figura 3.9. Regiunile dintr-un segment nesonor după prima

aplicare a algoritmului

10

Figura 3.10. Compactarea regiunilor într-un segment de tip

linişte-nesonoră

Cazul 3. Dacă cele două condiţii anterioare de la punctele 1 şi 2 nu sunt îndeplinite, atunci secvenţa de regiuni se

compactează în felul următor:

Regiunile neregulate şi regiunile de tip linişte nesonoră de durată mai mare de 5 ms vor fi lăsate pe loc, iar celelalte regiuni

vor fi compactate într-o singură regiune tranzitorie. Regiunile ce se compactează pot fi de tipul: consoană nesonoră, linişte-nesonoră

de durată mică, de tip salt, tranzitorie sau tranzitorie densă, ţinând cont că la capetele secvenţei de compactare avem întotdeauna

regiuni vocale sau linişte.

3.4.3. Rezultatul final al segmentării în clase de regiuni

În figura 3.11 se prezintă

rezultatul final al segmentării în

clase de regiuni pentru

sintagma « Evidenţierea unui cadru

general ». Se pot observa aici

următoarele clase: vocale-sonore

(portocaliu), consoane nesonore

(linie roşie), regiuni de tranziţie (linie

roşie îngroşată), linişte (fără linie),

linişte nesonoră (albastru).

Avantajul algoritmului faţă de

alte abordări este rapiditatea

derivată din efectuarea calculelor în

domeniul timp şi detectarea

categoriilor de bază dintr-o singură

parcurgere a eşanti-oanelor de

semnal. De asemeni, diferitele tipuri

de regiuni sunt detectate în principal

pe baza parametrilor obţinuţi în

prima fază a algoritmului.

Figura 3.11. Rezultatul final al segmentării în

clase de regiuni pentru sintagma «Evidenţierea

unui cadru general»

3.5. Detectarea perioadelor din forma de undă. Punctele de închidere glotală

Detectarea perioadelor din forma de undă, corespunzând frecvenţei fundamentale a semnalului, este importantă atât pentru

analiza sincronă cu frecvenţa (pitch synchronous analysis), cât şi pentru modificarea proprietăţilor semnalului vocal în domeniul timp

(de exemplu modificarea tonalităţii, intonaţiei şi ritmului vorbirii).

Metodele folosite pentru detectarea perioadelor formei de undă utilizează modelarea LPC, calculând vârfurile din semnalul

rezidual LPC prin filtrare adaptivă [Chi00], sau calculul discontinuităţilor spectrale prin transformate timp-frecvenţă. De asemeni, au

fost dezvoltate metode folosind funcţia de autocorelaţie, calculul cepstrumului şi filtrarea inversă [Nay07], sau metode statistice,

precum [Sak03].

Toate aceste metode determină valori medii ale perioadei -necesare în procesul analizei- dar nu determină în mod exact

cadrul de semnal corespunzător pentru fiecare perioadă.

3.6. Contribuţii ale autorului în determinarea perioadelor de semnal

În scopul extragerii proprietăţilor glotale corespunzătoare unei perioade de semnal, este necesară o abordare sincronă cu

frecvenţa. Autorul a propus un algoritm care realizează acest lucru, şi se aplică nu unui semnal generic oarecare, ci în mod specific

unui semnal vocal sonor, cvasiperiodic. Algoritmul se bazează pe un mod de calcul exclusiv în domeniul timp, ceea ce îl face deosebit

de rapid şi eficient. Alte avantaje care derivă din această abordare sunt: detectarea exactă a capetelor intervalului de perioadă,

determinarea precisă a fiecărei perioade dintr-un segment sonor cvasiperiodic cu frecvenţa variabilă, determinarea rapidă a maximelor

de perioadă. Algoritmul este prezentat în figura 3.12.

Determinare Pivot

Estimare Perioadă

Detecţie Puncte de Maxim Detecţie Puncte Hiatus

Marcare Perioadă

Figura 3.12. Algoritmul de determinare a perioadelor de semnal

Urmează etapa de estimare a perioadei semnalului în jurul punctului pivot. Pentru aceasta se determină punctele din

vecinătatea stânga şi dreapta a punctului pivot care au amplitudinea comparabilă cu acesta. Prin medierea distanţelor între aceste

două puncte şi punctul pivot central se obţine estimarea iniţială a perioadei.

În pasul al treilea se determină toate maximele de perioadă, pornind de la punctul pivot către stânga, respectiv către dreapta.

Un maxim de perioadă se determină astfel: ştiindu-se că distanţa faţă de punctul anterior este egală cu perioada estimată, se găseşte

punctul de maxim local care se află la distanţa minimă faţă de această poziţie.

Dacă la o anumită iteraţie nu se găseşte un punct de maxim care să se găsească în poziţia preconizată, fie din cauza

depăşirii perioadei admise, fie din cauza amplitudinii mici de semnal, următorul punct de maxim local se marchează ca hiatus de

perioadă – în primul caz, respectiv ca hiatus de amplitudine – în cel de-al doilea.

În final, în pasul patru, după determinarea tuturor punctelor de maxim de perioadă, se calculează punctele de capăt ale

intervalelor de perioadă. Punctul de start al fiecărui interval se ia ca fiind primul punct de zero care precede maximul de perioadă

corespunzător. Astfel fiecare interval de perioadă începe la punctul său de zero iniţial şi durează până la punctul iniţial al intervalului

următor.

3.6.1. Determinarea pivotului

Punctul pivot reprezintă punctul de referinţă în funcţie de care se vor calcula toate celelalte puncte de maxim de perioadă.

Pentru determinarea acestuia, după o filtrare mediană a semnalului, se calculează cu algoritmul ZeroMinMax punctele de zero, minim

şi maxim din semnalul sonor. Apoi se ia eşantionul din semnal care are amplitudinea cea mai mare dintre punctele de maxim, pe o

distanţă D de la începutul segmentului considerat. Acesta este punctul de start: punctul pivot.

Mk(i) PIV

Figura 3.13. Determinarea punctului pivot

Punctul pivot se determină conform relaţiei :

D

PIV max( M k ( i )), k 0,..

N ; i D

(3.25)

unde N reprezintă numărul de maxime locale Mk din segmentul considerat.

11

Aşa cum se observă din figura 3.12, algoritmul are 4 paşi

succesivi: determinarea punctului de plecare (punctul pivot),

determinarea unei estimări a perioadei, detecţia punctelor de

maxim şi de hiatus pentru fiecare perioadă, şi apoi marcarea

intervalelor de perioadă.

Punctul pivot este necesar a fi determinat pentru a şti poziţia

primului maxim de perioadă, în funcţie de care se vor calcula

toate celelalte puncte de maxim. Pentru determinarea

acestuia, după o filtrare mediană a semnalului, se calculează cu

algoritmul ZeroMinMax (prezentat în paragraful 4.4.1) punctele

de zero, minim şi maxim din semnalul sonor. Apoi se ia

eşantionul din semnal care are amplitudinea cea mai mare

dintre punctele de maxim, pe o distanţă D de la începutul

segmentului considerat. Acesta este punctul pivot.

Prin modul de determinare a punctului pivot se observă că acesta este întotdeauna un punct de maxim de perioadă. Astfel el

poate fi considerat ca fiind punctul de referinţă pentru determinarea celorlalte maxime de perioadă din segmentul de semnal analizat.

3.6.2. Estimarea perioadei

În pasul al doilea se face estimarea perioadei actuale a semnalului în jurul punctului pivot. Pentru a face estimarea se

determină punctele din vecinătatea stânga şi dreapta a punctului pivot care au amplitudinea comparabilă cu acesta. Dacă cele două

estimări sunt aproximativ egale, estimarea iniţială a perioadei se obţine prin medierea distanţelor între aceste două puncte şi punctul

pivot central. Dacă cele două estimări sunt diferite, atunci se ia perioada cea mai apropiată de valoarea medie a perioadelor vocalice

determinate până în acel moment. Acest mod de calcul creşte robusteţea algoritmului ducând la minimizarea erorilor de estimare

pentru perioada de semnal. Estimarea perioadei actuale P0 se face conform relaţiilor:

D

1 d

( PIV , M S ( i))

D

2 d

( PIV , M D ( j ))

P0

(

D 1 D

2 ) / 2

(3.26)

unde:

- MS(i) este punctul de maxim local din stânga pivotului de amplitudine comparabilă cu pivotul: ( ( i ), PIV ) S

- MD(j) este punctul de maxim local din dreapta pivotului de amplitudine comparabilă cu acesta: ( ( j ), PIV ) S

3.6.3. Detectarea maximelor de perioadă

În această etapă se determină toate maximele de perioadă, pornind de la punctul pivot către stânga, respectiv către dreapta.

Pornind de la un maxim care a fost determinat, următorul maxim de perioadă se găseşte astfel: mai întâi se face o estimare a poziţiei

acestui punct ştiindu-se că distanţa faţă de punctul anterior este egală cu perioada curentă estimată, apoi se determină punctul de

maxim local care se află la distanţa minimă faţă de poziţia estimată. Perioada curentă se actualizează în conformitate cu poziţia

ultimului punct găsit.

Dacă la o anumită iteraţie nu se găseşte un punct de maxim care să se găsească cu o marjă de eroare în poziţia

preconizată, fie din cauza depăşirii perioadei admise, fie din cauza amplitudinii mici de semnal, următorul punct de maxim local se

marchează ca hiatus de perioadă – în primul caz, respectiv ca hiatus de amplitudine – în cel de-al doilea.

k=N S

Mk-1(j) PIV

Mk(i) Figura 3.14. Detectarea maximelor de perioadă pornind de la punctul pivot în stânga, respectiv în dreapta

Condiţia pentru determinarea unui maxim de perioadă Mk(i) este următoarea:

D

k d ( M k 1

( j ), M k ( i ))

(3.27)

| D k P

k 1

| / P k 1

unde:

- Dk este distanţa dintre punctul de maxim precedent Mk-1(j) şi punctul maxim curent Mk(i); k = 1.. NS în stânga pivotului, k =

1.. ND în dreapta pivotului;

- Pk-1 este perioada estimată la pasul anterior, unde P0 a fost determinată conform algoritmului din paragraful 3.6.1.2 ;

- Δ este pragul pentru eroarea relativă între perioada estimată la pasul anterior şi distanţa efectivă dintre ultimele două puncte

de maxim.

După determinarea unui maxim de perioadă Mk(i) se realizează actualizarea perioadei estimate Pk:

Pk k

k

( P 1 N ( k ) D

) /( N ( k ) 1

)

În relaţia (3.28), N(k) este un factor de ponderare care poate fi ales egal cu numărul de perioade parcurse până la pasul

anterior, adică N(k) = k - 1, sau poate fi ales egal cu o constantă. În algoritmul prezentat mai jos s-a ales varianta constantei (N=4) care

introduce o modificare mult mai rapidă a perioadei estimate curente, ce ţine seama de modificările reale ale frecvenţei semnalului

datorită folosirii intonaţiei în rostire.

3.6.4. Marcarea intervalelor de perioadă

După determinarea tuturor punctelor de maxim de perioadă, se calculează punctele de capăt ale intervalelor de perioadă.

Punctul de start al fiecărui interval se ia ca fiind primul punct de zero care precede maximul de perioadă corespunzător. Astfel fiecare

interval de perioadă începe la punctul său de zero iniţial şi durează până la punctul iniţial al intervalului următor.

Intervalul de perioadă PERk corespunzător punctului de maxim Mk(i) se calculează conform relaţiei :

PER k k

k

unde:

- Zk(m) este primul punct de zero anterior lui Mk(i)

- Zk+1(n) este primul punct de zero anterior lui Mk+1(j)

D k

P k-1

k=0

12

k=N D

(3.28)

d ( Z ( m ), Z 1 ( n ))

(3.29)

M S

M D

Calculată în număr de eşantioane, PERk = n-m , iar pe axa timpului :

PERk(t) = (n-m)/Fes , unde Fes este frecvenţa de eşantionare.

3.6.5. Rezultate obţinute cu algoritmul propriu de determinare a intervalelor de perioadă

Algoritmul funcţionează cu rezultate bune atât în cazul vocii masculine, cât şi în cazul celei feminine. În cazul vocilor cu

timbru normal, rezultatele sunt exacte. Dacă timbrul vocii este foarte bogat în armonici, din cauză că semnalul baleiază foarte rapid

peste linia de zero, uneori pot exista variaţii de 1-5% în determinarea punctelor de capăt pentru unele perioade, dar aceste variaţii sunt

compensate la perioadele vecine.

Algoritmul propus aici este mult mai precis decât metodele care implică analiza semnalului în domeniul frecvenţă, dat fiind

faptul că aici (în metoda propusă) se analizează direct eşantioanele de semnal, fără a fi necesară ferestruirea – ce conduce

întotdeauna la aproximaţii.

În figura 3.15 se arată rezultatul final al determinării intervalelor de perioadă pentru o vocală rostită de un vorbitor masculin:

Figura 3.15. Rezultatul final al determinării intervalelor de perioadă

3.7. Segmentarea fonematică

Segmentarea fonematică reprezintă procesul de asociere a unor simboluri fonematice prezente în textul de la intrare cu

semnalul vorbit. În urma segmentării, din semnalul vorbit se vor extrage unităţile acustice (figura 3.16). Aceste unităţi lingvistice pot fi

litere (foneme), silabe, grupuri de litere sau cuvinte întregi, în funcţie de metoda abordată. După separarea segmentelor din semnalul

înregistrat, unităţile acustice sunt parametrizate, etichetate şi integrate în baza de date folosită în sinteză.

Figura 3.16. Evidenţierea segmentelor corespunzătoare unităţilor lingvistice

Dacă transcrierea fonetică a textului nu implică dificultăţi deosebite, cea mai grea sarcină în procesul de prelucrare a

corpusului şi de creare a bazei de date vocale este cea de segmentare. Acest lucru se datorează faptului că metodele de segmentare

automată nu sunt suficient de fiabile la ora actuală, şi astfel verificarea manuală a segmentării rămâne obligatorie, proces extrem de

costisitor atât în termeni de timp cât şi în costuri de dezvoltare.

Această nevoie de intervenţie manuală este considerată ca un factor de limitare pentru construirea de noi corpusuri utilizate

în sinteză. Având în vedere creşterea cererii înspre diversificarea vocilor de sinteză, se impune îmbunătăţirea preciziei şi gradului de

automatizare a segmentării şi adnotării corpusurilor utilizate în aplicaţii de tip text-to-speech.

3.8. Contribuţii ale autorului în problematica segmentării fonematice automate a semnalului

vocal

Autorul a propus o metodă de segmentare fonematică bazată pe reguli de asociere, ce realizează o corespondenţă între

grupuri de litere prezente la intrare şi regiunile distincte ale semnalului vocal. Algoritmul de segmentare urmăreşte textul de la intrare,

şi încearcă să găsească cea mai bună potrivire pentru fiecare grup de litere prezentat cu una sau mai multe regiuni din semnalul vocal

(figura 3.17).

TEXT

Text

Transcris

Regiuni

Dsitincte

SEMNAL

VOCAL

Stream FONEME

GL1 GL2 GLn

R1 R2 Rn

REG1

REG2

Stream REGIUNI

REGm

Figura 3.17. Metoda de segmentare fonematică propusă de autor

…

În figura 3.17 se observă că textul de la intrare este mai

întâi rescris într-o anumită transcripţie fonetică, folosind un tabel

simplu de corespondenţe. Textul transcris se desparte apoi într-o

secvenţă de grupuri fonetice Gi. Pe baza regulilor de asociere Ri se

stabileşte o corespondenţă cu regiunile segmentate din semnalul

vocal REGj.

Aşadar metoda prezentată comportă trei paşi distincţi :

1. Transcrierea fonetică a textului de la intrare ;

2. Segmentarea semnalului vocal în regiuni ;

3. Scrierea regulilor de asociere pentru fiecare grup fonetic.

În capitolele anterioare a fost descrisă deja etapa de

segmentare a semnalului vocal în regiuni. În cele ce urmează vor fi

prezentate celelalte două etape: transcrierea fonetică şi scrierea

regulilor de asociere.

3.8.1. Transcrierea fonetică a textului de la intrare

Transcrierea fonetică a textului este necesară pentru a diferenţia rostirile diferite ale aceleiaşi foneme în funcţie de contextul

în care ea apare (de exemplu pentru fonema /C/, avem rostirile « Ca-să », respectiv « Ce-ta-te »), dar şi pentru a îngloba caracterele

speciale din text care implică separarea cuvintelor ( cum ar fi , , virgula, punctul, etc.). De asemenea a fost luată

în considerare şi pauza de rostire care apare uneori între două foneme succesive (de exemplu în cazul grupului vocală+consoană :

{VOC}{C}, unde {C} este o consoană plozivă precum /C/ , /G/ sau /P/).

3.8.2. Proiectarea regulilor de asociere pentru fiecare grup fonetic

După etapele de transcriere fonetică a textului de la intrare şi segmentare a semnalului vocal în regiuni, urmează etapa de

asociere între diferitele grupuri de caractere fonetice şi regiunile din semnal (figura 3.18).

G1

Gn

Gi

Figura 3.18. Asocierea grupurilor fonetice cu regiunile

Fie un grup fonetic notat cu Gi. Acesta va fi asociat cu o secvenţă de caractere fonetice astfel :

i

i i

F F F

G ,...,

(3.30)

1 , 2

unde Fp i este un caracter din transcrierea fonetică, cu p = 1, ..., ki.

În mod analog, grupul Gi+1 este asociat cu secvenţa:

i 1

i 1

F , F ,..., F

1

2

REGi1

REGim

ki

G (3.31)

k ( i 1

)

REGik

unde ind(F1 i+1 ) = ind(Fki i ) + 1, notându-se prin ind(Fp i ) indicele caracterului Fp i din transcrierea fonetică.

Se urmăreşte asocierea grupurilor fonetice succesive cu două secvenţe de regiuni care să fie de asemenea succesive, astfel :

G i REG ( i,

1)

... REG ( i,

N i ) }

G i 1

REG ( i 1,

1)

... REG ( i 1,

N i 1

) }

(3.32)

unde:

REG(i,p)) este regiunea cu numărul de ordine p din secvenţa asociată grupului Gi .

Dacă notăm cu ind(REG(i,p)) indicele global al regiunii REG(i,p)) în secvenţa totală de regiuni,

atunci avem îndeplinite condiţiile:

ind(REG(i, p+1)) = ind(REG(i, p)) + 1

ind(REG(i+1, 1)) = ind(REG(i, Ni)) + 1 (3.33)

Prima relaţie din (3.33) semnifică faptul că regiunile cu care se asociază fiecare grup Gi sunt succesive, iar cea de-a doua

relaţie semnifică faptul că secvenţele de regiuni cu care sunt asociate cele două grupuri Gi şi Gi+1 trebuie să fie şi ele succesive.

În continuare mai rămâne să explicităm grupurile fonetice, respectiv caracterele care pot intra în componenţa fiecărui grup,

precum şi regulile de asociere grupuri-regiuni, care trebuie să respecte condiţiile (3.30) – (3.33).

Pentru asocierea grupurilor fonetice cu secvenţele de regiuni corespunzătoare, s-a folosit generatorul automat de analizoare

pentru intrări de tip şiruri de caractere (text stream parser) numit LEX [Fre05]. LEX-ul generează un analizor lexical (scanner) de text

conform cu un set de reguli furnizate în notaţia Bachus-Naur Form.

Fiecare regulă din setul de reguli conţine specificarea unui pattern de caractere, care trebuie potrivit cu şirul curent de la

intrare, şi o acţiune care se execută. În cazul nostru acţiunea care se execută este verificarea unei condiţii pentru secvenţa de regiuni

care poate corespunde cu pattern-ul fonetic.

Scanner-ul generat are la intrare şirul de caractere rezultat din transcripţia fonetică, şi pe baza regulilor înmagazinate

realizează următoarele acţiuni :

1) preia secvenţa curentă de caractere din şirul de intrare ;

2) identifică regula corespunzătoare prin pattern-matching;

3) încearcă să găsească o secvenţă de regiuni din tabela de regiuni care să se potrivească cu condiţia specificată de

regulă.

3.8.3. Rezultate obţinute în urma aplicării metodei propuse de asociere foneme-regiuni

Pentru un anumit vorbitor, rezultatele asocierii dintre şirul de foneme de la intrare şi setul de regiuni din semnalul vocal

depind de doi factori: (1) modul de segmentare al semnalului vocal şi (2) setul de reguli de asociere corespunzător acelui vorbitor.

Segmentarea semnalului vocal cu metoda propusă de autor împarte semnalul în 10 clase de regiuni distincte, frontierele

dintre regiuni fiind bine delimitate. Problema cea mai delicată o constituie construirea setului de reguli de asociere pentru vorbitorul

considerat. Proiectarea setului de reguli se face folosind un corpus de înregistrări ale vorbitorului, pe baza căruia se scriu regulile

pentru fiecare grup de foneme care prezintă o rostire distinctă.

14

În figura 3.18, fiecare grup Gi se asociază cu o

serie de regiuni REGik, unde

i k 1 i

k 1,

k 1

.. m , şi

card ({ i k , k 1 .. m }) 1

, adică fiecare grup Gi

se va asocia cu una sau mai multe regiuni

succesive din semnalul vocal.

3.8.4. Experimente privind segmentarea în subregiuni fonematice

15

Odată ce a fost scris un set de reguli pentru

un vorbitor, transcrierea sa pentru un altul se

face modificând doar elementele de durată şi

eventual tipul de regiuni asociate pentru fiecare

grup de foneme. Autorul a proiectat mai întâi un

set de reguli pentru un vorbitor masculin, ce a

fost apoi uşor adaptat şi pentru un vorbitor

feminin. În urma aplicării metodei proprii de

asociere foneme-regiuni s-a constatat că aceste

constrângeri de durată şi formă de semnal sunt

suficiente pentru a face o asociere corectă.

În procesul segmentării pot apărea anumite

erori (1-5%) în cazul când în semnal apar regiuni

tranzitorii succesive de durată scurtă.

Unele dintre aceste regiuni pot fi puse în

corespondenţă cu grupul de foneme considerat

(dacă respectă condiţiile de durată), sau pot fi

incluse în tranziţiile intrafonematice, fapt care nu

are o importanţă deosebită, ţinând cont că de

obicei procesul de asociere foneme-regiuni se

face pentru detectarea unor unităţi fonetice de tip

grup de foneme, şi nu pentru foneme singulare.

Acesta este şi cazul lucrării de faţă, în care s-a

utilizat o abordare bazată pe silabe.

În figura 3.19 se prezintă rezultatele

aplicării metodei de asociere foneme-regiuni

asupra unei fraze rostite de un vorbitor masculin.

În urma procesului de asociere a grupurilor de foneme cu regiunile din semnalul vocal, vor exista două situaţii distincte de

asociere:

1) o anumită fonemă este asociată în mod unic cu o regiune sau un set de regiuni;

2) un grup de mai multe foneme va fi asociat cu o regiune sau un set de regiuni.

Primul caz apare de regulă atunci când e vorba de o consoană nesonoră (/s/, /ş/, /t/, /ţ/, /j/, /f/, /č/, /ğ/) sau de o vocală

singulară (ce nu apare într-un grup de vocale). În acest caz segmentarea este în mod precis determinată.

Al doilea caz apare atunci când se întâlneşte un grup de foneme alcătuit din vocale, consoane glide (/l/, /m/, /n/) sau /r/. De

cele mai multe ori, un astfel de grup va fi asociat cu o singură regiune de tip sonor-vocalic (figura 3.20).

a) b)

Figura 3.20. Asocierea unui grup de mai multe foneme cu o singură regiune

a) grupul /milor/ din cuvântul ; b) grupul /area/ din cuvântul

Aşa cum a fost subliniat în subcapitolul precedent, acest caz particular nu împietează asupra procesului de detectare a

unităţilor lingvistice folosit în construirea corpusului vocal adnotat, mai ales atunci când unităţile lingvistice sunt alcătuite din grupuri de

foneme, precum silabele.

Totuşi, dacă se doreşte separarea fonemelor dintr-o astfel de regiune corespunzătoare unui grup de foneme, vor trebui

utilizate anumite metode bazate pe detectarea caracteristicile intrinseci ale fiecărei foneme.

Autorul a experimentat două metode:

1. O metodă bazată pe determinarea tranziţiilor bruşte din regiune;

2. O metodă bazată pe modelare fonematică.

Ambele metode presupun calcularea coeficienţilor de semnal caracteristici fiecărei foneme (s-au folosit coeficienţii Fourier),

precum şi calculul unei distanţe între două seturi de coeficienţi de comparat.

3.8.4.1. Calculul distanţei dintre două seturi de coeficienţi fonematici

Figura 3.19. Asocierea foneme – regiuni pentru

sintagma : rostită de un vorbitor masculin

Există mai multe metode de calcul a distanţei dintre două seturi de coeficienţi asociaţi unor cadre de semnal. Astfel, pentru

două seturi de vectori X={x1, x2, …, xp} şi Y={y1, y2, …, yp}, putem calcula distanţele [Web02]:

Distanţa Euclidiană: (3.34)

Distanţa Manhattan: (3.35)

Distanţa Cebîşev : (3.36)

Distanţa Minkovski: (3.37)

Toate aceste distanţe se calculează pe baza diferenţei coeficienţilor corespunzători din cei doi vectori. Totuşi, pentru două

seturi de coeficienţi Fourier este mult mai adecvat calculul pe baza rapoartelor de coeficienţi decât pe baza diferenţelor.

Acest fapt este simplu de observat în cazul a două cadre de semnal de aceeaşi formă dar de amplitudine diferită (de

exemplu o aceeaşi vocală rostită cu intensităţi diferite). În acest caz cele două seturi de coeficienţi Fourier sunt asemenea şi se obţin

unul din altul prin aplicarea unui factor de multiplicare proporţional cu raportul intensităţilor celor două forme de semnal.

Ca urmare, s-a urmărit calcularea unei distanţe între două seturi de coeficienţi Fourier a={a1, a2, …,an} şi b={b1, b2, …,bn}

între care se calculează un raport r, distanţă notată cu E(a,b,r). Acestă distanţă are rol de eroare pătratică minimă şi respectă

proprietăţile:

P1. E(a,b,r)= E(b,a,1/r)

P2. E(a,a,1)=0 (3.38)

P3. E(a,ra,r)=0

P4. E(a,b,r)= E(na,mb,(m/n)r)

Proprietatea P1 reprezintă proprietatea de comutativitate a distanţei. Proprietatea P2 statuează faptul că distanţa E calculată

asupra aceluiaşi vector este nulă. P3 este proprietatea de scalare a unui vector: distanţa dintre un vector şi vectorul scalat cu un raport

r este nulă. P4 este proprietatea de scalare generalizată: distanţa dintre doi vectori având raportul r este aceeaşi cu distanţa dintre

vectorii scalaţi cu factorii n, respectiv m, raportul modificându-se proporţional cu factorii de scalare.

S-a luat următoarea formulă de calcul pentru distanţa E bazată pe raportul r dintre vectorii a şi b :

a

i bi

1

E(

a,

b,

r)

r

i1 , nb

i ai

r

2

16

(3.39)

Se observă că distanţa definită de relaţia (3.39) respectă condiţiile P1 ... P4 din (3.38).

În continuare se urmăreşte calculul raportului r astfel încât distanţa E (cu rol de eroare pătratică) să fie minimă.

Dacă notăm a1

p1

b

, a 2 p 2 , …, a n p n , atunci relaţia (3.39) devine:

b

sau, explicitând suma:

1

2

1

E(

a,

b,

r)

p

ir

i1 , n

pi

r

2 2

2 2 1 1 1 1

E(

a,

b,

r)

( p1

p

2 ...

p

n ) r (

...

) 2

n

2 2

p p p r

dE

Punând condiţia ca E să fie minimă, avem 0

, adică:

dr

2 2

2 1 1 1 1

2( p1

p

2 ...

p

n ) r 2

( ...

) 0

2 2

2 3

p p p r

Rezultă valoarea lui r care minimizează distanţa E:

Sau dacă notăm

r

4

2

1

2

1

1 1 1

...

p p p

p p

...

p

2

1

2

n

1

n

2

n

2

n

1 1 1

I ...

şi

p p p

p p p S

r

I

S

2

n

, atunci:

2 2

2

1 2 ... n

(3.40)

(3.41)

(3.42)

(3.43)

2 (3.44)

Din (3.41), expresia lui E devine:

2 1

E( a,

b,

r)

Sr I

2

n 2

r

(3.45)

Înlocuind pe (3.44) în (3.45), obţinem distanţa minimă dintre a şi b în funcţie de r:

E r ( a , b ) 2(

IS n

)

(3.46)

min,

Astfel putem alege expresia distanţei dintre a şi b:

E ( a,

b)

IS n

1

expresie ce are proprietatea: ( E ( a,

b))

0

, sau:

E ( a,

b)

min 1

a,

b

IS

2 , cu min ( E 2 ( a,

b))

n

a , b

17

(3.47)

. (3.48)

De aici obţinem valoarea distanţei pătratice minime în raport cu r dintre vectorii a şi b:

E( a,

b)

n

2

IS , unde min ( E ( a,

b))

0

a , b

. (3.49)

Valoarea distanţei pătratice minime dată de formula (3.49) a fost folosită pentru determinarea gradului de asemănare dintre

două seturi de coeficienţi corespunzătoare a două forme de undă.

În continuare vom explicita cele două metode de segmentare în subregiuni fonematice prezentate la începutul secţiunii 3.8.4,

metode ce se bazează pe calculul distanţei pătratice minime E(a,b).

3.8.4.2. Metoda de segmentare în subregiuni fonematice bazată pe determinarea tranziţiilor bruşte din regiune

Această metodă de segmentare presupune calculul coeficienţilor Fourier pentru două cadre succesive sau apropiate din

semnal şi compararea acestora folosind distanţa pătratică minimă (paragraful 3.8.4.1) în scopul detectării tranziţiilor bruşte care apar

în regiunea studiată. Aceste tranziţii bruşte reprezintă tranziţiile de la o fonemă la alta şi corespund cu frontierele de subregiuni.

Cadrele de semnal se iau sincron cu frecvenţa, şi cuprind un număr de Np perioade (de obicei Np = 1, 2 sau 3). Distanţa

dintre cele două cadre de referinţă va fi Dp (se ia la fel Dp = 1, 2 sau 3 perioade). Apoi se extrag cei doi vectori ce cuprind primii n

coeficienţi Fourier pentru cele două cadre, şi se calculează E(a,b) – figura 3.21.

C1 C2

F(C1)

Np Dp

E(a,b)

F(C2)

Figura 3.21. Metoda de segmentare bazată pe determinarea tranziţiilor bruşte din regiune

Avantajul metodei derivă din simplitatea şi cantitatea redusă de calcule necesară.

Pentru a asocia în mod corect fonemele şi tranziţiile fonematice cu subregiunile detectate, va trebui folosită o metodă de

recunoaştere a fonemelor pe baza caracteristicilor spectrale, aşa cum este metoda prezentată în cele ce urmează.

3.8.4.3. Metoda de segmentare în subregiuni fonematice bazată pe modelarea caracteristicilor spectrale

Această metodă de segmentare în subregiuni fonematice se bazează tot pe calculul coeficienţilor Fourier, şi se aplică asupra

regiunilor sonor-vocalice din semnalul vocal, la fel ca şi metoda bazată pe detectarea tranziţiilor bruşte. Metoda presupune modelarea

caracteristicilor spectrale ale fiecărei foneme de tip vocală sau consoană glidă şi detectarea fonemelor din regiunea ţintă prin

compararea cu modelul.

Metoda cuprinde 4 faze: (1) faza de modelare; (2) compararea vectorilor regiunii ţintă cu modelul; (3) regăsirea modelului

fonematic şi etichetarea regiunilor; (4) gruparea fonemelor şi determinarea subregiunilor.

1) Faza de modelare

Faza de modelare cuprinde realizarea în regim manual a mai multor modele pentru fiecare fonemă în parte. Această fază

corespunde cu faza de antrenare caracteristică oricărui proces de recunoaştere bazată pe model. Modelarea se face pentru un singur

vorbitor (se construieşte câte un fişier model pentru fiecare vorbitor). Fonemele pentru care se realizează modelarea sunt: vocalele /a/,

/e/, /i/, /o/, /u/, /ă/, /î/, şi respectiv consoanele glide /l/, /m/, /n/.

Crearea unui model implică:

a) Alegerea unui cadru din semnal ce corespunde cu fonema dorită. Cadrele se aleg sincron cu frecvenţa şi pot avea o

lungime de 1,2, 3 sau 4 perioade. Fiecare fişier model se va crea utilizând o lungime prestabilită a cadrelor.

) Calculul coeficienţilor Fourier corespunzători. În metoda prezentată s-a ales utilizarea primilor N= 10 .. 12 coeficienţi ce

corespund primelor N= 10..12 maxime din spectrul Fourier.

c) Memorarea în fişierul model.

2) Compararea vectorilor din regiunea ţintă cu modelul

Această fază presupune detectarea cadrelor din regiunea ţintă de lungime egală cu lungimea cadrelor aleasă pentru

modelare, calculul coeficienţilor Fourier de aceeaşi manieră ca şi în faza precedentă, construirea vectorilor de caracteristici, şi

compararea vectorilor cu modelele din fişierul model. Compararea se face pe baza distanţei minime pătratice E(a,b) expusă în

paragraful 3.8.4.1.

Compararea vectorilor din regiunea ţintă cu modelul este ilustrată în figura 3.22. C este cadrul curent, F(C) este vectorul

coeficienţilor Fourier asociat cadrului C, MF este modelul asociat fonemei F.

F(C)

Model

În urma fazei de comparare a vectorilor din regiunea ţintă cu modelele din fişier rezultă câte un set de modele corespondente

pentru fiecare cadru C:

SM M M ,..., M , (3.50)

C

f 1 , f 2

unde Mfi sunt instanţe ale modelelor fonematice, având:

fi

f

fn

E ( M , F ( C )) P , i 1 .. n , (3.51)

unde Pf este un prag fixat, iar F(C) este vectorul de caracteristici al cadrului C.

3) Regăsirea modelului fonematic şi etichetarea regiunilor

Această fază presupune găsirea modelului fonematic cel mai probabil de asociat cu cadrul curent din regiunea ţintă.

Etichetarea cu foneme poate fi făcută pentru fiecare cadru independent sau în corelaţie cu cadrele învecinate.

În primul caz modelul asociat MC este cel pentru care distanţa pătratică E(MC,F(C)) este minimă :

E ( M C , F ( C )) min E ( M fi , F ( C )) , (3.52)

unde M fi SM . C

i 1

.. n

În al doilea caz, în care etichetarea se face în corelaţie cu cadrele învecinate, dacă aceste cadre vecine fac parte dintr-un şir

etichetat cu o aceeaşi fonemă fk, şi dacă Mfk face parte din setul SMC, atunci Mfk se va asocia cu cadrul C chiar dacă nu respectă

condiţia (3.52).

4) Gruparea fonemelor şi determinarea subregiunilor

C

F1 F2 F3 F4 … Fn-1 Fn

MA ME MI

MO MU ML

În această ultimă fază subregiunile sunt determinate prin găsirea şi extinderea secvenţelor de cadre vecine etichetate cu

aceeaşi fonemă. Dacă o secvenţă {Fi} este întreruptă de o fonemă singulară diferită Fp, secvenţa va fi extinsă şi peste cadrul

respectiv. În finalul procesului de extindere a secvenţelor fonematice, se marchează graniţele de subregiuni ca fiind graniţele

secvenţelor fonematice.

Metoda de segmentare în subregiuni fonematice bazată pe modelarea caracteristicilor spectrale are o mare aplicabilitate

practică. Dacă se foloseşte în corelaţie cu metoda de segmentare fonematică prezentată în subcapitolul 3.8, atunci cunoscându-se

secvenţa fonematică asociată cu fiecare regiune, se va putea determina corespondenţa exactă dintre fiecare fonemă şi cadrele din

acea regiune.

Pe de altă parte metoda de segmentare în subregiuni bazată pe model poate fi folosită şi în recunoaşterea vorbirii. În acest

caz vor trebui luate în consideraţie toate combinaţiile de foneme care rezultă din setul SMC (3.50), iar combinaţia exactă va trebui

determinată prin utilizarea unei predicţii lingvistice bazată pe vocabular.

În figura 3.23 se ilustrează un exemplu de segmentare în subregiuni pentru o regiune vocalică preluată de la un vorbitor

masculin.

t t

Figura 3.22. Compararea vectorilor din regiunea ţintă

cu modelul

18

Figura 3.23. Determinarea subregiunilor

fonematice prin metoda modelării

Metodele de segmentare fonematică descrise anterior au fost proiectate în vederea adnotării şi segmentării corpusului vorbit

pentru realizarea bazei de date cu unităţi acustice. Baza de date vocală este constituită din acel set de sunete elementare prin

concatenarea cărora se poate genera un semnal sonor corespunzător unui text oarecare.

Aceste unităţi de bază pot fi alese dintre: cuvinte, propoziţii, morfeme, silabe, foneme, difoneme etc., în funcţie de cerinţele

aplicaţiei. Folosirea cuvintelor şi propoziţiilor (înregistrarea lor ca forme de undă, inclusiv intonaţie, articulare etc.) duce la obţinerea

unei vorbiri de bună calitate, dar pentru un domeniu lingvistic restrâns.

Autorul a ales pentru implementare varianta folosirii silabelor ca unităţi de bază. Această alegere are avantajul utilizării unor

segmente de vorbire suficient de mari ca să păstreze elmentele de prozodie intrasegmentală (cum ar fi accentele), dar suficient de

mici ca să asigure o dimensiune rezonabilă a bazei de date. Un alt avantaj al folosirii silabelor este faptul că prin concatenare nu

rezultă artefacte acustice, cum este cazul difonemelor de exemplu, caz în care este necesar să se realizeze un proces de interpolare

în punctele de concatenare.

4. Metode de sinteză de voce

La începutul acestui capitol a fost realizată o clasificare a metodelor de sinteză de voce.

a) În funcţie de nivelul abordării, metodele de sinteză se grupează în două categorii: metode care abordează sinteza de nivel

jos, respectiv sinteza de nivel înalt.

Metodele care abordează sinteza de nivel jos pornesc de la specificarea unor parametri acustici şi generează vorbirea

sintetică prin re-crearea formei de undă a semnalului vocal [Bur96].

Metodele de sinteză de nivel înalt sunt de tipul text-to-speech sau concept-to-speech. Sistemele text-to-speech generează

vorbirea pe baza textului de la intrare, iar sistemele concept-to-speech sunt sisteme de dialog vocal în care vorbirea se generează pe

baza unei descrieri lingvistice ce rezultă în urma dialogului cu utilizatorul. Caracteristic acestor metode este faptul că ele includ o

abordare lingvistică, prin aceasta diferenţiându-se de metodele de nivel jos [Bur96].

b) În funcţie de domeniul de analiză abordat, metodele de sinteză a vorbirii se împart în două categorii: metode de sinteză în

domeniul timp şi metode de sinteză în domeniul frecvenţă [Bur96].

Metodele de sinteză în domeniul timp realizează concatenarea directă a formelor de undă stocate în prealabil în baza de date

vocală. Cele mai simple sintetizatoare bazate pe aceste metode nu utilizează parametrizarea unităţilor acustice, utilizând direct forma

de undă a semnalului în domeniul timp.

Avantajul major al acestor metode de sinteză prin concatenare în domeniul timp este reprezentat de calitatea aproape

naturală a vocii sintetizate. Dintre dezavantaje se pot aminti o cantitate importantă de resurse folosite în procesul memorării formelor

de undă, dar şi dificultăţile legate de modificarea prozodiei vorbirii.

Metodele de sinteză în domeniul frecvenţă realizează sinteza vocală pe baza unor parametri acustici generaţi în urma

aproximării unor caracteristici spectrale din domeniul frecvenţă. Astfel, pentru a realiza sinteza unui text, mai întâi se generează

parametrii acustici corespunzători rostirii, şi apoi sunt generate formele de undă ale semnalului vocal [Bur96].

În lucrare au fost prezentate câteva metode ce furnizează rezultate bune în sinteză. Astfel, au fost detaliate pentru domeniul

frecvenţă metoda de sinteză prin predicţie liniară şi metoda formantică, iar pentru domeniul timp metoda TD-PSOLA şi metoda bazată

pe corpus.

4.1. Contribuţii în proiectarea metodelor de sinteză de voce

4.1.1. Metoda de sinteză bazată pe silabe pentru limba română

Ca o dezvoltare specifică metodelor de sinteză prin concatenare, autorul a proiectat şi implementat o metodă de sinteză

pornind de la text, metodă bazată pe concatenarea silabelor. Pentru implementarea metodei a fost necesară stabilirea unor reguli

lingvistice în faza de analiză a textului şi a unor reguli de îmbinare a formelor de undă pe baza caracteristicilor prozodice.

Din punct de vedere al clasificării sistemelor text-to-speech, metoda dezvoltată este mixtă. Aceasta îmbină caracteristici ale

abordării bazate pe concatenarea formelor de undă şi ale abordării bazate pe reguli (alte abordări se pot vedea în [Jos97], [Lew99],

[Men02]). Sinteza de voce prin această metodă se realizează în două faze: analiza textului şi, respectiv, sinteza vorbirii (figura 4.1).

Preprocesare

Analiza sintaxei

Determinarea unităţilor

lingvistice

Determinarea prozodiei

locale

ANALIZA DE TEXT

Silabe

Accente

Figura 4.1. Metoda de sinteză bazată pe concatenarea silabelor

În faza de analiză de text, este necesară mai întâi o etapă de preprocesare pentru transcrierea fonetică a numerelor şi

abrevierilor din interiorul textului. Analiza de sintaxă evidenţiază eventualele erori care apar în scrierea textului de sintetizat. Urmează

apoi determinarea unităţilor lingvistice de bază, care în abordarea de faţă sunt silabele. În ultima etapă a analizei de text este

determinată prozodia intrasegmentală, în corelaţie cu accentuarea cuvintelor. Pentru fiecare etapă din cadrul analizei de text au fost

concepute seturi de reguli specifice.

19

Regăsirea unităţilor

acustice

Concatenarea unităţilor

Sinteza

Ri: Gi

BD vocală

Cond_R

egi

SINTEZA VORBIRII

În faza de sinteză, pe baza unui algoritm de căutare în baza de date vocală sunt regăsite mai întâi unităţile acustice

corespunzătoare unităţilor silabice din textul de la intrare. Unităţile acustice sunt concatenate şi apoi convertite sonor în ultima etapă a

sintezei vorbirii.

În continuare sunt prezentate pe rând cele 7 etape ale metodei de sinteză propusă de autor.

4.1.2. Preprocesarea textului

Preprocesarea textului se referă la transcrierea în formă textuală a informaţiilor din textul iniţial care:

a) nu sunt scrise cu foneme, ci folosind alte caractere: cifre sau simboluri;

b) nu formează direct unităţi lexicale, ci prescurtări ale acestora (abrevieri).

a) Din prima categorie fac parte numerele, alcătuite din cifre, precum şi anumite simboluri scrise cu caractere speciale, cum

ar fi : simboluri pentru operaţiile aritmetice, simboluri pentru operatorii aritmetici.

b) Abrevierile sunt şi ele împărţite pe categorii: unităţi de măsură, prefixe reprezentând subunităţi de măsură, grade ştiinţifice

şi universitare, grade de armată, alte abrevieri:

Dintre toate aceste categorii de informaţii, cele mai importante şi cel mai des folosite sunt numerele. Pentru explicitarea

acestora sub formă textuală, fonematică, au fost concepute reguli lexicale speciale. Aceste reguli ţin cont de poziţia unei anumite cifre

în cadrul numărului pentru a o denomina printr-o anumită categorie verbală.

4.1.3. Analiza sintaxei

Analiza corectitudinii textului din punct de vedere al sintaxei reprezintă al doilea pas preliminar efectuat în vederea realizării

unei sinteze de vorbire de calitate. Un analizor de sintaxă se poate proiecta prin două metode de bază: prin construirea unui vocabular

complet pentru limba respectivă, sau prin folosirea unor reguli gramaticale sintactice, însoţite de specificarea unor condiţii de excepţie.

Prima metodă este mai completă, dar are dezavantajul unui efort mare de construire a unui vocabular pentru acea limbă

(care poate avea mai multe zeci de mii de cuvinte), vocabular ce trebuie să conţină şi informaţii despre construirea formei flexionate a

cuvintelor (de exemplu rădăcină sau morfemă, terminaţii pentru declinare sau conjugare).

A doua metodă necesită generarea unui set de reguli pentru regăsirea formei de bază neflexionate a cuvintelor şi verificarea

corectitudinii acestora printr-un dicţionar. Metoda are dezavantajul unui anumit grad de necompletitudine, depinzând de numărul de

excepţii introduse în analizor.

Autorul a propus în această lucrare o metodă bazată pe reguli gramaticale, variantă cu un cost de proiectare mult mai redus

decât în cazul realizării de vocabulare. Metoda are ca punct de plecare generatorul automat de analizoare LEX [Fre05], alimentat de o

gramatică ce specifică regulile sintactice de flexionare a cuvintelor din limba română. Pe lângă aceste reguli au fost introduse şi un

număr de excepţii care asigură un grad înalt de completitudine în ceea ce priveşte acoperirea formelor gramaticale din limba română.

Metoda este prezentată în figura 4.2. La intrare se prezintă un text cursiv ce conţine cuvinte în limba română în diferite forme

flexionate. Folosind un set de reguli sintactice de flexionare şi un set de excepţii, analizorul LEX generează forma de bază,

neflexionată, a fiecărui cuvânt de la intrare şi o caută într-un dicţionar. O interfaţă grafică va pune apoi în evidenţă cuvintele care au o

sintaxă greşită sau care nu au fost potrivite cu setul de reguli din LEX.

TEXT

Forma

flexionată

REGULI

de

flexionare

EXCEPŢII

Figura 4.2. Metoda de analiză de sintaxă propusă de autor

Pentru generarea regulilor de flexionare, metoda ia în considerare terminaţiile cuvintelor care pot apărea în diferite forme

flexionate. Setul de reguli introdus în LEX este organizat pe 10 grupe distincte, corespunzătoare celor 10 tipuri gramaticale (părţi de

vorbire) principale din limba română. Fiecare grupă are un subset de reguli care în funcţie de terminaţia cuvântului construiesc forma

neflexionată corespunzătoare şi o transferă modulului de verificare cu dicţionarul.

4.1.3.1. Modul de funcţionare al analizorului de sintaxă

Forma de

bază

neflexionată

Pentru fiecare cuvânt din textul sursă se parcurge tot setul de reguli, încercându-se potrivirea cu fiecare clasă

corespunzătoare unei părţi de vorbire. Dacă se întâlneşte terminaţia specificată de o regulă, atunci acea regulă se activează, se

înlocuieşte terminaţia curentă cu forma neflexionată precizată tot de regula respectivă, apoi se declanşează acţiunea de verificare a

existenţei formei neflexionate în dicţionar. Dacă există, cuvântul se memorează împreună cu modul de flexionare specificat de acea

regulă. Modul de flexionare cuprinde: cazul, genul, articularea, numărul persoanei pentru substantive, iar pentru verbe tipul de

conjugare. Apoi cuvântul se confruntă cu următoarele reguli, generându-se în final o listă cu formele găsite posibile de analizor (fig. 4.3).

Cuvânt neflexionat

Cnf1

Cnf2

Cnfn

Cuvânt flexionat

Cf1

Cf2

Cfn

Tip dicţionar Td1 Td2 Tdn

Parte de vorbire Pv1 Pv2 Pvn

Număr persoane Np1 Np2 Npn

Gen G1 G2 Gn

Caz C1 C2 Cn

Timp T1 T2 Tn

Articulare A1 A2 An

LEX

Figura 4.3. Lista generată cu formele flexionate posibile

20

DICŢIONAR

În lista din figura 4.3, Tip dicţionar reprezintă categoria sintactică specificată de dicţionar, iar Parte de vorbire reprezintă

categoria specificată de analizor. La modul esenţial cele două categorii trebuie să coincidă, dar există cazuri în care categoria

specificată de dicţionar este o particularizare a unui caz mai general, specificat de regulile analizorului.

4.1.4. Determinarea unităţilor lingvistice: silabele

Următoarea etapă în analiza textului de sintetizat constă în determinarea unităţilor lingvistice de bază, şi anume: propoziţiile,

cuvintele şi silabele. Dacă extragerea propoziţiilor şi a cuvintelor nu ridică probleme deosebite, aceasta efectuându-se pe baza

semnelor de punctuaţie şi a caracterelor de separaţie, nu acelaşi lucru se poate spune despre stabilirea silabelor componente ale unui

cuvânt. Pentru a realiza acest deziderat a fost necesară proiectarea unui analizor lingvistic şi a unui set de reguli fonetice pentru

despărţirea în silabe.

Analizorul lingvistic utilizat are o structură pe trei nivele, corespunzător cu trei module având roluri distincte în identificarea şi

tratarea unităţilor fonetice. Cele trei module sunt:

- modulul de comandă şi procesare computaţională (shell procesare) ;

- modulul de analiză sintactică pentru determinarea propoziţiilor şi cuvintelor;

- modulul de analiză lexicală pentru determinarea silabelor.

Analizorul lexical extrage caracterele din text şi le grupează în unităţi fonetice primare. Aici intră determinarea caracterelor

alfabetice, numerice, a caracterelor speciale şi semnelor de punctuaţie. Pe baza unor reguli de producţie lexicale, caracterele

alfabetice vor fi grupate în silabe, caracterele numerice în cifre şi numere, iar caracterele speciale şi semnele de punctuaţie vor fi

folosite în determinarea cuvintelor şi propoziţiilor.

Analizorul sintactic preia silabele, respectiv caracterele speciale şi cifrele furnizate de analizorul lexical şi le grupează în

cuvinte şi propoziţii. Şi aici a fost necesară stabilirea unui set de reguli sintactice pentru departajarea unităţilor fonetice

corespunzătoare.

Modulul de procesare preia în final unităţile fonetice găsite anterior şi, pe baza unor proceduri de calcul, le clasifică şi le

memorează în structuri speciale. De aici vor fi preluate şi transformate în forme de undă de către modulul de sinteză.

4.1.4.1. Analizorul sintactic folosit în extragerea propoziţiilor şi cuvintelor

Analizorul sintactic foloseşte un set de reguli de producţie care specifică sintaxa textului de la intrare. Textul iniţial este

considerat ca o listă de propoziţii, fiecare propoziţie fiind o listă de cuvinte, fiecare cuvânt fiind compus din mai multe silabe.

Propoziţiile, respectiv cuvintele sunt despărţite prin separatori.

Analizorul sintactic invocă analizorul lexical pentru a-i fi furnizat la fiecare apel unitatea lexicală următoare din text: o silabă,

un număr sau un separator. Pe baza acestor unităţi lexicale, la acest nivel se formează unităţile sintactice de tip cuvânt, propoziţie sau

text. Analizorul sintactic are posibilitatea ca după regăsirea fiecărui tip de unitate să apeleze o procedură de calcul pentru procesarea

specifică a unităţii.

4.1.4.2. Analizorul lexical utilizat în determinarea silabelor

Analizorul lexical este apelat pentru regăsirea unităţilor fonetice de bază, şi anume: silabele, caracterele despărţitoare şi

numerele. Analizorul sintactic va grupa aceste unităţi lexicale de bază în cuvinte şi propoziţii. Analizorul sintactic este implementat prin

program, pe când analizorul lexical este rezultat în urma generării automate prin intermediul unui generator de parsere de text, numit

LEX [Fre05].

Generatorul automat LEX construieşte un analizor lexical pornind de la o gramatică ce descrie regulile de producţie ale

analizorului. Gramatica se scrie în limbaj standard BNF ( Backus-Naur Form) şi specifică secvenţele de caractere care trebuie

recunoscute din textul de la intrare, precum şi acţiunile de efectuat corespunzătoare acestor secvenţe. Secvenţele de caractere de

recunoscut ţin cont de contextul stânga şi dreapta în care ele apar.

Analizorul generat preia aşadar de la intrare un text pe care îl va parcurge secvenţial în scopul regăsirii secvenţelor

specificate în gramatica BNF. În cazul nostru secvenţele se referă la regăsirea numerelor, caracterelor speciale şi a silabelor. Procesul

realizat de către analizorul lexical este ilustrat în figura 4.4.

Text

Între

g

C C C C C C C C C C C C C

Cifră Separator Alfanumeric

Reguli de

producţie

Real Sep. 1 … Sep. n Silabă

Tratare_număr Tratare_separator Tratare_silabă

Figura 4.4. Analizorul lexical pentru regăsirea silabelor

21

Aşa cum se vede din figură, textul de la intrare

este interpretat ca un şir de caractere. La început,

caracterul curent este clasificat într-una din categoriile:

cifră, caracter special sau separator, respectiv caracter

alfanumeric. Luând în considerare şi contextul anterior

precum şi contextul următor în care poate să apară,

caracterul curent împreună cu caracterele anterior

parcurse se grupează pentru a alcătui o unitate lexicală:

un număr, un separator sau o silabă.

Reguli de producţie specifice pentru fiecare

categorie indică modul în care se formează aceste unităţi,

realizând totodată şi o subclasificare a lor (de exemplu

pentru numere dacă este întreg sau real, iar pentru

separator – tipul acestuia).

Odată identificat tipul unităţii, caracterele

componente sunt memorate şi transmise analizorului

sintactic prin intermediul unor proceduri numerice

(Tratare_număr, Tratare_separator, Tratare_silabă).

4.1.5. Determinarea aspectelor prozodice: accentele

După etapa de separare a unităţilor lingvistice (silabele) din text, urmează etapa de determinare a aspectelor prozodice. În

această fază a proiectării au fost determinate aspectele prozodice intrasegmentale, şi anume accentele din interiorul cuvintelor. La fel

ca în cazul silabelor, şi aici a fost necesară proiectarea unui analizor şi a unui set de reguli lexicale pentru determinarea accentelor.

4.1.5.1. Analizorul lexical utilizat în determinarea accentelor

Schema de principiu a analizorului lexical folosit pentru determinarea accentelor este ilustrată în figura 4.5.

Analizor

sintactic

F 1 F 2 ... F n S

CUVÂNT

Reguli

lexicale

Analizor

lexical

Figura 4.5. Analizorul lexical pentru determinarea accentelor

Setul de reguli pentru determinarea accentelor se constituie din :

(a) o regulă de bază, şi anume aceea că penultima silabă SN_1 este cea accentuată (regula generală pentru limba română);

(b) un set de excepţii organizat pe grupuri de cuvinte ce au aceeaşi terminaţie.

Fiecare regulă din set returnează modulului de procesare indicele silabei accentuate din cuvânt.

Analizorul lexical pentru determinarea accentelor a fost proiectat tot pe baza facilităţilor oferite de către generatorul automat

LEX. Astfel regulile analizorului sunt furnizate generatorului LEX în format BNF (vezi [Fre05]), stream-ul de intrare fiind chiar cuvântul

curent extras din text de către analizorul sintactic.

4.1.6. Proiectarea bazei de date vocale

Găsirea unor modalităţi de proiectare a bazelor de date vocale optime pentru sinteza de voce reprezintă un subiect de

cercetare important pentru specialiştii din domeniu. O bază de date vocală bine proiectată are un impact de prim ordin asupra calităţii

vocii sintetizate, indiferent de tipul unităţilor fonetice folosite ([Bod07-2], [Tod09]).

Dacă la metodele bazate pe corpus baza de date este de dimensiuni mari, cuprinzând zeci de minute de vorbire înregistrată,

din care vor fi segmentate unităţile fonetice, în cazul metodelor bazate pe silabe baza de date cuprinde un număr mai redus de unităţi,

în funcţie de gradul de completitudine ales.

Baza de date utilizată în cadrul metodei de sinteză propusă de autor cuprinde un subset al silabelor limbii române. După

înregistrare, silabele trebuie să urmeze un proces de normalizare pentru alinierea parametrilor de tonalitate şi intensitate a rostirii.

Silabele vor trebui să fie înregistrate în diferite contexte şi moduri de pronunţie, astfel încât să includă şi prozodia aferentă textului care

va fi sintetizat.

Baza de date vocală conţine silabe compuse din două, trei sau patru litere, notate cu S2, S3, respectiv S4.

Silabele de tip S2, adică silabele compuse din două foneme sunt în general de forma:

- {CV} (C=consoană, V=vocală), cum sunt de exemplu: ‚ba’, ‚be’, ‚co’, ‚cu’,

- {VC}, cum ar fi ‚ar’, ‚es’ etc., adică cele care apar de obicei la începutul unor cuvinte în limba română,

- {VV}, structura de tip diftong: ‘oa’, ‘iu’, ‘ie’.

Silabele de tip S3, compuse din trei foneme, pot fi de tipul:

- {CCV} , de exemplu: ‚bra’, ‚cre’, ‚tri’, ‚ghe’;

- {CVC} , cum ar fi: ‚mar’, ‚ver’,

- {CVV} , de exemplu: ‚cea’, ‚cei’, ‚soa’.

Silabele de tip S4, compuse din patru foneme, pot fi de mai multe tipuri, ca de exemplu:

- {CCVC} , de exemplu: ‚braţ’, ‚prin’, ‚ghem’;

- {CCCV} , de exemplu: ‚stră’,

- {CCVV} , de exemplu: ‚prea’, etc.

În baza de date nu au fost înregistrate toate silabele limbii române. Conform cu [Din04], se menţionează că numărul total al

silabelor limbii române (număr rezultat din despărţirea în silabe a tuturor cuvintelor existente în dicţionar) este de 6496. Aşa cum se va

prezenta în capitolul destinat implementării sistemului de sinteză vocală, în baza de date au fost înregistrate (în diferite contexte şi

moduri de pronunţie) doar aproximativ 600 de silabe.

Strategia urmărită a fost de a înregistra în fiecare categorie S2, S3 şi S4 un număr cât mai mare de silabe, în ordinea

frecvenţei de apariţie în limba română. Pentru aceasta, dat fiind faptul că a fost proiectată o metodă automată de despărţire a

cuvintelor în silabe, s-a avut în vedere realizarea unei statistici a silabelor limbii române în scopul utilizării ei în procesul de construire a

setului de silabe de referinţă şi a bazei de date acustice.

4.1.6.1. O statistică a silabelor limbii române

ACCENTE

SN_3

SN_2

SN_1

SN

Statistica urmăreşte detectarea frecvenţelor de apariţie ale silabelor din limba română, fiind realizată pe baza unor texte

extrase din mai multe domenii precum: beletristică de diverse genuri, religie, economie, politică, ştiinţă şi tehnică, ziaristică. Textele au

însumat un număr de aproximativ 342000 de cuvinte, adică peste 600 de pagini în format A4. Au fost contabilizate doar silabele de tip

S2, S3 şi S4, adică având două, trei sau patru foneme componente.

22

Parserul de text sau analizorul sintactic

returnează cuvântul curent din stream-ul de intrare, cuvânt

alcătuit dintr-o serie de foneme F1, F2, …, Fk şi terminat cu

un separator S. Cuvântul este introdus la intrarea

analizorului lexical care, pe baza unor reguli lexicale, va

determina silaba accentuată din cuvânt.

În limba română, silaba accentuată poate fi una

din ultimele trei silabe ale cuvântului ( SN = ultima silabă,

SN_1 = penultima silabă, respectiv SN_2, SN_3 = silabele

anterioare).

S-au obţinut următoarele valori:

- pentru tipul S2 : 202 silabe distincte,

- pentru tipul S3 : 1432 silabe distincte,

- pentru tipul S4 : 1180 silabe distincte, în total 2814 silabe.

Această statistică reflectă şi faptul că limba vorbită foloseşte mai puţine cuvinte decât cele existente în dicţionar, şi implicit

mai puţine silabe. În figurile următoare sunt prezentate, pentru fiecare tip S2, S3 şi S4, primele 10 silabe în ordinea frecvenţei de

apariţie (dată în procente).

6

5

4

3

2

1

0

de te în re le ca şi se ce ta

Figura 4.6. Primele 10 cele mai frecvente

silabe de tip S2

3

2.5

2

1.5

1

0.5

0

lor lui rea con mai tre din tru tul pre

Figura 4.7. Primele 10 cele mai frecvente

silabe de tip S3

23

4

3

2

1

0

prin sunt când ceas fost nici foar mult timp meni

Figura 4.8. Primele 10 cele mai frecvente

silabe de tip S4

După obţinerea celor trei seturi de silabe S2, S3 şi S4, s-a putut trece la construirea bazei de date acustice care să conţină

silabele cel mai frecvent întâlnite în limba română vorbită.

4.1.6.2. Caracteristicile silabelor înregistrate în baza de date acustică

În realizarea bazei de date cu silabe s-a ţinut cont de integrarea prozodiei locale sub-segmentale, din interiorul cuvintelor.

Astfel, prozodia a fost inclusă prin înregistrarea silabelor accentuate şi neaccentuate, pentru fiecare categorie S2, S3 şi S4. De

asemeni, ţinând cont că o silabă se rosteşte distinct în funcţie de locul pe care aceasta îl ocupă în cadrul cuvântului, dacă este situată

la începutul, mijlocul sau sfârşitul unui cuvânt, s-a urmărit înregistrarea silabelor în aceste diferite contexte în care ele pot să apară. În

primă instanţă s-a făcut diferenţierea între silabe finale, pe de o parte, şi silabe mediane şi iniţiale (integrate tot în categoria de silabe

mediane), pe de altă parte.

4.1.6.3. Organizarea bazei de date acustice

Silabele au fost introduse în baza de date respectând caracteristicile prezentate mai sus. Organizarea bazei de date este sub

formă arborescentă (figura 4.9). Nodurile arborelui reprezintă caracteristicile silabelor, iar nodurile frunză corespund silabelor propriuzise.

Structura ierarhică a bazei de date cuprinde patru nivele:

Figura 4.9. Organizarea arborescentă a bazei de date vocale

Pe lângă silabele din categoriile amintite S2, S3 şi S4, s-au înregistrat şi fonemele singulare, în scopul utilizării acestora în construirea

silabelor care nu se regăsesc în baza de date vocală.

4.1.7. Regăsirea unităţilor acustice şi sinteza de voce

În această etapă se urmăreşte mai întâi regăsirea unităţilor acustice din baza de date necesare pentru sinteză. Aceasta se

realizează pe baza unităţilor lingvistice (silabele) determinate prin analiza textului de la intrare. Se va ţine seama şi de caracteristicile

silabelor, care au fost prezentate în paragrafele 4.1.6.2 şi 4.1.6.3. În continuare, se notează aceste caracteristici astfel:

- categoria silabică : SN , unde N indică lungimea silabei (numărul de foneme);

- contextul silabei : printr-un indice (M pentru median şi F pentru final)asociat silabei respective. De exemplu :

maM , reM - silabe în context median ;

maF , reF - silabe în context final;

- accentuarea: printr-un indice superior (A pentru silabă accentuată şi N pentru silabă neaccentuată) care se ataşează silabei

respective. De exemplu :

ma A , re A - silabe accentuate ;

ma N , re N - silabe neaccentuate.

Pot exista următoarele situaţii:

1. Nivelul Categorie : Silabe de două, trei sau

patru foneme (S2, S3, S4);

2. Nivelul Context : Segment median (Med) sau

final ( Fin), relativ la poziţia din cadrul

cuvântului;

3. Nivelul Accent : Silabe accentuate ( A) sau

neaccentuate (N) în interiorul cuvântului;

4. Nivelul Silabă : Unităţile acustice înre-gistrate

în format WAVE.

Această structură ierarhică: [Categorie]->

[Context] -> [Accent] -> [Silabǎ] conferă şi

avantajul reducerii substanţiale a timpului de

căutare în baza de date, în faza de potrivire a

unităţilor fonetice din text cu unităţile acustice

înregistrate.

a) Silaba dorită este regăsită identic în baza de date vocală, din punct de vedere fonetic (al fonemelor componente), din

punct de vedere contextual (median sau final) şi din punct de vedere prozodic (al accentuării). În acest caz silaba se reţine ca atare

pentru a fi înglobată în cuvântul de sintetizat.

b) Silaba este regăsită fonetic, dar nu prozodic sau contextual. Se preferă, în acest caz, construirea acesteia din subunităţi

(foneme separate şi silabe mai scurte) care să respecte în primul rând prozodia cerută (silabă accentuată sau neaccentuată), şi apoi,

dacă este posibil, contextul specificat.

c) Silaba nu este regăsită fonetic în baza de date. Şi în acest caz silaba va fi compusă pe baza subunităţilor componente,

găsite în baza de date.

Astfel, căutarea în baza de date se face după lungimea silabei, contextul median sau final şi accentuare.

Algoritmul verifică la pasul întâi dacă silaba este alcătuită dintr-o singură fonemă; în caz afirmativ, silaba există în baza de

date şi se extrage în stream-ul acustic de ieşire, unde se va concatena cu silabele găsite anterior.

În pasul doi, se caută silaba în baza de date, ţinând cont de lungime, context şi accentuare. Dacă este găsită, atunci se

returnează în stream-ul de ieşire pentru concatenare.

În pasul al treilea se ajunge dacă silaba nu e regăsită în contextul sau accentuarea dorite. Se calculează setul de diviziune al

silabei curente astfel: se divide silaba într-o succesiune de segmente alcătuite din fonemele sale, astfel încât să existe cel puţin un

segment de lungime mai mică cu o unitate decât lungimea silabei. De exemplu, silaba cráp se divide în cM + ráp A F sau crá A M + pF .

În pasul patru, dacă în setul de diviziune obţinut la pasul anterior există segmente în context final, se duplică segmentele

respective şi în context median. Urmând exemplul din paragraful precedent, silaba ráp A F se duplică în contextul complementar, în

setul iniţial adăugându-se astfel silaba ráp A M . Acest pas al algoritmului indică folosirea unei silabe mediane în locul uneia finale,

evitând fragmentarea acesteia din urmă în silabe de rang inferior. Situaţia inversă (înlocuirea unei silabe mediane printr -o silabă

finală), de cele mai multe ori, nu produce rezultate bune în percepţia auditivă a semnalului sintetizat.

În pasul al cincilea se aplică recursiv algoritmul pentru fiecare segment din setul de diviziune al silabei iniţiale. Exemplul

următor ilustrează construirea seturilor de diviziune pentru cuvântul monosilabic cráp.

SplitSet2(2)

cráp A F

SplitSet1(3)

crá A M + p

c + ráp A F

c + ráp A M

crM + áp A F

crM + áp A M

crM + á A M + p

c + rá A M + p

c + r + áp A F

c + r + áp A M

Figura 4.10. Construirea seturilor de diviziune pentru silaba cráp

Unităţile acustice găsite în baza vocală prin algoritmul expus mai sus se vor concatena pentru a genera semnalul de ieşire.

Concatenarea va ţine cont de pauza dintre cuvinte, care se va ajusta în funcţie de ritmul cerut vorbirii. Ultima fază este cea de sinteză

propriu-zisă, în care formele de undă corespunzătoare textului de la intrare vor fi redate sonor prin intermediul plăcii audio a

calculatorului.

4.1.8. Rezultate obţinute cu metoda de sinteză dezvoltată de autor

a) Analizorul automat de sintaxă realizat în cadrul metodei se bazează pe un dicţionar ce conţine peste 30000 de forme

neflexionate ale limbii române şi pe un set de 550 de reguli de flexionare. Analizorul a fost testat pe o serie de texte în limba română

de diferite genuri, de la literatură la documente tehnice, însumând peste 200000 de cuvinte. Testele au dovedit o corectitudine de

peste 98% cuvinte recunoscute corect, cuvintele nerecunoscute constituind excepţii care nu au fost încă introduse în setul de reguli.

Aceste rezultate arată completitudinea setului de reguli proiectat, precum şi viabilitatea metodei propuse.

b) Analizorul lexical pentru determinarea silabelor cuprinde un set de peste 180 de reguli pentru descompunerea cuvintelor

în silabe. Performanţa obţinută a fost de 98% cuvinte despărţite corect, rată calculată pe un set de 50000 de cuvinte extrase din texte

de diferite genuri (literatură, economie, politică, ştiinţă şi tehnică, filozofie, religie). Performanţa este mai bună decât cea găsită la alţi

cercetători români care au folosit reguli lexicale ([Tom09] – 90%).

c) Analizorul lexical pentru determinarea accentelor cuprinde un set de 250 de reguli pentru detectarea silabei accentuate din

interiorul cuvintelor. S-a obţinut o rată de detectare corectă a silabei acentuate de 94%, rată calculată pe acelaşi set de 50000 de

cuvinte ca şi în cazul despărţirii în silabe.

d) În faza de sinteză a vorbirii, metoda generează rezultate bune, datorită utilizării unităţilor acustice de lungime medie şi

mare, de tipul silabelor. Concatenarea directă a unităţilor, fără o altă procesare a semnalului, face ca vorbirea sintetizată să păstreze

naturaleţea şi aspectele prozodice caracteristice vocii cu care s-au înregistrat unităţile acustice.

4.1.9. Avantajele metodei de sinteză a vorbirii pe bază de silabe dezvoltată de autor

Metoda de sinteză bazată pe concatenarea silabelor prezentată în acest capitol are următoarele avantaje:

a) Prezintă o abordare unitară în toate fazele de proiectare, fiind bazată pe reguli în cele mai importante etape ale sale.

b) Foloseşte reguli organizate într-o gramatică de tip LEX, rezultând astfel separarea modulului de analiză lingvistică faţă de

fluxul de prelucrare a datelor.

24

SplitSet3(1)

c + r + á A M + p

c) Asigură o capacitate mărită de extensibilitate şi adaptabilitate datorită faptului că regulile sunt accesibile şi se pot edita de

către utilizator.

d) Asigură reducerea semnificativă a costului şi timpului alocat procesului de proiectare, datorită utilizării regulilor (cel mult de

ordinul sutelor), faţă de metodele ce utilizează dicţionare sau lexicoane (conţinând definiţii de ordinul zecilor sau sutelor de mii).

e) Prezintă un grad mai mare de versatilitate, datorită utilizării gramaticilor regulate specifice LEX, faţă de alte metode ce

folosesc reprezentări interne ale regulilor sau chiar formatul XML. Utilizarea seturilor bazate pe expresii regulate permite specificarea

de tipare pentru unităţile lingvistice şi contextele în care ele apar, rezultând astfel şi un grad mai mare de corectitudine în analiza finală

a textului.

f) Necesită un efort mai mic de construire şi întreţinere a bazei de date vocale decât în cazul metodei bazate pe corpus.

Astfel, în cazul metodei bazate pe silabe, numărul unităţilor acustice este cu cel puţin două ordine de mărime mai mic decât în cazul

metodei bazate pe corpus.

g) Păstrează eficienţa şi calitatea metodelor de sinteză prin concatenare, în raport cu metodele parametrice de sinteză.

Astfel, în cazul concatenării, semnalul sintetizat păstrează calitatea unităţilor înregistrate în baza de date vocală, pe când în cazul

metodele parametrice, semnalul de ieşire este aproximat.

h) Prezintă o calitate mai înaltă a sintezei faţă de metodele bazate pe foneme sau difoneme, din cauza unui număr mai redus

de puncte de concatenare, la nivelul silabei.

5. Realizarea sistemului de sinteză de voce în limba română LIGHTVOX

Ca şi contribuţie în domeniul proiectării şi realizării unui sistem interactiv vocal, autorul a urmărit proiectarea şi implementarea

unui sistem de sinteză vocală adaptat special limbii române, ce foloseşte ca şi unităţi fonetice silabele, numit LIGHTVOX. Sistemul a

fost conceput ca un sistem text-to-speech, în care sinteza vorbirii se realizează pornind de la un text în limba română, utilizând metoda

de sinteză bazată pe silabe prezentată în capitolul precedent.

5.1. Structura funcţională a sistemului

Sistemul este prezentat în detaliu în figura 5.1, pe blocuri funcţionale. Se observă structura completă de tip text-to-speech în

care se porneşte de la un text şi se realizează sinteza completă a vorbirii, LIGHTVOX fiind astfel un sistem de sinteză de nivel înalt.

Din punct de vedere al tipului de abordare, este un sistem de sinteză în domeniul timp, folosind concatenarea directă a unităţilor

acustice neparametrizate. Din punct de vedere al clasificării metodelor de sinteză text-to-speech, metoda folosită este mixtă, îmbinând

caracteristici ale abordării bazate pe concatenarea formelor de undă şi ale abordării bazate pe reguli.

Aşa cum se observă din figura 5.1, sistemul efectuează mai întâi o preprocesare şi o analiză sintactică a textului iniţial pentru

a-l aduce la o formă ortografică corectă. Apoi are loc determinarea unităţilor lingvistice de bază (în cazul de faţă silabele) şi a

informaţiilor prozodice segmentale (accentul cuvintelor). Pe baza acestor elemente sunt regăsite unităţile acustice din baza de date

vocală care corespund cel mai bine unităţilor lingvistice detectate. Segmentele acustice sunt concatenate şi apoi are loc sinteza

propriu-zisă a vorbirii.

Tot în figura 5.1 se prezintă şi etapele fazei de construcţie a bazei de date vocale. Astfel, semnalul vocal este mai întâi

normalizat şi descompus în secvenţe de regiuni cu proprietăţi distincte. Secvenţele de regiuni sunt puse în corespondenţă cu

fonemele limbii române, urmând apoi extragerea din semnalul vocal a grupurilor de foneme care alcătuiesc unităţile acustice, în cadrul

unui proces semiautomat. Unităţile acustice se memorează în final în structura ierarhică a bazei de date.

Figura 5.1. Sistemul de sinteză a vocii în limba română LIGHTVOX

5.2. Metodologia de proiectare a sistemului de sinteză LIGHTVOX

Realizarea sistemului LIGHTVOX a urmărit două direcţii de lucru:

1. Construirea bazei de date acustice (proces off-line), incluzând următoarele etape: înregistrarea eşantioanelor de voce,

normalizarea semnalului, segmentarea semnalului în regiuni, segmentarea fonematică, separarea unităţilor acustice şi construirea

efectivă a bazei de date;

2. Conversia text-voce (proces on-line), cuprinzând etapele: preprocesarea textului, corectarea ortografică, detecţia unităţilor

lingvistice, determinarea prozodiei locale, regăsirea unităţilor acustice, îmbinarea unităţilor şi sinteza de voce.

5.2.1. Construirea bazei de date acustice

Prima fază abordată în realizarea sistemului de sinteză de voce LIGHTVOX a fost construirea bazei de date acustice. În

funcţie de metoda abordată, baza de date acustică poate cuprinde fie formele de undă (codificate sau nu), fie secvenţele parametrice

corespunzând unităţilor fonetice. În cazul sistemului LIGHTVOX, baza de date cuprinde formele de undă asociate silabelor limbii

române.

Etapele procesului de realizare a bazei de date vocale au fost următoarele :

1) crearea listei de silabe ;

2) crearea listei de cuvinte care să conţină silabele dorite ;

3) înregistrarea digitală a rostirii ;

4) normalizarea înregistrării ;

5) crearea corpusului paralel text-voce;

6) segmentarea semnalului vocal în regiuni fonematice ;

7) detecţia şi separarea silabelor din semnal;

8) salvarea unităţilor acustice în baza de date.

1) Crearea listei de silabe

Structura bazei de date acustice a fost prezentată în secţiunea 4.1.6.

Astfel, s-a stabilit ca baza de date să cuprindă silabe alcătuite din două, trei sau patru foneme (notate cu S2, S3, S4), dar şi

foneme singulare (S1). S-a urmărit includerea în fiecare categorie S2, S3 şi S4 a unui număr cât mai mare de silabe în ordinea

frecvenţei de apariţie în limba română, realizându-se în acest scop o statistică a silabelor (vezi paragraful 4.1.6.1).

Pentru a alcătui lista iniţială de silabe, s-a pornit de la mulţimea fonemelor limbii române. S-au luat în considerare în total 27

de foneme :

F = [aăbcdefghiîjklmnoprsştţuvxz]

Mulţimea F nu cuprinde fonemele /q/, /w/, /y/, acestea fiind înlocuite prin fonemele /c/, /v/, /i/.

F este alcătuită din reuniunea a două submulţimi C şi V :

C = [bcdfghjklmnprsştţvxz] - submulţimea consoanelor (card C = 20)

V = [aăeiîou] - submulţimea vocalelor (card V = 7)

Pentru silabele din categoria S2, avem următoarele configuraţii posibile:

a) [CV] ; b) [VV] ; c) [VC] ,

unde C reprezintă o consoană, iar V – o vocală.

a) Pentru silabele de tipul [CV] s-au generat toate combinaţiile de două elemente care rezultă din compunerea mulţimilor C şi V :

L1 = { [ba] [ca] [da] ..... [za] , [bă] [că] [dă] ..... [ză] , ... , [bu] [cu] [du] ..... [zu] }

Din această listă s-au eliminat combinaţiile care nu există în limba română, precum: [kă], [kî], etc.

b) Pentru silabele de tipul [VV] şi [VC] s-a parcurs tabelul silabelor S2 (generat pe baza statisticii de la 4.1.6.1), preluându-se

toate configuraţiile de această formă. S-au obţinut listele:

L2 = { [ai] [au] ..... [ua] [ui] }

L3 = { [ab] [ac] ..... [uz] }

Lista completă pentru categoria S2 este LS2 = L1 U L2 U L3 .

Pentru categoriile silabice S3 şi S4, listele LS3 şi LS4 s-au obţinut pe baza tabelelor generate statistic. Din considerente ce

au ţinut de condiţiile existente pentru înregistrarea audio, aceste liste au fost reduse la câteva zeci de elemente (a se vedea tabelul

5.1, ce prezintă unităţile acustice stocate în baza de date).

În lista LS1 (adică fonemele singulare) au fost incluse toate fonemele din mulţimea F.

2) Crearea corpusului de cuvinte

Odată obţinute listele cu silabe (LS1 … LS4), s-a trecut la construirea corpusului de cuvinte, în vederea înregistrării şi apoi a

separării unităţilor acustice.

Pentru a se genera o vorbire sintetică de calitate, s-a avut în vedere ca silabele înregistrate să includă şi anumite elemente

de prozodie. În primul rând, silabele trebuiau să respecte accentuaţia din interiorul cuvintelor. Ca urmare, au fost luate în considerare

atât silabele accentuate (ACC), cât şi cele neaccentuate (NA), pentru fiecare categorie S2, S3 şi S4.

De asemeni, ţinând cont că o silabă se rosteşte distinct în funcţie de locul pe care aceasta îl ocupă în cadrul cuvântului, dacă

este situată la începutul, mijlocul sau sfârşitul unui cuvânt, s-a urmărit introducerea în listă a silabelor în diferitele contexte în care ele pot

să apară. Astfel, s-a făcut diferenţierea între silabe finale (FIN), pe de o parte, şi silabe iniţiale şi mediane (MED), pe de altă parte.

Corpusul de cuvinte folosit pentru extragerea unităţilor acustice a fost alcătuit atât din propoziţii şi cuvinte normale care

conţineau silabele dorite, precum şi din cuvinte artificiale folosite pentru a evidenţia mai bine un anumit grup de foneme.

Generarea seturilor de cuvinte a ţinut cont de tipul silabelor: accentuate (ACC), respectiv neaccentuate (NA), cât şi de

contextul acestora: silabe mediane (MED) sau finale (FIN). Cuvintele artificiale includ silabele în contextele necesare, folosinduse

silabe auxiliare predefinite (de exemplu silaba /ta/).

3) Înregistrarea digitală a rostirii

După constituirea seturilor de cuvinte, s-a trecut la rostirea efectivă a acestora, în scopul înregistrării corpusului vocal. A fost

ales un vorbitor masculin, urmărindu-se rostirea corpusul textual într-un ritm constant, cu o aceeaşi tonalitate a vocii.

Construirea bazei de date a început efectiv odată cu procesul de înregistrare a rostirii vorbitorului uman, rostire care a inclus

unităţile fonetice silabice în diferite contexte şi moduri de pronunţie. După cum am văzut, în baza de date nu au fost înregistrate toate

silabele limbii române, ci doar un subset al acestora, silabele care n-au fost incluse fiind apoi generate pe baza celor existente.

Procesul de înregistrare a semnalului vocal a presupus folosirea unei aparaturi speciale constituită dintr-un microfon, o placă

digitizoare de semnal acustic, şi un program software specializat pentru lucrul cu fişiere audio. Autorul a folosit un microfon dinamic

semiprofesional, o placă audio Creative SoundBlaster şi programul de digitizare audio Cool Edit Pro v2.0.

Parametrii de înregistrare au fost următorii: înregistrare de tip uni-canal, frecvenţa de eşantionare: 16 kHz, dimensiunea

eşantioanelor: 16 biţi, codificare: PCM, formatul fişierului audio: WAVE.

4) Normalizarea înregistrării

În urma înregistrării, eşantioanele audio au urmat o fază de normalizare, adică de aducere a lor la o formă unitară în tot

cuprinsul bazei vocale. Normalizarea presupune prelucrarea digitală a semnalului vocal înregistrat, proces care poate fi făcut manual

sau semiautomat, prin intermediul unui program software specializat, sau automat, în cazul în care se proiectează algoritmi speciali de

normalizare. Autorul a folosit o procedură semiautomată, disponibilă prin intermediul aplicaţiei Cool Edit Pro v2.0.

În urma normalizării, corpusul vocal conţine toate înregistrările de aceeaşi amplitudine (rostirile prezentând aceeaşi tărie

sonoră), precum şi frecvenţă fundamentală constantă (corespunzând unor rostiri de aceeaşi tonalitate, acelaşi ritm şi intonaţie

constantă). În primul rând, aceste cerinţe legate de amplitudine şi frecvenţă fundamentală se referă la segmentele vocale care

prezintă aceste caracteristici, cu alte cuvinte la segmentele corespunzătoare vocalelor fonetice.

5) Crearea corpusului paralel text-voce

În vederea prelucrării semnalului şi descompunerii acestuia în unităţi acustice, înregistrările au fost salvate în fişiere audio în

format WAVE. Fiecare fişier audio conţine una sau mai multe secvenţe de cuvinte din corpusul vorbit, depinzând de capacitatea

vorbitorului de a păstra un ritm şi o tonalitate constante pe parcursul înregistrării.

Pentru a realiza segmentarea automată a semnalului în regiuni fonematice a fost necesară utilizarea a două corpusuri în

paralel, şi anume: corpusul vorbit, înregistrat în fişiere audio, şi respectiv corpusul textual corespondent. Astfel, odată cu salvarea

fiecărui fişier audio, a fost stocat şi fişierul text asociat conţinutului său.

6) Segmentarea semnalului vocal în regiuni fonematice

Această etapă urmăreşte descompunerea semnalului vocal în regiuni corespunzătoare secvenţelor fonematice (şiruri de

foneme). Această operaţie va duce în final la separarea unităţilor silabice din semnalul vocal înregistrat.

Paşii care au fost realizaţi sunt ilustraţi în figura 5.2.

ANALIZA

SEMNALULUI

VOCAL

Parametri

de semnal

SEGMENTARE

S/U/V

Regiuni de

semnal

COMPACTARE

REGIUNI

Regiuni

compacte

Figura 5.2. Paşii realizaţi pentru segmentarea semnalului în regiuni fonematice

a) Analiza semnalului vocal presupune determinarea parametrilor semnalului utili în faza de segmentare. Conform

paragrafului 3.2.1 (analiza în domeniul timp a semnalului vocal), au fost determinaţi următorii parametri: amplitudinea semnalului,

energia şi numărul de treceri prin zero. De asemeni, a fost calculată frecvenţa fundamentală a semnalului.

b) Segmentarea S/U/V, descrisă în paragraful 3.4.1, are ca scop detectarea categoriilor fundamentale de semnal: linişte

(Silence), sonor (Voiced), nesonor (Unvoiced), la care se adaugă şi categoria tranziţie.

c) Compactarea regiunilor (vezi paragraful 3.4.2) urmăreşte asocierea regiunilor vecine de dimensiuni mici, având ca rezultat

scăderea numărului total de regiuni, cu efect pozitiv asupra timpului de procesare.

d) Clasificarea regiunilor (proces prezentat în capitolul 3.4) împarte cele patru categorii de semnal de la punctul b) în 10 clase

distincte, clase care pot fi asociate cu reprezentarea sonoră a fonemelor limbii române.

e) Segmentarea fonematică ( capitolul 3.7) asociază simbolurile fonetice cu regiunile din semnal. Pentru aceasta, se

foloseşte corpusul paralel text-voce de la punctul 5). Pe baza unor reguli speciale de asociere, se face o corespondenţă între grupurile

fonetice prezente la intrarea de text cu secvenţele de regiuni detectate din semnalul vocal.

7) Detecţia şi separarea silabelor din semnal

După punerea în corespondenţă a secvenţelor fonematice cu regiunile din semnal, urmează faza de separare a silabelor utile

din corpusul vocal. Pentru aceasta, s-a folosit o procedură semiautomată care selectează secvenţele dorite prin deplasarea capetelor

intervalului de selecţie pe graniţele regiunilor fonematice. Regiunea selectată poate fi ajustată prin deplasarea manuală a marginilor ce

au fost detectate în mod automat. Apoi regiunea corespunzătoare silabei dorite se salvează într-un fişier al bazei de date.

T A T I T A T A D E T A

Figura 5.3. Detecţia şi separarea silabelor din semnal

27

CLASIFICARE

REGIUNI

Clase de

regiuni

SEGMENTARE

FONEMATICǍ

Regiuni

fonematice

8) Salvarea unităţilor acustice în baza de date

După detecţia silabelor dorite din semnalul vocal, acestea se salvează ca fişiere distincte în structura ierarhică a bazei de

date. Aşa cum s-a prezentat în secţiunea 4.1.6.3, baza de date vocală este organizată în funcţie de parametrii unităţilor acustice,

astfel:

a) după lungimea unităţilor: silabe alcătuite din două, trei sau patru litere, precum şi foneme singulare ;

b) după poziţia silabei în interiorul cuvântului: silabe iniţiale/mediane sau finale ;

c) după accentuare: silabe accentuate sau neaccentuate.

Ca urmare, baza de date vocală prezintă o structură arborescentă, în care unităţile acustice sunt stocate sub formă de

fişiere.

Pentru a implementa criteriul a), au fost create directoarele: S1, S2, S3 şi S4, în fiecare director fiind memorate doar unităţi

de lungime corespunzătoare.

Pentru a implementa criteriul b), în fiecare director a fost creat un subdirector Final, în care au fost memorate unităţile de tip

silabă finală, în timp ce silabele acustice iniţiale/mediane au fost salvate în directorul părinte.

Criteriul c) a fost rezolvat prin utilizarea unor convenţii de notaţie a numelui fişierelor; astfel silabele accentuate prezintă

sufixul ‘_’ în numele fişierelor ce le conţine. De exemplu, pentru silaba neaccentuată sa avem fişierul sa.wav, iar pentru silaba

accentuată sá a fost înregistrat fişierul sa_.wav.

În final, în baza de date au fost stocate aproximativ 600 de unităţi acustice, foneme şi silabe, considerând atât silabele de

segment median şi final, cât şi silabele accentuate şi neaccentuate (tabelul 5.1).

Tabelul 5.1. Unităţile acustice înregistrate în baza de date

Silabe Segment median Segment final Total

S2 (două foneme) 283 103 386

S3 (trei foneme) 84 55 139

S4 (patru foneme) 10 27 37

S1 (foneme singulare) 31 5 36

5.2.2. Conversia text-voce

Conversia text-voce reprezintă a doua fază, ce decurge on-line, în funcţionarea sistemului LIGHTVOX şi cuprinde toate

etapele ce trebuie parcurse pentru ca dintr-un text iniţial să se genereze vorbirea sintetică asociată.

Etapele componente ale acestei faze sunt următoarele: preprocesarea textului, corectarea ortografică, detecţia unităţilor

lingvistice, determinarea prozodiei locale, regăsirea unităţilor acustice, îmbinarea unităţilor şi sinteza de voce. Toate aceste etape au

fost descrise pe larg în cadrul prezentării metodei de sinteză bazată pe silabe din secţiunea 4.1.

5.3. Rezultate experimentale şi dezvoltări de viitor

În cadrul Facultăţii de Electronică, Telecomunicaţii şi Tehnologia Informaţiei din Cluj-Napoca, autorul a realizat un prototip al

sistemului de sinteză vocală LIGHTVOX. Implementarea prototipului s-a făcut baza unei structuri cu cinci componente: modulul de

analiză lingvistică, modulul de analiză prozodică, modulul de gestiune a bazei de date vocale, modulul de potrivire a unităţilor fonetice

şi modulul de sinteză propriu-zisă a rostirii. Etapele realizării sistemului au fost prezentate în secţiunea 5.2.

Mai întâi a fost construită baza de date acustică necesară pentru sinteză. În baza de date au fost înregistrate aproximativ

600 de unităţi acustice, foneme şi silabe, considerând atât silabele de segment median şi final, cât şi silabele accentuate şi

neaccentuate: 386 de silabe alcătuite din două foneme, 139 de silabe tri-fonematice, 37 de silabe tetra-fonematice şi 36 de foneme

singulare.

Pentru conversia text-voce a fost realizată o interfaţă grafică prin care utilizatorul poate încărca un document text în fereastra

aplicaţiei, pe care apoi îl poate audia prin intermediul vocii generate de sintetizator.

1 2 3 4

Figura 5.4. Interfaţa aplicaţiei LIGHTVOX

28

În privinţa rezultatelor experimentale, s-a constatat

o audiţie fluentă, naturală, a textului sintetizat, care

respectă prozodia segmentală (accentuarea cuvintelor)

din limba română.

Sistemul se poate utiliza direct de către persoane

cu disabilităţi vizuale sau nevăzători pentru citirea

automată a textelor, prin utilizarea de comenzi simple de

la tastatură.

Extinderea sistemului se poate face uşor şi pentru

alte aplicaţii pentru nevăzători, precum: scrierea de texte

asistată vocal de către calculator, aplicaţii de poştă

electronică, citirea paginilor Web, aplicaţii de tip

bibliotecă electronică pentru nevăzători (în care, printr-un

meniu interactiv vocal, nevăzătorul să-şi poată selecta

un autor, o carte în format electronic, şi un capitol din

acea carte, pe care sistemul îl va putea citi prin vocea

sintetizată).

6. Concluzii

Cercetările efectuate în cadrul tezei au avut ca scop final dezvoltarea unei metode de sinteză a vorbirii adaptată specific

limbii române precum şi a unei metodologii de lucru în vederea construirii unui sistem de sinteză vocală automată.

Principalele realizări şi contribuţii ale tezei sunt următoarele:

1. Realizarea unui studiu asupra modului de producere şi percepţie a sunetului; studiul include prezentarea caracteristicilor

fizice şi acustice ale sunetului, precum şi modelarea producerii vorbirii.

2. Realizarea unui studiu sintetic asupra metodelor de procesare, codare şi compresie a semnalului vocal.

3. Dezvoltarea unei aplicaţii de prelucrare digitală a semnalului vocal numită SPEA (Sound Processing and Enhancement

Application).

4. Efectuarea unor experimente asupra unor eşantioane reale de semnal audio şi vocal, în scopul determinării parametrilor

cu influenţă directă asupra calităţii acustice a semnalului.

5. Realizarea unui studiu sintetic asupra metodelor de analiză în domeniul timp şi în domeniul frecvenţă a semnalului vocal.

6. Realizarea unui studiu asupra modalităţilor de segmentare şi clasificare a semnalului vocal.

7. Dezvoltarea unei metode proprii de segmentare a semnalului vocal în regiuni. Metoda este capabilă să detecteze 4

categorii fundamentale de semnal şi 10 clase de regiuni. Avantajul metodei faţă de alte abordări este rapiditatea derivată din

efectuarea calculelor în domeniul timp şi detectarea categoriilor de bază dintr-o singură parcurgere a eşantioanelor de semnal. În

cadrul dezvoltării acestei metode s-au realizat:

un algoritm de determinare a punctelor de zero, minim şi maxim din semnalul vocal în domeniul timp;

o metodă de detecţie a segmentelor S/U/V (Silence/Voiced /Unvoiced) şi clasificare în tipuri de regiuni a semnalului vocal,

metodă ce cuprinde :

4 detectori pentru categoriile de bază;

8 clasificatori pentru clasele de regiuni propriu-zise;

2 detectori pentru determinarea subregiunilor;

un algoritm de compactare a regiunilor pentru gruparea regiunilor similare şi reducerea numărului de regiuni;

un tabel de corespondenţe între fonemele limbii române şi clasele de regiuni.

8. Dezvoltarea unei metode pentru determinarea perioadelor din forma de undă a semnalului vocal. Algoritmul metodei este

deosebit de exact, lucrând exclusiv în domeniul timp al analizei. Spre deosebire de alte metode de calcul în domeniul frecvenţă, el nu

necesită ferestruire şi nici calcule complexe, fiind foarte rapid.

Metoda se compune din 4 etape, fiecare etapă necesitând elaborarea unui algoritm distinct. Au fost proiectaţi astfel 4 algoritmi:

- un algoritm în domeniul timp pentru determinarea punctului pivot ;

- un algoritm în domeniul timp pentru determinarea unei estimări a perioadei de semnal în jurul punctului pivot ;

- un algoritm în domeniul timp pentru determinarea maximelor de perioadă; algoritmul este capabil să detecteze punctele de

hiatus care apar în semnalul vocal;

- un algoritm în domeniul timp pentru determinarea punctelor de capăt ale intervalelor de perioadă.

9. Dezvoltarea unor metode proprii pentru segmentarea fonematică a semnalului vocal. Au fost proiectate trei metode

distincte. Prima metodă detectează grupurile de foneme din semnalul vocal pe baza textului cunoscut de la intrare, folosind

segmentarea prealabilă în regiuni. A doua metodă realizează împărţirea regiunilor în subregiuni fonematice calculând tranziţiile dintre

cadrele fiecărei regiuni. A treia metodă detectează separat fonemele din regiunile multifonematice şi funcţionează pe bază de model.

Avantajul metodelor dezvoltate de autor derivă din modul de abordare sincron cu frecvenţa, ceea ce le dă o notă de precizie în plus

faţă de alte abordări.

În cadrul dezvoltării acestor metode s-au proiectat şi implementat:

a) pentru metoda de segmentare în grupuri de foneme a semnalului vocal pe baza textului cunoscut de la intrare:

- un set de reguli care impun constrângeri de formă şi durată pentru grupurile fonematice

- un algoritm de asociere între grupurile fonematice şi secvenţele de regiuni;

b) pentru metoda ce realizează împărţirea regiunilor în subregiuni fonematice folosind tranziţiile dintre cadrele fiecărei regiuni:

- un mod de calcul a distanţei minime pătratice dintre două cadre de semnal ;

- un algoritm de detectare a frontierelor de subregiuni pe baza tranziţiilor bruşte dintre cadre;

c) pentru metoda ce separă fonemele din regiunile multifonematice pe bază de model :

- o metodă de modelare semiautomată a fonemelor;

- un algoritm de comparare a vectorilor regiunii ţintă cu modelul;

- un algoritm de regăsire a modelului fonematic şi de etichetare a regiunilor;

- un algoritm de grupare a fonemelor şi segmentare în subregiuni.

10. Realizarea unui studiu asupra modalităţilor de sinteză a vorbirii pornind de la un text.

11. Realizarea unui studiu asupra metodelor existente de sinteză de voce.

12. Dezvoltarea unei metode de sinteză vocală pe bază de silabe pentru limba română. Pentru dezvoltarea metodei a fost

necesară stabilirea unor reguli lingvistice în faza de analiză a textului şi a unor reguli de îmbinare a formelor de undă în faza de

sinteză. Metoda îmbină caracteristici ale abordării bazate pe concatenarea formelor de undă şi ale abordării bazate pe reguli. În cadrul

dezvoltării acestei metode de sinteză s-au realizat:

1) Proiectarea şi implementarea unui analizor lexical şi a unui set de reguli pentru preprocesarea textului. Analizorul conţine

reguli pentru transcrierea fonetică a numerelor şi abrevierilor comune din limba română.

2) Dezvoltarea unei metode bazată pe reguli pentru analiza sintaxei unui text în limba română şi a unui set de reguli pentru

flexionarea cuvintelor din limba română.

3) Proiectarea şi implementarea unui analizor sintactic pentru extragerea propoziţiilor şi a cuvintelor.

4) Proiectarea şi implementarea unui analizor lexical şi a unui set de reguli pentru despărţirea în silabe a cuvintelor din limba

română.

5) Proiectarea şi implementarea unui analizor lexical şi a unui set de reguli pentru determinarea accentuaţiei cuvintelor.

6) Elaborarea unei statistici a silabelor limbii române pentru determinarea frecvenţelor de apariţie ale silabelor din limba română.

7) Proiectarea structurii bazei de date acustice de silabe, în care unităţile acustice sunt integrate în diferite contexte

segmentale şi accentuări.

8) Proiectarea şi implementarea unui algoritm de regăsire în baza de date a unităţilor acustice în funcţie de caracteristicile

acestora: lungime, context şi accentuare.

13. Proiectarea şi implementarea unui sistem de sinteză vocală adaptat special limbii române, ce foloseşte ca şi unităţi

fonetice silabele, numit LIGHTVOX. Sistemul a fost conceput ca un sistem text-to-speech, utilizând metoda de sinteză pe bază de

silabe dezvoltată de autor. Metodologia de proiectare a sistemului de sinteză a urmărit două direcţii principale: construirea bazei de

date acustice şi conversia text-voce.

14. Generarea bazei de date vocale pentru sistemul de sinteză, alcătuită dintr-un subset al silabelor limbii române. Silabele

au fost înregistrate în diferite contexte şi moduri de pronunţie, incluzând aspectele prozodice intrasegmentale (accentuaţia).

Bibliografie

[Bod07] Bodo A. Zs., Buza O., Toderean G., Realisation Results of a Speech Synthesis Development Environment, Acta Technica

Napocensis, UTCN, Vol 48, 2007, pp. 32-37

[Bod09-1] Bodo A. Zs., Buza O., Toderean G., TTS Experiments: Romanian Prosody, Acta Technica Napocensis, UTCN, Vol 50, 2009, pp. 31-36

[Bod09-2] Bodo A. Zs., Buza O., Toderean G., TTS Framework Building Results, the 5

30

th IEEE Conference on Speech Technology and Human

Computer Dialogue SpeD 2009, organized by the University “Politehnica” of Bucharest, the Romanian Academy, the Maritime University of

Constanta, the Research Institute for Artificial Intelligence, in cooperation with EURASIP and IEEE, Constanta, Romania, June 18-21, 2009,

accepted to be published

[Bur02] Burileanu D., Basic Research and Implementation Decisions for a Text-to-Speech Synthesis System in Romanian, International

Journal of Speech Technology 2002, pp. 211-225

[Bur96] Burileanu C., Oancea E., Sinteza pornind de la text pentru vocabularul limbii române - prezent şi perspective, Limbaj şi Tehnologie,

Editura Academiei Române, Bucureşti, 1996

[Buz06] Buza O., Toderean G., Bodo A.Z., Syllable Detection for Romanian Text-to-Speech Synthesis, Proceedings of the 6 th International

Conference on Communications, COMM’06, organized by the Military Technical Academy, the University “Politehnica” of Bucharest, and the

IEEE Romanian Section in Bucharest, Romania, 8-10 June 2006, pp.135-138

[Buz07-1] Buza O., Toderean G., Nica A., Bodo Zs., Original Method for Romanian Text-to-Speech Synthesis Based on Syllable

Concatenation, rev. “Advances in Spoken Language Technology”, Publishing House of the Romanian Academy, composed of the Proceedings

of the 4 th Conference on Speech Technology and Human Computer Dialogue SpeD 2007, Iassy, Romania, May 2007, pp. 109-118

[Buz07-2] Buza O., Toderean G., About Construction of a Syllable-Based TTS System, WSEAS TRANSACTIONS on COMMUNICATIONS,

Issue 5, Volume 6, May 2007, ISSN 1109-2742, 2007

[Buz08] Buza O., Toderean G., Domokos J., Bodo A. Zs., Voice Synthesis Application based on Syllable Concatenation, Proceedings of the

IEEE International Conference on Automation, Quality and Testing, Robotics AQTR 2008 - THETA 16 th edition, Cluj-Napoca, Romania, ISBN

978-1-4244-2576-1,Vol. II, May 22-25, 2008

[Buz09] Buza O., Toderean G., Domokos J., Bodo A. Z., Building a Text to Speech System for Romanian through Concatenation, The 5 th IEEE

Conference on Speech Technology and Human Computer Dialogue SpeD 2009, organized by the University “Politehnica” of Bucharest, the

Romanian Academy, the Research Institute for Artificial Intelligence, in cooperation with EURASIP and IEEE, Constanta, Romania, June 18-

21, 2009, accepted to be published

[Chi00] Childers D. G., Speech Processing and Synthesis Toolboxes, John Wiley & Sons, Inc., New York NY, 2000

[Din04] Dinu L. P., Despărţirea automată în silabe a cuvintelor din limba română. Aplicaţii în construcţia bazei de date a silabelor limbii române,

Raport de cercetare, cod AT217/2004, http://thor.info.uaic.ro/~fliacob/An1/2007-2008/Utilitati/U11/Despre entropie/Analiza silabelor din limba

romana.pdf, 2004

[Fer97] Ferencz A., Contribuţii la dezvoltarea sintezei text-vorbire pentru limba română, Teză de doctorat, UTCN Cluj-Napoca, 1997

[Fre05] Free Software Foundation, Flex - a scanner generator, http://www.gnu.org /software/flex/manual, October 2005

[Fur01] Furui S., Digital Speech Processing, Synthesis, and Recognition, CRC Publisher, Second edition, 2001

[Gav00] Gavat I., et al., Elemente de analiză, sinteză şi recunoaşterea vorbirii, Ed. Printech, Bucureşti, 2000

[Gla86] Glass, J. R., Zue V., Signal Representation for Acoustic Segmentation, Proceedings of First Australian Conference on Speech Science

and Technology, pp. 124-129, November 1986

[Jos97] Josifovski L., Mihajlov D., Gorgevik D., Speech Synthesizer Based on Time Domain Syllable Concatenation, Proceedings

SPECOM’97, Cluj-Napoca, 1997, pp. 165-170.

[Lew99] Lewis E., Tatham M., Word And Syllable Concatenation in Text-To-Speech Synthesis, Proceedings of the 6 th European Conference

on Speech Communications and Technology, ESCA’99, September 1999, pp. 615—618

[Lup04] Lupu E., Pop P., Prelucrarea numerică a semnalului vocal, Vol.1, Ed. Risoprint, Cluj-Napoca, 2004

[Mat01] Mateescu A., Semnale şi sisteme- Aplicaţii în filtrarea semnalelor, Ed. Teora, Bucureşti, 2001

[Men02] Meng, H. et. al., CU VOCAL: Corpus-based Syllable Concatenation for Chinese Speech Synthesis across Domains and Dialects,

Proceedings of ICSLP’02, 2002.

[Nav05] Nave R., The Place Theory of Pitch Perception, http://hyperphysics.phy -astr.gsu.edu/hbase/sound/souref.html, 2005

[Nay07] Naylor P.A., Kounoudes A., Gudnason J., Brookes M., Estimation of Glottal Closure Instants in Voiced Speech Using the DYPSA

Algorithm, IEEE Transactions on Audio, Speech, and Language Processing, Volume 15, Issue 1, Jan. 2007, pp. 34 - 43

[Pic93] Picone, J.W., Signal modeling techniques in speech recognition, Proceedings IEEE, Vol. 81, September 1993, pp. 1215-1246

[Sak03] Sakai S., Glass J., Fundamental Frequency Modeling for Corpus-Based Speech Synthesis Based on a Statistical Learning Technique,

Spoken Language System Publications, 2003

[Sto84] Stolojanu, G. et al., Prelucrarea numerică a semnalului vocal, Ed. Militară, Bucureşti, 1984

[Tat05] Tatham M., Morton K., Developments in Speech Synthesis, Wiley Publisher, ISBN 978-0470855386, 2005

[Tay09] Taylor P., Text-to-Speech Synthesis, Cambridge University Press, ISBN 0521899273, 1 st edition, 2009

[Tod05] Toderean G., Căruntu A., Metode de recunoaştere a vorbirii, Editura Risoprint Cluj-Napoca, 2005

[Tod09] Toderean G., Buza O., Bodo A. Z., Metode de Sinteză a Vorbirii, Editura Risoprint Cluj-Napoca, ISBN 978-973-53-0114-9, 2009

[Tok06] Tokuda K., Hidden Markov model-based speech synthesis as a tool for constructing comunicative spoken dialog systems, Journal of

the Acoustical Society of America, Vol. 120, Issue 5, ISBN-13: 978-3540212676, November 2006, pp. 3006-3006

[Tom09] Toma S., Oancea E., Munteanu D., Automatic Rule-Based Syllabication for Romanian, published in the volume „From Speech

Processing to Spoken Language Technology”, edited by the Publishing House of the Romanian Academy, composed of the Proceedings of the

5 th IEEE Conference on Speech Technology and Human Computer Dialogue, SpeD 2009, Constanta, Romania, June 18-21, 2009, pp. 87-94

[Web02] Andrew R. Webb, Statistical Pattern Recognition, Second Edition, ISBN 0-470-84513-9, John Wiley and Sons Ltd., 2002

REZUMAT TEZ? DE DOCTORAT

REZUMAT TEZ? DE DOCTORAT ... View more REZUMAT TEZ? DE DOCTORAT

Delete template?

Save as template ?

REZUMAT TEZ? DE DOCTORAT REZUMAT TEZ? DE DOCTORAT