Teza doctorat (pdf) - Universitatea Tehnică

FACULTATEA DE ELECTRONICĂ, TELECOMUNICAŢII ŞI 

TEHNOLOGIA INFORMAŢIEI 

ing. Ovidiu Buza 

TEZĂ DE DOCTORAT 

CONTRIBUŢII LA ANALIZA ŞI SINTEZA VORBIRII 

DIN TEXT PENTRU LIMBA ROMÂNĂ 

Comisia de evaluare a tezei de doctorat: 

Conducător ştiinţific, 

Prof. dr. ing. Gavril Toderean 

PREŞEDINTE: - Prof.dr.ing. Marina Ţopa - decan, Facultatea de Electronică, 

Telecomunicaţii şi Tehnologia Informaţiei, Universitatea 

Tehnică din Cluj-Napoca; 

MEMBRI: - Prof.dr.ing. Gavril Toderean - conducător ştiinţific, Universitatea 

Tehnică din Cluj-Napoca; 

- Prof.dr.ing. Dumitru Stanomir - referent, Universitatea Politehnica din 

Bucureşti; 

- Prof.dr.ing. Horia Nicolai Teodorescu - referent, Universitatea Tehnică 

„Gheorghe Asachi” din Iaşi; 

- Prof.dr.ing. Sergiu Nedevschi - referent, Universitatea Tehnică din 

Cluj-Napoca.

Cuprins 

Lista de abrevieri ................................................................................................................... vii 

Lista de figuri ........................................................................................................................ viii 

Lista de tabele ....................................................................................................................... xv 

1. Introducere.................................................................................................................... 1 

1.1. Scopul tezei de doctorat ...................................................................................................... 1 

1.2. Organizarea pe capitole a lucrării........................................................................................ 1 

1.3. Problematica sintezei de voce ............................................................................................. 3 

1.4. Oportunitatea temei alese .................................................................................................... 3 

1.5. Principalele contribuţii şi realizări ale tezei ........................................................................ 4 

2. Modalitatea producerii vorbirii .................................................................................. 6 

2.1. Mecanismul producerii vorbirii........................................................................................... 6 

2.2. Rezonanţa tractului vocal .................................................................................................... 6 

2.3. Elementele vocale articulatorii............................................................................................ 7 

2.4. Formarea sunetelor.............................................................................................................. 8 

2.5. Auzul uman şi percepţia sunetelor ...................................................................................... 9 

2.6. Proprietăţile acustice ale sunetului .................................................................................... 13 

2.7. Modelul producerii vorbirii............................................................................................... 15 

2.7.1. Semnalul de excitaţie............................................................................................... 17 

2.7.1.1. Energia de excitare ......................................................................................... 17 

2.7.1.2. Efectele tractului vocal................................................................................... 18 

3. Procesarea digitală a semnalului vocal..................................................................... 19 

3.1. Metode de procesare a semnalului vocal........................................................................... 19 

3.1.1.Metode de codare a semnalului vocal...................................................................... 19 

3.1.2. Metode şi standarde de compresie a semnalului vocal............................................ 23 

3.1.2.1. Standarde de compresie a semnalului audio de înaltă fidelitate..................... 24 

3.2. Contribuţii în procesarea semnalului vocal ....................................................................... 25 

3.2.1. Aplicaţia de prelucrare digitală a semnalului vocal SPEA...................................... 25 

3.2.1.1. Facilităţile şi modul de lucru specific aplicaţiei ............................................. 25 

3.2.1.1.1. Facilităţi de ordin general asupra fişierului de sunet............................... 26 

3.2.1.1.2. Facilităţi de operare specifice aplicate fişierului de sunet....................... 28 

3.2.1.2. Modul de lucru al utilizatorului în aplicaţia SPEA ........................................ 29 

3.2.2. Experimente realizate asupra unor eşantioane reale de semnal audio şi vocal ....... 31 

3.2.3. Concluzii privind contribuţiile autorului în domeniul procesării semnalului 

vocal......................................................................................................................... 53 

i

4. Analiza semnalului vocal ............................................................................................54 

4.1. Parametrii de bază ai semnalului vocal..............................................................................54 

4.2. Analiza semnalului pentru determinarea parametrilor caracteristici .................................57 

4.2.1. Analiza în domeniul timp a semnalului vocal..........................................................57 

4.2.2. Analiza în domeniul frecvenţă a semnalului vocal ..................................................60 

4.3. Segmentarea semnalului vocal...........................................................................................66 

4.3.1. Detectarea automată a segmentelor semnalului vocal .............................................67 

4.3.2. Algoritmi de detectare a caracteristicilor de segment..............................................69 

4.3.2.1. Date de intrare şi pre-procesare S/U/V ...........................................................69 

4.3.2.2. Funcţia volum .................................................................................................69 

4.3.2.3. Valorile pragurilor şi scorurile de caracteristici..............................................70 

4.3.3. Detectarea categoriilor specifice din semnalul vocal...............................................73 

4.3.3.1. Detectarea cadrelor sonore..............................................................................73 

4.3.3.2. Detectarea vocalelor........................................................................................73 

4.3.3.3. Detectarea consoanelor sonore........................................................................74 

4.3.3.4. Detectarea benzii sonore .................................................................................75 

4.3.3.5. Detectarea nazalelor........................................................................................75 

4.3.3.6. Detectarea semivocalelor ................................................................................76 

4.3.3.7. Detectarea fricativelor sonore .........................................................................77 

4.3.3.8. Detectarea stopurilor şi fricativelor nesonore .................................................78 

4.3.4. Detectarea graniţelor dintre segmente......................................................................79 

4.3.4.1. Detectarea bazată pe graniţa spectrală şi segmentare .....................................79 

4.3.4.2. Detectarea graniţelor prin metoda S/U/V........................................................80 

4.3.5. Segmentarea finală...................................................................................................81 

4.3.6. Etichetarea segmentelor ...........................................................................................81 

4.3.7. Rezultate şi concluzii privind metoda generică de segmentare ...............................82 

4.4. Contribuţii aduse în procesul segmentării automate a semnalului vocal ...........................84 

4.4.1. Detectarea punctelor de zero, minim şi maxim........................................................85 

4.4.2. Segmentarea SUV şi detecţia de regiuni..................................................................86 

4.4.2.1. Detectarea categoriei Linişte...........................................................................89 

4.4.2.2. Detectarea categoriei Vocală ..........................................................................91 

4.4.2.3. Împărţirea în subregiuni vocalice....................................................................93 

4.4.2.3.1. Detectarea subregiunilor corespunzătoare consoanei /R/ ........................94 

4.4.2.3.2. Detectarea subregiunilor corespunzătoare consoanelor /C/, /G/..............96 

4.4.2.4. Detectarea categoriei Consoană ......................................................................96 

4.4.2.5. Detectarea categoriei Tranziţie .......................................................................98 

4.4.3. Compactarea regiunilor..........................................................................................101 

4.4.4. Rezultatul final al segmentării în clase de regiuni .................................................105 

4.4.5. Concluzii privitoare la segmentarea semnalului vocal în clase de regiuni ............106 

4.5. Detectarea perioadelor din forma de undă. Punctele de închidere glotală.......................107 

ii

4.6. Contribuţii ale autorului în determinarea perioadelor de semnal.................................... 109 

4.6.1. Algoritmul de determinare a perioadelor şi maximelor de perioadă..................... 109 

4.6.1.1. Determinarea pivotului................................................................................. 111 

4.6.1.2. Estimarea perioadei ...................................................................................... 112 

4.6.1.3. Detectarea maximelor de perioadă ............................................................... 114 

4.6.1.4. Marcarea intervalelor de perioadă................................................................ 116 

4.6.1.5. Rezultate obţinute cu algoritmul propriu de determinare a intervalelor de 

perioadă…. ................................................................................................... 117 

4.6.1.6. Concluzii cu privire la algoritmul propriu de determinare a intervalelor 

de perioadă … .............................................................................................. 118 

4.7. Segmentarea fonematică.................................................................................................. 119 

4.7.1. Segmentarea fonematică folosind modele Markov ascunse.................................. 119 

4.7.2. Segmentarea bazată pe rafinarea frontierelor........................................................ 120 

4.7.3. Segmentarea bazată pe probabilităţi generalizate ................................................. 122 

4.7.3.1. Algoritmul de bază ....................................................................................... 122 

4.7.3.2. Algoritmul ce foloseşte o segmentare iniţială după secvenţa de foneme..... 122 

4.7.4. Rezultate obţinute prin cele trei metode de segmentare fonematică ..................... 123 

4.8. Contribuţii ale autorului în problematica segmentării fonematice automate a 

semnalului vocal.............................................................................................................. 124 

4.8.1. Transcrierea fonetică a textului de la intrare ......................................................... 125 

4.8.2. Proiectarea regulilor de asociere pentru fiecare grup fonetic................................ 126 

4.8.3. Rezultate obţinute în urma aplicării metodei propuse de asociere fonemeregiuni 

.................................................................................................................... 134 

4.8.4. Experimente privind segmentarea în subregiuni fonematice ................................ 137 

4.8.4.1. Calculul distanţei dintre două seturi de coeficienţi fonematici .................... 138 

4.8.4.2. Metoda de segmentare în subregiuni fonematice bazată pe determinarea 

tranziţiilor bruşte din regiune ....................................................................... 140 

4.8.4.3. Rezultate obţinute prin metoda de segmentare bazată pe determinarea 

tranziţiilor bruşte din regiune ....................................................................... 141 

4.8.4.4. Metoda de segmentare în subregiuni fonematice bazată pe modelarea 

caracteristicilor spectrale.............................................................................. 147 

4.8.4.5. Rezultate obţinute prin metoda de segmentare în subregiuni fonematice 

bazată pe modelarea caracteristicilor spectrale ............................................ 150 

4.8.5. Aplicaţii ale segmentării fonematice în realizarea bazelor de date acustice ......... 153 

4.8.6. Concluzii privitoare la contribuţiile autorului în segmentarea fonematică a 

semnalului vocal .................................................................................................... 154 

5. Sinteza de voce........................................................................................................... 155 

5.1. Modelul general al sintezei vorbirii................................................................................. 155 

5.2. Sistemul de sinteză text-to-speech................................................................................... 157 

5.2.1. Caracteristicile unui sistem text-to-speech. Metode de bază folosite.................... 157 

5.2.2. Etape în sinteza de voce pornind de la text ........................................................... 159 

iii

6. Metode de sinteză de voce.........................................................................................162 

6.1. Clasificarea metodelor de sinteză de voce .......................................................................162 

6.2. Metode de sinteză în domeniul frecvenţă ........................................................................165 

6.2.1. Sinteza bazată pe predicţie liniară..........................................................................165 

6.2.2. Sinteza formantică..................................................................................................167 

6.2.2.1. Realizarea excitaţiei ......................................................................................168 

6.2.2.2. Sinteza în cascadă .........................................................................................168 

6.2.2.3. Sinteza în paralel...........................................................................................170 

6.3. Metode de sinteză în domeniul timp ................................................................................170 

6.3.1. Metoda TD-PSOLA ...............................................................................................171 

6.3.1.1. Modelare matematică....................................................................................171 

6.3.1.2. Avantajele şi dezavantajele metodei TD-PSOLA.........................................175 

6.3.1.3. Îmbunătăţiri ale metodei ...............................................................................175 

6.3.2. Metoda bazată pe corpus........................................................................................176 

6.3.2.1. Algoritmul de selecţie a unităţilor acustice...................................................176 

6.3.2.2. Adnotarea bazei de date vocală.....................................................................177 

6.3.2.3. Potrivirea unităţilor candidat cu unităţile ţintă..............................................178 

6.3.2.4. Calculul costurilor şi măsurile distanţelor dintre unităţi [Mob00]................180 

6.3.2.4.1. Metoda de căutare în spaţiul stărilor (Weight Space Search) ................180 

6.3.2.4.2. Metoda de grupare a unităţilor în funcţie de context ______ 

(Context Clustering)...............................................................................180 

6.3.2.5. Algoritmul metodei de sinteză bazată pe corpus vocal.................................182 

6.3.2.6. Avantajele şi dezavantajele metodei bazate pe corpus .................................182 

6.4. Contribuţii în proiectarea metodelor de sinteză de voce..................................................183 

6.4.1. Metoda de sinteză bazată pe silabe pentru limba română......................................183 

6.4.2. Preprocesarea textului............................................................................................184 

6.4.3. Analiza sintaxei......................................................................................................189 

6.4.3.1. Modul de funcţionare al analizorului de sintaxă...........................................191 

6.4.3.2. Regulile specificate de analizorul de sintaxă ................................................192 

6.4.3.3. Rezultate obţinute cu analizorul automat de sintaxă.....................................201 

6.4.3.4. Concluzii cu privire la metoda de analiză automată a sintaxei propusă de 

autor ..............................................................................................................202 

6.4.4. Determinarea unităţilor lingvistice: silabele ..........................................................203 

6.4.4.1. Analizorul sintactic folosit în extragerea propoziţiilor şi cuvintelor ............204 

6.4.4.1.1. Gramatica analizorului sintactic ............................................................205 

6.4.4.2. Analizorul lexical utilizat în determinarea silabelor .....................................207 

6.4.4.2.1. Gramatica analizorului lexical ...............................................................208 

6.4.4.2.2. Acţiunile de realizat la potrivirea intrării...............................................209 

6.4.4.2.3. Regulile de producţie pentru despărţirea în silabe .................................210 

6.4.4.2.4. Rezultate obţinute cu analizorul lexical pentru determinarea silabelor .218 

6.4.5. Determinarea aspectelor prozodice: accentele.......................................................219 

6.4.5.1. Analizorul lexical utilizat în determinarea accentelor ..................................219 

iv

6.4.5.2. Gramatica analizorului lexical pentru determinarea accentelor din limba 

română.......................................................................................................... 220 

6.4.5.3. Rezultate obţinute cu analizorul lexical pentru determinarea accentelor..... 225 

6.4.6. Proiectarea bazei de date vocale............................................................................ 226 

6.4.6.1. O statistică a silabelor limbii române ........................................................... 227 

6.4.6.2. Caracteristicile silabelor înregistrate în baza de date acustică ..................... 229 

6.4.6.3. Organizarea bazei de date acustice............................................................... 230 

6.4.7. Regăsirea unităţilor acustice şi sinteza de voce..................................................... 231 

6.4.8. Concluzii cu privire la metoda de sinteză a vorbirii prin concatenare de silabe 

proiectată şi realizată de autor ............................................................................... 236 

7. Realizarea sistemului de sinteză de voce în limba română LIGHTVOX ............ 242 

7.1. Organizarea pe module a sistemului ............................................................................... 242 

7.2. Structura funcţională a sistemului ................................................................................... 243 

7.3. Metodologia de proiectare a sistemului de sinteză LIGHTVOX .................................... 245 

7.3.1. Construirea bazei de date acustice......................................................................... 245 

7.3.2. Conversia text-voce............................................................................................... 253 

7.4. Algoritmul de implementare al conversiei text-voce ...................................................... 254 

7.5. Rezultate experimentale şi dezvoltări de viitor ............................................................... 260 

7.6. Concluzii privind proiectarea şi realizarea sistemului de sinteză vocală ........................ 262 

8. Concluzii finale.......................................................................................................... 266 

8.1. Principalele aspecte expuse în cadrul tezei ..................................................................... 267 

8.2. Contribuţiile şi realizările tezei de doctorat .................................................................... 269 

Bibliografie ................................................................................................................................276 

Anexa 1. Notaţia Backus-Naur Form şi gramatica LEX …………………………………. 285 

Anexa 2. Silabele din setul S2 după frecvenţa de apariţie ……..………………………….. 286 

Anexa 3. Silabele din setul S3 după frecvenţa de apariţie ………..……………………….. 289 

Anexa 4. Silabele din setul S4 după frecvenţa de apariţie ……………………..………...... 292 

Anexa 5. Activitatea ştiinţifică a autorului............................................................................ 295 

_Anexa 6. Lucrări ştiinţifice prezentate în extenso ................................................................. 300 

v

Lista de abrevieri 

ADPCM - Adaptive Differential Pulse Code Modulation. 

API - Application Programming Interface 

BNF - Backus-Naur Form 

CART - Classification and Regression Tree 

CELP - Code Excited Linear Prediction 

CVSDM - Continuously Variable Slope Delta Modulation 

DM - Delta Modulation 

DPCM - Differential Pulse Code Modulation. 

FFT - Fast Fourier Transform 

FLAC - Free Lossless Audio Codec 

FM - Frequency Modulation 

GCI - Glotal Closure Instants 

GLR - Generalized Likelihood Ratio 

GMM - Gaussian Mixture Model 

HFV - High Frequency Volume 

HMM -Hidden Markov Models 

IIR - Infinite Impulse Response 

LD-CELP - Low Delay Code Excited Linear Prediction. 

LFV - Low Frequency Volume 

LPC - Linear Predictive Coding 

LP-PSOLA - Linear Prediction Pitch Synchronous Overlapp and Add 

MBROLA - Multiband Resynthesis Overlap and Add 

MFCC - Mel Frequency Cepstral Coefficients. 

MPEG - Moving Picture Experts Group 

MW - Medium Wave length. 

PCM - Pulse Code Modulation 

PLP - Perceptual Linear Prediction 

PSOLA - Pitch Synchronous Overlapp and Add 

SB-ADPCM - Sub Band Adaptive Differential Pulse Code Modulation 

SIFT - Simplified Inverse Filter Tracking 

SPL - Sound Power Level 

TD-PSOLA - Time Domain Pitch Synchronous Overlapp and Add 

XML - eXtensible Markup Language 

vii

Lista de figuri 

Figura 2.1. Corzile vocale [Nav05] ................................................................................................6 

Figura 2.2. Frecvenţele de rezonanţă ale tractului vocal [Nav05]..................................................7 

Figura 2.3. Elementele vocale articulatorii [Nav05] ......................................................................7 

Figura 2.4. Elementele producerii vorbirii [Nav05] .......................................................................8 

Figura 2.5. Formarea sunetelor vocalice ([Fan60], [Ben76]) .........................................................8 

Figura 2.6. Fomanţii vocalei /A/ [Nav05] ......................................................................................9 

Figura 2.7. Structura urechii umane [Nav05] .................................................................................9 

Figura 2.8. Diagrama funcţională a urechii umane [Ste97]..........................................................10 

Figura 2.9. Cohlea şi ilustrarea principiului poziţiei [Ste97]........................................................11 

Figura 2.10. Undă compusă din două armonici: a. prin adunare; b. prin scădere [Ste97]............13 

Figura 2.11. Forma de undă a sunetului viorii. Perceperea sunetului de către ureche .................14 

Figura 2.12. Modelul producerii vorbirii [Ste97] .........................................................................15 

Figura 2.13. Spectrograme pentru vocala /E/ şi consoana /S/ [Ste97].........................................16 

Figura 3.1. Schema canonică a codorului DPCM (PCM diferenţial)..........................................20 

Figura 3.2. Schema bloc a codorului delta adaptiv......................................................................21 

Figura 3.3. Tipuri de zgomot în modulaţia delta .........................................................................22 

Figura 3.4. Algoritmul de compresie prin transformări...............................................................23 

Figura 3.5. Fereastra principală a aplicaţiei SPEA ......................................................................26 

Figura 3.6. Frecvenţa fundamentală a semnalului este 204 Hz ...................................................31 

Figura 3.7. Vocala A masculin. Frecvenţa fundamentală este în jurul valorii de 100 Hz, 

urmată de armonice situate la distanţă aproximativ egală........................................32 

Figura 3.8. Vocala A feminin. Frecvenţa fundamentală este de aproximativ 200 Hz, 

corespunzător unei voci de tonalitate mai înaltă ......................................................32 

Figura 3.9. Vocala E masculin. Frecvenţa fundamentală este de 115 Hz, apropiată de cea 

corespunzătoare lui A ...............................................................................................32 

Figura 3.10. Vocala E feminin. Frecvenţa fundamentală este de 225 Hz. Se observă că nu 

mai apar formanţii 3, 4 şi 5.......................................................................................32 

Figura 3.11. Vocala I masculin. Frecvenţa fundamentală este de 125 Hz. Formanţii 3,4 şi 5 

sunt nesemnificativi în raport cu primii doi. ............................................................33 

Figura 3.12. Vocala I feminin. Frecvenţa fundamentală este de 235 Hz. Apare doar un 

singur formant semnificativ......................................................................................33 

Figura 3.13. Vocala O masculin. Frecvenţa fundamentală este de 110 Hz. Primii 4 

formanţi sunt activi, mai apărând încă 4 de importanţă mai redusă.........................33 

Figura 3.14. Vocala U masculin. Frecvenţa fundamentală este de 110 Hz. Mai importanţi 

sunt primii 3 formanţi...............................................................................................33 

Figura 3.15. Consoana S. Se observă un spectru mult mai bogat în armonici superioare, pe 

o bandă situată între 4000 Hz şi 8000 Hz.................................................................33 

Figura 3.16. Consoana T. Caracteristic este atât spectrul de frecvenţe, cât mai ales forma 

semnalului.................................................................................................................33 

viii

Figura 3.17. Vocala A1. Se observă un spectru de armonici uniform, începând cu 

frecvenţa primului formant de 117 Hz..................................................................... 34 

Figura 3.18. Vocala A2. Forma spectrului de frecvenţe este aproape identică cu cea din 

cazul anterior, cu deosebirea faptului că aici primul formant are frecvenţa de 

142 Hz...................................................................................................................... 34 

Figura 3.19. Vocala E1. Se observă un spectru cu trei frecvenţe formantice dominante, 

începând cu frecvenţa primului formant de 122 Hz. ............................................... 34 

Figura 3.20. Vocala E2. Spectrul este din nou asemănător cu cel din primul caz; aici 

primul formant are frecvenţa de 137 Hz.................................................................. 34 

Figura 3.21. Cazul A. Cele două frecvenţe de 1000 Hz şi 3000 Hz se adună, fiind deci în 

fază........................................................................................................................... 35 

Figura 3.22. Cazul B. Cele două frecvenţe de 1000 Hz şi 3000 Hz se scad, fiind în 

antifază..................................................................................................................... 35 

Figura 3.23. Cazul A. Semnal generat din trei frecvenţe de bază: de 1000 Hz, 3000 Hz şi 

respectiv 6000 Hz .................................................................................................... 35 

Figura 3.24. Cazul B. Acelaşi semnal, din care s-a extras acum o fereastră de analiză ce 

conţine un număr întreg de perioade (8 perioade) ................................................... 35 

Figura 3.25. Cazul A. Semnalul x(t) a fost generat din două frecvenţe de bază: de 1000 Hz 

şi respectiv 3000 Hz................................................................................................. 36 

Figura 3.26. Cazul B. Semnalul x(t) a fost modulat cu o frecvenţă f0=10000 Hz: x1(t) = 

x(t)* sin(2πf0t) ......................................................................................................... 36 

Figura 3.27. Cazul A. Semnal audio înregistrat la o frecvenţă de eşantionare de 96000Hz........ 36 

Figura 3.28. Cazul B. Acelaşi semnal eşantionat la o frecvenţă mai mică, de 15000 Hz............ 36 

Figura 3.29. Cazul A. Semnal audio înregistrat de la un casetofon, la o frecvenţă de 

eşantionare de 96000Hz........................................................................................... 37 

Figura 3.30. Cazul B. Semnal audio înregistrat de la CD player la aceeaşi frecvenţă de 

eşantionare.. ............................................................................................................. 37 

Figura 3.31. Cazul C. Semnal audio generat ca sumă de 22 de frecvenţe de la 1000 Hz la 

22000 Hz. Componentele au toate aceeaşi amplitudine. ......................................... 38 

Figura 3.32. Cazul D. Acelaşi semnal înregistrat pe casetofon apoi din nou pe calculator la 

aceeaşi frecvenţă de eşantionare cu semnalul original.. .......................................... 38 

Figura 3.33. Nota Do la pian. Frecvenţa fundamentală este 525 Hz. .......................................... 38 

Figura 3.34. Nota Do la acordeon. Are aceeaşi frecvenţă fundamentală, dar un timbru mai 

bogat......................................................................................................................... 38 

Figura 3.35. Nota Do la vibrafon. Se observă spectrul constituit doar din două armonici; 

sunetul este mai pur, dar nu la fel de profund ca în cazurile anterioare. ................. 39 

Figura 3.36. Nota Do la orgă. Sunetul are un impact perceptual profund din cauza 

armonicilor secundare care au amplitudinea apropiată de amplitudinea 

armonicii principale. ................................................................................................ 39 

Figura 3.37. Litera M din cuvântul “mama” rostit în condiţii normale. Se observă doi 

formanţi la 64 şi 128 Hz. ......................................................................................... 39 

Figura 3.38. Litera M din cuvântul “mama” rostit în condiţiile obstrucţionării căilor 

nazale. Se observă dispariţia celui de-al doilea formant.......................................... 39 

ix

Figura 3.39. Litera A din cuvântul “mama” rostit în condiţii normale. Se observă doi 

formanţi principali şi alţi câţiva secundari. ..............................................................40 

Figura 3.40. Litera A din cuvântul “mama” rostit în condiţiile obstrucţionării căilor 

nazale. Se observă dispariţia formanţilor de ordin superior precum şi 

deplasarea în tonalitate a primului formant..............................................................40 

Figura 3.41. Litera M din cuvântul “maşină” rostit de către autor (vocea A). Se observă 

doi formanţi principali..............................................................................................40 

Figura 3.42. Litera M din cuvântul “maşină” rostit de vocea B. Spectrul este asemănător 

cu cel de la vocea A, diferenţele constând doar din raportul amplitudinilor 

celor doi formanţi. ....................................................................................................40 

Figura 3.43. Litera A din cuvântul “maşină” rostit de către autor (vocea A). Spectrul 

acestei rostiri vocalice conţine trei formanţi bine conturaţi. ....................................41 

Figura 3.44. Litera A din cuvântul “maşină” rostit de vocea B. Se observă diferenţa faţă de 

cazul anterior (vocea A), prin faptul că acum spectrul conţine o serie largă de 

armonici, cu primele cinci armonici bine conturate. ................................................41 

Figura 3.45. Litera S din cuvântul “maşină” rostit de către autor (vocea A). Se observă că 

spectrul, în cazul acestei consoane, conţine o paletă largă de armonici, situate 

îndeosebi la frecvenţe superioare. ............................................................................41 

Figura 3.46. Litera S din cuvântul “maşină” rostit de vocea B. Diferenţa este că armonicile 

superioare sunt mult mai bine conturate decât în cazul anterior corespondent........41 

Figura 3.47. Vocala A - Formele de undă (sus: FM; jos: MW) ...................................................42 

Figura 3.48. Vocala A – Spectrele armonice(sus: A –FM; jos: A –MW) ....................................42 

Figura 3.49. Vocala E -FM. Sunt vizibili 3 formanţi principali. ..................................................43 

Figura 3.50. Vocala E - MW. Formantul 3 s-a redus cu 5%. .......................................................43 

Figura 3.51. Vocala I -FM. În acest caz vocala are doi formanţi. ................................................43 

Figura 3.52. Vocala I - MW. Formanţii se păstrează; apare zgomotul de fond............................43 

Figura 3.53. Vocala O -FM. In acest caz vocala are trei formanţi. ..............................................43 

Figura 3.54. Vocala O - MW. Formantul 3 creşte cu aproximativ 3%.........................................43 

Figura 3.55. Vocala U -FM. În acest caz vocala are doi formanţi majori. ...................................44 

Figura 3.56. Vocala U - MW. Formantul 2 a scăzut cu aproximativ 12%. ..................................44 

Figura 3.57. Vocala /A/ îmbogăţită cu armonici înalte ................................................................44 

Figura 3.58. Cele trei segmente definitorii pentru rostirea unei vocale........................................45 

Figura 3.59. Vocala A segmentul de atac. Amplitudinea creşte progresiv; durata 

segmentului: 42,2 ms; frecvenţa medie este de 120 Hz. ..........................................46 

Figura 3.60. Vocala A porţiunea mediană. Se observă un spectru de mai multe armonici; 

amplitudinea este constantă; durata segmentului: 89,6 ms; frecvenţa 

fundamentală este de 109 Hz....................................................................................46 

Figura 3.61. Vocala A porţiunea finală. Amplitudinea scade progresiv; durata 

segmentului: 37,5 ms; frecvenţa fundamentală este de 124 Hz. .............................46 

Figura 3.62. Vocala E segmentul de atac. Amplitudinea creşte; durata segmentului: 45,4 

ms; frecvenţa medie este de 112 Hz. ........................................................................47 

x

Figura 3.63. Vocala E porţiunea mediană. Spectrul este identic; amplitudinea este 

constantă; durata segmentului: 87,7 ms; frecvenţa fundamentală este de 106 

Hz............................................................................................................................. 47 

Figura 3.64. Vocala E porţiunea finală. Amplitudinea scade progresiv; durata 

segmentului: 66,0 ms; frecvenţa fundamentală este de 117 Hz.............................. 47 

Figura 3.65. Vocala I segmentul de atac. Frecvenţa medie este de 130 Hz. Durata 

segmentului: 51,6 ms. .............................................................................................. 47 

Figura 3.66. Vocala I porţiunea mediană. Frecvenţa fundamentală este de 113 Hz. Durata 

segmentului: 122 ms. ............................................................................................... 47 

Figura 3.67. Vocala I porţiunea finală. Amplitudinea scade; frecvenţa funda-mentală este 

de 123 Hz. Durata segmentului: 60,3 ms................................................................. 48 

Figura 3.68. Vocala O segmentul de atac. Amplitudinea creşte; durata segmentului: 41,1 

ms; frecvenţa medie este de 118 Hz. ....................................................................... 48 

Figura 3.69. Vocala O porţiunea mediană. Amplitudinea rămâne constantă; durata 

segmentului: 73,2 ms; frecvenţa fundamentală este de 108 Hz............................... 48 

Figura 3.70. Vocala O porţiunea finală. Amplitudinea scade progresiv; durata 

segmentului: 38,5 ms ; frecvenţa fundamentală creşte la 119 Hz. .......................... 48 

Figura 3.71. Vocala U segmentul de atac. Amplitudinea creşte; durata segmentului: 34,3 

ms; frecvenţa medie este de 116 Hz. ....................................................................... 49 

Figura 3.72. Vocala U porţiunea mediană. Amplitudinea este constantă; durata : 51,6 ms; 

frecvenţa fundamentală este de 99 Hz. .................................................................... 49 

Figura 3.73. Vocala U porţiunea finală. Amplitudinea scade progresiv pe o durată de 40,7 

ms; frecvenţa fundamentală se menţine aproximativ constantă (96-99 Hz)............ 49 

Figura 3.74. Silaba MA neaccentuată. Frecvenţa fundamentală este aproximativ 

constantă, egală cu 102 Hz. ..................................................................................... 50 

Figura 3.75. Silaba MA accentuată. Se observă ceşterea amplitudinii, frecvenţei şi 

duratei rostirii silabice. Frecvenţa variază de la 113 la 121 Hz............................... 50 

Figura 3.76. Variaţia frecvenţei vocalice dintr-o silabă accentuată ............................................. 51 

Figura 4.1. Segment de analiză din cadrul semnalului vocal...................................................... 54 

Figura 4.2. Structura spectrală a unui semnal vocal periodic [Fer97] ........................................ 56 

Figura 4.3. Funcţie fereastră utilizată în ponderare .................................................................... 57 

Figura 4.4. Schema bloc a analizorului cu banc de filtre............................................................ 60 

Figura 4.5. Modelul producerii vorbirii prin metoda LPC.......................................................... 62 

Figura 4.6. Modelul producerii vorbirii prin metoda cepstrală................................................... 63 

Figura 4.7. Modul de calcul al cepstrumului .............................................................................. 63 

Figura 4.8. Segmentarea semnalului vocal ................................................................................. 66 

Figura 4.9. Detectarea automată a segmentelor vorbirii ............................................................. 67 

Figura 4.10. Relaţia dintre analiză, segmentare şi etichetare [Chi00] ......................................... 68 

Figura 4.11. Rezultatele segmentării prin metoda Childers [Chi00] ........................................... 83 

Figura 4.12. Metoda de segmentare automată propusă de autor.................................................. 84 

Figura 4.13. Determinarea punctelor de zero, minim, maxim..................................................... 85 

Figura 4.14. Algoritmul de detecţie a regiunilor.......................................................................... 86 

Figura 4.15. Relaţia dintre categoriile de bază şi clasele de regiuni............................................ 87 

xi

Figura 4.16. Detectarea unei regiuni de de tip REG_LIN (linişte)..............................................90 

Figura 4.17. Detectarea unei regiuni de tip REG_LIN_CONS (linişte nesonoră) ......................91 

Figura 4.18. Porţiune sonoră dintr-un segment de vorbire ...........................................................91 

Figura 4.19. Detectarea unei regiuni de tip REG_VOC (sonoră vocalică) .................................92 

Figura 4.20. Detectarea regiunilor de tip REG_SALT (regiune sonoră de tip salt). ....................93 

Figura 4.21. Consoana /R/ în regiunea vocalică /AREA/.............................................................94 

Figura 4.22. Determinarea minimului local al perioadelor...........................................................94 

Figura 4.23. Detectarea subregiunii /R/ în regiunea vocalică /AREA/.........................................95 

Figura 4.24. Consoana /G/ (stânga) şi vocala /O/ (dreapta) .........................................................96 

Figura 4.25. Spectrele asociate consoanei /G/ şi vocalei /O/........................................................96 

Figura 4.26. Porţiune nesonoră dintr-un segment de vorbire .......................................................97 

Figura 4.27. Detectarea unei regiuni de tip REG_CONS (consoană nesonoră)..........................97 

Figura 4.28. Consoana plozivă /C / din cadrul silabei /CA/ .........................................................98 

Figura 4.29. Detectarea regiunilor de tip REG_NEREG (regiune neregulată). ...........................99 

Figura 4.30. Graficul spectrelor FFT pentru o vocală şi o consoană fricativă ...........................100 

Figura 4.31. Detectarea unei regiuni de tip REG_TRANZ_DENSA (regiune tranzitorie __ 

densă)......................................................................................................................100 

Figura 4.32. Secvenţa de regiuni de compactat ..........................................................................101 

Figura 4.33. Secvenţa de regiuni după prima aplicare a algoritmului ........................................102 

Figura 4.34. Compactarea regiunilor într-un segment de tip consoană nesonoră ......................102 

Figura 4.35. Regiunile dintr-un segment nesonor după prima aplicare a algoritmului ..............103 

Figura 4.36. Compactarea regiunilor într-un segment de tip linişte-nesonoră ...........................103 

Figura 4.37. Compactarea regiunilor tranzitorii .........................................................................103 

Figura 4.38. Secvenţa de regiuni înainte de compactare ............................................................104 

Figura 4.39. Secvenţa de regiuni după compactare. ...................................................................104 

Figura 4.40. Rezultatul final al segmentării în clase de regiuni .................................................105 

Figura 4.41. Ilustrarea algoritmului de detecţie a perioadelor şi punctelor glotale GCI. ...........108 

Figura 4.42. Algoritmul de determinare a perioadelor de semnal ..............................................109 

Figura 4.43. Determinarea punctului pivot.................................................................................111 

Figura 4.44. Estimarea perioadei actuale a semnalului ..............................................................112 

Figura 4.45. Detectarea maximelor de perioadă pornind de la punctul pivot.............................114 

Figura 4.46. Detectarea automată a maximelor de perioadă ......................................................115 

Figura 4.47. Determinarea intervalelor de perioadă ...................................................................116 

Figura 4.48. Rezultatul final al determinării intervalelor de perioadă........................................117 

Figura 4.49. Segmentarea HMM bazată pe un corpus segmentat manual [Jar08] .....................120 

Figura 4.50. Paşii algoritmului de segmentare bazat pe rafinarea frontierelor [Jar08] ..............120 

Figura 4.51. Modul de construcţie a unui supervector [Jar08]..................................................121 

Figura 4.52. Pseudo-trifonele din propoziţia în limba franceză “On comptait deux projets 

d’entreprise distincts” [Jar08] ................................................................................121 

Figura 4.53. Evidenţierea segmentelor corespunzătoare unităţilor lingvistice...........................124 

Figura 4.54. Metoda de segmentare fonematică propusă de autor .............................................125 

Figura 4.55. Asocierea grupurilor fonetice cu regiunile.............................................................126 

Figura 4.56. Scanner-ul generat şi asocierea de regiuni .............................................................128 

xii

Figura 4.57. Asocierea foneme–regiuni pentru sintagma: “Evidenţierea unui cadru general 

pentru specificarea algoritmilor şi compararea performanţelor” rostită de 

un vorbitor masculin .............................................................................................. 135 

Figura 4.58. Asocierea foneme–regiuni pentru sintagma: “Evidenţierea unui cadru general 

pentru specificarea algoritmilor şi compararea performanţelor” rostită de 

un vorbitor feminin ................................................................................................ 136 

Figura 4.59. Asocierea unui grup de mai multe foneme cu o singură regiune .......................... 137 

Figura 4.60. Metoda de segmentare bazată pe determinarea tranziţiilor bruşte din regiune ..... 140 

Figura 4.61. Segment vocalic pentru un vorbitor masculin - secvenţa ......................... 141 

Figura 4.62. Segment vocalic pentru un vorbitor masculin - secvenţa ...................... 142 

Figura 4.63. Segment vocalic pentru un vorbitor feminin - secvenţa ................... 143 

Figura 4.64. Determinarea subregiunilor vocalice pentru secvenţa ..................... 146 

Figura 4.65. Modelarea fonemelor /E/ şi /A/; cadrul de semnal şi spectrul Fourier.................. 147 

Figura 4.66. Compararea vectorilor din regiunea ţintă cu modelul ........................................... 148 

Figura 4.67. Extinderea secvenţelor fonematice........................................................................ 149 

Figura 4.68. Regiune sonor-vocalică corespunzând cu secvenţa /E/, /N/, /E/ ........................... 150 

Figura 4.69. Etichetarea perioadelor din regiune....................................................................... 152 

Figura 4.70. Determinarea subregiunilor fonematice prin metoda modelării............................ 152 

Figura 4.71. Extragerea unităţilor acustice din semnalul vocal ................................................. 153 

Figura 5.1. Sistem de sinteză a vorbirii pornind de la text ....................................................... 155 

Figura 5.2. Faza de analiză din cadrul sintezei vorbirii ........................................................... 155 

Figura 5.3. Faza de sinteză din cadrul sintezei vorbirii ............................................................ 156 

Figura 5.4. Sistemul text-to-speech........................................................................................... 157 

Figura 5.5. Metoda bazată pe concatenarea formelor de undă [Bur97].................................... 157 

Figura 5.6. Metoda bazată pe analiză-sinteză [Bur97] ............................................................. 158 

Figura 5.7. Metoda bazată pe reguli [Bur97]............................................................................ 158 

Figura 5.8. Etapa de generare a parmetrilor acustici [Bur97]................................................... 160 

Figura 5.9. Etapele procesuale ale sintezei TTS [Bur97] ......................................................... 161 

Figura 6.1. Modelul sintezei în domeniul timp......................................................................... 163 

Figura 6.2. Modelul sintezei în domeniul frecvenţă ................................................................. 164 

Figura 6.3. Modelul producerii vorbirii prin metoda LPC........................................................ 165 

Figura 6.4. Sintetizor în cascadă [Fer97] .................................................................................. 169 

Figura 6.5. Metoda de sinteză TD-PSOLA............................................................................... 171 

Figura 6.6. Extragerea şi maparea segmentelor în sinteza TD-PSOLA ................................... 174 

Figura 6.7. Potrivirea unităţii fonetice cu unităţile candidate ................................................... 178 

Figura 6.8. Potrivirea unităţilor de concatenat.......................................................................... 178 

Figura 6.9. Calculul costurilor pentru selecţia unităţilor .......................................................... 179 

Figura 6.10. Arborele de decizie pentru fonema “a” ................................................................. 181 

Figura 6.11. Metoda de sinteză bazată pe concatenarea silabelor ............................................. 183 

Figura 6.12. Un exemplu de transcriere fonetică pentru numere............................................... 188 

Figura 6.13. Metoda de analiză de sintaxă propusă de autor ..................................................... 190 

Figura 6.14. Lista generată cu formele flexionate posibile........................................................ 191 

Figura 6.15. Organizarea setului de reguli pentru analiza de sintaxă ........................................ 192 

xiii

Figura 6.16. Interfaţa aplicaţiei de analiză de sintaxă automată.................................................201 

Figura 6.17. Analizorul lingvistic pentru despărţirea în silabe...................................................203 

Figura 6.18. Structura ierarhică a analizorului sintactic.............................................................204 

Figura 6.19. Analizorul lexical pentru regăsirea silabelor..........................................................207 

Figura 6.20. Despărţirea automată în silabe ...............................................................................218 

Figura 6.21. Analizorul lexical pentru determinarea accentelor.................................................219 

Figura 6.22. Detectarea automată a accentelor...........................................................................225 

Figura 6.23. Configuraţia silabelor S2, S3 şi S4 din corpusul divers de 342000 de cuvinte......227 

Figura 6.24. Frecvenţele de apariţie ale silabelor S2, S3 şi S4...................................................227 

Figura 6.25. Frecvenţele de apariţie ale primelor 10 silabe S2, S3 şi S4 ...................................227 

Figura 6.26. Primele 10 cele mai frecvente silabe de tip S2.......................................................228 



Figura 6.29. Organizarea arborescentă a bazei de date vocale ...................................................230 

Figura 6.30. Construirea seturilor de diviziune pentru silaba cráp ............................................233 

Figura 6.31. Rezultatul căutării silabelor în baza de date...........................................................234 

Figura 6.32. Exemplu de concatenare a unităţilor acustice ........................................................235 

Figura 6.33. Rezultatul final al sintezei: generarea formei de undă pentru sintagma: ...............235 

Figura 7.1. Sistemul de sinteză LIGHTVOX. Modulele componente .......................................242 

Figura 7.2. Sistemul de sinteză a vocii în limba română LIGHTVOX ......................................244 

Figura 7.3. Etapele principale ale realizării sistemului LIGHTVOX.........................................245 

Figura 7.4. Crearea corpusului paralel text-voce........................................................................249 

Figura 7.5. Paşii realizaţi pentru segmentarea semnalului în regiuni fonematice ......................249 

Figura 7.6. Asocierea dintre grupurile fonematice şi secvenţele de regiuni...............................250 

Figura 7.7. Detecţia şi separarea silabelor din semnal................................................................250 

Figura 7.8. Structura colecţiei de fişiere din baza de date vocală...............................................251 

Figura 7.9. Extras din directorul S2 cu unităţi acustice silabice de două litere..........................252 

Figura 7.10. Interfaţa aplicaţiei LIGHTVOX .............................................................................260 

xiv

Lista de tabele 

Tabelul 2.1. Relaţia dintre sunetele percepute şi nivelul în decibeli [Ste97]............................... 11 

Tabelul 3.1. Duratele segmentelor vocalice................................................................................. 49 

Tabelul 3.2. Frecvenţele specifice segmentelor vocale................................................................ 50 

Tabelul 3.3. Frecvenţe comparative: silabe accentuate faţă de silabele normale......................... 51 

Tabelul 3.4. Duratele comparative între silabele accentuate şi silabele normale......................... 52 

Tabelul 4.1. Setul de reguli pentru calculul segmentării finale.................................................... 80 

Tabelul 4.2. Simbolurile utilizate la etichetarea segmentelor ...................................................... 83 

Tabelul 4.3. Rezultatele algoritmului zero-minim-maxim.......................................................... 86 

Tabelul 4.4. Categoriile de bază şi clasele de regiuni .................................................................. 87 

Tabelul 4.5. Apartenenţa fonemelor limbii române la diferitele clase de regiuni........................ 89 

Tabelul 4.6. Lungimea intervalelor de perioadă pentru segmentul vocal exemplificat ............. 117 

Tabelul 4.7. Acurateţea segmentării pentru cele trei metode de segmentare [Jar08]................. 123 

Tabelul 4.8. Tabel de corespondenţe pentru transcrierea fonetică............................................. 125 

Tabelul 4.9. Duratele rostirii pentru diferite grupuri de foneme................................................ 131 

Tabelul 4.10. Stabilirea frontierelor pentru segmentul ................................................. 142 

Tabelul 4.11. Stabilirea frontierelor pentru segmentul .............................................. 143 

Tabelul 4.12. Compararea prioadelor pentru secvenţa ......................................... 144 

Tabelul 4.13. Stabilirea frontierelor pentru secvenţa ............................................ 146 

Tabelul 4.14. Compararea cadrelor cu modelele ....................................................................... 150 

Tabelul 6.1. Domeniile de frecvenţă ale parametrilor Fk şi Bk................................................... 170 

Tabelul 6.2. Denominarea unei cifre în cadrul numărului ......................................................... 186 

Tabelul 6.3. Compatibilităţile dintre categoriile sintactice analizor / dicţionar ......................... 192 

Tabelul 6.4. Exemple de generare a unităţilor acustice pornind de la unităţile textuale............ 231 

Tabelul 6.5. Notaţii ale silabelor folosite în baza de date acustică ............................................ 233 

Tabelul 7.1. Unităţi silabice din afara dicţionarului care generează silabe din dicţionar .......... 248 

Tabelul 7.2. Unităţile acustice înregistrate în baza de date........................................................ 252 

xv

1. Introducere 

1.1. Scopul tezei de doctorat 

Teza de doctorat de faţă are ca scop studiul modalităţilor de procesare a vorbirii şi 

realizarea de cercetări în domeniul particular al sintezei de voce, având următoarele obiective: 

a) dezvoltarea unor metode automate de analiză a semnalului vocal; 

b) dezvoltarea unei metode de sinteză a vorbirii adaptată specific limbii române; 

c) dezvoltarea unei metodologii de lucru în scopul construirii unui sistem de sinteză vocală 

automată; 

d) implementarea unui prototip al unui sistem de sinteză de voce pentru limba română. 

1.2. Organizarea pe capitole a lucrării 

Capitolul 1 reprezintă o introducere în domeniul tezei de doctorat. La început este 

prezentată problematica sintezei de voce la modul general. Apoi se arată oportunitatea temei 

alese, ţinându-se cont în primul rând de stadiul actual al cercetării în domeniul prelucrării 

vorbirii şi sintezei de voce. Sunt arătate totodată principalele contribuţii şi realizări ale tezei. 

Capitolul 2 expune modalitatea producerii şi percepţiei vorbirii umane, fiind prezentat 

modelul producerii vorbirii. Se face o clasificare a sunetelor produse de vocea umană şi sunt 

prezentate proprietăţile acustice ale sunetului. 

Capitolul 3 face o introducere în domeniul procesării semnalului vocal, arătându-se mai 

întâi specificul operaţiilor de prelucrare şi analiză a semnalului vocal. Sunt prezentate apoi 

principalele metode de procesare a semnalului vocal, metodele de codare, metodele şi 

standardele de compresie a semnalului vocal. 

Se prezintă în continuare contribuţiile autorului în domeniul procesării semnalului vocal: 

aplicaţia de prelucrare digitală a semnalului vocal SPEA ( Sound Processing and Enhancement 

Application), precum şi experimentele realizate asupra unor eşantioane reale de semnal audio şi 

vocal prin intermediul acestei aplicaţii. 

Capitolul 4 prezintă domeniul analizei de semnal: parametrii de bază ai semnalului vocal 

şi modalităţile de analiză efectuate în scopul determinării parametrilor acestuia: modul de analiză 

în domeniul timp şi modul de analiză în domeniul frecvenţă. Pentru fiecare modalitate sunt 

prezentate metodele de determinare a parametrilor semnalului vocal. 

Tot în cadrul domeniului analizei de semnal sunt prezentate principiile detectării 

segmentelor cu proprietăţi specifice din semnalul vocal, cerinţele pe care trebuie să le 

îndeplinească algoritmii de segmentare, modalităţile şi etapele detectării segmentelor semnalului 

vocal. A fost prezentată din literatura de specialitate o metodă generică pentru segmentarea în 

domeniul timp, capabilă să detecteze diferite categorii de segmente din semnalul vocal. 

Sunt prezentate în continuare contribuţiile aduse de autor în procesul segmentării 

automate a semnalului vocal, respectiv metoda proprie de segmentare în domeniul timp. Sunt 

evidenţiate etapele algoritmului de segmentare precum şi rezultatele obţinute: detectarea a patru 

categorii fundamentale de semnal şi a zece clase de regiuni. ... 

1

2 

Cap. 1. Introducere 

Se prezintă apoi principiile procesului de segmentare fonematică, de asociere a 

segmentelor semnalului vocal cu secvenţele de foneme corespunzând semanticii (reprezentării 

textuale) a semnalului vorbit. Au fost expuse trei metode principale de segmentare fonematică, 

extrase din literatura de specialitate. 

Sunt prezentate şi contribuţiile autorului în problematica segmentării fonematice a 

semnalului vocal, respectiv metoda de segmentare fonematică bazată pe reguli de asociere 

foneme-regiuni. S-au explicat paşii metodei, setul de reguli folosit, s-au prezentat rezultatele şi 

avantajele metodei. Au fost arătate aplicaţiile metodei de segmentare fonematică în procesul de 

construire a bazelor de date vocale. 

Capitolul 5 a fost dedicat prezentării domeniului sintezei vorbirii; a fost expus modelul 

general al sintezei vorbirii, sistemul de sinteză text-to-speech, precum şi metodele de bază 

folosite în sinteza text-to-speech. Au fost descrise etapele procesului sintezei vocale pornind de 

la text. 

Capitolul 6 prezintă metodele existente de sinteză a vorbirii, atât în domeniul frecvenţă 

cât şi în domeniul timp. Dintre metodele de sinteză în domeniul frecvenţă au fost expuse metoda 

formantică şi metoda LPC ( Linear Predictive Coding), iar în cadrul metodelor de sinteză în 

domeniul timp au fost detaliate metoda TD-PSOLA (Time Domain Pitch Synchronous Overlapp 

and Add) şi metoda de sinteză bazată pe corpus. 

Ca şi contribuţie în domeniul proiectării metodelor de sinteză vocală, s-a prezentat 

metoda de sinteză vocală pe bază de silabe pentru limba română. Metoda cuprinde următoarele 

etape: preprocesarea textului, analiza de sintaxă, determinarea unităţilor lingvistice de tipul 

silabelor, determinarea prozodiei intra-segmentale (accentuaţia), regăsirea unităţilor acustice din 

baza de date vocală, concatenarea unităţilor acustice şi sinteza propriu-zisă a rostirii. 

A fost descris setul de reguli pentru preprocesarea textului sursă. S-a prezentat apoi 

metoda de analiză de sintaxă şi setul de reguli pentru analiza formelor flexionate din limba 

română. Este prezentat analizorul lexical pentru despărţirea cuvintelor în silabe, precum şi setul 

de reguli utilizat în detectarea silabelor. Se expune apoi modul de determinare a aspectelor 

prozodice segmentale, prezentându-se analizorul lexical utilizat în determinarea accentelor şi 

setul de reguli asociat. 

În continuare se descrie structura şi modul de organizare a bazei de date vocale. Baza de 

date este alcătuită dintr-un subset al silabelor limbii române, subset alcătuit pe baza frecvenţelor 

de apariţie ale silabelor în limba română vorbită. Pentru a determina aceste frecvenţe de apariţie, 

a fost realizată o statistică utilizând un corpus de texte conţinând peste 300000 de cuvinte. 

Este prezentată apoi modalitatea de regăsire a unităţilor acustice din baza de date vocală. 

Căutarea în baza de date se face după lungimea silabei, contextul median sau final în cadrul 

cuvântului şi accentuare. A fost expus în continuare modul de concatenare a unităţilor acustice 

pentru a forma semnalul de ieşire, precum şi modul de realizare a sintezei de voce. 

Capitolul 7 prezintă sistemul de sinteză de voce în limba română LIGHTVOX, sistem 

care implementează metoda de sinteză pe bază de silabe dezvoltată de autor. S-au descris 

organizarea pe module a sistemului, etapele de proiectare, precum şi paşii care au fost realizaţi la 

fiecare etapă. Este detaliat modul de construire a bazei de date vocale şi se prezintă algoritmul de 

implementare al procesului de conversie text-voce. În finalul capitolului sunt arătate rezultatele 

obţinute cu sistemul de sinteză vocală, aplicaţiile şi dezvoltările de viitor.

3 


Capitolul 8 prezintă concluziile finale, sinteza cercetărilor efectuate în cadrul tezei şi sunt 

detaliate contribuţiile aduse de autor la dezvoltarea domeniului de cercetare. 

În continuare este prezentată bibliografia selectată de autor ce include titlurile citate. 

Anexa 1 prezintă notaţiile folosite în cadrul gramaticii LEX pentru construirea 

analizoarelor lexicale. Anexele 2, 3 şi 4 prezintă seturile de silabe alcătuite din două, trei şi 

respectiv patru foneme, obţinute pe baza statisticii realizate de către autor asupra frecvenţelor de 

apariţie a silabelor în limba română. Anexa 5 prezintă activitatea ştiinţifică a autorului, lucrările 

ştiinţifice şi proiectele de cercetare la care a participat, iar în anexa 6 sunt prezentate în extenso 

două articole publicate de autor în reviste recunoscute pe plan internaţional. 

1.3. Problematica sintezei de voce 

Odată cu dezvoltarea tot mai accentuată a tehnologiilor şi sistemelor informatice s-a pus 

problema comunicării cât mai naturale dintre om şi calculator. Comunicarea pe bază de voce, 

atât de obişnuită omului, s-a dovedit a fi o sarcină dificil de realizat pentru sistemul automat. 

Interacţiunea pe bază de voce presupune mai multe etape: recunoaşterea cuvintelor pe 

care le rosteşte interlocutorul, recunoaşterea semanticii vorbirii sau a informaţiei transmise, 

procesarea informaţiei, elaborarea unui răspuns şi conversia acestuia din nou în formă vocală. 

Sinteza automată de voce constituie o etapă distinctă a acestui proces de interacţiune 

vocală cu utilizatorul uman. Sinteza vorbirii porneşte de la un text (răspunsul care trebuie rostit), 

îl descompune în unităţi lingvistice de bază (foneme sau grupuri de foneme), generează 

parametrii acustici corespunzători fiecărei unităţi lingvistice, şi apoi foloseşte aceşti parametrii 

pentru comanda procesorului audio ce va genera secvenţa acustică dorită. Cu cât parametrii 

acustici generaţi de calculator sunt mai apropiaţi de parametrii rostirii umane, cu atât vorbirea 

sintetizată va fi mai naturală, mai plăcută interlocutorului şi mai uşor de înţeles. 

În continuare se pune problema găsirii unor metode de generare a parametrilor astfel 

încât pe de o parte aceste metode să asigure complexitatea generării unor parametrii apropiaţi de 

vorbirea umană reală, şi pe de altă parte să fie suficient de versatile pentru a permite modularea 

intonaţiei vorbirii prin modificarea parametrilor acustici. 

Aceste două caracteristici: claritatea rostirii şi realizarea intonaţiei definesc indicatorii de 

calitate ai vorbirii produse prin sinteză. Diferite abordări ale procesului de sinteză a semnalului 

vocal, atât în domeniul frecvenţei, cât şi în domeniul timp, au urmărit aducerea celor doi 

indicatori la valori cât mai ridicate. Acesta este şi scopul cercetărilor în domeniul producerii 

vorbirii la ora actuală. 

1.4. Oportunitatea temei alese 

În decursul timpului au fost proiectate mai multe metode pentru generarea parametrilor 

acustici necesari pentru sinteză. În ultimii ani s-a dovedit că metodele cu cele mai bune rezultate 

sunt cele care memorează forma de undă reală, rostită de un vorbitor uman, pentru fiecare unitate 

lingvistică în parte. Aceste metode realizează sinteza vorbirii prin concatenarea unităţilor 

acustice memorate într-o bază de date vocală.

4 


Autorul tezei a mers pe această linie a realizării unei sinteze de voce care să respecte 

parametrii de calitate ai vorbirii naturale. A fost proiectată în acest sens o metodă de sinteză a 

vorbirii pentru limba română şi s-a indicat o metodologie de lucru pentru realizarea unui sistem 

de sinteză vocală automată. 

Utilizând ca unităţi lingvistice silabele, metoda de sinteză proiectată se integrează în 

categoria metodelor de calitate superioară, bazate pe concatenare. Metoda este adaptată specific 

limbii române, şi propune ca noutate o abordare bazată pe reguli atât în faza de procesare a 

textului, de extragere a unităţilor lingvistice şi informaţiilor prozodice, cât şi în faza de construire 

a bazei de date vocale prin extragerea unităţilor acustice din semnalul vorbit. 

De asemeni, cercetările efectuate de autor în cadrul tezei curente oferă posibilitatea 

construirii unui sistem performant de sinteză vocală folosind anumite procedee specifice 

inteligenţei artificiale şi lingvisticii computaţionale. 

Pe plan internaţional există mai multe abordări ale metodei de sinteză vocală bazate pe 

silabe. În Europa, au fost elaborate astfel de sisteme în ţări precum Marea Britanie [Lew99], 

Rusia [Kri97], Cehia [Kop97], Macedonia [Jos97], iar în Asia au fost realizate sintetizoare 

bazate pe silabe pentru limbi vorbite de sute de milioane de persoane: limba chineză [Men02], 

mai multe dialecte indiene [Nag05], limba Malay - vorbită în Malaysia, Indonesia, Thailanda 

[Sam04]. Rezultatele obţinute cu aceste sintetizoare evidenţiază o calitate înaltă a vorbirii 

generate, situată aproape de parametrii naturali, chiar dacă aceste sisteme nu beneficiază de 

bazele de date de mari dimensiuni ale sistemelor bazate pe corpus. 

La noi în ţară există puţine abordări ale acestei metode ([Bur97], [Moi08]). Aceste 

abordări nu utilizează însă reguli de producţie pentru determinarea unităţilor lingvistice, 

unităţilor acustice şi informaţiilor prozodice. Nu ştim dacă sau în ce măsură ele folosesc 

informaţiile prozodice precum accentuarea cuvintelor sau intonaţia la nivel propoziţional. 

În acest context, considerăm utilă abordarea tematicii alese de autor, care acoperă o 

anumită lacună existentă la nivelul proiectării sistemelor de sinteză vocală de la noi din ţară, 

oferind în plus noi perspective de dezvoltare a domeniului, prin îmbinarea unor procedee 

specifice inteligenţei artificiale bazate pe seturi de cunoştinţe şi reguli. 

1.5. Principalele contribuţii şi realizări ale tezei 

În primul rând este de menţionat caracterul interdisciplinar al tezei, cercetările efectuate 

acoperind următoarele domenii : 

1. Fonetică şi lingvistică, în ceea ce priveşte analiza alcătuirii fonetice şi sintactice a 

cuvintelor din limba română. 

2. Inteligenţă artificială, în ceea ce priveşte crearea unor metode automate bazate pe 

reguli pentru separarea unităţilor lingvistice din text, respectiv a unităţilor acustice din semnalul 

vocal. 

3. Procesarea vorbirii, cu cele patru ramuri ale sale: 

a) procesarea semnalului vocal, în ceea ce priveşte realizarea unor metode de 

îmbunătăţire a calităţii semnalului vocal; 

b) analiza semnalului vocal, în ceea ce priveşte detectarea unor regiuni cu proprietăţi 

distincte, semnificative din punct de vedere al rostirii, din semnalul vocal;

5 


c) recunoaşterea vorbirii, în ceea ce priveşte realizarea unor metode de detectare 

automată a secvenţelor fonematice dintr-un semnal vocal cunoscut; 

d) sinteza de voce, ca domeniu şi obiectiv în care se încadrează cercetările şi metodele 

specifice dezvoltate de autor în cadrul tezei. 

Principalele realizări şi contribuţii ale tezei în cadrul domeniilor amintite se referă la: 

1. Realizarea unui studiu asupra modului de producere şi percepţie a sunetului. 

2. Realizarea unui studiu sintetic asupra metodelor de procesare, codare şi compresie a 

semnalului vocal. 

3. Dezvoltarea unei aplicaţii de prelucrare digitală a semnalului vocal numită SPEA (Sound 

Processing and Enhancement Application). 

4. Efectuarea unor experimente asupra unor eşantioane reale de semnal audio şi vocal, în 

scopul determinării parametrilor cu influenţă directă asupra calităţii acustice a semnalului. 

5. Realizarea unui studiu sintetic asupra metodelor de analiză în domeniul timp şi în 

domeniul frecvenţă a semnalului vocal. 

6. Realizarea unui studiu asupra modalităţilor de segmentare şi clasificare a semnalului vocal. 

7. Dezvoltarea unei metode proprii de segmentare a semnalului vocal în regiuni, capabilă să 

detecteze 4 categorii fundamentale de semnal şi 10 clase de regiuni. 

8. Dezvoltarea unei metode pentru determinarea perioadelor din forma de undă a semnalului 

vocal. 

9. Dezvoltarea a trei metode distincte pentru segmentarea fonematică a semnalului vocal prin 

analiza regiunilor detectate din semnal. 

10. Realizarea unui studiu asupra modalităţilor de sinteză de voce pornind de la un text. 

11. Realizarea unui studiu asupra metodelor existente de sinteză vocală. 

12. Dezvoltarea unei metode de sinteză vocală pe bază de silabe pentru limba română. În 

cadrul metodei au fost stabilite reguli lingvistice pentru faza de analiză a textului şi reguli 

de îmbinare a formelor de undă în faza de sinteză. 

13. Structurarea unei metodologii de proiectare a unui sistem de sinteză de voce de tip text- 

to-speech şi realizarea sistemului de sinteză pentru limba română LIGHTVOX. 

14. Crearea unei baze de date vocale ce foloseşte ca unităţi acustice silabele. Baza de date 

conţine 600 de silabe înregistrate în diferite contexte şi moduri de pronunţie.

2. Modalitatea producerii vorbirii 

2.1. Mecanismul producerii vorbirii 

Vorbirea reprezintă posibilitatea de a comunica gândul printr-un sistem de sunete 

articulate şi reprezintă un mod de comunicare specific oamenilor, care sunt singurele fiinţe care 

utilizează un astfel de sistem structurat. 

Informaţia asociată unui mesaj vorbit este purtată de undele sonore. Undele sonore sunt 

variaţii ale presiunii aerului generate de către sistemul fonator uman. Ele sunt receptate de către 

ureche, şi apoi transmise la creier, care le va interpreta. 

Un mesaj vocal constă din compunerea unor entităţi sonore de bază numite foneme. 

Acestea, prin asociere, vor forma cuvinte şi apoi structuri semantice mai complexe, numite 

propoziţii. 

Semnalul vocal (unda acustică vocală) este generat prin mişcarea voluntară a elementelor 

anatomice constituente ale sistemului fonator. Aceste elemente fonatorii se înşiră de-a lungul 

tractului vocal, determinând caracteristicile acestuia. Tractul vocal este un tub acustic neuniform 

care se întinde începând de la glotă (deschizătura aferentă corzilor vocale) până la buze. Structura 

rezonatorie a tractului vocal se modifică în procesul fonaţiei, în principal datorită variaţiei poziţiei 

buzelor, maxilarelor, limbii şi a vălului palatin [Nav05]. 

Sunetele sonore se produc prin deschiderea şi 

închiderea periodică a corzilor vocale. Vibraţia corzilor 

vocale este cea care produce frecvenţa fundamentală a 

sunetului emis (figura 2.1). 

În generarea sunetelor nazale, vălul palatin, care 

separă tractul vocal de cavitatea nazală, va acţiona ca un 

tub acustic adiţional. Vorbirea şoptită şi sunetele nesonore 

(consoanele) sunt generate prin trecerea liberă a fluxului de 

aer prin glotă, cu o viteză suficient de mare pentru a genera 

Figura 2.1. Corzile vocale [Nav05] un semnal de tip zgomot cu spectru larg, ce va excita 

tractul vocal. 

Sunetele fricative se produc prin contracţia (blocarea) fluxului de aer la capătul tractului 

vocal, prin intermediul limbii şi al buzelor. 

2.2. Rezonanţa tractului vocal 

Sundberg [Sun77] a modelat tractul vocal ca un tub acustic închis, arătând că primele trei 

frecvenţe de rezonanţă care apar în spectrul sunetelor vocale corespund cu armonicile 1, 3 şi 5 ale 

tractului vocal. Aceste frecvenţe vor fi apoi modulate de cavităţile de rezonanţă ale tractului vocal 

(cavitatea nazală şi cea orală) şi de către elementele vocale articulatorii: limba, vălul palatin şi 

maxilarul. 

6

Primele trei frecvenţe de 

rezonanţă ale unui tub închis 

S4 

S3 

S2 

Cavitatea 

nazală 

Gi 

Signal 

Rules 

Text 

… 

… 

REGN i 

REG2 i 

… 

REG1 i 

Cavitatea 

bucală 

Corzile 

vocale 

Rn: Gn 

 

Cond_Re 

Figura 2.2. Frecvenţele de rezonanţă ale tractului vocal [Nav05] 

7 

Cap. 2. Modalitatea producerii vorbirii 

Lungimea tipică a tractului vocal este Cond_Re de 17-18 cm. Aceasta implică o frecvenţă 

gi 

fundamentală de 500 Hz, dacă se consideră cazul R1: G1 unui tub acustic închis. Frecvenţele rezonatorii 

 

(formanţii) vor fi atunci de 500, 1500, respectiv Cond_Re 2500 Hz, ceea ce corespunde cu frecvenţele 

g1 

observate experimental. Totuşi, elementele articulatorii vor produce diferenţe semnificative faţă 

… 

de aceste valori, în procesul de rostire a sunetelor vocalice. 

… 

2.3. Elementele vocale articulatorii 

gn 

Ri: Gi 

… 

… 

Spectrul semnalului 

vocal 

Rezonanţa tractului vocal 

Frecvenţa 

Spectrul sunetului 

produs de corzile 

vocale 

Pentru a produce sunete sonore distincte, cum ar fi 

Fk 

vocalele, mecanismul producerii vocii trebuie să controleze 

rezonanţele tractului vocal, care vor genera frecvenţele 

specifice (formanţii) sunetului emis. Dacă tractul vocal este 

Poziţia vălului 

considerat ca o cavitate rezonantă, atunci se poate vedea că 

palatin 

poziţia limbii, aria deschiderii gurii, poziţia vălului palatin 

vor modifica volumul cavităţii rezonante şi implicit 

Poziţia şi 

formanţii sunetului rezultat (figura 2.3). 

forma limbii 

Articularea vocii poate fi privită ca schimbarea 

rezonanţei tractului vocal, iar agenţii acestei modificări sunt 

Poziţia 

maxilarului numiţi articulatori. 

Elementele producerii vorbirii, incluzând articula- 

Figura 2.3. Elementele vocale torii, sunt prezentate în figura 2.4. Elementele articulatorii 

articulatorii [Nav05] 

schimbă parametrii de bază ai cavităţii tractului vocal, 

generând sunete diferite. 

Astfel articularea vocii va produce sunete precum vocale, diftongi, semivocale şi sunete 

nazale. Aşa cum am văzut, aceste sunete pot fi considerate ca modificări ale frecvenţelor de 

rezonanţă ale tractului vocal, ce pot fi modelate ca o filtrare specifică a spectrului acustic 

corespunzător tractului vocal. Majoritatea sunetelor sonore (precum vocalele) rezonează în 

cavităţile faringială şi orală, iar sunetele nazale (/m/, /n/) în cavitatea nazală. 

i 

… 

F2 i 

F1 i 

CLASS 

CATEG 

ORY 

VP 

VG 

C 

HD 

IR 

T 

VJ 

S 

US 

V 

U 

T 

V 

S 

Region 

, i = 

s,… , 

s+n 

, 

j 

= 

i

Faringe 

nazal 

Vălul 

palatin 

Faringe 

oral 

Epiglotă 

Faringe 

Laringe 

Cavitatea 

nazală 

Limbă 

Esofag Corzile vocale 

Trahee 

2.4. Formarea sunetelor 

8 


Mecanismul producerii vorbirii implică 

următoarele elemente: 

(1) plămânii şi diafragma, care generează 

energia necesară (presiunea aerului), 

(2) corzile vocale, care sunt puse în vibraţie de 

circulaţia aerului şi care vor determina frecvenţa de 

bază a sunetului, 

(3) laringele, faringele, epiglota, faringele oral, 

vălul palatin, faringele nazal, cavitatea nazală şi 

limba, elemente care modulează într-un mod specific 

fluxul de aer emis. 

Figura 2.4. Elementele producerii vorbirii [Nav05] 

Aşa cum s-a arătat anterior, sunetele sonore - precum vocalele - sunt formate prin 

modificarea frecvenţelor de rezonanţă ale tractului vocal prin intermediul articulatorilor. În 

figura următoare sunt ilustrate câteva exemple referitor la producerea sunetelor vocalice /A/, /I/, 

/U/, precum şi spectrele asociate. Vârfurile spectrale corespund formanţilor (figura 2.5). 

vocala [ A ] 

vocala [ I ] 

vocala [ U ] 

Figura 2.5. Formarea sunetelor vocalice ([Fan60], [Ben76]) 

Figurile din stânga corespund modului de articulare asociat rostirii celor trei vocale /A/, 

/I/, /U/, şi au fost adaptate după lucrarea lui Gunnar Fant "Acoustic theory of speech production" 

[Fan60]. Imaginile au fost produse prin înregistrarea structurii faciale cu raze X în timpul vorbirii. 

Figurile din dreapta prezintă diferenţele ce apar în configuraţia formanţilor vocalelor. 

În procesul receptării sunetelor, urechea internă va acţiona ca un analizor spectral şi va 

distinge cele trei tipuri de vocale pe baza diferenţelor dintre formanţi. Datorită originii lor 

(frecvenţele de rezonanţă ale tractului vocal), formanţii tind să rămână aceiaşi la diferite tonalităţi 

ale vocii – când frecvenţa fundamentală a sunetului se modifică [Nav05].

9 


Formanţii ce apar în sunetul vocii sunt foarte importanţi deoarece ei sunt componentele 

esenţiale care dau inteligibilitatea vocii. Astfel, faptul că noi distingem sunetele vocalice între ele 

se datorează diferenţelor în valoarea frecvenţelor primilor trei formanţi ai vocalelor. Pentru o voce 

masculină, respectiv feminină, primii formanţi se găsesc într-o plajă de frecvenţe ce se poate 

determina experimental. De exemplu, pentru o voce masculină care rosteşte vocala /A/, plajele de 

frecvenţe sunt următoarele: 

formantul 1: 150-850 Hz 




Figura 2.6. Fomanţii vocalei /A/ [Nav05] 

Frecvenţa formanţilor este determinată de procesul articulării vorbirii. Deschiderea 

maxilarului, care contractă tractul vocal în porţiunea glotală şi îl dilată în zona vârfului limbii, are 

un rol preponderent în stabilirea valorii primului formant. Frecvenţa primului formant creşte pe 

măsură ce creşte deschiderea maxilarului. Formantul al doilea depinde de forma şi structura 

anatomică a limbii, iar cel de-al treilea formant de poziţia vârfului limbii. 

2.5. Auzul uman şi percepţia sunetelor 

Auzul uman este bazat pe un organ de simţ extrem de complex, urechea, care este alcătuită 

din trei componente: urechea externă, urechea mijlocie şi cea internă. 

Urechea externă este alcătuită din două părţi: lobul vizibil şi cartilajul ataşat de cap, şi 

canalul auditiv - un tub cu un diametru de aproximativ 0.5 cm şi care pătrunde în interiorul 

capului aproximativ 3 cm. Aceste structuri direcţionează sunetele înconjurătoare la organele 

sensibile ale urechii mijlocii şi interne care sunt situate în sigurantă în interiorul craniului. Spre 

capătul canalului auditiv se întinde o membrană fină numită membrană timpanică sau timpan, 

care vibrează la impactul sunetelor [Nav05]. 

Canalul 

auditiv 

Urechea 

medie 

Timpanul 

Trompa lui 

Eustache 

Canalele 

semicirculare 

Figura 2.7. Structura urechii umane [Nav05] 

vocala [ A ] 

Nervul auditiv 

Cohlea

10 


Urechea mijlocie este formată dintr-un set de oase care transferă această vibraţie înspre 

urechea internă (cochlea), unde este transformată în impulsuri nervoase. Urechea internă este un 

tub umplut cu lichid cu un diametru de 2 mm şi o lungime de 3 mm. Prezentată secţional în 

figura 2.8., urechea internă este curbată şi se aseamănă cu cochilia de melc. De altfel, cochlea 

derivă din cuvântul grecesc melc. Când un sunet încearcă să treacă din aer în lichid, doar o mică 

parte a sunetului trece prin suprafaţa de contact, în timp ce restul este reflectat. Acest fapt se 

datorează impendanţei scăzute a aerului, în timp ce lichidul are o impedanţă mecanică ridicată 

[Ste97]. 

Figura 2.8. Diagrama funcţională a urechii umane [Ste97] 

Urechea mijlocie este un mecanism de adaptare a impedanţei care amplifică energia 

sonoră a sunetului ce pătrunde în urechea interioară. Adaptarea are loc în zona dintre timpan 

(care recepţionează sunetul din aer) şi fereastra ovală (care transmite sunetul în lichid, vezi 

figura). Timpanul are o arie de aproximativ 60 mm 2 , în timp ce fereastra ovală are o arie de 4 

mm 2 . Ţinând cont că presiunea reprezintă forţa pe unitatea de suprafaţă, această diferenţă de arie 

măreşte intensitatea sunetului de aproximativ 15 ori. 

Urechea internă conţine membrana basilară, o structură ce susţine aproximativ 12000 de 

celule senzitive care formează nervul intern (cohlear). Această membrană este rigidă in 

apropierea ferestrei ovale, şi devine mai flexibilă înspre capătul opus, permiţându-i să 

funcţioneze ca un spectru de analiză a frecvenţei. 

În cazul în care este expusă la un semnal cu frecvenţă ridicată, membrana vibrează în 

zona rigidă rezultând excitarea celulelor nervoase din apropierea ferestrei ovale. În acelaşi mod, 

sunetele cu o frecvenţă scăzută excită celulele nervoase din capătul îndepărtat al membranei 

basiliare, ceea ce face ca fibre specifice ale nervului cohlear să răspundă unor frecvenţe specifice. 

Această organizare este numită principiul poziţiei şi se menţine de-a lungul căii auditive în creier 

(figura 2.9). 

Urechea 

externă Canalul 

auditiv 

Membrana timpanului 

Fereastra 

ovală 

Oasele 

urechii mijlocii 

Unde sonore 

Frecvenţe 

înalte 

Cohlea 

Frecvenţe 

medii 

Membrana bazilară 

Frecvenţe 

mici

Figura 2.9. Cohlea şi ilustrarea principiului poziţiei [Ste97] 

11 


O altă schemă de codare a informaţiei este folosită în auzul uman, schemă numită 

principiul reacţiunii. Celulele nervoase transmit informaţia prin generarea unor pulsuri electrice 

scurte numite potenţiale de acţiune. O celulă nervoasă a membranei basiliare poate coda 

informaţia audio prin producerea unui potenţial de acţiune ca răspuns la fiecare ciclu al vibraţiei. 

De exemplu, un sunet de 200 Hz poate fi reprezentat de un neuron ce produce 200 de impulsuri pe 

secundă. Totuşi, acest proces funcţionează doar pentru frecvenţe sub 500 Hz, rata maximă de 

producere a impulsurilor nervoase de către neuroni. Urechea umană permite în schimb 

funcţionarea corelată a unui grup de celule nervoase. De exemplu un ton de 3000 Hz poate fi 

reprezentat de zece celule nervoase şi care acţionează alternativ de 300 de ori pe secundă. Ceea ce 

extinde principiul reacţiunii până la aproximativ 4 kHz, valoare deasupra căreia este folosit doar 

principiul poziţiei. 

Tabelul 2.1 evidenţiază relaţia dintre amplitudinea sunetului şi intensitatea percepută a 

sunetului (loudness). Este uzuală exprimarea intensităţii sunetului pe o scară logaritmică numită 

SPL (Sound Power Level -nivelul puterii sonore). Pe această scală, 0 dB SPL este un sunet cu o 

putere de 10 -16 watt/cm 2 , aproximativ cel mai slab sunet detectabil de urechea umană. Vorbirea 

normală este la aproximativ 60 dB SPL, în timp ce urechea este lezată la aproximativ 140 dB 

SPL. 

Tabelul 2.1. Relaţia dintre sunetele percepute şi nivelul în decibeli [Ste97] 

Watt/cm 2 Decibeli 

SPL 

10 -2 

10 -3 

10 -4 

10 -5 

10 -6 

10 -7 

10 -8 

10 -9 

10 -10 

10 -11 

10 -12 

10 -13 

10 -14 

10 -15 

10 -16 

10 -17 

10 -18 

140 dB 

130 dB 

120 dB 

110 dB 

100 dB 

90 dB 

80 dB 

70 dB 

60 dB 

50 dB 

40 dB 

30 dB 

20 dB 

10 dB 

0 dB 

-10 dB 

-20 dB 

Frecvenţe înalte Frecvenţe joase 

Intensitatea sonoră 

Durere 

Disconfort 

Concerte rock 

Zgomot industrial 

Conversaţie normală 

Cel mai slab audibil la 100 herţi 

Cel mai slab audibil la 10 kHz 

Cel mai slab audibil la 3 kHz

12 


Diferenţa dintre cel mai slab dar audibil sunet şi cel mai puternic pe care fiinţa umană îl 

poate suporta este de aproximativ 120 dB, ceea ce corespunde cu o diferenţă pe scara puterilor de 

10 12 şi pe scara amplitudinilor de un milion (10 6 ). Omul poate detecta o schimbare a intensităţii 

când semnalul este modificat cu aproximativ 1 dB (o schimbare a amplitudinii de 12%). Cu alte 

cuvinte, există aproximativ 120 de nivele de intensitate ce pot fi percepute, de la cea mai mică 

şoaptă la cel mai puternic tunet. Sensibilitatea urechii este uimitoare: în momentul receptării unor 

sunete foarte slabe, timpanul vibrează mai puţin decât diametrul unei singure molecule! 

Percepţia intensităţii sunetului L poate fi asociată cu puterea sunetului P astfel [Ste97]: 

L = (P / Pref ) 1/3 

De exemplu, în cazul creşterii puterii sunetului de 10 ori, percepţia auditivă va indica o 

creştere a tăriei de aproximativ 2 ori (10 1/3 =2). Aceasta este una din marile probleme privind 

eliminarea sunetelor ambientale nedorite, de exemplu cele provenind dintr-o încăpere vecină. 

Dacă efectuăm o acoperire a peretelui cu un material izolant fonic în proporţie de 99% , lăsând 

neacoperită o zonă de 1% datorită colţurilor, uşilor, etc., chiar dacă intensitatea sunetului a fost 

redusă la doar 1% din intensitatea anterioară, intensitatea percepută a scăzut cu aproximativ 

0.01 1/3 = 0.2 sau 20% [Ste97]. 

Raza auzului uman este considerată a fi cuprinsă între 20 Hz şi 20 kHz. Omul este foarte 

receptiv la sunete având frecvenţa de 3 kHz (poate decela sunete începând cu 0 dB), dar are 

nevoie de 40 dB SPL la un sunet de 100 Hz (amplitudine de 100 de ori mai mare decât cel mai 

slab sunet perceptibil). Omul poate spune că două tonuri sunt distincte dacă frecvenţele acestora 

diferă mai mult de 0.3% (la o valoare a frecvenţei de 3 kHz) sau de 3% (la o valoare a frecvenţei 

de 100 Hz). Pentru comparaţie, clapele adiacente de la un pian diferă cu aproximativ 6% în 

frecvenţă. 

Principalul avantaj al sistemului auditiv cu două urechi este capacitatea de a identifica 

direcţia sunetului. Oamenii pot detecta diferenţa dintre două sunete plasate la trei grade diferenţă 

unul de celălalt. Informaţia direcţionată este obţinută în două moduri diferite. În primul rând, 

frecvenţele de peste 1 kHz sunt puternic umbrite de cap. Cu alte cuvinte, urechea situată mai 

aproape de sunet recepţionează un semnal mai puternic decât urechea situată în partea opusă. 

O altă modalitate de detecţie a direcţiei sunetului este prin perceperea întârziată a sunetului 

de către cele două urechi. Urechea situată în partea mai îndepărtată a capului aude sunetul uşor 

mai târziu decât urechea mai apropiată, datorită distanţei mai mari faţă de sursă. Pornind de la o 

mărime tipică a capului (aproximativ 22 cm) şi viteza sunetului (aproximativ 340 m/s), o diferenţă 

unghiulară de trei grade necesită o precizie temporală de aproximativ 30 microsecunde. Acest 

timp de răspuns necesită principiul reacţiunii pentru sunete sub 1 kHz. 

Decelarea informaţiei direcţionale e îmbunătăţită de întoarcerea capului şi observarea 

schimbării survenite în semnal. O senzaţie aparte are loc când un ascultător aude exact acelaşi 

sunet în ambele urechi; senzaţia se aseamănă ascultării sunetului monofonic prin căşti. Concluzia 

creierului va fi că sunetul provine din centrul capului ascultătorului. 

Chiar dacă auzul uman poate determina direcţia de unde provine un sunet, acesta nu poate 

identifica perfect distanţa pană la sursa sunetului şi aceasta datorită faptului că există puţine 

indicii disponibile într-un sunet care să furnizeze informaţia de distanţă. Auzul uman percepe 

(2.1)

13 


existenţa sunetelor cu frecvenţă ridicată în apropiere, în timp ce sunetele cu frecvenţă joasă par a 

se afla în depărtare. Aceasta se datorează faptului că sunetele îşi disipă componentele de frecvenţă 

pe măsură ce se propagă pe distanţe lungi. 

Ecoul sunetului este un alt indiciu al distanţei de percepţie. De exemplu, sunetele dintr-o 

încăpere mare vor avea ecou după un interval de aproximativ 100 milisecunde, în timp ce într-un 

birou mic răspunsul ecoului este de 10 milisecunde. Ecoul este folosit şi de către unele specii de 

animale pentru localizare şi orientare spaţială. De exemplu, liliecii şi delfinii produc zgomote ce 

se reflectă de obiectele din apropiere; măsurând intervalul dintre transmisie şi ecou, aceste 

animale pot localiza obiecte cu o precizie de aproximativ 1 cm. La fiinţa umană, experimentele au 

arătat că în special orbii pot folosi într-o anumită măsură localizarea prin ecou. 

2.6. Proprietăţile acustice ale sunetului 

Perceperea unui sunet continuu, cum ar fi o rostire vocală sau o notă emisă de un 

instrument muzical, este influenţată de trei factori predominanţi: volumul, înălţimea şi timbrul. 

Volumul este o măsură a intensităţii sunetului. Înălţimea este frecvenţa componentei 

fundamentale a sunetului, adică frecvenţa cu care se repetă forma sunetului. Timbrul este 

determinat de conţinutul armonic al semnalului. Figura 2.10-a ilustrează o formă de undă 

compusă dintr-o undă sinusoidală cu frecvenţa de 1 kHz, având amplitudinea 1, şi o undă 

sinusoidală cu frecvenţa de 3 kHz, de amplitudine 0,5. Forma de undă din figura 2.10-b este 

obţinută prin diferenţa celor două unde. 

a. 1kHz + 3kHz 

b. 1kHz - 3kHz 

Timp (milisecunde) Timp (milisecunde) 

Figura 2.10. Undă compusă din două armonici: a. prin adunare; b. prin scădere [Ste97] 

Observaţia interesantă legată de aceste două forme de undă este aceea că ele vor fi 

percepute identic de către un ascultător uman. Aceasta deoarece auzul se bazează pe amplitudinea 

componentelor, şi mai puţin pe fazele acestora. Astfel forma undelor este indirect asociată cu 

auzul şi este mai puţin luată în considerare în sistemele de procesare audio. 

Insensibilitatea urechii la faza semnalului sonor poate fi înţeleasă prin examinarea 

modului în care sunetul se propagă în mediu. De exemplu într-un mediu restrâns cum ar fi o 

cameră, majoritatea sunetelor sunt reflectate de tavan, podea, pereţi. Ţinând cont că propagarea 

sunetului depinde de frecvenţă (atenuare, rezonanţă, reflexie), diferi te frecvenţe vor ajunge la 

ureche pe diferite căi, ceea ce înseamnă că faza fiecărei frecvenţe se va schimba pe măsură ce

14 


persoana se mişcă în încăpere. Cum urechea ignoră diferenţa de fază, vocea va fi percepută ca 

neschimbată, chiar dacă ascultătorul îşi schimbă poziţia. Din punct de vedere fizic, faza 

semnalului audio devine aleatoare pe măsură ce se propagă printr-un mediu complex [Ste97]. 

Totuşi nu se poate spune că urechea este în totalitate insensibilă la fază, şi asta deoarece o 

schimbare de fază poate rearanja desfăşurarea în timp a unui semnal audio. 

Forma de undă a sunetului viorii apare ca un dinte de fierăstrău (figu ra 2.11-a, pentru 

sunetul DO). Figura 2.11-b arată cum este perceput sunetul viorii de către ureche, şi anume ca o 

frecvenţă de bază de 220 Hz, plus armonicile de 440, 660, 880 Hz, etc. Dacă aceeaşi notă ar fi 

interpretată pe alt instrument, forma de undă ar arăta altfel, totuşi, urechea ar auzi o aceeaşi 

frecvenţă de 220 Hz plus armonicile corespondente. 

Astfel, cele două instrumente vor produce aceeaşi frecvenţă fundamentală pentru o 

anumită notă, rezultând un sunet de aceeaşi tonalitate (înălţime). Totuşi, ţinând cont că 

amplitudinea relativă a armonicilor este diferită, cele două sunete nu vor fi identice, ci vor avea un 

timbru diferit [Ste97]. 

a. Forma de undă b. Frecvenţele din spectru 

Frecvenţa fundamentală 

Armonicile 

Timp (milisecunde) Frecvenţă (Herzi) 

Figura 2.11. a. Forma de undă a sunetului viorii; b. Perceperea sunetului de către ureche 

Perceperea timbrului rezultă din detectarea de către ureche a armonicilor sunetului. Relaţia 

dintre forma de undă a sunetului şi armonicile sale nu este biunivocă. Astfel, deşi unui sunet de o 

anumită formă îi corespunde un singur spectru de armonici, un acelaşi spectru poate corespunde 

mai multor forme de undă, şi aceasta datorită fazelor diferite ale componentelor din spectru. 

Urechea este foarte sensibilă la perceperea armonicilor unui anumit sunet. Armonicile 

reprezintă de fapt componentele sunetului având frecvenţe dispuse ca multiplii întregi ai 

frecvenţei fundamentale. De exemplu, un sunet generat ca o combinaţie între două componente de 

1 kHz , respectiv 3 kHz, va fi perceput ca un sunet natural şi plăcut, dar nu acelaşi lucru se va 

putea spune despre combinaţia dintre două componente de 1 kHz şi 3,1 kHz [Ste97].

2.7. Modelul producerii vorbirii 

15 


Tehnicile care au ca scop sinteza sau recunoaşterea vorbirii au la bază modelul de 

producere a vorbirii umane arătat în figura 2.12. Acest model ţine cont de formarea diferită a 

sunetelor, în funcţie de modul de pronunţie. Astfel, sunetele vocii umane pot fi clasificate în două 

categorii: sunete sonore şi sunete fricative. 

Sunetele sonore se produc prin împingerea aerului din plămâni prin corzile vocale şi apoi 

pe nas şi/sau pe gură. Corzile vocale vibrează cu frecvenţe cuprinse între 50 şi 1000 Hz, fapt ce va 

avea ca efect stabilirea la această valoare a frecvenţei fundamentale a sunetului emis. Vocalele 

sunt un exemplu de sunete sonore. În figura 2.12, sunetele sonore sunt reprezentate de 

generatorul de impulsuri, cu amplitudinea reglabilă printr-un parametru de control. 

Zgomot 

alb 

Generator 

de impulsuri 

Frecvenţa fundamentală 

Sunete 

nesonore 

Sunete 

sonore 

Figura 2.12. Modelul producerii vorbirii [Ste97] 

Filtru 

digital 

Răspunsul 

tractului 

vocal 

Voce 

sintetizată 

Sunetele fricative provin din generarea unor zgomote ce intervin pe calea de evacuare a 

aerului, şi nu din vibraţii ale corzilor vocale. Aceasta se produce când circulaţia aerului este 

blocată de limbă, buze sau dinţi, aceasta având ca rezultat generarea unor turbulenţe de aer în 

apropierea locului de comprimare. Sunetele fricative includ consoane precum: /s/, /f/, /z/, /v/. În 

modelul prezentat în figura 2.12, fricativele sunt reprezentate de un generator de zgomot aleator. 

Ambele surse ale sunetelor sunt modificate de cavităţile acustice formate de limbă, buze, 

gură, gât şi pasajele nazale. Ţinând cont că propagarea sunetului prin aceste pasaje este un proces 

linear, el poate fi reprezentat ca un filtru liniar cu un răspuns la impuls ales corespunzător. De 

obicei se foloseşte un filtru recurent, ai cărui coeficienţi determină caracteristicile filtrului. 

Componenetele de frecvenţă maximă sunt numite frecvenţe formantice ale sunetului. Frecvenţele 

formantice se modifică odată cu schimbarea poziţiei limbii şi buzelor în timpul rostirii. 

După cum s-a prezentat anterior, o metodă uzuală de analiză a semnalelor foloseşte 

diagrama spectrală. Semnalul audio este împărţit în segmente scurte de aproximativ 2 până la 40 

milisecunde, iar prin transformata Fourier (FFT) se calculează spectrul corespunzător de frecvenţe 

pentru fiecare segment. Aceste spectre pot fi alăturate şi transformate într-o imagine a 

frecvenţelor componente pentru fiecare segment de timp.

16 


Sunetele vocalice sunt cvasiperiodice şi prezintă un spectru de frecvenţe format dintr-o 

serie de armonici situate la distanţă egală între ele, spre deosebire de sunetele fricative care au o 

formă de zgomot (sunt neperiodice). Figura 2.13 prezintă comparativ două spectre: unul pentru 

vocala /E/ şi celălalt pentru consoana /S/. 

Domeniul Timp – vocala /E/ Domeniul Timp – consoana /S/ 

Timp (milisecunde) Timp (milisecunde) 

Domeniul Frecvenţă – vocala /E/ Domeniul Frecvenţă – consoana /S/ 

Frecvenţă (kHz) Frecvenţă (kHz) 

Figura 2.13. Spectrograme pentru vocala /E/ şi consoana /S/ [Ste97] 

Conform modelului prezentat în figura 2.12, un semnal vocal poate fi aproximat pe fiecare 

segment temporal prin specificarea a trei parametri: 

(1) alegerea unui semnal de excitaţie (impulsuri periodice sau zgomot aleator), 

(2) frecvenţa fundamentală, şi 

(3) coeficienţii filtrului digital folosit pentru a aproxima răspunsul tractului vocal. 

Vorbirea continuă poate fi sintetizată prin generarea continuă a acestor trei parametri de 

aproximativ 40 de ori pe secundă. Calitatea sunetului acestui tip de sinteză a vorbirii nu este 

foarte ridicată din cauza aproximării semnalului vocal. Avantajul metodei este că necesită o rată 

redusă de date. Această metodă de sinteză a stat la baza codării predictive liniare LPC (Linear 

Predictive Coding). Vorbirea umană înregistrată digital este împărţită în segmente, fiecare 

segment fiind caracterizat printr-o funcţie de cei trei parametri ai modelului. Codificarea vocii 

prin această abordare asigură o rată de date de 2 până la 6 kbyte pe secundă. Segmentul de date 

este transmis sau memorat, după necesităţi, şi apoi reconstruit cu sintetizatorul de voce.

2.7.1. Semnalul de excitaţie 

17 


În cele ce urmează se prezintă tipurile de excitaţie şi efectul tractului vocal asupra formării 

semnalelor de excitaţie [Fer97]. 

2.7.1.1. Energia de excitare 

În primul rând, energia necesară pentru crearea şi menţinerea sunetului este dată de 

fluxul de aer expulzat din plămâni, creând astfel un sunet de excitare. Aerul expulzat trece 

prin trahee, iar apoi printre corzile vocale. Sunetul de excitare poate fi de trei feluri [Fer97]: 

- sonor, adică periodic (cvasiperiodic) 

- nesonor, (surd), adică aperiodic, de tip zgomot 

- mixt, conţinând atât sunet sonor cât şi zgomot în acelaşi timp. 

Un caz special de excitare este acela când nu se produce sunet (întâlnit în cazul 

fazelor mute ale aşa numitelor sunete explozive: /p/, /t/, etc). 

Excitaţia sonoră ia naştere în faringe, prin intermediul corzilor vocale. Excitaţia de 

tip zgomot poate să apară atât la nivelul corzilor vocale (acestea fiind deschise, de ex: /h/) 

cât şi la nivelul unor obstacole în calea fluxului de aer, constricţii ale cavităţii bucale ( de ex: 

/s/, /f/) . Altfel spus excitaţia sonoră este bine localizată, pe când cea nesonoră nu. 

În cazul excitării mixte, corzile vocale vor intra în oscilaţie, dar în acelaşi timp aerul 

care străbate tractul vocal întâlneşte şi obstacole în cavitatea bucală. 

La generarea sunetelor sonore, presiunea creată produce deschiderea corzilor vocale 

urmată de eliberarea instantanee a presiunii, ceea ce permite închidera corzilor. Acest ciclu 

se repetă într-un ritm dependent de presiunea aerului în trahee şi de ajustările fiziologice 

care au loc (modificarea t ensionării corzilor), acestea intrând într-o oscilaţie de relaxare, 

generând pulsuri cvasiperiodice de aer, care excită tractul vocal. Altfel spus oscilaţiile 

corzilor vocale modulează fluxul de aer expirat. Cu cât tensiunea în corzi este mai mare, cu 

atât este mai mare şi frecvenţa de oscilaţie (frecvenţa fundamentală) a sunetului sonor. 

Funcţionarea corzilor vocale este influenţată de mai mulţi factori (independenţi de 

voinţa noastră) şi anume: lungimea, masa, elasticitatea lor [Fer97]. 

În cazul producerii voluntare a sunetelor interesează următorii parametri: 

- frecvenţa de oscilaţie (având influenţă şi asupra amplitudinii oscilaţiilor) 

- intensitatea sunetului (influenţând şi spectrul armonicelor superioare).

2.7.1.2. Efectele tractului vocal 

18 


Tractul vocal, aşa cum s-a prezentat anterior, este un tub acustic neuniform ce se 

întinde de la glotă la buze iar forma acestuia variază în timp [Fer97]. 

Tractul vocal, ce cuprinde cavitatea faringiană, bucală şi cea nazală, se comportă ca 

un sistem de cavităţi rezonatoare care modifică în timpul vorbirii caracteristicile sunetului 

de excitaţie care îl traversează. În timpul generării sunetelor nazale, vălul palatin separă 

tractul vocal de cavitatea nazală, care constituie un tub acustic adiţional pentru generarea şi 

transmiterea acestor sunete nazale. 

În cazul generării sunetelor sonore excitarea este dată de vibraţiile corzilor vocale. 

Componenta spectrală cea mai joasă care coincide cu frecvenţa de oscilaţie se numeşte 

frecvenţă fundamentală. Pe lângă aceasta spectrul mai conţine armonici superioare, situate 

la multipli întregi ai frecvenţei fundamentale. Sunetul, ajungând în cavităţile rezonatoare 

superioare ale tractului vocal va fi modificat în sensul că acele armonici superioare care au 

frecvenţele apropiate de frecvenţa de rezonanţă a acestor cavităţi, vor fi amplificate, altele 

fiind atenuate [Fer97]. 

Astfel, la frecvenţele de rezonanţă ale tractului vocal vor fi scoase în evidenţă 

armonicile corespunzătoare, determinante pentru tipul sunetului emis, motiv pentru care 

aceste componente spectrale de bază sunt numite formanţi. Se observă că pornind de la 

acelaşi sunet sonor de excitaţie, prin modificarea parametrilor fizici ai tractului vocal se pot 

obţine sunete diferite (în mod caracteristic la formarea vocalelor) . 

La excitare de tip zgomot rolul tractului vocal este asemănător, diferenţa constând în 

locul unde are loc excitarea. În acest caz la formarea formanţilor participă doar acele 

porţiuni ale tractului vocal care urmează după zona unde este localizată excitaţia 

(constricţia). 

Vorbirea şoptită şi sunetele nesonore sunt generate prin trecerea liberă a fluxului de 

aer prin glotă, dar prin intermediul constricţiilor tractului vocal şi forţarea aerului prin 

acestea cu o viteză suficient de mare, pentru a se putea genera un zgomot de excitaţie de 

spectru larg. Constricţiile împreună cu vibraţia corzilor vocale produc sunetele fricative 

sonore (ex: /v/, /z/) .

3. Procesarea digitală a semnalului vocal 

Prelucrarea şi analiza semnalului vocal constituie etapele premergătoare în abordarea 

sintezei şi recunoaşterii de voce. Procesarea semnalului cuprinde toate metodele de operare 

directă asupra semnalului sonor, începând cu achiziţia semnalului, filtrarea, codarea, compresia 

şi stocarea acestuia pe suport magnetic sau optic. Analiza semnalului vocal presupune 

determinarea parametrilor acestuia pe baza eşantioanelor de vorbire înregistrate de la vorbitor, şi 

apoi compararea acestor parametrii cu valorile aşteptate. 

3.1. Metode de procesare a semnalului vocal 

Prelucrarea semnalului vocal începe cu achiziţia semnalului de la sursă: microfon, sau 

aparatură electronică de înregistrare. Achiziţia presupune conversia digitală a semnalului 

analogic şi apoi filtrarea sa pentru eliminarea zgomotelor de achiziţie. Conversia se face cu o 

frecvenţă de eşantionare de cel puţin 8 kHz (uzual se folosesc frecvenţe standard de 11 kHz, 16 

kHz sau 22 kHz). 

Conversia analog-digitală a semnalului presupune un anumit mod de reprezentare a 

semnalului în format numeric. Stabilirea unui astfel de mod de reprezentare digitală se numeşte 

codarea semnalului [Kle95]. În continuare se prezintă câteva metode standard de codare şi 

compresie a semnalului vocal. 

3.1.1. Metode de codare a semnalului vocal 

Tehnica cea mai utilizată în codarea semnalului vocal este tehnica modulării 

impulsurilor în cod (PCM – Pulse Code Modulation) [Vla97]. Folosind codarea PCM, fiecare 

eşantion al semnalului este cuantizat (i se atribuie o valoare numerică) independent de celelalte 

eşantioane. Astfel, un codor PCM determină nivelul de cuantizare al fiecărui eşantion fără să ţină 

cont de nivelul eşantioanelor precedente, iar apoi atribuie acestui nivel de cuantizare un cod 

binar (numit cuvânt de cod), ce reprezi ntă forma codată a semnalului. În tehnica PCM există 

diferite moduri de cuantizare a valorii fiecărui eşantion şi de asociere a cuvintelor de cod pentru 

un nivel de cuantizare. Cele mai uzuale tehnici folosite sunt codarea liniară şi codarea 

logaritmică [Vla97] : 

Codarea liniară constă în considerarea valorii scalate a eşantionului ca şi cuvânt de cod. 

Astfel, un semnal de intrare cu valori între 0 şi 1000 mV va fi codat liniar cu valori între 0 şi o 

valoare maximă VM (255 pentru valori reprezentate pe octet). Valoarea eşantionului poate fi o 

mărime cu semn, ţinând cont că semnalul vocal variază în jurul unei poziţii de referinţă, de nivel 

0. Astfel, cuvântul de cod poate fi la rândul lui un număr cu semn. 

Codarea logaritmică aplică o transformare logaritmică valorii scalate a eşantionului, şi 

apoi atribuie o reprezentare numerică rezultatului obţinut. Astfel, cuvântul de cod va conţine 

semnul şi logaritmul valorii scalate a eşantionului. Acest standard de codare este folosit în 

telefonia digitală, datorită faptului că în telefonie valorile de amplitudine mare a eşantioanelor 

sunt puţin frecvente, şi ca urmare pot fi reprezentate cu o acurateţe mai mică decât valorile de 

amplitudine mică, aşa cum este cazul în transformarea logaritmică. 

19

20 

Cap. 3. Procesarea digitală a semnalului vocal 

Există două standarde pentru codarea logaritmică: legea μ-law, folosită în America de 

Nord şi Japonia, respectiv legea A-law, folosită în Europa. Amplitudinea fiecărui eşantion va fi 

reprezentată printr-un cuvânt de cod pe 8 biţi (faţă de 14 biţi cât ar fi fost necesari în cazul 

metodei liniare pentru codarea unui semnal la o calitate percepută echivalentă). 

Dacă în cazul codării PCM cuvântul de cod se reprezintă printr-un număr fix de cifre 

binare, există metode care generează coduri de lungime variabilă. Codarea entropică [Feh93] 

este o astfel de metodă, care urmăreşte codarea semnalului pe grupuri de eşantioane care au 

valori apropiate, situate într-o subclasă a valorilor totale posibile. Astfel, pentru fiecare grup de 

astfel de eşantioane, cuvântul de cod se generează pe un număr de biţi mai mic decât numărul de 

biţi ce ar fi necesar pentru codarea plajei totale de valori pentru eşantioane. Un exemplu de 

codare entropică de lungime variabilă este codarea Huffman, care presupune o parcurgere apriori 

a semnalului pentru gruparea eşantioanelor şi stabilirea claselor de valori. Codarea 

Huffman poate de exemplu folosi o grupare a valorilor eşantioanelor pe segmente 

corespunzătoare vocalelor şi consoanelor, în cazul consoanelor (care au valori ale eşantioanelor 

mult mai mici comparativ cu vocalele) putându-se folosi o codificare mai condensată. 

Spre deosebire de codarea Huffman, codarea aritmetică nu codează eşantioanele pe 

grupe sau blocuri, ci ea caută secvenţe de valori identice ale semnalului, cărora le atribuie 

anumite simboluri dintr-un dicţionar sau cuvinte de cod. 

O metodă care se foloseşte pentru eliminarea redundanţei semnalului este codarea 

predictivă [Feh93]. Metoda se utilizează pentru codarea vorbirii, dar şi a imaginii şi a surselor de 

date, în vederea transmiterii informaţiei la distanţă. Metoda urmăreşte să elimine din semnal ceea 

ce poate fi prezis despre el la receptor. Predictorii de la receptor şi de la transmiţător trebuie să 

funcţioneze sincron, pe baza aceluiaşi set de reguli. 

Tehnica cea mai uzuală ce se bazează pe metoda predicţiei se numeşte modulaţia 

diferenţială a impulsurilor de cod ( DPCM – Differential Pulse Code Modulation). Schema 

bloc a codorului DPCM este ilustrată în figura 3.1. 

x(n) e(n) 

- 

Predictor 

Figura 3.1. Schema canonică a codorului DPCM (PCM diferenţial) 

Q 

xp(n| n-1,n-2,...,n-p) 

În figura 3.1, e(n) este diferenţa dintre eşantionul de intrare x(n) şi o predicţie a 

eşantionului notată cu xp(n| n-1, n-2, ..., n-p). Această predicţie se calculează ca o combinaţie 

liniară a unui număr de p eşantioane care au fost transmise anterior: 

i(n) 

xp(n) 

ep(n)

x 

p 

p 

 

k 1 

21 


( n | n 1 

, n 2 

,..., n p) 

a x ( n k 

) 

(3.1) 

unde ( n k 

) reprezintă eşantionul reconstruit la momentul n-k: 

x p 

x p 

p 

p 

( n k) 

x 

( n k 

| n k 

1 

, n k 

2,..., 

n k 

p) 

e 

( n k 

) (3.2) 

k 

La fiecare pas, eroarea de predicţie e cuantizată într-o valoare ep(n) de către cuantizorul 

Q, care totodată generează şi secvenţă de indici i(n). 

Astfel, semnalul x(n) va putea fi reconstruit pe baza valorilor ep(n) recepţionate de la 

transmiţător. Utilizarea metodei DPCM e susţinută de faptul că variaţia semnalului diferenţă 

ep(n) e mai mică decât variaţia eşantionului x(n). Astfel, presupunând acelaşi debit de codare şi 

acelaşi cuantizor, tehnica DPCM aduce o îmbunătăţire de aproximativ 6 dB a raportului 

semnal/zgomot faţă de codarea PCM. 

Pentru tratarea nestaţionarităţii semnalului vocal se folosesc metode de codare adaptive. 

Principiul de bază al adaptării este de a realiza în codor estimarea unor aspecte statistice ale 

semnalului vocal, precum energia, frecvenţa sau valorile spectrale [Feh93]. 

Astfel, în codarea adaptivă ADPCM se calculează o estimaţie locală a deviaţiei 

semnalului de intrare, care va controla câştigul unui amplificator situat în faţa unui cuantizor cu 

variaţie unitară, aşa cum se ilustrează în figura 3.2 : 

- 

e(n) b(n) = ±1 

Q 

xp(n| n-1) 

Predictor 

Figura 3.2. Schema bloc a codorului delta adaptiv 

Cu un astfel de codor adaptiv se poate obţine un câştig mai mare de 5 dB în raportul 

semnal/zgomot faţă de sistemul DPCM. 

Există două tipuri de metode de adaptare în codarea semnalului vocal: adaptarea silabică 

şi adaptarea instantanee. Adaptarea silabică estimează caracteristica semnalului vocal pe o durată 

de câteva milisecunde (4..25ms) pentru a se acomoda la modificările din interiorul fonemelor şi 

silabelor. Adaptarea instantanee foloseşte constante de timp mai mici (sub 4ms). 

Modulaţia delta (DM – Delta Modulation) [Feh93] este un caz special de DPCM în care 

cuantizorul foloseşte doar două valori posibile, ceea ce are ca rezultat aproximarea în trepte a 

formei de undă. Modulaţia delta are variante de implementare atât cu cuantizor fix, caz în care 

p 

xp(n) 

G 

Informaţia 

de adaptare

22 


necesită o rată de eşantionare ridicată pentru a se putea acomoda variabilităţii ridicate a 

semnalului vocal, cât şi variante adaptive. 

Principiul modulaţiei delta este descris de următoarele ecuaţii : 

b p 

( n) 

sgn[ x( 

n) 

x 

( n)] 

(3.3) 

x p 

p 

n 

( n) 

x ( n 1 

) G 

b( 

n) 

(3.4) 

În modulaţia delta apar două tipuri de zgomote (erori) de cuantizare : zgomotul de 

suprapantă, datorat variaţiei mai rapide a semnalului decât posibilitatea de urmărire a codorului, 

şi zgomotul de granularitate, care apare datorită variaţiei de nivel scăzut a semnalului. Aceste 

tipuri de zgomote de cuantizare sunt ilustrate în figura 3.3 : 

Zgomot de 

suprapantă 

Figura 3.3. Tipuri de zgomot în modulaţia delta 

Tehnicile de modulaţie delta adaptivă cel mai des folosite sunt modulaţia delta cu pantă 

variabilă şi modulaţia delta cu adaptare instantanee. 

Modulaţia delta cu pantă variabilă ( CVSDM – Continuously Variable Slope Delta 

Modulation) are o schemă de adaptare silabică în forma unui filtru digital de ordinul 1 cu o 

constantă de timp mai mare de 4ms. Metoda CVSDM are schema bloc din figura 3.2, în care 

câştigul amplificatorului are forma : 

G G f b , b , b ) , (3.5) 

1 ( 1 

2 

3 

n n 

n n n 

unde funcţia f() ia valorile 1 sau 0 după cum bn-1, bn-2 , bn-3 sunt sau nu toate de acelaşi semn. 

Modulaţia delta cu adaptare instantanee are câştigul : 

G G M b , b ) , (3.6) 

n n1 

( n1 

n2 

Zgomot granular 

unde M ia una din două valori după cum bn-1, bn-2 sunt sau nu de acelaşi semn: M va fi supraunitar 

pentru predicţia de suprapantă, şi subunitar pentru predicţia de granularitate. 

Deosebirea dintre cele două metode este că adaptarea silabică este mai lentă, având ca 

efect micşorarea zgomotului de granularitate, dar şi creşterea zgomotului de suprapantă. La 

adaptarea instantanee creşte zgomotul de granularitate, dar algoritmul se adaptează rapid la 

variaţiile de suprapantă.

3.1.2. Metode şi standarde de compresie a semnalului vocal 

23 


Codarea predictivă DPCM şi cea adaptivă ADPCM descrise anterior, din cauza faptului 

că ele reduc debitul de date prin codare, se folosesc de asemeni şi în procesul de compresie a 

semnalului vocal. Bazată pe tehnica ADPCM, mai există o metodă de compresie pe subbenzi 

numită SB-ADPCM. Lărgimea de bandă disponibilă este împărţită pe mai multe subbenzi 

separate, pe care apoi este aplicat algoritmul adaptiv de modulare diferenţială a impulsurilor în 

cod, crescând astfel acurateţea codării precum şi lărgimea de bandă care poate fi transmisă. Rata 

de date la aceste metode variază între 64kbps şi 48kbps [Vla97]. 

O altă metodă de compresie este numită compresia prin transformări, în care se 

urmăreşte împărţirea semnalului de la intrare în segmente sau blocuri şi obţinerea unei 

transformări digitale pentru fiecare segment sau bloc de date considerat. Pentru fiecare segment 

se calculează anumiţi coeficienţi de transformare, care vor condensa energia semnalului şi vor fi 

transmişi pe canalul de comunicaţie. 

Principiul compresiei prin transformări, ilustrat în figura 3.4, este următorul : 

Dacă la intrare avem un vector N-dimensional U(1..N), cu valoare medie nulă, printr-o 

transformare liniară A obţinem un vector complex V(1..N) cu componente care sunt necorelate 

mutual. Componentele din vectorul V se cuantizează independent şi se transmit pe canal. La 

receptor, vectorului Vc obţinut din cuantizarea lui V i se aplică o transformare inversă B pentru a 

recompune aproximarea vectorului iniţial U, care este Ur. 

U 

u(1) 

u(2) 

. 

. 

u(N) 

Figura 3.4. Algoritmul de compresie prin transformări 

Problema care se pune în continuare este de a obţine matricile A şi B precum şi a 

cuantizorului optimal Q, astfel încât valoarea medie pătratică a distorsiunii între vectorii U şi Ur 

să fie minimă. Algoritmul optimal a fost găsit de către Karhunen şi Loeve, numindu-se 

transformarea KL. 

Tr A 

V 

v(1) 

v(2) 

. 

. 

v(N) 

Algoritmul KL nefiind o transformare rapidă, se înlocuieşte în multe abordări prin alte 

transformări unitare, cum ar fi transformările de tip sinus, cosinus, DFT, Hadamard sau Slant. 

Vc 

Q 

vc(1) 

vc(2) 

. 

. 

vc(N) 

Tr B 

Ur 

ur(1) 

ur(2) 

. 

. 

ur(N)

24 


O tehnică des folosită atât ca metodă de compresie, cât şi ca metodă de analiză şi sinteză 

a semnalului vocal este tehnica predicţiei liniare LPC (Linear Prediction Coding). 

Tehnica LPC se bazează pe separarea semnalului de excitaţie de semnalul corespunzător 

tractului vocal, determinarea unor parametri de aproximare numiţi coeficienţi LPC şi 

transmiterea acestora pe canalul de comunicaţie. La receptor, decodorul va prelua aceşti 

parametri şi îi va reconverti în forma de undă iniţială. Calitatea obţinută cu această metodă nu 

este foarte ridicată, tehnica funcţionând cu aproximaţii, dar rata de bit este mult îmbunătăţită. 

Printre metodele care folosesc tehnica predicţiei liniare amintim : 

Codorul de semnal vocal folosind predicţia liniară cu cod excitat CELP (Code Excited 

Linear Prediction) este o tehnică reprezentativă de compresie a vorbirii; este folosită în SUA 

(Standardul Federal 1016) şi poate comprima vorbirea până la 4,8 kbps. 

Standardul G.728 se bazează pe o schemă de cuantizare vectorială numită predicţie 

liniară cu cod excitat de întârziere mică LD-CELP ( Low Delay Code Excited Linear 

Prediction). Standardul operează la 16 kbps dar lărgimea de bandă este limitată la 3,4 kHz. 

Aceste metode bazate pe LPC folosesc cuantizarea vectorială cu dicţionare de coduri 

(code books) atât la transmiţător, cât şi la receptor. În standardul 1016, bazat pe metoda CELP, 

diferenţa dintre valoarea eşantionului şi cea găsită în dicţionar e comprimată şi transmisă 

împreună cu indexul valorii din dicţionar. Calitatea standardului e comparabilă cu cea dată de 

metoda ADPCM. 

Standardul Federal 1015 al SUA foloseşte versiunea simplă a codării liniar predictive, 

care poate opera la viteze de 2,4 kbps. Din cauza aproximaţiilor în codare, calitatea este mai 

slabă decât în cazul metodelor bazate pe CELP. 

3.1.2.1. Standarde de compresie a semnalului audio de înaltă fidelitate 

În ultimii ani au fost create de către diverse firme pe plan internaţional câteva standarde 

de compresie foarte performante, ce se adresează nu doar semnalului vocal, ci semnalului audio 

în general. Dintre acestea amintim: TrueSpeech, MPEG, FLAC, Lernot&Hauspie SBC, IMC, 

Microsoft, Ogg Vorbis, Qdesign, Atrac, Voxware, etc. 

În concluzie, se poate spune că metodele de procesare a semnalului vocal în vederea 

analizei sunt diverse şi bine puse la punct de grupuri de lucru şi firme dezvoltate pe plan 

mondial, atât în ceea ce priveşte codarea semnalului vocal, cât şi metodele de compresie. Nu este 

exclus însă ca în viitor să apară noi metode şi algoritmi performanţi mai ales în domeniul 

compresiei, folosind abordări adaptive care să elimine redundanţa inerentă a semnalului vocal, 

dar care să păstreze integritatea semnalului la parametrii superiori, absolut necesară în procesul 

sintezei şi recunoaşterii vorbirii.

3.2. Contribuţii în procesarea semnalului vocal 

25 


În continuare se prezintă rezultatele cercetărilor efectuate de autor în domeniul procesării 

semnalului vocal. Se va prezenta aplicaţia de prelucrare a semnalului prin intermediul căreia a 

fost efectuată o serie întreagă de experimente asupra unor eşantioane de semnal vocal, precum şi 

rezultatele acestor experimentări. 

3.2.1. Aplicaţia de prelucrare digitală a semnalului vocal SPEA 

În vederea studierii proprietăţilor semnalului vocal, a fost proiectată o aplicaţie specială 

numită SPEA – Sound Processing and Enhancement Application (aplicaţie pentru procesarea 

şi îmbunătăţirea calităţii semnalului vocal). În această fază a proiectării, aplicaţia SPEA prezintă 

următoarele facilităţi: 

(1) încărcarea şi vizualizarea semnalului vocal înregistrat în fişiere Wave în diferite formate, 

(2) creşterea rezoluţiei de afişare pentru vizualizarea formei de undă şi a eşantioanelor de 

semnal pe diferite scale de mărime , 

(3) determinarea parametrilor principali ai semnalului vocal, 

(4) selectarea porţiunii de lucru dintr-un fişier Wave, 

(5) calculul transformatei Fourier şi vizualizarea spectrelor de amplitudini şi faze a semnalului, 

(6) posibilitatea de modificare interactivă a componentelor din spectrele de amplitudini şi faze 

în scopul îmbunătăţirii calităţii acustice a semnalului vocal. 

Toate aceste facilităţi pot fi selectate interactiv de către utilizator prin intermediul unor 

meniuri grafice cu butoane (toolbars). De asemenea, parametrii semnalului în domeniul timp, cât 

şi spectrele din domaniul frecvenţă sunt calculate pe fereastra de selecţie specificată în mod 

interactiv de utilizator. 

3.2.1.1. Facilităţile şi modul de lucru specific aplicaţiei 

Fereastra aplicaţiei SPEA este prezentată în figura 3.5. Aşa cum se observă din desen, 

utilizatorul are la dispoziţie două meniuri de tip toolbar pentru a interacţiona cu aplicaţia: meniul 

orizontal – destinat operaţiunilor generale efectuate asupra fişierului Wave (încărcare în 

memorie, salvare, selectare/deselectare, etc.), şi meniul vertical, ce permite operaţii specifice 

aplicate ferestrei de lucru (redare sonoră, mărirea/micşorarea rezoluţiei ferestrei, opţiuni de 

vizualizare). 

Fereastra principală a aplicaţiei se împarte în trei zone de lucru: zona de vizualizare a 

semnalului vocal – în partea de sus a ecranului; zona de vizualizare a spectrului de amplitudini a 

semnalului – în partea din stânga jos; zona de vizualizare a spectrului de faze – în partea din 

dreapta jos. 

În continuare se vor prezentarea facilităţile aplicaţiei SPEA, organizate în cadrul celor 

două meniuri grafice.

3.2.1.1.1. Facilităţi de ordin general asupra fişierului de sunet 

26 


Aceste facilităţi pot fi accesate prin intermediul meniului orizontal al aplicaţiei. În 

ordinea butoanelor de pe toolbar, acestea sunt: 

a) NEW – deschiderea unui nou fişier de sunet, iniţial vid. Acesta va putea referi un fişier 

rezultat al prelucrării anterioare sau va putea fi obţinut prin înregistrare directă de la microfon. 

b) OPEN – citirea şi afişarea unui fişier de sunet de pe disc. Fişierul este de tip Wave având 

următoarea structură: 

struct WAVEFORMATEX{ 

WORD wFormatTag; 

WORD nChannels; 

DWORD nSamplesPerSec; 

DWORD nAvgBytesPerSec; 

WORD nBlockAlign; 

WORD wBitsPerSample; 

WORD cbSize; 

}; 

Figura 3.5. Fereastra principală a aplicaţiei SPEA 

Semnificaţia parametrilor formatului Wave este următoarea: 

wFormatTag 

Reprezintă tipul formatului Waveform-audio. Tipurile de format existente sunt 

specificate de Microsoft şi cuprind diferite metode de compresie (ex: WAVE_FORMAT_PCM, 

WAVE_FORMAT_LH_CODEC, WAVE_FORMAT_ADPCM, WAVE_FORMAT_DSAT, etc.)

27 


nChannels 

Specifică numărul de canale a fişierului de tip Wave. Fişierele mono au un singur canal 

de redare, pe când cele stereo – două. 

nSamplesPerSec 

Specifică rata de eşantionare, în eşantioane pe secundă. Dacă parametrul wFormatTag 

este WAVE_FORMAT_PCM,atunci valorile comune pentru nSamplesPerSec sunt: 8.0 kHz, 

11.025 kHz, 22.05 kHz, şi 44.1 kHz. 

nAvgBytesPerSec 

Specifică rata de transfer a datelor audio, în octeţi pe secundă. Dacă wFormatTag este 

WAVE_FORMAT_PCM, nAvgBytesPerSec va fi egal cu produsul parametrilor nSamplesPerSec 

şi nBlockAlign. 

nBlockAlign 

Aliniamentul blocului de date audio, în octeţi. Această valoare specifică cea mai mică 

unitate de date pentru formatul curent. Dacă wFormatTag este WAVE_FORMAT_PCM, 

nBlockAlign va fi egal cu produsul dintre nChannels şi wBitsPerSample împărţit la 8. 

Redarea fişierului de sunet va trebui să proceseze un număr multiplu de nBlockAlign 

octeţi de date la un moment dat. Datele citite sau scrise în fişierul audio vor trebui să fie accesate 

doar la un multiplu de nBlockAlign octeţi. 

wBitsPerSample 

Numărul de biţi al unui eşantion. Dacă wFormatTag este WAVE_FORMAT_PCM, 

atunci wBitsPerSample va fi egal cu 8 sau 16. 

cbSize 

Mărimea în octeţi a informaţiei extinse puse la sfârşitul structurii WAVEFORMATEX. 

Această informaţie e utilizată de către formatele non-PCM pentru a memora atributele 

specificate în wFormatTag. 

Observaţie: În momentul de faţă aplicaţia permite lucrul cu fişiere de tip 

WAVE_FORMAT_PCM mono, codate pe 8 sau 16 biţi, suportând orice valoare a frecvenţei de 

eşantionare. 

c) SAVE – permite salvarea fişierului de sunet curent în format WAVE_FORMAT_PCM. 

d) CUT – efectuează ‘tăierea’ zonei selectate din fişierul de sunet şi memorarea în Clipboard; 

e) COPY – permite copierea zonei selectate în Clipboard fără ştergerea ei; 

f) PASTE – permite ‘lipirea’ informaţiei memorate din Clipboard în zona de lucru curentă; 

g) UNSELECT – comanda pentru deselectarea zonei selectate anterior din fişierul audio; 

h) VIEW SELECTION – permite vizualizarea zonei selectate în întregime în fereastra de 

vizualizare;

28 


i) VIEW TOOLBARS – permite ascunderea sau vizualizarea toolbar-urilor şi a zonei de 

vizualizare a informaţiilor din status bar. Prin ascunderea acestor zone grafice se măreşte 

suprafaţa de lucru asociată formei de undă şi spectrelor de analiză. 

j) CHANGE COLORS – permite modificarea paletei de culori a aplicaţiei. 

k) VIEW FFT INFO – permite vizualizarea interactivă a informaţiilor asociate spectrelor de 

amplitudini (FFT) şi de faze (ANGLE). Utilizatorul va putea vizualiza frecvenţa şi valoarea din 

spectru asociată acesteia prin mişcarea mouse-ului în zona de analiză (zona de afişare a 

spectrelor de analiză). 

3.2.1.1.2. Facilităţi de operare specifice aplicate fişierului de sunet 

a) PLAY – permite redarea sonoră a fişierului de sunet sau a zonei selectate, dacă aceasta există; 

b) PLAY LOOP – permite redarea în buclă a fişierului de sunet; 

c) STOP – opreşte redarea şi aşează indicatorul de poziţie la începutul fişierului; 

d) PAUSE – opreşte redarea fără a schimba poziţia curentă în fişierul audio; 

e) ZOOM OUT – micşorează rezoluţia de afişare a ferestrei grafice curente. Fereastra grafică 

curentă poate fi asociată oricărei dintre cele trei zone de lucru: fereastra formei de undă, fereastra 

de afişare a spectrului de amplitudini, respectiv cea de afişare a spectrului de faze. Oricare dintre 

aceste trei ferestre poate deveni fereastra curentă prin punctare cu mouse-ul de către utilizator. 

Prin această comandă creşte cantitatea de informaţie afişată în fereastră, dar scade acurateţea 

(detaliile) afişării. Comanda e utilă pentru obţinerea unei vizualizări globale a informaţiei. 

f) ZOOM IN – măreşte rezoluţia de afişare a ferestrei grafice curente. Comanda este 

complementară comenzii anterioare, având ca rezultat reducerea zonei de analiză, dar în 

beneficiul vizualizării precise a informaţiilor. 

g) SAMPLE ZOOM OUT – comanda permite reducerea controlată a rezoluţiei de afişare în 

fereastra grafică curentă. Se foloseşte pentru creşterea progresivă a dimensiunii zonei de analiză 

prin adăugarea câte unui eşantion în această zonă. Se va obţine o vizualizare mai globală, dar în 

detrimentul preciziei de analiză. 

h) SAMPLE ZOOM IN – permite mărirea controlată a rezoluţiei de afişare în fereastra grafică 

curentă. E utilă pentru vizualizări precise ale formei de undă sau a spectrului, prin faptul că 

permite detalierea informaţiei afişate prin reducerea cu câte un eşantion a mărimii zonei de 

analiză. 

i) ZOOM ALL – permite afişarea în întregime a formei de undă sau a spectrului asociat. 

j) VIEW WAVE – permite vizualizarea ferestrei corespunzătoare formei de undă; 

k) VIEW FFT – permite vizualizarea ferestrei corespunzătoare spectrului de amplitudini; 

l) VIEW PHASE – permite vizualizarea ferestrei corespunzătoare spectrului de faze.

3.2.1.2. Modul de lucru al utilizatorului în aplicaţia SPEA 

29 


În primul rând utilizatorul va deschide fişierul audio pe care doreşte să-l analizeze prin 

comanda OPEN. Forma de undă se va afişa în partea de sus a ecranului, iar spectrele globale de 

amplitudini şi faze – în partea de jos a ecranului. Trebuie menţionat însă că spectrele sunt 

limitate la calculul a 16k valori, ceea ce înseamnă că spectrele nu corespund întregii lungimi a 

semnalului sonor, ci doar a unei părţi a acestuia (şi anume la prima parte a formei de undă care 

conţine 16k eşantioane). Acest lucru este valabil pentru orice fereatră selectată din semnal care 

depăşeşte 16k eşantioane. 

Mărimea ferestrei curente va fi afişată în partea din dreapta – în zona TIME - a barei de 

stare ( status bar). Parametrul Tw indică dimensiunea în timp (secunde, milisecunde sau 

microsecunde – pentru ferestrele mici), iar parametrul Nw indică dimensiunea în număr de 

eşantioane. 

Frecvenţa de eşantionare se va afişa în partea din stânga a barei de stare – în zona FFT, 

fiind indicată de parametrul Fes. Frecvenţa de eşantionare este dată în Hertzi şi va corespunde cu 

dublul mărimii ferestrei spectrale. Aceasta datorită faptului că spectrele se calculează “în 

oglindă” (valorile sunt simetrice faţă de mijlocul frecvenţei de eşantionare) şi ca urmare se vor 

afişa doar valorile din prima jumătate a spectrului. Tot în zona FFT se va afişa rezoluţia spectrală 

în Hertzi, adică distanţa în frecvenţă dintre două valori consecutive ale spectrului. 

Pentru vizualizarea şi analiza unor zone specifice din forma totală de undă, utilizatorul 

poate selecta zona dorită interactiv, cu ajutorul mouse-ului: în fereastra asociată formei de undă, 

cu tasta SHIFT apăsată, va puncta cu butonul din stânga al mouse-ului în dreptul poziţiei de 

început a zonei pe care vrea să o selecteze, iar apoi - de asemeni menţinând tasta SHIFT apăsată 

- va puncta cu butonul din dreapta al mouse-ului în dreptul poziţiei de sfârşit a zonei de selecţie. 

Zona selectată va fi vizualizată cu culoarea verde, fiind încadrată de două bare de selecţie de 

culoare roşie, iar restul porţiunii din fişierul de sunet va fi vizualizată în culoare pală (gri 

deschis). Se va observa modificarea formei spectrului de amplitudini şi a celui de faze, care vor 

corespunde cu zona selectată din forma de undă. Regula de calcul a spectrelor este următoarea: 

(1) dacă nu există o porţiune selectată din forma de undă, atunci spectrele se calculează 

pe fereastra curentă de afişare; 

(2) dacă din forma de undă se selectează o anumită porţiune, spectrele se calculează doar 

pe porţiunea selectată. 

Utilizatorul poate renunţa în orice moment la selecţie, apăsând butonul UNSELECT. 

Dacă prin utilizarea scollbar-ului se pierde din vedere zona selectată, aceasta se poate readuce în 

fereastra de vizualizare prin folosirea butonului VIEW SELECTION. 

În funcţie de analiza pe care doreşte s-o efectueze, utilizatorul poate selecta afişarea 

formei de undă, sau a unuia din spectrele de amplitudini, respectiv faze (prin comenzile VIEW 

WAVE, VIEW FFT sau VIEW PHASE). Programul va afişa implicit toate cele trei ferestre de 

analiză. 

Detaliile din ferestrele spectrale pot fi vizualizate prin intermediul butonului VIEW FFT 

INFO. Astfel, utilizatorul poate aşeza cursorul mouse-ului în dreptul liniei spectrale de interes, 

care se va colora distinct faţa de celelalte linii din spectru. Pentru spectrul de amplitudini se va 

afişa în zona FFT din status bar valoarea F corespunzător frecvenţei precise a liniei spectrale

30 


selectate, şi valoarea X corespunzător amplitudinii spectrale. Dacă se selectează o linie spectrală 

din spectrul de faze, se vor afişa valorile F pentru frecvenţă şi P pentru mărimea fazei. 

La încărcarea unui fişier de sunet, în fereastra WAVE se va afişa forma de undă pe 

întreaga durată a semnalului. Durata şi numărul de eşantioane vor fi indicate în zona TIME a 

barei de stare, în timp ce pe rigla orizontală se vor afişa timpii de referinţă ai eşantioanelor, sub 

forma sec.ms (secunde şi milisecunde), respectiv microsecunde pentru ferestre mai mici de timp. 

În ferestrele FFT şi PHASE se vor afişa spectrele de amplitudini, respectiv faze ale 

primelor 16k eşantioane din semnal. Pentru a vizualiza detaliile dintr-o fereastră mai restrânsă, 

utilizatorul poate selecta o zonă de semnal aşa cum s-a descris anterior, prin punctare cu mouseul 

şi tasta SHIFT: pentru începutul zonei va folosi butonul din stânga al mouse-ului, iar pentru 

indicatorul de sfârşit – butonul din dreapta. După selectarea unei zone mai restrânse din semnal, 

spectrele de amplitudini şi faze se vor modifica corespunzător. Dacă se doreşte detalierea 

informaţiei afişate în fereastra undei, se vor putea folosi butoanele ZOOM IN şi SAMPLE 

ZOOM IN. Când se doreşte revenirea la un mod mai global de vizualizare, se folosesc comenzile 

ZOOM OUT, respectiv SAMPLE ZOOM OUT. 

La fel, dacă se doreşte vizualizarea mai detaliată a spectrului FFT sau PHASE, mai întâi 

fereastra respectivă va trebui selectată ca fereastră activă. Aceasta datorită faptului că butoanele 

de mărire şi micşorare a rezoluţiei de afişare, precum şi scrollbar-ul au efect doar asupra unei 

singure ferestre la un moment dat, şi anume asupra ferestrei active. Fereastra activă se selectează 

prin punctare cu mouse-ul în interiorul ferestrei dorite, aceasta fiind apoi marcată printr-un 

chenar de culoare roşie. Apoi se va putea efectua analiza spectrală detaliată prin folosirea 

comenzilor de mărire a rezoluţiei ZOOM IN şi SAMPLE ZOOM IN, ultima permiţând creşterea 

progresivă a rezoluţiei de afişare cu câte un eşantion. 

Valorile afişate pe rigla orizontală sunt frecvenţe măsurate în Herzi. Pentru fiecare 

fereastră selectată, pe riglă se afişează întreaga gamă de frecvenţe a semnalului (egală cu 

jumătate din frecvenţa de eşantionare), precum şi frecvenţa de amplitudine maximă din această 

gamă de frecvenţe, care poate fi asimilată cu frecvenţa fundamentală a semnalului. 

Aplicaţia detectează în mod automat formanţii sau valorile maxime locale ale anvelopei 

spectrale, maxime care se situează deasupra unor valori de prag. Pentru fiecare formant, se 

calculează amplitudinea, frecvenţa centrală şi lăţimea de bandă, parametrii importanţi în sinteza 

de voce. Frecvenţa centrală a formantului cu cea mai mare amplitudine (în cele mai multe cazuri 

primul sau al doilea formant) se asumă a fi frecvenţa fundamentală a semnalului. Această regulă 

se aplică doar segmentelor vocale din semnal, segmentele nesonore neavând frecvenţă 

fundamentală. 

Un exemplu de detectare automată a formanţilor este arătat în figura 3.6. Aici se 

ilustrează un segment vocal din semnal, în care se detectează formanţi cu valorile de frecvenţă : 

204 Hz, 414 Hz, 613 Hz, şi 824 Hz . Frecvenţa fundamentală este dată în acest caz de frecvenţa 

primului formant: 204 Hz.

Figura 3.6. Frecvenţa fundamentală a semnalului este 204 Hz 

31 


3.2.2. Experimente realizate asupra unor eşantioane reale de semnal audio şi 

vocal 

În continuare sunt prezentate rezultatele experimentale şi analizele spectrale 

realizate cu ajutorul aplicaţiei SPEA pe grupe de eşantioane reale de semnal. Scopul 

acestor experimente a fost de a determina caracteristicile specifice ale semnalului vocal în 

cazul rostirii unor sunete distincte în limba română, în condiţii diferite, de către mai mulţi 

vorbitori. 

Semnalul a fost preluat prin intermediul unui microfon dinamic unidirecţional de tip 

SM-500, iar apoi semnalul a fost eşantionat şi stocat pe disc în format WAVE PCM prin 

intermediul unei plăci de achiziţie audio Creative Soundblaster Live 1024. De asemenea, 

au fost analizate eşantioane de semnal audio generat prin intermediul unui sintetizator de 

sunete furnizat de firma Creative Labs.

1) Analiza spectrală a vocalelor pentru vorbitorul masculin şi cel feminin 

Figura 3.7. Vocala A masculin. Frecvenţa 

fundamentală este în jurul valorii de 100 Hz, 

urmată de armonice situate la distanţă 

aproximativ egală. Se observă un spectru cu 

primele două frecvenţe formantice 

predominante. 

Figura 3.9. Vocala E masculin. Frecvenţa 

fundamentală este de 115 Hz, apropiată de 

cea corespunzătoare lui A. Se observă 

diferenţa faţă de spectrul anterior, prin 

distribuţia primilor 4 formanţi. 

32 


Figura 3.8. Vocala A feminin. Frecvenţa 

fundamentală este de aproximativ 200 Hz, 

corespunzător unei voci de tonalitate mai 

înaltă. Dominanta spectrului este prima 

frecvenţă formantică, dar apar încă 5 

formanţi majori. 

Figura 3.10. Vocala E feminin. Frecvenţa 

fundamentală este de 225 Hz. Se observă că 

nu mai apar formanţii 3,4 şi 5.

Figura 3.11. Vocala I masculin. Frecvenţa 

fundamentală este de 125 Hz. Formanţii 3,4 

şi 5 sunt nesemnificativi în raport cu primii 

doi. 

Figura 3.13. Vocala O masculin. Frecvenţa 

fundamentală este de 110 Hz. Primii 4 

formanţi sunt activi, mai apărând încă 4 de 

importanţă mai redusă. 

2) Analiza spectrală a consoanelor 

Figura 3.15. Consoana S. Se observă un 

spectru mult mai bogat în armonici 

superioare, pe o bandă situată între 4000 Hz 

şi 8000 Hz. 

33 


Figura 3.12. Vocala I feminin. Frecvenţa 

fundamentală este de 235 Hz. Apare doar un 

singur formant semnificativ. 

Figura 3.14. Vocala U masculin. Frecvenţa 

fundamentală este de 110 Hz. Mai 

importanţi sunt primii 3 formanţi 

Figura 3.16. Consoana T. Caracteristic este 

atât spectrul de frecvenţe, cât mai ales forma 

semnalului.

3) Analiza spectrală a sunetelor emise multitonal 

34 


În continuare se prezintă spectrele unor vocale emise la diferite frecvenţe de bază (pe 

tonuri diferite sau cântate) de către acelaşi vorbitor. 

Figura 3.17. Vocala A1. Se observă un 

spectru de armonici uniform, începând cu 

frecvenţa primului formant de 117 Hz. 

Figura 3.19. Vocala E1. Se observă un 

spectru cu trei frecvenţe formantice 

dominante, începând cu frecvenţa primului 

formant de 122 Hz. 

4) Analiza perceptuală a sunetelor emise în fază diferită 

Figura 3.18. Vocala A2. Forma spectrului de 

frecvenţe este aproape identică cu cea din 

cazul anterior, cu deosebirea faptului că aici 

primul formant are frecvenţa de 142 Hz 

Figura 3.20. Vocala E2. Spectrul este din 

nou asemănător cu cel din primul caz; aici 

primul formant are frecvenţa de 137 Hz 

În continuare se prezintă spectrele unor sunete compuse din două frecvenţe de bază: 

o frecvenţă principală de 1 kHz, peste care se suprapune o frecvenţă de 3kHZ. Deosebirea 

dintre cazuri este dată de semnul compunerii: în primul caz frecvenţele se adună, iar în cel 

de-al doilea se scad. Analiza perceptuală (a modului de recepţie a sunetului) a demonstrat că 

cele două sunete sunt percepute identic.

Figura 3.21. Cazul A. Cele două frecvenţe de 

1000 Hz şi 3000 Hz se adună, fiind deci în 

fază. 

35 


Figura 3.22. Cazul B. Cele două frecvenţe 

de 1000 Hz şi 3000 Hz se scad, fiind în 

antifază. 

5) Importanţa alegerii ferestrei asupra rezultatului analizei spectrale 

În urma experienţelor efectuate pe diferite ferestre de analiză preluate din acelaşi 

semnal, s-a constatat importanţa deosebită a alegerii corecte a ferestrei. Aceasta va trebui să 

cuprindă intotdeauna un număr întreg de perioade. Dacă această condiţie nu este respectată, 

apar erori în determinarea frecvenţelor spectrale, aşa cum se arată în exemplul următor. 

Figura 3.23. Cazul A. Semnal generat din 

trei frecvenţe de bază: de 1000 Hz, 3000 Hz 

şi respectiv 6000 Hz. Fereastra de analiză 

(din domeniul timp) nu cuprinde un număr 

egal de perioade. Ca urmare apar erori în 

evaluarea frecvenţelor din spectru, în acest 

caz de până la 3%. 

6) Modularea semnalului 

Figura 3.24. Cazul B. Acelaşi semnal, din 

care s-a extras acum o fereastră de analiză ce 

conţine un număr întreg de perioade (8 

perioade). Frecvenţele spectrale sunt 

determinate corect. 

Au fost efectuate experimente asupra modulării semnalelor. Aici se prezintă un caz 

semnificativ:

Figura 3.25. Cazul A. Semnalul x(t) a fost 

generat din două frecvenţe de bază: de 1000 

Hz şi respectiv 3000 Hz. 

36 


Figura 3.26. Cazul B. Semnalul x(t) a fost 

modulat cu o frecvenţă f0=10000 Hz: x1(t) = 

x(t)* sin(2πf0t). Se observă dublarea spectrelor 

la distanţe egale faţă de frecvenţa de 

modulare f0. 

Deosebit de important în cazul modulării este faptul că folosind o frecvenţă de 

modulare bine aleasă, un semnal având frecvenţele componente într-o bandă joasă poate fi 

adus într-o bandă înaltă, şi invers, dacă avem un semnal într-o bandă înaltă, el poate fi adus 

într-o bandă joasă de frecvenţe şi analizat – mai convenabil - doar în această bandă. 

7) Influenţa frecvenţei de eşantionare asupra calităţii vocii 

Este binecunoscut faptul că pentru a obţine o voce sau o înregistrare audio de calitate 

este necesară o frecvenţă de eşantionare cât mai bună (cât mai ridicată). O frecvenţă ridicată 

de eşantionare asigură redarea unui spectru mult mai larg de frecvenţe, şi ca urmare calitatea 

audio va fi mult amplificată. 

Figura 3.27. Cazul A. Semnal audio 

înregistrat la o frecvenţă de eşantionare de 

96000Hz. Se observă un spectru larg de 

frecvenţe, de până la 18000Hz. În fereastra 

de undă, semnalul este ‘îngroşat’ de 

armonicile superioare. 

Figura 3.28. Cazul B. Acelaşi semnal 

eşantionat la o frecvenţă mai mică, de 15000 

Hz. Efectul poate fi observat atât în fereastra 

spectrală, care s-a redus până la 7000 Hz, cât 

şi în fereastra de undă, unde semnalul a 

devenit ‘mai subţire’, lipsit de armonicile 

superioare.

8) Influenţa mediului de înregistrare asupra calităţii sunetului 

37 


Mediul de înregistrare a sunetului are de asemenea o importanţă capitală asupra calităţii 

audio. S-au făcut experimente prin îregistrarea unor eşantioane audio de la un casetofon 

obişnuit şi apoi de la un CD player. Casetofonul are o bandă de redare sonoră mult mai îngustă, 

şi în plus un raport semnal/zgomot destul de accentuat, care face să scadă mult calitatea 

audiţiei. CD player-ul prezintă parametrii mult superiori, atât în ceea ce priveşte lăţimea de 

bandă, cât şi raportul semnal/zgomot. 

Figura 3.29. Cazul A. Semnal audio 

înregistrat de la un casetofon, la o frecvenţă 

de eşantionare de 96000Hz. Se observă un 

spectru de frecvenţe redus, de până la 2500 

Hz. În plus, apare un zgomot datorat benzii 

magnetice, la aproximativ 15000 Hz. 

Figura 3.30. Cazul B. Semnal audio înregistrat 

de la CD player la aceeaşi frecvenţă de 

eşantionare. Banda spectrală a crescut, şi se 

observă că a devenit mult mai bogată în 

frecvenţe. Se observă de asemenea că zgomotul 

de fond a dispărut. 

Al doilea experiment prezentat aici este un test de înregistrare audio pe un 

casetofon (s -a folosit o casetă de calitate medie). În primul rând s-a generat pe 

calculator un sunet compus din frecvenţe de egală amplitudine dispuse pe toată banda 

sonoră perceptibilă (de la 1000 Hz până la 22000 Hz). Sunetul a fost apoi înregistrat pe 

casetofon şi din nou preluat pe computer pentru analiză. Aşa după cum arată figurile 

următoare, banda de frecvenţe s-a redus considerabil, amplitudinea componentelor 

reducându-se liniar până aproape de zero la capătul benzii. Acest experiment arată clar 

diferenţa între mediile de înregistrare analogice (casetofon) şi digitale (calculator sau 

CD player).

Figura 3.31. Cazul C. Semnal audio 

generat ca sumă de 22 de frecvenţe de la 

1000 Hz la 22000 Hz. Componentele au 

toate aceeaşi amplitudine. 

9) Timbrul sunetului şi percepţia auditivă 

38 


Figura 3.32. Cazul D. Acelaşi semnal 

înregistrat pe casetofon apoi din nou pe 

calculator la aceeaşi frecvenţă de 

eşantionare cu semnalul original. Banda de 

frecvenţe s-a redus până la 14000 Hz, iar 

amplitudinile frecvenţelor sunt în 

descreştere progresivă până la zero. 

Folosind un sintetizator audio, au fost generate notele muzicale cu diferite timbre 

corespunzătoare instrumentelor muzicale (pian, acordeon, orgă, vibrafon). S-a constatat că 

sunetul este cu atât mai profund şi mai intens receptat de ascultător cu cât timbrul sonor este 

mai bogat şi armonicile au amplitudine mai mare. În continuare sunt prezentate armonicile 

spectrale pentru cele patru tipuri de instrumente considerate. Frecvenţa fundamentală a 

sunetului (nota DO) este aceeaşi, dar situarea armonicilor precum şi amplitudinea acesto ra 

conferă timbrul specific fiecărui instrument. 

Figura 3.33. Nota Do la pian. Frecvenţa 

fundamentală este 525 Hz. 

Figura 3.34. Nota Do la acordeon. Are 

aceeaşi frecvenţă fundamentală, dar un 

timbru mai bogat.

Figura 3.35. Nota Do la vibrafon. Se 

observă spectrul constituit doar din două 

armonici; sunetul este mai pur, dar nu la fel 

de profund ca în cazurile anterioare. 

10) Calitatea rostirii în sinteza de voce 

39 


Figura 3.36. Nota Do la orgă. Sunetul are 

un impact perceptual profund din cauza 

armonicilor secundare care au amplitudinea 

apropiată de amplitudinea armonicii 

principale. 

Pentru sinteza de voce este foarte importantă construirea unei baze de date vocale 

adecvată. Aceasta presupune preluarea unor segmente de voce de la o persoană reală în 

vederea prelucrării şi apoi sintetizării vorbirii pentru un text dat. Vocea aleasă trebuie să aibă 

parametrii acustici superiori pentru a genera o sinteză de calitate. S-au efectuat experimente 

cu vocea autorului, atât în codiţii normale cât şi în condiţiile obstrucţionării căilor nazale. În 

figurile următoare sunt prezentate efectele apărute: 

Figura 3.37. Litera M din cuvântul 

“mama” rostit în condiţii normale. Se 

observă doi formanţi la 64 şi 128 Hz. 


“mama” rostit în condiţiile obstrucţionării 

căilor nazale. Se observă dispariţia celui deal 

doilea formant.

Figura 3.39. Litera A din cuvântul 

“mama” rostit în condiţii normale. Se 

observă doi formanţi principali şi alţi câţiva 

secundari. 

40 



“mama” rostit în condiţiile obstrucţionării 

căilor nazale. Se observă dispariţia 

formanţilor de ordin superior precum şi 

deplasarea în tonalitate a primului formant. 

Următorul set de experimente a fost efectuat pentru a decela diferenţele dintre 

rostirile unui cuvânt folosind o voce comună (autorul) şi o voce cu parametrii acustici 

superiori. Rezultatele sunt arătate în figurile următoare: 


“maşină” rostit de către autor (vocea A). 

Se observă doi formanţi principali. 


“maşină” rostit de vocea B. Spectrul este 

asemănător cu cel de la vocea A, diferenţele 

constând doar din raportul amplitudinilor 

celor doi formanţi.



Spectrul acestei rostiri vocalice conţine trei 

formanţi bine conturaţi. 

Figura 3.45. Litera S din cuvântul 


Se observă că spectrul, în cazul acestei 

consoane, conţine o paletă largă de 

armonici, situate îndeosebi la frecvenţe 

superioare. 

41 



“maşină” rostit de vocea B. Se observă 

diferenţa faţă de cazul anterior (vocea A), 

prin faptul că acum spectrul conţine o serie 

largă de armonici, cu primele cinci armonici 

bine conturate. 

Figura 3.46. Litera S din cuvântul 

“maşină” rostit de vocea B. Diferenţa este 

că armonicile superioare sunt mult mai bine 

conturate decât în cazul anterior 

corespondent, sunetul dobândind astfel un 

impact perceptual mai profund asupra 

ascultătorului. 

Concluziile acestor experimente indică faptul că, pentru a obţine o voce de calitate 

superioară, acea voce trebuie să deţină un set de armonici cât mai bogat, şi în special armonicile 

superioare sunt determinante pentru creşterea calităţii rostirii. În cazul în care aceste armonici 

lipsesc, vor trebui adăugate prin procedee speciale de filtrare digitală.

11) Analiza spectrală a sunetelor radiofonice 

42 


În acest set de observaţii s-au analizat două tipuri de emisii radio: emisia FM (Frequency 

Modulation) şi respectiv MW ( Medium Wave length). Prima asigură o calitate mai bună a 

sunetului, permiţând transmisia sunetului fără pierderi pe toată banda de frecvenţe audibile, pe 

când cea de-a doua înregistrează pierderi şi modificări de frecvenţă, mai ales pe benzile 

superioare (peste 1000 Hz). 

Pentru a detecta diferenţele calitative între cele două tipuri de transmisii, precum şi 

modul cum ele afectează vocea, s-au preluat pe două canale simultan secvenţele eşantionate ale 

aceleiaşi transmisii radiofonice vocale dar recepţionate diferit - în cele două moduri amintite mai 

sus. 

În continuare au fost separate vocalele şi s-a analizat spectrul de amplitudini şi calitatea 

formanţilor în cele două cazuri. 

Figura 3.47. Vocala A - Formele de undă (sus: FM; jos: MW) 

Figura 3.48. Vocala A – Spectrele armonice(sus: A –FM; jos: A –MW) 

Formanţii 2, 3 şi 4 au scăzut în amplitudine cu aproximativ 10%. Începând cu frecvenţa 

de 1000 Hz, raportul semnal/zgomot se reduce semnificativ. De asemenea, se observă apariţia 

unui vârf de frecvenţă la jumătatea frecvenţei fundamentale.

Figura 3.49. Vocala E -FM. Sunt vizibili 3 

formanţi principali. 

Figura 3.51. Vocala I -FM. În acest caz 

vocala are doi formanţi. 

Figura 3.53. Vocala O -FM. In acest caz 

vocala are trei formanţi. 

43 


Figura 3.50. Vocala E - MW. Formantul 3 

s-a redus cu 5%. 

Figura 3.52. Vocala I - MW. Formanţii se 

păstrează; apare zgomotul de fond. 

Figura 3.54. Vocala O - MW. Formantul 3 

creşte cu aproximativ 3%.

Figura 3.55. Vocala U -FM. In acest caz 

vocala are doi formanţi majori. 

44 


Figura 3.56. Vocala U - MW. Formantul 2 a 

scăzut cu aproximativ 12%. 

12) Îmbunătăţirea calităţii vocii prin introducerea de armonici superioare 

Aşa cum am văzut, aplicaţia SPEA permite filtrarea selectivă a frecvenţelor şi editarea 

interactivă a spectrului FFT, aspect foarte important pentru analiza vorbirii şi îmbunătăţirea 

calităţii semnalului vocal. Comanda FILTRU oferă filtrarea interactivă a frecvenţelor şi editarea 

grafică a formanţilor şi armonicilor semnalului vocal. Prin glisarea mouse-ul în zona spectrului 

FFT, utilizatorul poate elimina benzile de frecvenţe corespunzătoare zgomotului sau să mărească 

energia semnalului în benzile dorite. 

Utilizatorul poate modifica, de asemenea, spectrul de formanţi şi de armonici, pentru a 

îmbunătăţi timbrul sunetului. Experimentele care s-au făcut arată că o bună calitate de voce 

implică un bogat set de armonici. Mai ales armonicile de frecvenţă înaltă constituie un factor 

determinant pentru calitatea unei rostiri. Acest lucru este util in procesul de creare a unei baze de 

date vocale utilizate pentru sinteza vorbirii, în care unele dintre segmentele vocale înregistrate ar 

putea fi îmbogăţite prin adăugarea de armonici înalte. 

Figura 3.57 arată diferenţa dintre două sunete (vocala / A/), înainte (a) şi după (b) 

adăugarea de frecvenţe mai mari. În cel de-al doilea caz, percepţia acustică a sunetului este mai 

bună. Armonicile sunt introduse întotdeauna la multiplii întregi ai frecvenţei primului formant. 

a b 

Figura 3.57. Vocala /A/ îmbogăţită cu armonici înalte

45 


Concluzii cu privire la experimentele asupra calităţii transmisiei radio 

În aceste experimente legate de calitatea transmisiei radio, pe lângă zgomotul de fond 

care intervine în cazul emisiei MW, se observă afectarea calităţii vocii prin modificarea 

dimensiunilor formanţilor secundari, uneori însoţită şi de o modificare de frecvenţă. O altă 

caracteristică a scăderii calităţii este apariţia neregularităţilor în anvelopa spectrală. 

Aceste observaţii duc şi la o aplicaţie în vederea sintezei vocii de calitate: pentru 

îmbunătăţirea calităţii vocii se poate recurge la netezirea anvelopei spectrale între formanţii 

majori ai sunetului, amplificarea mărimii formanţilor secundari şi eventual introducerea unor 

armonici superioare pentru sporirea naturaleţii. Aceste armonici superioare se vor introduce 

întotdeauna la multiplii următori ai frecvenţei fundamentale. 

13) Analiza comportării sunetelor vocalice 

În cadrul acestor experimente s-a studiat comportamentul vocalelor rostite de către un 

vorbitor în mai multe moduri: rostite izolat, rostite împreună cu o consoană în cadrul unei 

silabe, studiul comportării sunetelor în cadrul silabelor accentuate, studiul comportării vocalelor 

rostite împreună cu alte vocale precum în cazul diftongilor. 

a) Sunetele vocalice rostite izolat 

Sunetele rostite izolat (vocalele în particular) prezintă trei porţiuni distincte ale formei de 

undă, aşa cum se indică în figura 3.58: 

Atac Segmentul median Cădere 

Figura 3.58. Cele trei segmente definitorii pentru rostirea unei vocale 

Aceste trei porţiuni distincte sunt: 

- o porţiune iniţială, numită segmentul de atac, în care amplitudinea creşte progresiv de la 

valoarea caracteristică nivelului de fond (nivelul zero) până la valoarea de amplitudine 

caracteristică rostirii propriu-zise;

46 


- porţiunea mediană, ce corespunde rostirii propriu-zise a vocalei; aici este concentrată 

preponderent energia vocalei, amplitudinea fiind maximă, aproximativ constantă pe 

toată durata segmentului; lungimea temporală a segmentului e mai mare comparativ cu 

celelalte segmente; 

- o porţiune finală, numită segmentul de cădere, în care amplitudinea scade progresiv de 

la valoarea de amplitudine caracteristică rostirii propriu-zise până la valoarea 

caracteristică nivelului de fond (nivelul zero). 

În continuare se prezintă măsurătorile efectuate asupra duratelor şi frecvenţelor 

caracteristice celor trei segmente: de atac, median şi final pentru vocalele /A/, /E/, /I/, /O/, 

/U/, rostite izolat. 

Vocala A : 

Figura 3.59. Vocala A segmentul de atac. 

Amplitudinea creşte progresiv; durata 

segmentului: 42,2 ms; frecvenţa medie este 

de 120 Hz. 

Figura 3.60. Vocala A porţiunea 

mediană. Se observă un spectru de mai 

multe armonici; amplitudinea este 

constantă; durata segmentului: 89,6 ms; 

frecvenţa fundamentală este de 109 Hz. 

Figura 3.61. Vocala A porţiunea finală. 

Amplitudinea scade progresiv; durata 

segmentului: 37,5 ms; frecvenţa 

fundamentală este de 124 Hz.

Vocala E : 

Figura 3.62. Vocala E segmentul de atac. 

Amplitudinea creşte; durata segmentului: 

45,4 ms; frecvenţa medie este de 112 Hz. 

Vocala I : 

Figura 3.65. Vocala I segmentul de 

atac. Frecvenţa medie este de 130 Hz. 

Durata segmentului: 51,6 ms. 

47 


Figura 3.63. Vocala E porţiunea 

mediană. Spectrul este identic; 

amplitudinea este constantă; durata 


fundamentală este de 106 Hz. 

Figura 3.64. Vocala E porţiunea finală. 




Figura 3.66. Vocala I porţiunea 

mediană. Frecvenţa fundamentală este de 

113 Hz. Durata segmentului: 122 ms.

Vocala O : 

Figura 3.68. Vocala O segmentul de atac. 



48 


Figura 3.67. Vocala I porţiunea finală. 

Amplitudinea scade; frecvenţa fundamentală 

este de 123 Hz. Durata 

segmentului: 60,3 ms. 

Figura 3.69. Vocala O porţiunea 

mediană. Amplitudinea rămâne constantă; 

durata segmentului: 73,2 ms; frecvenţa 


Figura 3.70. Vocala O porţiunea finală. 


segmentului: 38,5 ms ; frecvenţa 

fundamentală creşte la 119 Hz.

Vocala U : 

Figura 3.71. Vocala U segmentul de atac. 



49 


Figura 3.72. Vocala U porţiunea 

mediană. Amplitudinea este constantă; 

durata : 51,6 ms; frecvenţa fundamentală 

este de 99 Hz. 

Figura 3.73. Vocala U porţiunea 

finală. Amplitudinea scade progresiv pe 

o durată de 40,7 ms; frecvenţa 

fundamentală se menţine aproximativ 

constantă (96-99Hz). 

Tabelul 3.1 arată duratele celor trei segmente caracteristice pentru fiecare vocală. 

Tabelul 3.1. Duratele segmentelor vocalice 

Atac 

(ms) 

(%) Median 

(ms) 

(%) 

Cădere 

(ms) 

(%) 

Total 

(ms) 

A 42.2 25 89.6 53 37.5 22 169.3 

E 45.4 23 87.7 44 66 33 199.1 

I 51.6 22 122 52 60.3 26 233.9 

O 41.1 27 73.2 48 38.5 25 152.8 

U 34.3 27 51.6 41 40.7 32 126.6 

Se observă că segmentul median are o proporţie de aproximativ 50% din totalul duratei 

rostirii vocalice, iar segmentele de atac şi decădere reprezintă circa 25% fiecare din durata totală.

50 


Tabelul 3.2 indică frecvenţele fundamentale medii caracteristice fiecărui segment. 

Procentele sunt calculate relativ la segmentul median: 

Tabelul 3.2. Frecvenţele specifice segmentelor vocale 

Atac 

(Hz) 

(%) 

Median 

(Hz) 

(%) 

Cădere 

(Hz) 

(%) 

A 120 110 109 100 124 114 

E 112 106 106 100 117 110 

I 130 115 113 100 123 109 

O 118 109 108 100 119 110 

U 116 117 99 100 99 100 

Se observă că frecvenţa medie a segmentelor de atac şi de cădere sunt cu circa 10% mai 

mari decât fecvenţa segmentului median, care defineşte sunetul vocalei. 

Acest lucru este valabil şi în cazul în care vocalele apar la începutul, respectiv la sfârşitul 

unui cuvânt rostit izolat. În primul caz, amplitudinea creşte de la zero la valoarea maximă într-un 

interval de timp de 30% din durata vocalei, timp în care fecvenţa medie este mai mare cu 10% 

faţă de frecvenţa vocalei. În cazul în care vocala apare la sfârşitul cuvântului, pe aceeaşi durată 

de timp se petrece fenomenul invers: amplitudinea scade, dar cu aceeaşi creştere de frecvenţă. 

b) Sunetele vocalice rostite în silabe accentuate 

În cadrul acestui set de experimente s-au efectuat studii legate de comportarea vocalelor 

atunci când sunt rostite accentuat (făcând parte din silabe accentuate ale unor cuvinte) faţă de 

situaţia când sunt rostite în mod obişnuit, neaccentuat. S-a constatat că ele se comportă diferit în 

cele două situaţii prin modificarea amplitudinii, frecvenţei fundamentale şi duratei vocalice pe 

parcursul rostirii. 

Spre exemplificare s-a ales cazul rostirii silabelor /MA/, /ME/, /MI/, /MO/, /MU/ la 

modul neaccentuat, cât şi la modul accentuat. 

Figura 3.74. Silaba MA neaccentuată. 

Frecvenţa fundamentală este aproximativ 

constantă, egală cu 102 Hz. 

Figura 3.75. Silaba MA accentuată. Se 

observă creşterea amplitudinii, frecvenţei 

şi duratei rostirii silabice. Frecvenţa 

variază de la 113 la 121 Hz.

51 


În mod analog se comportă şi celelalte silabe, bineînţeles cu valorile parametrilor de 

durată, frecvenţă şi amplitudine specifice. În tabelul următor se indică aceste valori spre 

comparaţie: 

Tabelul 3.3. Frecvenţe comparative: silabe accentuate faţă de silabele normale 

Normal Accentuat Creştere 

F0 (Hz) F1 (Hz) F2 (Hz) (%) 

MA 102 113 121 7.08 

ME 117 103 125 21.36 

MI 122 120 129 7.50 

MO 110 111 121 9.01 

MU 118 118 131 11.02 

În tabelul 3.3 se indică prin F0 frecvenţa fundamentală vocalică din cadrul silabei rostite 

normal, neaccentuat, iar prin F1, respectiv F2 frecvenţele de start, respectiv de final ale vocalei 

încadrate într-o silabă accentuată. Creşterea procentuală a fost calculată pentru silaba accentuată 

şi se referă la creşterea frecvenţei vocalice pe parcursul rostirii silabei. 

În figura 3.76 se arată variaţia frecvenţei vocalice dintr-o silabă accentuată: 

Figura 3.76. Variaţia frecvenţei vocalice dintr-o silabă accentuată 

Creşterea duratei rostirii în cazul silabei accentuate faţă de o silabă neaccentuată se 

prezintă în tabelul 3.4. Se observă o creştere cu 10%-30% : 

F1 

F2

52 


Tabelul 3.4. Duratele comparative între silabele accentuate şi silabele normale 

Normal Accentuat Creştere 

t (ms) t (ms) (%) 

MA 149 182 22.15 

ME 127 166 30.71 

MI 150 166 10.67 

MO 134 168 25.37 

MU 133 150 12.78 

În încheiere, pentru a sintetiza pe scurt rezultatele experimentelor efectuate asupra 

sunetelor vocalice, se pot formula următoarele concluzii: 

1. Rostirea vocalelor diferă în funcţie de vorbitor, dar spectrele pentru o aceeaşi vocală 

prezintă caracteristici comune în ceea ce priveşte numărul formanţilor şi învelitoarea spectrală. 

2. Pentru un acelaşi vorbitor, vocalele prezintă o frecvenţă fundamentală specifică şi o 

structură formantică specifică. S-a constatat că sunetele sunt cu atât mai pure cu cât lăţimea 

formanţilor este mai mică şi structura frecvenţelor formantice este mai aproape de structura 

armonică a sunetului alcătuită din frecvenţe situate la valori multiplu de frecvenţa fundamentală. 

3. Deosebit de importante pentru calitatea rostirii vocalice sunt armonicile situate la 

frecvenţe superioare. Acestea dau timbrul specific rostirii, iar în absenţa lor sunetul va fi 

perceput ca un sunet plat, metalizat. 

4. Vocalele prezintă întotdeauna trei porţiuni distincte: porţiunea de atac (iniţială), 

mediană şi de cădere (finală). De cele mai multe ori, segmentele iniţial şi final sunt influenţate de 

contextul fonematic în care se găsesc. 

5. Sunetele vocalice prezintă caracteristici distincte atunci când sunt rostite în cadrul 

silabelor accentuate din cuvinte. S-au constatat variaţii ale tuturor parametrilor ce influenţează 

prozodia: durata, amplitudinea şi frecvenţa. Astfel, durata segmentului vocalic creşte, la fel şi 

amplitudinea, iar frecvenţa fundamentală variază pe parcursul rostirii de la o valoare iniţială la o 

valoare finală într-o proporţie de până la 15-20%. 

Aceste observaţii asupra rezultatelor cercetărilor efectuate au o mare importanţă mai ales 

pentru sinteza vorbirii, arătând modul specific de sinteză al sunetelor în scopul obţinerii unei 

rostiri de calitate superioară, apropiată de rostirea umană propriu-zisă.

53 


3.2.3. Concluzii privind contribuţiile autorului în domeniul procesării 

semnalului vocal 

În acest capitol au fost prezentate cercetările proprii precum şi rezultatele experimentale 

obţinute în analiza unor eşantioane reale de semnal vocal. 

În primul rând a fost descrisă aici o aplicaţie originală proiectată de autor numită SPEA - 

Signal Processing and Enhancement Application, aplicaţie destinată analizei şi procesării 

semnalului vocal. Aplicaţia prezintă următoarele facilităţi: încărcarea semnalului vocal 

înregistrat în fişiere wave având diferite codificări, vizualizarea formei de undă şi a eşantioanelor 

de semnal pe diferite scale de mărime, determinarea parametrilor semnalului vocal (amplitudine, 

energie, număr de treceri prin zero, frecvenţa fundamentală - în domeniul timp; spectrul de 

amplitudini, spectrul de faze, formanţii - pentru domeniul frecvenţă), posibilitatea de modificare 

interactivă a componentelor din spectrele de amplitudini şi faze în scopul îmbunătăţirii calităţii 

acustice a semnalului vocal. A fost prezentat de asemeni şi modul de lucru al utilizatorului în 

interacţiunea cu aplicaţia. 

Au fost prezentate rezultatele experimentelor efectuate, experimente axate pe studiul 

proprietăţilor specifice ale semnalului vocal ce asigură o calitate superioară sunetului emis. 

Astfel, au fost efectuate diverse analize spectrale de sunet: analiza spectrală a vocalelor emise de 

diferiţi vorbitori, analiza spectrală a consoanelor, analiza spectrală a sunetelor emise multitonal, 

evidenţiându-se importanţa alegerii ferestrei de semnal asupra rezultatului analizei spectrale; 

comportarea semnalelor modulate; analize sonore perceptuale: analiza perceptuală a sunetelor 

emise în fază diferită, relaţia dintre timbrul sunetului şi percepţia auditivă. 

Au fost studiaţi de asemeni factorii care determină în mod semnificativ calitatea vocii, 

arătându-se care este influenţa frecvenţei de eşantionare şi a mediului de înregistrare asupra 

calităţii vocii şi a sunetului emis, precum şi factorii determinanţi pentru a realiza o sinteză vocală 

de calitate superioară. 

Analiza comportării sunetelor vocalice prezentată în finalul capitolului are o mare 

importanţă în scopul realizării unei sinteze a vorbirii de calitate. În acest sens au fost studiate 

caracteristicile sunetelor vocalice în diferite contexte fonematice şi prozodice, realizându-se 

diagrame comparative ale rostirii lor în aceste contexte.

4. Analiza semnalului vocal 

După procesarea semnalului, analiza semnalului vocal constituie următoarea etapă 

premergătoare, necesară în sinteza de voce. Analiza semnalului vocal presupune: 

(1) determinarea parametrilor şi caracteristicilor acestuia pe baza eşantioanelor de vorbire 

înregistrate de la vorbitor; 

(2) descompunerea semnalului în segmente sau regiuni cu proprietăţi comune (segmentarea 

semnalului); 

(3) evidenţierea segmentelor semnificative şi punerea lor în corespondenţă cu informaţia 

cunoscută (extragerea informaţiei). 

4.1. Parametrii de bază ai semnalului vocal 

Reprezentarea cea mai obişnuită a semnalelor, la fel şi a celor vocale se face în spaţiul 

amplitudine-timp, ceea ce descrie evoluţia undei acustice în timp. Semnalul acustic preluat de la 

un microfon şi transformat în semnal electric poate fi memorat şi studiat ulterior. 

Semnalul vocal face parte din categoria semnalelor nestaţionare (ale căror proprietăţi 

medii variază în timp) şi continue (nu este tranzitoriu). Cu toate acestea, datorită schimbării lente 

a caracteristicilor de articulaţie, pe perioade scurte de timp (20ms) semnalul vocal poate fi 

considerat staţionar (cvasistaţionar). Pe aceste perioade se pot determina anumiţi parametri care 

caracterizează semnalul vocal pe acel interval, numit în continuare segment. 

Figura 4.1 prezintă un asemenea caz în care dintr-un semnal vocal a fost delimitat un 

segment în scopul analizei. 

Segment de analiză 

Figura 4.1. Segment de analiză din cadrul semnalului vocal 

Se observă că semnalul poate fi considerat staţionar pe durata segmentului. 

O informaţie utilă ce caracterizează semnalul rezultă din componentele sale spectrale, 

numite pe scurt spectru. 

54

55 

Cap. 4. Analiza semnalului vocal 

Se notează spectrul semnalului vocal cu S(ω), care rezultă din produsul dintre funcţia de 

transfer a sistemului fonator H(ω) şi spectrul semnalului de excitaţie E(ω) de la nivelul glotei 

[Fer97]: 

S(ω) =H(ω) E(ω) (4.1) 

După cum rezultă, spectrul semnalului conţine atât informaţii privitoare la funcţia de 

transfer a sistemului fonator cât şi informaţii referitoare la spectrul semnalului de excitaţie. 

Echivalentul în domeniul timp al formulei (4.1) este [Fer97]: 

t 

 

 

s( t) 

e( 

) h( 

t 

) d 

(4.2) 

ceea ce exprimă faptul că semnalul vocal reprezintă răspunsul sistemului liniar având 

funcţia pondere h(t) la excitaţia cu semnalul e(t). Altfel spus s(t) reprezintă convoluţia (produsul 

de convoluţie) funcţiei pondere h(t) cu semnalul de excitaţie e(t). O altă notaţie folosită pentu 

exprimarea produsului de convoluţie este [Fer97]: 

s(t) =h(t)*e(t) (4.3) 

Figura 4.2 prezintă spectrul unui semnal vocal sonor, sugerând modul de interacţiune 

dintre spectrul semnalului de excitaţie şi caracteristica de transfer a tractului vocal. 

Datorită caracterului deosebit al spectrului semnalului de intrare (spectru de linii) 

amplitudinile liniilor spectrale variind lent cu frecvenţa, iar funcţia de transfer fiind o funcţie 

continuă, rezultă forma specială a spectrului, şi anume: modulul spectrului S(ω) conţine linii 

spectrale ale căror vârfuri reunite de curba numită înfăşurătoare spectrală urmăreşte modulul 

funcţiei de transfer H(ω). 

Vârfurile spectrale de energie mare care corespund locurilor de maxim a modului funcţiei 

de transfer H(ω) sunt caracteristice pentru fiecare fonemă în parte, motiv pentru care acestea se 

numesc frecvenţe de formanţi sau simplu: formanţi. Aceştia constituie un ansamblu de parametri 

importanţi în analiza şi sinteza semnalului vocal. 

Un alt parametru important îl constituie cel care specifică tipul semnalului de excitaţie 

rezultat din analiză, respectiv utilizat la sinteză. După cum s-a văzut, sunetelor sonore li se poate 

asocia tipul de semnal de excitaţie sonor (echivalat cu trenuri de impulsuri unitate, dinte de 

fierăstrău sau alte semnale periodice cu spectru de linii relativ larg), iar sunetelor fricative li se 

poate asocia tipul de semnal de excitaţie nesonor (echivalat cu un zgomot alb). Parametrului care 

specifică tipul semnalului de excitaţie i se pot atribui deci două valori, respectiv sonor şi nesonor.

Figura 4.2. Structura spectrală a unui semnal vocal periodic [Fer97] 

56 


În cazul semnalelor sonore este importantă specificarea frecvenţei semnalului de excitaţie, 

ceea ce se numeşte frecvenţă fundamentală. Acest parametru este strâns legat de aspectele de 

inonaţie din cadrul vorbirii. Prin modificarea acestui parametru se pot exprima diferite stări 

subiective (exclamare, stări emoţionale, interogări). Pe de altă parte modul de intonaţie aj ută la 

creşterea inteligibilităţii mesajului transmis. 

Frecvenţa fundamentală este un parametru care pe lângă aspectele descrise mai sus 

variază nu numai în cadrul cuvintelor, ci şi în interiorul fonemelor (celor sonore) şi variază şi de 

la om la om. Valorile uzuale pe care le are acest parametru se situează în domeniul 90÷150 Hz 

pentru vocea de bărbaţi şi 150÷200 Hz în cazul vocii femeilor [Fer97].

57 


4.2. Analiza semnalului pentru determinarea parametrilor caracteristici 

Ţinând cont că semnalul vocal este cvasistaţionar pe segmente scurte de timp, adică îşi 

păstrează proprietăţile nealterate pe parcursul fiecărui interval, metodele actuale de prelucrare a 

semnalului vocal folosesc aşa-numita analiză pe termen scurt. Pentru a aborda această 

modalitate de analiză, semnalul vocal este împărţit în segmente cu lungimea de 10-30 ms, pe 

parcursul cărora semnalul se consideră staţionar. 

Extragerea informaţiei din cadrul segmentelor de timp se face folosind o funcţie 

fereastră, care are rolul de ponderare a parametrilor semnalului cu accentuarea valorilor 

corespunzătoare eşantioanelor din centrului ferestrei (segmentului considerat) şi diminuarea 

celor corespunzătoare marginilor ferestrei. Aceasta se face în scopul obţinerii unei estimări 

netezite a parametrilor, care să permită trecerea fină de la o secvenţă de parametrii la următoarea, 

corespunzător segmentelor de semnal considerate. În acelaşi scop se foloseşte şi intercalarea 

segmentelor pe axa timpului, în acest caz începutul unui segment suprapunându-se peste sfârşitul 

segmentului anterior. Acest tip de analiză se numeşte analiză cu fereastră glisantă [Lup04]. 

Funcţiile fereastră cele mai uzuale sunt: fereastra Hamming, Hanning, fereastra cosinus. 

Aceste funcţii au o formă gaussiană (prezentată în figura 4.3 ) pentru a asigura ponderarea 

valorilor centrată pe mijlocul ferestrei. 

y 

Figura 4.3. Funcţie fereastră utilizată în ponderare 

Mai departe, analiza semnalului vocal poate fi făcută în două moduri, ţinând cont de 

domeniul de analiză: în domeniul timp şi în domeniul frecvenţă. Analiza în domeniul timp 

presupune determinarea proprietăţilor semnalului vocal din studierea formei de undă a 

semnalului, privită ca variaţia valorilor eşantioanelor vocale în funcţie de timp. Analiza în 

domeniul frecvenţă presupune determinarea spectrului de frecvenţe a semnalului şi determinarea 

parametrilor doriţi pe baza formei spectrale. 

4.2.1. Analiza în domeniul timp a semnalului vocal 

Prin analizarea directă a formei de undă a semnalului se pot extrage următorii parametrii: 

amplitudinea maximă şi medie, energia semnalului vocal, numărul trecerilor prin zero şi 

frecvenţa fundamentală. 

Amplitudinea semnalului ne dă informaţii despre prezenţa sau absenţa semnalului vocal, 

despre faptul că semnalul este sonor sau nesonor pe segmentul considerat. În cazul sonor 

(rostirea unor sunete vocalice) amplitudinea este mare, pe când în cazul sunetelor nesonore 

(zgomote, rostire de consoane) amplitudinea este redusă. 

x

Amplitudinea medie pentru N eşantioane se calculează astfel [Pic93]: 

1 

M ( n) 

x( 

m) 

| w( 

n m 

) 

(4.4) 

 

| 

N m 

unde: x(m) este eşantionul curent al semnalului vocal, iar 

w(n-m) este fereastra utilizată în segmentul considerat. 

58 


Energia semnalului este utilă în determinarea caracteristicilor de putere transportată a 

semnalului vocal. Pentru un semnal cu valoare medie nulă, energia pe termen scurt se defineşte 

astfel [Lup04]: 

1 

2 

E( 

n) 

x( 

n) 

w 

( n m 

)] 

(4.5) 

 

[ 

N m 

Segmentele sonore (vocalele) au o energie medie ridicată, pe când consoanele au energie 

scăzută. Pentru majoritatea fonemelor, energia se concentrează în banda de frecvenţe între 300 şi 

3000 Hz. 

Numărul trecerilor prin zero este util pentru determinarea caracteristicilor de frecvenţă 

în interiorul unui segment de timp. Numărul trecerilor prin zero se calculează astfel [Pic93]: 

1 

[ N 

n0 

NTZ 

1sgn( 

s( 

n 1 

) T ) sgn( 

s( 

nT ))] 

2 

(4.6) 

unde sgn(n) este funcţia semn: 

 

1, 

n 0 

sgn( n ) 

(4.7) 

 

1, 

n 0 

Numărul trecerilor prin zero este o caracteristică ce se foloseşte în recunoaşterea vorbirii, 

precum şi în determinarea caracterului sonor/nesonor. În interiorul segmentelor sonore numărul 

trecerilor prin zero este mai redus, în timp ce în segmentele nesonore acest parametru este mai 

ridicat. 

Frecvenţa fundamentală este un parametru deosebit de important folosit atât în sinteza 

cât şi în recunoaşterea vorbirii. Frecvenţa fundamentală corespunde cu periodicitatea semnalului 

vocal. Determinarea acestui parametru nu se poate face întotdeauna cu exactitate, din cauza 

variabilităţi semnalului vocal chiar pe porţiuni scurte de timp. Rostirea vocalelor prezintă o 

frecvenţă fundamentală ce poate fi determinată, pe când consoanele, care sunt rostiri neperiodice, 

nu au frecvenţă fundamentală. 

Dintre metodele uzuale de determinare a frecvenţei fundamentale a semnalului vocal 

amintim următoarele:

A. Metoda autocorelaţiei 

59 


Metoda se bazează pe calculul funcţiei de autocorelaţie a semnalului vocal, care ne dă 

informaţii despre interdependenţa temporală a eşantioanelor. Funcţia de autocorelaţie se 

defineşte astfel [Sto84]: 

N k 1 

[ 

m0 

R ( k) 

x( 

m n 

) w( 

m)][ 

x( 

n m 

k 

) w( 

m k 

)] (4.8) 

n 

unde x(n) este valoarea eşantionului de semnal, iar 

w(m) este funcţia fereastră utilizată. 

Funcţia de autocorelaţie prezintă maxime la intervale de timp egale cu perioada 

semnalului. Determinarea acestor maxime şi măsurarea distanţei dintre ele conduce la 

determinarea frecvenţei fundamentale a semnalului. 

B. Metoda funcţiei diferenţă de amplitudine medie 

Metoda se bazează pe calculul funcţiei diferenţă de amplitudine medie, care are expresia 

[Sto84]: 

1 

D ( n) 

| sk 

s 

k n 

| , cu 0 n N 

1 

(4.9) 

N 

N 1 

k 0 

Funcţia diferenţă de amplitudine medie D(n) prezintă minime la distanţă egală cu 

perioada semnalului, şi are avantajul că se poate calcula mai rapid decât funcţia de autocorelaţie. 

C. Metoda cu limitare centrală 

Metoda urmăreşte simplificarea calculelor prin reţinerea în procesul de calcul doar a 

eşantioanelor de semnal ce depăşesc în valoare absolută o anumită valoare de prag. Apoi 

semnalul se accentuează în felul următor: valorile pozitive se adună cu valoarea de prag, iar din 

cele negative se scade valoarea de prag P: 

x 

( n) 

P, 

x( 

n) 

0 

x ( n) 

 

(4.10) 

x 

( n) 

P, 

x( 

n) 

0 

În varianta metodei cu limitare infinită, valorile pozitive se înlocuiesc cu o valoare 

maximă, iar cele negative cu o valoare minimă. 

După faza de accentuare, se calculează funcţia de autocorelaţie definită anterior, ale cărei 

maxime se vor putea determina mult mai uşor. 

De asemeni, se poate utiliza cu bune rezultate o metodă combinată în care după limitarea 

centrală se aplică metoda funcţiei diferenţă de amplitudine medie.

4.2.2. Analiza în domeniul frecvenţă a semnalului vocal 

60 


Analiza în domeniul frecvenţă a semnalului presupune descompunerea semnalului în 

componente de frecvenţă cunoscută, cum este cazul analizei Fourier, sau în componente a căror 

comportare în frecvenţă este cunoscută, cum e cazul analizei bazate pe filtre digitale. Parametrii 

obţinuţi în urma descompunerii semnalului în componente diferă de cazul analizei în domeniul 

timp, cele două abordări fiind complementare. Principalele metode folosite în cadrul analizei în 

domeniul frecvenţă sunt [Lup04]: analiza prin banc de filtre, analiza Fourier, analiza LPC, 

analiza cepstrală şi analiza perceptuală. 

A. Analiza prin banc de filtre digitale 

Analiza prin banc de filtre digitale are ca scop descompunerea semnalului în benzi de 

frecvenţă şi determinarea ponderii componentelor din aceste benzi în semnalul iniţial, de unde se 

va putea trage o concluzie asupra comportării în frecvenţă a semnalului vocal. Schema bloc a 

unui astfel de analizor este dată în figura 4.4 [Lup04]: 

x(n) 

FTB 1 

FTB 2 

. 

. 

. 

FTB N 

Transformare 

neliniară 

Transformare 

neliniară 

Transformare 

neliniară 

Figura 4.4. Schema bloc a analizorului cu banc de filtre 

x1(n) 

x2(n) 

xN(n) 

Semnalul iniţial x(n) este descompus în N benzi de frecvenţă prin intermediul filtrelor 

trece-bandă FTB1...FTBN. Fiecare bandă este supusă apoi unei transformări neliniare pentru 

deplasarea spectrului către domeniul frecvenţelor joase. Vectorii rezultaţi xk(n) pentru fiecare 

subbandă vor fi analizaţi separat, iar în vederea sintezei sau recunoaşterii li se va aplica în 

continuare anumiţi operatori matematici (netezire, normalizare). Deseori se foloseşte calculul 

energiei vectorilor rezultaţi pentru a determina ponderea lor în alcătuirea semnalului iniţial. 

. 

. 

.

B. Analiza Fourier 

61 


Analiza Fourier este cea mai răspândită metodă de analiză a semnalului vocal pentru că 

ea oferă imaginea completă a componentelor semnalului pe scara frecvenţei, rezultând astfel 

spectrul de frecvenţe asociat. Analiza Fourier se bazează pe proprietatea unui semnal periodic de 

a putea fi descompus în componente sinusoidale. 

Această metodă de analiză foloseşte calculul transformatei Fourier discrete, de forma 

[Mat01]: 

X ( k ) 

N 1 

n 0 

x ( n ) e 

j 

2nk 

/ N 

, k = 1,2,...,N , (4.11) 

unde: x(n) reprezintă eşantioanele de semnal, 

X(k) este valoarea componentei k din spectrul de frecvenţe, 

N este numărul de eşantioane considerate, iar 

j este unitatea imaginară. 

Calculul se face în domeniul complex, rezultând pentru fiecare componentă X(k) două 

valori reale corespondente: 

- modulul sau amplitudinea: Ak= |X(k)| , respectiv 

- faza: φk=arg(X(k)). 

În practică se foloseşte mai mult spectrul amplitudinilor, sau spectrul de putere al 

semnalului. Aceasta deoarece urechea umană e mai puţin sensibilă la spectrul de faze al unui 

semnal vocal. 

Cum pentru fiecare k e necesar calculul sumei (4.11) cu N valori, rezultă o complexitate a 

algoritmului de calcul de forma O(N 2 ). Pentru rapidizare sunt disponibili diverşi algoritmi, dintre 

care cei mai cunoscuţi sunt algoritmii FFT ( Fast Fourier Transform - Transformata Fourier 

Rapidă) cu decimare în frecvenţă sau decimare în timp. Algoritmul FFT se bazează pe calculul 

recursiv al valorilor spectrale [Tod05] şi reduce complexitatea algoritmului la O(Nlog2N). 

Pe baza aflării spectrului de frecvenţe se pot determina o serie de parametrii specifici, 

cum ar fi anvelopa spectrală sau forma şi valoarea formanţilor, ce ne dau informaţii despre 

comportamentul în domeniul frecvenţei a semnalului pe segmentul de timp considerat. 

Aşa cum s-a prezentat în capitolul dedicat procesării semnalului vocal, formanţii se 

determină printr-un algoritm de detecţie a maximelor locale ale anvelopei spectrale. 

Înainte de calculul spectrului, semnalul poate fi prelucrat printr-un filtru trece-sus, 

realizându-se aşa-numita preaccentuare a semnalului. Această operaţie este efectuată în scopul 

accentuării componentelor de frecvenţă ridicată, care de regulă sunt atenuate în procesul vorbirii 

de către sistemul fonator [Lup04]. 

C. Analiza prin predicţie liniară 

Analiza prin predicţie liniară sau analiza LPC (Linear Prediction Coding) este o metodă 

eficientă de determinare a unor parametrii recursivi ai semnalului vocal, care se vor putea folosi 

în cadrul procesului de sinteză sau recunoaştere a vorbirii. Analiza prin metoda LPC se bazează 

pe modelul producerii vorbirii prezentat în figura 4.5.

F0 

Excitaţie 

Figura 4.5. Modelul producerii vorbirii prin metoda LPC 

62 


Modelul LPC al producerii vorbirii este generat în concordanţă cu producerea sunetului 

de către sistemul fonator uman. Astfel, energia sonoră de bază este furnizată de către un semnal 

de excitaţie, care poate să fie periodic sau neperiodic, în funcţie de sunetul produs (tren de 

impulsuri periodice pentru cazul vocalelor sau zgomot alb în cazul consoanelor). Pentru un 

semnal de excitaţie periodic, se furnizează frecvenţa fundamentală F0 ca parametru de intrare în 

generator. 

Semnalul de excitaţie este apoi amplificat cu un factor G (numit câştigul modelului) şi 

trecut printr-un filtru variabil având funcţia de transfer H(z). Filtrul variabil modelează 

comportamentul tractului vocal din cadrul sistemului fonator, şi va produce la ieşire semnalul 

scontat s(n). Filtrul este controlat pe baza unor parametrii care sunt coeficienţii LPC {ak}. 

Parametrii sunt calculaţi pentru fiecare segment de vorbire de aproximativ 10-30 ms. 

Funcţia de transfer a filtrului are expresia [Tod05]: 

G 

H ( z) 

p 

1 

k 1 

a 

k 

z 

k 

G 

 

A( 

z) 

unde: G este câştigul filtrului, iar 

ak sunt coeficienţii de predicţie LPC. 

(4.12) 

Câştigul se poate determina pe baza erorii de predicţie dintre semnalul calculat cu 

ajutorul filtrului recursiv şi semnalul original. Pentru calculul parametrilor ak există mai multe 

metode, dintre care cele mai cunoscute sunt metoda autocorelaţiei (prin algoritmul Levinson - 

Durbin) şi metoda covarianţei. 

Metoda de analiză prin predicţie liniară LPC are avantajul că necesită efort computaţional 

relativ redus, rezultând un set de parametrii ce aproximează bine comportamentul semnalului în 

domeniul frecvenţă. Analiza LPC determină simplificarea spectrului semnalului, situaţie foarte 

avantajoasă în cazul recunoaşterii vorbirii, când se va genera un set de vectori mult mai adecvaţi 

tratării prin mijloace specifice inteligenţei artificiale, cum ar fi reţelele neuronale. Totodată, 

analiza LPC este utilă şi în cazul sintezei de voce, generând reducerea volumului de date în 

condiţiile menţinerii inteligibilităţii vocii. 

G 

Filtru variabil 

H(z) 

Parametrii 

tractului vocal 

s(n)

D. Analiza cepstrală 

63 


Analiza cepstrală este o metodă ce derivă din analiza Fourier, şi se utilizează pentru 

determinarea unor parametrii ai semnalului vocal utili mai ales în procesul recunoaşterii vorbirii 

[Tod05]. Modelul acustic pe care se bazează analiza cepstrală este asemănător cu modelul LPC 

şi este prezentat în figura 4.6: 

Excitaţie 

e(n) 

Figura 4.6. Modelul producerii vorbirii prin metoda cepstrală 

Semnalul vocal s(n) este produs de către un semnal de excitaţie e(n) corespunzător 

corzilor vocale din sistemul fonator, care este filtrat de către un filtru variabil având răspunsul la 

impuls h(n), ce corespunde tractului vocal. Avem astfel: 

s( n) 

e( 

n) 

h( 

n) 

(4.13) 

unde: s(n) e semnalul rezultat; 

e(n) – excitaţia; 

h(n) – răspunsul filtrului. 

Dacă translatăm ecuaţia (4.13) în domeniul frecvenţă, se poate scrie: 

Prin logaritmare obţinem: 


h(n) 

S( f ) E( 

f ) H 

( f ) 

(4.14) 

log S( f ) log E( 

f ) log 

H ( f ) (4.15) 

Din ecuaţia ( 4.15) rezultă posibilitatea separării excitaţiei sonore de influenţa tractului 

vocal, de aici rezultând şi modul de calcul al cepstrumului [Gav00]: 

Semnal vocal Cepstrum 

Transformata 

Log 

Transformata 

Fourier 

Fourier inversă 

Figura 4.7. Modul de calcul al cepstrumului 

Astfel se efectuează următorii paşi: 

- se calculează mai întâi spectrul S(f) al semnalului prin transformata Fourier; 

- se aplică logaritmul; 

- se aplică transformata Fourier inversă pentru a determina cepstrumul în domeniul 

timp. 

s(n)

64 


Analiza cepstrală ne oferă informaţii atât despre excitaţia sonoră, permiţând estimarea 

frecvenţei fundamentale a semnalului, cât şi despre influenţa tractului vocal, ducând la calculul 

spectrului netezit al semnalului vocal. Componentele cepstrale inferioare (corespunzătoare unui 

segment de timp de la 0 la 2ms) permit estimarea frecvenţei fundamentale prin determinarea 

maximului funcţiei cepstrale pe acest segment de timp. Pentru calculul spectrului netezit se 

folosesc componentele cepstrale superioare, cărora li se aplică din nou transformata Fourier. 

De asemenea, se mai poate calcula un set de parametrii numiţi coeficienţi cepstrali LPC, 

derivaţi direct din coeficienţii LPC. Formulele de calcul pentru aceşti parametrii sunt [Fur01]: 

c 

c 

c 

1 

n 

n 

a 

1 

n k 

a 

n 

a 

kc 

n k 

k n 

n 

p 

1 

( 1 ) , 

1 

1 

n k 

a 

kc 

n k 

n 

n p 

1 

( 1 ) , 

k 1 

unde: ak sunt coeficienţii LPC calculaţi până la ordinul p; 

cn sunt coeficienţii cepstrali LPC. 

(4.16) 

Coeficienţii cepstrali s-au dovedit a fi un set de parametrii mai robuşti decât coeficienţii 

simpli LPC, utilizănd-se cu succes mai ales în procesul de recunoaştere a vorbirii sau a 

vorbitorului [Lup04]. 

E. Analiza perceptuală 

Acest mod de analiză este adaptat după modul de funcţionare al sistemului perceptual 

auditiv al omului, şi anume după faptul că sesizarea diferitelor tonalităţi ale sunetelor se face pe 

o scară logaritmică în interiorul urechii, proporţional cu frecvenţa fundamentală a sunetului. 

Astfel, răspunsul urechii umane este neliniar în raport cu frecvenţa, ea detectând diferenţe mici 

de frecvenţă mai uşor la frecvenţe joase decât la frecvenţe înalte [Lup04]. 

Din acest motiv au fost adoptate diferite scări neliniare de frecvenţă, pentru care se va 

calcula spectrul semnalului. Cele mai cunoscute sunt scara de frecvenţă Bark şi scara Mel. 

Ambele sunt scări cu comportare logaritmică obţinute prin studii realizate asupra percepţiei 

umane. 

Există două metode de lucru în cadrul analizei perceptuale: analiza PLP şi analiza 

cepstrală Mel.

65 


Analiza PLP ( Perceptual Linear Prediction) foloseşte scara perceptuală Bark, fiind o 

combinaţie între metodele de analiză Fourier şi LPC. Etapele de analiză în cadrul metodei PLP 

cuprind [Her90]: 

- calculul spectrului FFT prin transformata Fourier; 

- aliniere spectrală după scara Bark; 

- aplicarea unui set de filtre dreptunghiulare Bark pentru emularea rezoluţiei 

perceptuale a urechii umane; 

- preaccentuare pentru stimularea frecvenţelor înalte; 

- conversia intensitate-tărie sonoră; 

- aplicarea transformatei Fourier inverse pentru obţinerea funcţiei de autocorelaţie; 

- calculul coeficienţilor LPC sau cepstrali, numiţi în acest caz coeficienţi PLP. 

Coeficienţii PLP de ordin inferior ne dau informaţii despre conţinutul lingvistic al 

segmentului considerat (informaţii semantice), pe când coeficienţii de ordin superior sunt utili în 

procesul de recunoaştere a identităţii vorbitorului [Lup04]. 

Analiza cepstrală Mel se aseamănă cu metoda de analiză PLP, folosindu-se în acest caz 

scara de frecvenţe Mel. Spre deosebire de cazul anterior, acum se foloseşte un set de filtre 

triunghiulare Mel pentru a descompune semnalul pe benzile de frecvenţă asociate cu scara Mel. 

Apoi pe fiecare bandă se calculează energia medie şi se aplică transformata cosinus pentru a 

obţine un set de coeficienţi numiţi coeficienţi MFCC (Mel Frequency Cepstral Coefficients). 

Coeficienţii MFCC au dat bune rezultate în procesul de recunoaştere a vorbirii, mai ales 

în combinaţie cu setul de parametri delta specificaţi de către Furui în [Fur01]. 

În concluzie, putem spune că până în momentul de faţă au fost proiectate mai multe 

metode de analiză a semnalului vocal, fiecare prezentând variante specifice şi beneficiind de 

aportul a numeroase studii pe plan internaţional. Aceste metode de analiză s-au dovedit utile 

pentru extragerea parametrilor caracteristici ai semnalului vocal, atât în procesul sintezei de voce 

cât şi în cel al recunoaşterii vorbirii.

4.3. Segmentarea semnalului vocal 

66 


După extragerea caracteristicilor semnalului vorbit, în analiză urmează etapa de 

segmentare a semnalului vocal. Segmentarea se referă la detectarea diferitelor categorii de 

semnal şi clasificarea acestora în funcţie de proprietăţile semnalului [Gla86]. 

Complexitatea algoritmilor de segmentare depinde de tipul categoriilor pe care vrem să le 

detectăm. De exemplu, algoritmii care separă semnalul în regiuni ce respectă anumiţi parametri 

fizici vor fi mai puţin complecşi decât algoritmii care determină categoria fonetică (vocală sau 

consoană). La rândul lor, aceştia vor fi mai puţin complecşi decât algoritmii care determină nu 

doar categoria, ci şi identitatea fonemelor. La fel, algoritmii care determină toate variaţiile 

alofonice ale unei foneme particulare pot fi şi mai complecşi, datorită variaţiilor fonemei 

respective în cursul vorbirii [Chi00]. 

Detectarea categoriilor şi clasificarea semnalului vocal se face în trei paşi, aşa cum se 

arată în figura 4.8 : 

Clasificare S/U/V 

Identificare 

categorie 

Identificare 

fonemă 

Figura 4.8. Segmentarea semnalului vocal 

Într-o paradigmă top-down, primul pas este împărţirea semnalului vocal în trei categorii 

de segmente de bază: linişte (Silence - S), nesonor (Unvoiced - U), sonor (Voiced - V). 

Al doilea pas este punerea în corespondenţă a fiecărui segment al vorbirii cu o anumită 

categorie fonetică. Tipurile de foneme precum şi categoriile fonetice diferă în funcţie de limbă. 

De exemplu, pentru limba engleză se definesc 9 categorii de foneme: vocale, consoane sonore, 

nazale, semivocale, fricative sonore, fricative nesonore, stopuri sonore, stopuri nesonore şi 

linişte. 

Un al treilea pas, şi mai complex, îl reprezintă identificarea exactă a fonemelor din fluxul 

de intrare. Aici se urmăreşte potrivirea segmentului analizat cu una din fonemele limbii 

respective. 

În general, alegerea numărului de categorii în care este segmentat semnalul se face printrun 

compromis între complexitatea algoritmilor şi rezoluţia segmentelor de vorbire rezultate. 

Dacă se presupune că recunoaşterea fonemelor individuale nu este necesară, se va reduce 

complexitatea algoritmilor de recunoaştere a segmentelor, deoarece alegerile necesare procesului 

de potrivire sunt reduse de la numărul de foneme la numărul de clase fonematice (de exemplu 

pentru limba engleză de la 41 de foneme la 9 clase fonematice). În plus, sunt mai uşor de 

recunoscut diferenţele dintre două categorii fonematice decât diferenţele dintre două foneme din 

aceeaşi categorie.

4.3.1. Detectarea automată a segmentelor semnalului vocal 

67 


În cele ce urmează se va prezenta o metodă de segmentare a semnalului vocal bazată pe 

detectori de caracteristici. Metoda a fost prezentată de către Childers şi Hu în [Chi00], [Hu93], 

putând fi considerată ca o metodă generică pentru rezolvarea acestei probleme. 

Detectarea automată a segmentelor vorbirii este realizată printr-o serie de algoritmi care 

analizează secvenţial semnalul sonor. Algoritmii pot fi grupaţi în trei categorii, aşa cum se arată 

în figura 4.9: 

(1) analiza vorbirii; 

(2) segmentarea sau împărţirea semnalului în segmente; 

(3) etichetarea adecvată a acestor segmente. 

Analiză Segmentare Etichetare 

DETECTARE 

CARACTERISTICI 

DETECTARE 

GRANIŢE DE 

SEGMENT 

STABILIRE 

CATEGORIE 

Figura 4.9. Detectarea automată a segmentelor vorbirii 

(1) Analiza iniţială a vorbirii este cea mai complexă dintre cele trei sarcini. Această 

analiză iniţială se poate face în doi paşi ([Hu93], [Chi94]). 

În primul pas, forma de undă eşantionată este divizată asincron în cadre (segmente de 

lungime fixă: 5-10 ms). Se realizează apoi o predicţie lineară LPC pentru fiecare cadru, iar 

reziduul este reţinut pentru determinarea punctelor de închidere glotale (GCI – Glotal Closure 

Instants) [Hu93]. 

În cel de-al doilea pas, forma de undă eşantionată este din nou divizată în cadre. Cadrele 

sunt alese asincron pentru vorbirea nesonoră şi linişte şi sincron cu perioada la vorbirea sonoră - 

prin utilizarea punctelor de închidere glotală GCI ca şi referinţă. Se realizează o predicţie lineară 

pentru fiecare cadru iar coeficienţii LPC sunt memoraţi pentru analiză. Apoi un algoritm specific 

va analiza fiecare cadru în parte în scopul detectării caracteristicilor sale. 

Fiecare algoritm din set detectează o caracteristică acustică diferită. Această caracteristică 

se referă la calcularea unui scor de regăsire în cadrul respectiv a unor anumiţi parametri acustici, 

puşi în legătură cu o anumită categorie fonetică. 

De exemplu, un algoritm poate detecta prezenţa sau absenţa consoanelor, în timp ce alt 

algoritm va detecta prezenţa sau absenţa vocalelor. Fiecare algoritm de detectare a 

caracteristicilor utilizează o combinaţie de praguri fixe, filtrare mediană şi reguli empirice pentru 

calcularea rezultatului sau scorului final. 

(2) A doua sarcină a segmentării automate este determinarea graniţelor din domeniul timp 

care separă segmentele semnalului vocal. 

Graniţele sunt în aşa fel alese încât fiecare segment are proprietăţi acustice aproximativ 

constante pe durata segmentului. Segmentarea se bazează pe determinarea schimbărilor din 

spectrul de joasă frecvenţă, folosind şi rezultatele detectării caracteristicii de sonor, nesonor sau 

linişte S/U/V.

68 


(3) Cea de-a treia sarcină a algoritmilor de segmentare este etichetarea segmentelor. Se 

utilizează rezultatele obţinute din algoritmii de detectare a caracteristicilor segmentului. Exemple 

de etichete sunt următoarele: vocale, semivocale, fricative. Mai întâi se calculează scorurile 

medii ale detectării caracteristicilor, apoi aceste scoruri sunt supuse unor reguli specifice pentru a 

determina eticheta cea mai adecvată pentru fiecare segment. 

Legătura dintre cele trei etape ale segmentării vorbirii este ilustrată în figura 4.10. 

Vorbirea 

originală 

Analiza vorbirii 

- analiză LPC 

- detectarea 

caracteristicilor 

LPC 

S/U/V 

Segmentare 

Estimarea 

vocalelor 

Estimarea 

semivocalelor 

Estimarea nazalelor 

Estimarea benzii 

sonore 

Estimarea fricativelor şi 

consoanelor sonore 

Estimarea fricativelor şi 

stopurilor nesonore 

Estimarea pauzelor 

Estimarea liniştii 

Limitele 

segmentului 

Figura 4.10. Relaţia dintre analiză, segmentare şi etichetare [Chi00] 

Etichetare

4.3.2. Algoritmi de detectare a caracteristicilor de segment 

4.3.2.1. Date de intrare şi pre-procesare S/U/V 

69 


Childers [Chi00] şi Hu [Hu93] utilizează rezultatele analizei LPC ca şi date de intrare. 

Cei mai mulţi detectori ai caracteristicilor au nevoie de rezultatele de la alţi detectori (în mod 

specific rezultatele de la clasificarea S/U/V), aşa cum se arată în figura 4.10. 

O parte din clasificarea S/U/V se realizează în timpul analizei LPC. Se calculează eroarea 

de predicţie şi primul coeficient de reflexie pentru fiecare cadru de semnal, astfel [Chi00]: 

R 

r1 

R 

R 

R 

SS 

SS 

SS 

SS 

( 1) 

( 0) 

1 

( 0) 

 

N 

s( 

n) 

s( 

n) 

(4.17) 

1 

( 1) 

 

N 

s( 

n) 

s( 

n 1 

) 

N 

 

n1 

N 1 

n1 

unde: 

- r1 este coeficientul de reflexie 

- N este numărul de eşantioane din cadrul analizat 

- s(n) este eşantionul de semnal. 

Cadrul este clasificat ca şi sonor dacă coeficientul de reflexie este mai mare decât 0.2 şi 

este clasificat ca şi nesonor dacă coeficientul este mai mic sau egal cu 0.2. Acestă valoare de 

prag a fost determinată empiric de Hu (1993). În timpul celei de-a doua aplicări a algoritmului 

LPC, anumite cadre sunt etichetate ca şi cadre de tranziţie (T). De exemplu primul cadru sonor 

într-o secvenţă sonor-nesonor şi ultimul cadru sonor într-o secvenţă sonor-nesonor sunt 

considerate cadre de tranziţie. 

4.3.2.2. Funcţia volum 

Funcţia volum se calculează pentru fiecare cadru pentru a determina volumul acustic al 

semnalului la ieşirea unui filtru trece bandă aplicat acelui cadru. Acesta este primul pas de 

procesare la majoritatea detectorilor de caracteristici. 

Funcţia volum V(i) este normalizată cu numărul de eşantioane din cadru astfel [Chi00]: 

1 

V ( i) 

 

N 

i 

B 

 

mA 

| H ( e 

i 

m 

j 

256 2 

) | 

(4.18) 

unde: 

- i este indexul cadrului curent, 

- Ni este numărul de eşantioane în cadrul i, 

- A reprezintă frecvenţa de tăiere a filtrului trece bandă,

70 


- Hi este răspunsul în frecvenţă complex şi singular al filtrului IIR Hi(z) care este produs 

de coeficienţii LPC şi evaluat în punctele exp(jπm/256), pentru 0 ≤ m ≤ 255. 

Hi(z) este dat de formula: 

unde N =13, a0 =1. 

G(i) este dat de: 

G( 

i) 

H i ( z) 

 

1 

2 

N 

a0 

a 

1z 

a 

2z 

... 

a 

N z 

t 

 

ns 

2 

G ( i) 

r ( n) 

unde: 

- r(n) este valoarea reziduului LPC în eşantionul n, 

- i reprezintă indexul cadrului curent, 

- s este indicele primului eşantion al cadrului curent, 

- t este indicele ultimului eşantion al cadrului curent. 

(4.20) 

(4.19) 

Funcţia volum dată de ecuaţia (4.18) este des utilizată pentru detectarea caracteristicilor 

segmentului vocal, chiar dacă scara de frecvenţe a filtrului trece-bandă variază în funcţie de 

detectorul specific. Se mai foloseşte calculul unui raport a două funcţii volum, care compară 

energia dintr-o bandă de frecvenţă cu energia din cea de-a doua bandă de frecvenţă. 

În cazul majorităţii detectorilor de caracteristici, se utilizează filtrarea mediană pentru a 

netezi fluctuaţiile din funcţia volum. 

Fluctuaţiile sunt cauzate de o varietate de surse incluzând determinarea incorectă a GCI, 

clasificarea S/U/V incorectă, sau artefactele cum ar fi zgomotul de fond. De obicei aceşti 

detectori de caracteristici utilizează o filtrare mediană de ordinul 5, ordinul putând varia de la caz 

la caz. 

Detectorul S/U/V utilizează o singură funcţie volum din ecuaţia (4.18) cu valorile A=17, 

B=255. Limita inferioară A=17 corespunde cu frecvenţa de tăiere de 312 Hz a unui filtru trecesus 

aplicat răspunsului în frecvenţă. Filtrul trece-sus este necesar pentru a reduce artefactele de 

frecvenţă joasă cauzate de o amplasare incorectă a microfonului în timpul înregistrării. Funcţia 

volum este utilizată de detectorul S/U/V ca şi un integrator cu o bandă relativ largă care 

calculează energia semnalului în fiecare cadru. 

4.3.2.3. Valorile pragurilor şi scorurile de caracteristici 

Fiecare algoritm de detectare a caracteristicilor calculează un scor pentru a indica 

prezenţa caracteristicii acustice respective în cadrul de semnal corespunzător. Acest scor se 

calculează pe o scară între [0,1], existând însă şi excepţii (unele estimări ale caracteristicilor sunt 

discrete, binare ori ternare). În general, estimarea caracteristicii se calculează prin compararea 

valorii funcţiei volum (sau a unui raport de două funcţii volum) cu una sau mai multe valori de 

prag.

71 


Valorile de prag sunt determinate în mod empiric prin calculul erorii în timpul analizei a 

100 sau mai multe cuvinte dintr-un corpus de test. Determinarea empirică a acestor valori de 

prag constituie o fază de învăţare în dezvoltarea algoritmului. Deşi se află în contrast cu unul din 

ţelurile iniţiale ale procesului segmentării automate, care nu necesită antrenarea, totuşi, dată fiind 

natura şi variabilitatea semnalului acustic, apare necesitatea creării unui set robust de algoritmi 

de segmentare bazaţi pe distribuţia frecvenţelor (funcţiile volum). 

În scopul determinării precise a parametrilor este necesar un antrenament iniţial. 

Avantajele şi dezavantajele antrenamentului sunt evidente. Dacă datele de antrenament nu 

reprezintă în mod precis categoria de utilizatori ţintă, algoritmul nu va funcţiona cum ne dorim. 

Dacă setul de date de antrenament este în corespondenţă cu setul real, atunci algoritmul va 

funcţiona eficient. 

În cazul utilizării a două valori de prag, scorul caracteristicii pentru fiecare cadru se 

calculează astfel [Chi00]: 

 

 

1, 

V ( i) 

T 

 

upper 

 

 

Feature _ Score( 

i) 

 

0, 

V ( i) 

T 

lower (4.21) 

V 

( i) 

T 

lower 

 

, Tlower 

V 

( i) 

T 

upper 

T 

upper T 

lower 

 

pentru un scor care creşte pe măsură ce creşte şi funcţia volum. 

Pentru un scor care descreşte cu creşterea funcţiei volum, estimarea caracteristicii este 

dată de: 

 

 

0, 

V ( i) 

T 

 

upper 

 

 

Feature _ Score( 

i) 

 

1, 

V ( i) 

T 

lower (4.22) 

T 

upper V 

( i) 

 

, Tlower 

V 

( i) 

T 

upper 

 

Tupper 

T 

lower 

 

Pentru ambele ecuaţii: 

- i reprezintă indexul cadrului curent, 

- Tlower este valoarea inferioară a pragului, 

- Tupper este valoarea de prag superioară, 

- V(i) este funcţia volum (sau raportul a două funcţii volum) pentru cadrul curent. 

Predicţia liniară LPC face distincţie între cadrele sonore ( voiced) şi cele nesonore 

(unvoiced). Cadrele nesonore pot fi însă şi cadre de linişte ( silence). Procedura utilizată în 

detectarea S/U/V pentru a clasifica cadrele de tip nesonore sau linişte se bazează pe funcţia 

volum (4.18), puterea zgomotului din semnal şi ecuaţiile (4.21), (4.22). 

În primul rând, deviaţia medie şi cea standard a zgomotului sunt calculate după 

următoarele formule [Chi00]:

1 

BNP mean p( 

n) 

(4.23) 

20 

20 

 

n1 

1 

2 

BNP std ( p ( n ) BNP 

mean ) 

(4.24) 

20 

20 

 

n 1 

unde p(n) este puterea semnalului în decibeli (dB). 

72 


S-a presupus că primele 100 msec (20 de cadre) ale semnalului sonor sunt cadre de 

linişte. 

Funcţia volum S/U/V pentru fiecare cadru nesonor este comparată cu o valoare de prag 

constantă, TU/S . Se utilizează ecuaţia (4.21) cu Tlower = Tupper = TU/S. 

Estimarea scorului S/U/V este următoarea [Chi00]: 

1 

, 20log10 

V ( i) 

T 

U / S 

SUV _ Score( 

i) 

 

(4.25) 

0 

, 20log10 

V ( i) 

T 

U / S 

unde: 

- V(i) se calculează din ecuaţia (4.18) cu A=17 şi B=255, 

- i este indexul cadrului curent. 

Dacă SUV_Score(i)= 1, cadrul este clasificat ca şi nesonor (unvoiced). 

Dacă SUV_Score(i)= 0, cadrul este clasificat ca linişte (silence). 

Prin această metodă se separă cadrele nesonore de linişte. Valoarea SUV_Score(i) se 

consideră egală cu 2 pentru toate cadrele sonore (voiced). 

Estimarea S/U/V este diferită de alte estimări de caracteristici prin faptul că SUV_Score 

poate avea doar trei valori distincte, în timp ce alte estimări ale caracteristicilor pot avea o scară 

continuă de valori. 

Se precizează ([Chi00]) că cele mai bune rezultate se obţin când: 

unde k =1. 

TU/S = BNPmean + (k)( BNPstd) (4.26) 

Valoarea utilizată pentru constanta k depinde de valorile statistice ale zgomotului din 

semnalul sonor. În valoare absolută, zgomotul este compensat prin calcularea valorii BNPmean .

4.3.3. Detectarea categoriilor specifice din semnalul vocal 

4.3.3.1. Detectarea cadrelor sonore 

73 


Pentru a fi clasificat ca şi sonor ( voiced), un cadru trebuie să aibă o valoare mare a 

raportului dintre frecvenţele joase şi frecvenţele înalte. Clasa fonemelor de tip voiced include 

vocale, consoane sonore, nazale, semivocale, benzi sonore. Clasa unvoiced include fricative 

nesonore, stopuri şi fricative sonore. Fricativele sonore slabe sunt clasificate ca şi sonore dacă au 

o valoare mai mare a energiei de joasă frecvenţă. 

Se calculează funcţia volum din ecuaţia (4.18) pentru fiecare cadru cu G=1, A=5, B=46. 

Aceasta este numită funcţia volum de frecvenţă joasă sau LFV ( Low Frequency Volume). 

Funcţia LFV este echivalentă cu un filtru trece bandă de la 98 la 898 Hz [Chi00]. 

O a doua funcţie volum este numită funcţia volum de frecvenţă înaltă sau HFV (High 

Frequency Volume). HFV este echivalentă cu un filtru trece bandă de la 3691 Hz la 5000 Hz 

[Chi00]. 

Raţia sonoră R(i) este calculată pentru fiecare cadru astfel [Chi00]: 

LFV ( i) 

R( i) 

(4.27) 

HFV ( i) 

unde i este indexul cadrului curent. 

Raţia sonoră R(i) este netezită cu un filtru median de ordinul 5 şi apoi comparată cu o 

valoare de prag Tson. Se calculează astfel pentru fiecare cadru o estimare sonoră SS(i) [Chi00]: 

0 

, R( 

i) 

T 

son 

SS( 

i) 

 

(4.28) 

1 

, R( 

i) 

T 

son 

unde: - i reprezintă indexul cadrului curent, 

- Tson = 10, valoare de prag determinată empiric. 

4.3.3.2. Detectarea vocalelor 

Pentru detectarea vocalelor se calculează funcţia LFV din ecuaţia ( 4.18) cu G=1, A =1, 

B=51. În acest caz funcţia LFV este echivalentă cu un filtru trece bandă de la 20 Hz la 996 Hz. 

Funcţia HFV este calculată din ecuaţia (4.18) pentru G=1, A=52, B=255. Aici funcţia HFV 

este echivalentă cu un filtru trece bandă de la 1016 Hz la 5000 Hz. 

Pentru fiecare cadru, se calculează o raţie a vocalei RV(i) astfel [Chi00]: 


LFV(i) 

RV(i) (4.29) 

HFV(i)

74 


Raţia vocalei este netezită de un filtru median de ordinul 5. Estimarea vocalei EV(i), în 

cadrul scalei continue [0,1], este calculată pentru fiecare cadru prin compararea raţiei vocalei 

netezite cu cele două valori de prag. Estimarea este dată de [Chi00]: 

 

0, RV ( i) 

T 

upper 

 

EV(i) 

1, 

RV ( i) 

T 

lower 

T 

upper RV 

( i) 

Tlower 

RV 

( i) 

T 

 

, 

T 

upper T 

lower 

upper 

 

 

 

 

 

 

 

unde Tupper= 18 şi Tlower = 8, valori de prag determinate empiric. 

(4.30) 

În procesarea finală, estimarea vocalei este setată automat la zero pentru toate cadrele de 

lungime mai mică de 150 de eşantioane (15ms). 

4.3.3.3. Detectarea consoanelor sonore 

Detectarea consoanelor sonore se realizează într-o manieră similară cu cea a detectării 

vocalelor. Se calculează funcţia LFV din ecuaţia (4.18) cu parametrii: G=1, A=1, B=51. La fel, 

se calculează funcţia HFV din ecuaţia (4.18) cu G=1, A=52 şi B=255. Valorile de filtrare sunt 

aceleaşi ca şi în cazul vocalelor. 

Pentru fiecare cadru, este calculată o raţie a consoanei sonore, RC(i), după cum urmează 

[Chi00]: 

LFV(i) 

RC(i) (4.31) 

HFV(i) 


Raţia consoanei sonore este netezită cu un filtru median de ordinul 5. Estimarea 

consoanei sonore EC(i), în cadrul scalei continue [0,1], este calculată pentru fiecare cadru prin 

compararea raţiei consoanei sonore netezite cu cele două valori de prag. Estimarea este dată de 

[Chi00]: 

 

0, RV ( i) 

T 

upper 

 

EC(i) 

1, 

RC( 

i) 

T 

lower 

RC( 

i) 

T 

lower Tlower 

RC( 

i) 

T 

 

, 

T 

upper T 

lower 

unde Tupper=18 şi Tlower = 8. Valorile de prag sunt determinate empiric. 

upper 

 

 

 

 

 

 

 

(4.32) 

Valoarea EC(i) poate fi calculată în timpul determinării lui EV(i) pentru fiecare cadru, 

deoarece EC(i) = 1- EV(i), dacă valoarea EV(i) este utilizată înainte de verificarea segmentelor 

scurte din faza de detecţie a vocalei (segmente < 15 msec). Acest calcul în paralel se poate 

realiza deoarece se utilizează aceleaşi filtre şi valori de prag pentru detectarea atât a vocalelor cât 

şi a consoanelor sonore.

4.3.3.4. Detectarea benzii sonore 

75 


Detectarea benzii sonore se realizează într-o manieră similară cu cea a detectării 

vocalelor şi consoanelor. Se calculează funcţia LFV din ecuaţia (4.18) cu G=1, A=1, B=33. LFV 

este echivalentă astfel cu un filtru trece bandă de la 20 Hz la 645 Hz. Se calculează o funcţie 

HFV din ecuaţia ( 4.18) pentru G=1, A=34 şi B=255. HFV este echivalentă cu un filtru trece 

bandă de la 664 Hz la 5000 Hz. 

[Chi00]: 

Se calculează pentru fiecare cadru o raţie a benzii sonore, RBS(i) după cum urmează 

unde i = indexul cadrului. 

LFV(i) 

RBS(i) (4.33) 

HFV(i) 

Raţia benzii sonore este netezită de un filtru median de ordinul 5. Estimarea benzii sonore 

EBS(i), în cadrul scalei continue [0,1], este calculată pentru fiecare cadru prin compararea raţiei 

benzii sonore netezite cu cele două valori de prag. Estimarea este dată de [Chi00]: 

 

0, RBS( 

i) 

T 

upper 

 

EBS(i) 

1, 

RBS( 

i) 

T 

lower 

RC( 

i) 

T 

lower Tlower 

RBS( 

i) 

T 

 

, 

T 

upper T 

lower 

unde Tupper = 30 şi Tlower =10. 

4.3.3.5. Detectarea nazalelor 

upper 

 

 

 

 

 

 

 

(4.34) 

Detectarea nazalelor este realizată prin compararea amplitudinii estimate ale primilor doi 

formanţi obţinuţi în detectorul de formanţi McCandless. O raţie nazală RN(i) este calculată 

pentru fiecare cadru, după cum urmează [Chi00]: 

unde: 

A2(i) 

RN(i) (4.35) 

A1(i) 

- A1(i) este estimarea amplitudinii primului formant, 

- A2(i) reprezintă estimarea amplitudinii celui de-al doilea formant, 

- i este indexul cadrului curent. 

Raţia nazalei este netezită de un filtru median de ordinul 5. Estimarea nazalei EN(i), în 

cadrul scalei continue [0,1], este calculată pentru fiecare cadru prin compararea raţiei nazalei 

netezite cu cele două valori de prag. Estimarea nazalei este dată de [Chi00]:

0, RN( 

i) 

T 

upper 

 

EN(i) 

1, 

RN( 

i) 

T 

lower 

T 

upper RN( 

i) 

Tlower 

RN( 

i) 

T 

 

, 

T 

upper T 

lower 

76 

upper 

 

 

 

 

 

 

 


(4.36) 

unde Tupper= 20 şi Tlower = 0.05. Valorile de prag sunt determinate empiric. 

4.3.3.6. Detectarea semivocalelor 

Detectarea semivocalelor se bazează pe o metodă dezvoltată de EspyWilson [Esp86]. 

Algoritmul deviază uşor de la detectorul standard, deşi utilizează funcţia volum din ecuaţia 

(4.18). Se calculează mai întâi funcţia LFV cu G=1, A=1, B=20. 

În acest caz, LFV este echivalent cu un filtru trece bandă de la 20 Hz la 391 Hz. O 

funcţie HFV este calculată din ecuaţia (4.18) pentru G=1, A=21 şi B=50. HFV este echivalent cu 

un filtru trece bandă de la 410 Hz la 977 Hz. O raţie ‚murmur’ RM(i) este calculată pentru fiecare 

cadru după cum urmează [Chi00]: 

LFV(i) 

RM(i) (4.37) 

HFV(i) 

Raţia murmur este netezită de un filtru median de ordinul 5. Estimarea murmurului, 

EM(i), în cadrul scalei continue [0,1], este calculată pentru fiecare cadru prin compararea raţiei 

murmurului netezit cu cele două valori de prag. Estimarea murmurului este dată de [Chi00]: 

 

1, 

RM ( i) 

T 

upper 

 

EM(i) 

0, 

RM ( i) 

T 

lower 

RM 

( i) 

T 

lower Tlower 

RM 

( i) 

T 

 

, 

Tupper 

T 

lower 

unde Tupper= 12 şi Tlower = 3. 

upper 

 

 

 

(4.38) 

 

 

 

Estimarea semivocalei ESV(i) este calculată pentru fiecare cadru astfel [Chi00]: 

ESV(i) = (1- EM(i))(1- EBS(i)) EC(i) (4.39) 

unde: 


- EBS(i) este estimarea benzii sonore din (4.34), iar 

- EC(i) este estimarea consoanei sonore din (4.32). 

Valoarea ESV(i) este limitată la o scară [0,1]. Dacă ESV(i) este mai mare de 1, este setată 

la unitate. Ecuaţia (4.39) arată următorul fapt: dacă acel cadru are o estimare bună a consoanei 

sonore, o estimare slabă a murmurului şi a benzii vocale, atunci estimarea semivocalei va fi 

ridicată.

4.3.3.7. Detectarea fricativelor sonore 

77 


Algoritmul de detectare a fricativelor sonore deviază faţă de detectorul standard, deşi 

calculează estimările caracteristicilor din valori de praguri fixe. Primul pas în detectarea 

fricativelor sonore este o preaccentuare a răspunsului în frecvenţă a filtrului format de 

coeficienţii LPC. Preaccentuarea se face printr-o funcţie pondere W în domeniul frecvenţă astfel 

[Chi00]: 

m 

j 

m 

256 W ( e ) 

256 

, cu 0 ≤ m ≤ 255 (4.40) 

Răspunsul în frecvenţă (preemfazat) pentru cadrul i, Ĥi , este [Chi00]: 

Ĥi 

( e 

m 

j 

256 

m 

j 

m 

j 

256 

256 

) W ( e ) H ( e ) , pentru 0 ≤ m ≤255 (4.41) 

unde Hi este calculat din ecuaţia (4.19) pentru cadrul i cu G=1. 

i 

Frecvenţa mediană a răspunsului în frecvenţă preemfazat, MF(i), se calculează pentru 

fiecare cadru astfel [Chi00]: 

1 

MF( 

i) 

 

H 

255 

 

total( 

i) 

m0 

m Fs 

( | H i ( e 

256 2 

unde: - Fs= 10 KHz, 

- i este indexul cadrului, 

- Htotal(i) este dat pentru cadru [Chi00]: 

255 

Htotal(i) = | m0 

H 

m 

j 

256 

i ( ) | e 

 

m 

j 

256 

) |) 

(4.42) 

(4.43) 

Spre deosebire de cazurile anterioare, unde filtrul median de netezire era de ordinul 5, 

MF(i) este netezit de un filtru median de ordinul trei. Estimarea frecvenţei înalte HFS(i) este 

calculată pentru fiecare cadru după cum urmează [Chi00]: 

 

1, 

MF( 

i) 

T 

upper 

 

HFS(i) 

0, 

MF( 

i) 

T 

lower 

MF( 

i) 

T 

lower Tlower 

MF( 

i) 

T 

 

, 

T 

upper T 

lower 

upper 

 

 

 

(4.44) 

 

 

 

unde Tupper= 3200 şi Tlower = 240. Valorile de prag sunt determinate empiric.

78 


Estimarea fricativei sonore EFS(i) este calculată utilizând HFS(i). 

Dacă acel cadru este de tip voiced, dar estimarea sonoră SS(i) din (4.28) este zero, atunci 

EFS(i) = 1 pentru cadru. Aceasta se realizează deoarece cadrul este sonor şi există în plus o 

cantitate relativ mare de energie de înaltă frecvenţă. 

Dacă în schimb cadrul este voiced şi estimarea sonoră SS(i) este egală cu 1, atunci EFS(i) 

= HFS(i) pentru cadru. În acest caz estimarea fricativelor sonore depinde doar de distribuţia 

energiei de frecvenţă înaltă a cadrului. 

4.3.3.8. Detectarea stopurilor şi fricativelor nesonore 

Un cadru este clasificat ca fiind nesonor (unvoiced) dacă el conţine o fricativă nesonoră 

sau un stop nesonor. Algoritmul utilizat pentru a diferenţia cele două tipuri de segmente diferă de 

detectorul standard de caracteristici. Acesta utilizează atât parametrii bazaţi pe frecvenţă cât şi 

parametrii temporali. Pentru început se calculează frecvenţa medie pentru fiecare cadru utilizând 

ecuaţiile (4.40) - (4.43). Frecvenţa medie este netezită apoi de un filtru median de ordinul trei. 

Estimarea frecvenţei se face pentru fiecare cadru pe baza ecuaţiei (4.44) cu Tupper = 3800 

şi Tlower = 2400. 

Pentru fiecare cadru, pe baza analizei LPC, se calculează logaritmul în baza 10 al puterii 

semnalului, Plog10. Toate cadrele nesonore ( unvoiced) adiacente sunt grupate în segmente. De 

exemplu, cuvântul sit are două segmente nesonore, /s/ şi /t/ şi fiecare din aceste segmente este 

compus din mai multe segmente unvoiced adiacente. 

Este examinată panta graficului Plog10 pentru primele 12 cadre (60msec) al e fiecărui 

segment. Dacă segmentul este mai scurt de 12 cadre, se utilizează toate cadrele. Se calculează o 

aproximare de ordinul I (în linie dreaptă) Mseg(j) a pantei Plog10 . 

Estimarea înclinării segmentului, MSseg(j), se face pentru fiecare segment pornind de la 

Mseg(j), astfel [Chi00]: 

 

0, 

 

MSseg(j) 

 

1, 

T 

upper M 

 

Tupper 

T 

unde: 

- Tupper= 1, Tlower = -1 , 

- j este indexul cadrului curent. 

seg 

lower 

( j) 

, 

T 

lower 

M 

M 

seg 

seg 

M 

( j) 

T 

( j) 

T 

seg 

upper 

lower 

( j) 

T 

upper 

 

 

 

 

 

 

 

(4.45) 

Estimarea înclinării Mseg(j) se calculează ca o singură valoare pentru tot segmentul 

nesonor. Tuturor cadrelor dintr-un anume segment nesonor le este alocată o aceeaşi valoare 

MSseg. Estimarea înclinării unui cadru este notată cu MS(i). Atunci MS(i) = MSseg (j) pentru 

fiecare cadru i din segmentul j. 

Estimarea stopurilor USS(i) are avantajul că stopurile sunt mai scurte ca şi durată decât 

fricativele nesonore. Estimarea stopurilor este dată pentru fiecare cadru de formula [Chi00]:

unde: 

unde: 


- Ks este dat de [Chi00]: 

K 

s 

USS(i)=Ks MS(i) (4.46) 

Tstop 

L 

j 

G 

S (1 

), 

 

Tstop 

 

1, 

L j T 

fric -1 

(1 

) , 

 

T fric 

T 

stop 

- Gs= 8.0, Tstop= 50msec, Tfric=80msec, 

L 

L 

j 

T 

L 

j 

j 

T 

79 

stop 

T 

fric 

fric 

 

 

 

 

 

 

 

- Lj lungimea segmentului nesonor j (în milisecunde). 


(4.47) 

Cele două valori de prag şi câştigul Gs sunt determinate empiric. Termenul Ks acţionează 

ca un factor de scală dependent de durată şi amplifică într-o mare măsură estimarea stopurilor 

pentru segmentele nesonore mai scurte de 50msec. Într-o măsură mai mică, Ks atenuează de 

asemenea estimarea stopurilor pentru segmente mai lungi de 80msec. Estimarea stopurilor 

USS(i) este o valoare în domeniul [0,1]. Dacă USS(i) este mai mare de 1 pentru cadrul respectiv, 

atunci este setată la unitate. 

[Chi00]: 

Estimarea finală a fricativelor nesonore UFS(i) se face pentru fiecare cadru astfel 

UFS(i) = HFS(i) (4.48) 

unde HFS(i) este scorul frecvenţelor înalte pentru cadrul respectiv. 

4.3.4. Detectarea graniţelor dintre segmente 

Algoritmul descris în secţiunea 4.3.3 se concentrează în principal asupra caracteristicilor 

acustice asociate cadrelor individuale. Pentru segmentarea şi etichetarea vorbirii în categoriile de 

segmente descrise anterior, trebuie trasate graniţele dintre segmentele fonematice. Aceasta se 

realizează cu doi algoritmi descrişi în subcapitolele următoare. Rezultatele celor doi algoritmi 

sunt combinate pentru a determina graniţele finale ale segmentului şi durata acestuia. 

4.3.4.1. Detectarea bazată pe graniţa spectrală şi segmentare 

Primul algoritm se bazează pe schimbările din spectrul de frecvenţe al semnalului. 

Algoritmul dezvoltat de Glass şi Zue [Gla86] măsoară similaritatea dintre cadrul curent şi vecinii 

acestuia. Pentru aceasta, se calculează valoarea absolută a răspunsului în frecvenţă al filtrului 

generat de coeficienţii LPC din ecuaţiile ( 4.19) şi ( 4.20), pentru fiecare cadru. Distanţa 

euclidiană dintre două cadre vecine x şi y se defineşte în felul următor [Chi00]:

D(x,y) 

255 

 

m0 

|| H ( e 

x 

m 

j 

256 256 

) | | 

H ( e ) || 

y 

80 

m 

j 

unde: 

- x este indexul cadrului curent, 

- y este indexul cadrului precedent sau următor, 

m 

j 

x e 

 


(4.49) 

256 - ( ) H este răspunsul în frecvenţă evaluat pentru cadrul x în punctele exp(jπm/256) 

pentru 0 ≤ m ≤ 255. 

În continuare, se ia decizia de a grupa cadrul curent cu cadre din trecut, dacă: 

max(D(x,y)) < min(D(x,v)) , cu x-4 ≤y ≤ x-2, x+2 ≤ v ≤ x+4 (4.50) 

şi decizia de a cumula cadrul curent cu cadrele următoare dacă: 

min(D(x,y)) > max(D(x,v)) , cu x-4 ≤ y ≤ x-2, x+2 ≤ v ≤ x+4 (4.51) 

Dacă niciuna dintre cele două condiţii nu este îndeplinită, nu se realizează gruparea cu 

alte cadre. După ce fiecare cadru este asociat într-unul din cele trei moduri posibile, se stabileşte 

o graniţă a segmentului când apar schimbări de asociere pentru cadrul curent (din trecu t către 

viitor). Localizarea graniţei este la primul eşantion al cadrului unde se realizează tranziţia. 

Postprocesarea elimină graniţele care apar în mijlocul segmentelor de linişte. 

4.3.4.2. Detectarea graniţelor prin metoda S/U/V 

Acest algoritm de segmentare se bazează pe rezultatele algoritmului de detectare S/U/V, 

calculând graniţele de segment prin cumularea cadrelor de acelaşi tip. Cadrele mai mici ca 

lungime se pot compacta cu vecinii, chiar dacă sunt de tipuri diferite. Se pot formula următoarele 

reguli de modificare a segmentării [Chi00]: 

Tabelul 4.1. Setul de reguli pentru calculul segmentării finale 

Pattern iniţial Condiţii Pattern final 

VUS 

L(V)> 100 ms 

L(U)< 25 ms 

VVS 

XSY L(S)< 10 ms XXS 

SUV L(U)< 7.5 ms SSV 

XUY L(U)< 10 ms (X=S)? XYY : XXY 

În tabelul 4.1, X şi Y sunt segmente oarecare, S = Silence, U = Unvoiced, V = Voiced. 

Graniţele dintre segmente apar atunci când apar tranziţiile ( i , j 

) { 0, 

1, 

2}, 

i 

 

j în 

detectorul S/U/V. Graniţa este marcată la primul eşantion al noului segment.

4.3.5. Segmentarea finală 

81 


Procesul final de segmentare ţine cont de rezultatele segmentării spectrale şi ale 

segmentării S/U/V. 

La început, toate graniţele obţinute prin algoritmul S/U/V sunt marcate ca şi graniţe în 

segmentarea finală. O graniţă determinată în algoritmul spectral, care apare în mijlocul unui 

segment vocal, aşa cum a fost el determinat prin algoritmul S/U/V, va face parte din rezultatul 

final numai dacă graniţa apare la un cadru localizat la distanţă de cele puţin două cadre faţă de 

graniţa segmentului de tip S, U sau V. Această „regulă de două cadre” previne marcarea prin cei 

doi algoritmi a aceloraşi graniţe ca şi graniţe separate, dar foarte apropiate una de alta. 

Graniţele spectrale care apar în mijlocul segmentelor nesonore sunt ignorate. Aceasta se 

realizează în cazul analizei cu un sistem care nu conţine pattern-uri pentru consoane duble. 

Pentru limbile care conţin astfel de pattern-uri (cum ar fi limba engleză), aceste graniţe spectrale 

din interiorul segmentelor nesonore vor trebui incluse în rezultatul final al segmentării. 

4.3.6. Etichetarea segmentelor 

Etichetarea segmentelor constă în atribuirea corectă a unei etichete - corespunzând unei 

categorii de segment din cele prezentate anterior - unui segment oarecare detectat de algoritmul 

de segmentare. 

Algoritmul pentru etichetare examinează mai întâi rezultatele S/U/V pentru fiecare 

segment. Dacă segmentul este sonor ( voiced), poate fi etichetat ca vocală, semivocală, nazală, 

fricativă sonoră sau bandă sonoră. Dacă segmentul este nesonor (unvoiced), el poate fi etichetat 

ca stop nesonor sau fricativă nesonoră. Dacă segmentul este o regiune de linişte (silence), poate 

fi etichetat doar ca şi segment de linişte. 

Pentru un segment dat se calculează un scor al fiecărei caracteristici, mediat pe toată 

lungimea segmentului. De exemplu, dacă un segment este nesonor atunci se calculează scorurile 

pentru stopurile nesonore USS(i) şi fricativele nesonore UFS(i) pentru fiecare cadru din acel 

segment, iar apoi se mediază valorile obţinute. Pentru acest segment nesonor, nu e necesar să fie 

calculate estimările medii pentru vocale EVmed(i), nazale ENmed(i), semivocale ESVmed(i), bandă 

sonoră EBSmed(i) şi fricative sonore EFSmed(i). 

Dacă segmentul este sonor, se calculează estimările medii de caracteristici EVmed(i), 

ENmed(i), ESVmed(i), EBSmed(i), EFSmed(i), dar nu se mai calculează estimările USSmed(i) şi 

UFSmed(i). 

De exemplu, estimarea medie a stopului nesonor USSmed (i) este dată de [Chi00]: 

unde: 

1 

USS med ( j) 

USS( 

i) 

(4.52) 

b a 

1 

b 

 

ia 

- a este indexul cadrului de început al segmentului j, 

- b este indexul final în segmentul j. 

Estimările medii pentru restul caracteristicilor sunt calculate în aceeaşi manieră.

82 


Odată stabilite estimările medii pentru toate segmentele necunoscute, pentru fiecare 

segment j se stabilesc la început două etichete L1(j) şi L2(j). Prima etichetă este caracteristica cu 

estimarea medie cea mai bună. A doua etichetă o reprezintă caracteristica cu a doua estimare 

medie cea mai bună. 

Există cazuri când etichetarea trebuie să ţină seama şi de coarticularea segmentelor, când 

algoritmul de segmentare spectrală poate schimba categoria din care face parte segmentul. 

Se pot defini astfel estimările robuste pentru L1(j) şi L2(j). 

Estimarea robustă R1(j) pentru L1(j) este definită ca estimarea medie pentru categoria de 

segment corespunzătoare lui L1(j), împărţită la suma tuturor estimărilor medii pentru acest 

segment. De exemplu, dacă segmentul este sonor şi L1(j) este nazală, atunci R1(j) este dată de 

[Chi00]: 

ENmed 

( j) 

R1( 

j) 

(4.53) 

EV ( j) 

ESV 

( j) 

EN 

( j) 

EBS 

( j) 

EFS 

( j) 

med 

med 

med 

Dacă segmentul este nesonor şi scorul corespunzător lui L1(j) dă o fricativă nesonoră, 

atunci R1(j) este dată de [Chi00]: 

UFSmed 

( j) 

R1( 

j) 

(4.54) 

UFS ( j) 

USS 

( j) 

med 

În mod asemănător e definită şi estimarea robustă R2(j) pentru L2(j), ca estimarea medie 

pentru categoria de segment corespunzătoare lui L2(j) împărţită la suma tuturor estimărilor medii 

pentru acel segment. 

Dacă R2(j) > R1(j), iar scorul corespunzător lui L1(j) are valori mai mici decât o valoare 

de prag TS (TS ~ 0.5), atunci categoria de segment poate fi schimbată de la L1(j) la L2(j). 

4.3.7. Rezultate şi concluzii privind metoda generică de segmentare 

Metoda prezentată în acest capitol, propusă de Childers în [Chi00], poate detecta trei 

categorii principale din semnalul vocal: linişte (silence), sonor (voiced) şi nesonor (unvoiced), pe 

care le clasifică în 9 clase de regiuni: linişte, vocală, consoană sonoră, semivocală, nazală, bandă 

sonoră, fricativă sonoră, fricativă nesonoră şi stop nesonor. Astfel, în categoria sonor ( voiced) 

intră clasele: vocală, semivocală, consoană sonoră, nazală, fricativă sonoră şi bandă sonoră. În 

categoria nesonor (unvoiced) avem clasele: stop nesonor şi fricativă nesonoră. În categoria linişte 

(silence) există o singură clasă: linişte. 

Pentru fiecare clasă s-a definit câte un detector sau estimator de caracteristică, care 

calculează un scor al caracteristicii respective pe semnalul din cadrul curent. Cadrul se 

etichetează cu caracteristica având scorul cel mai mare, iar cadrele succesive care sunt etichetate 

la fel se grupează în regiuni. În faza finală se reevaluează cadrele singulare şi se ajustează 

graniţele de segment. În figura 4.11 se prezintă rezultatele segmentării pentru un semnal vocal 

rostit în limba engleză. 

med 

med 

med

(a) 

(b) 

(c) 

83 


În concluzie, se poate spune că această metodă bazată pe detectori de caracteristici poate 

fi considerată o metodă generică pentru problema segmentării semnalului vocal în regiuni. Din 

experimentele realizate cu această metodă a reieşit faptul că exactitatea clasificărilor depinde în 

mare măsură de parametrii empirici care trebuie furnizaţi, acesta fiind punctul sensibil al metodei 

şi totodată o anumită limitare a acesteia. 

Figura 4.11. Rezultatele segmentării prin metoda Childers [Chi00] 

(a) Semnalul original: sintagma “Should we chase those cowboys” 

(b) Segmentarea finală după ajustarea graniţelor de segment. 

În tabelul 4.2 se prezintă semnificaţia simbolurilor utilizate la etichetare. 

Tabelul 4.2. Simbolurile utilizate la etichetarea segmentelor 

si silence linişte 

UF unvoiced fricative fricativă nesonoră 

V vowel vocală 

N nasal nazală 

US unvoiced stop stop nesonor 

VB voice bar bandă sonoră 

SV semivowel semivocală 

VC voiced consonant consoană sonoră 

VF voiced fricative fricativă sonoră

84 


4.4. Contribuţii aduse în procesul segmentării automate a semnalului 

vocal 

Aşa cum s-a precizat în paragraful anterior, găsirea unei metode optime de segmentare a 

semnalului vocal reprezintă o operaţie absolut necesară în procesul de construire a bazei de date 

vocale. În acest paragraf este prezentată metoda proiectată de autor, care este capabilă să 

detecteze automat componentele S/U/V ale semnalului ( Silence – linişte, Unvoiced – nesonor, 

Voiced – sonor), să împartă aceste componente în regiuni şi subregiuni cu anumite proprietăţi, iar 

apoi să pună în corespondenţă aceste regiuni cu o secvenţă cunoscută de foneme (figura 4.12): 

Semnal vocal 

Segmentare S/U/V 

Detecţie regiuni 

Compactare 

Segmentare fonematică 

Subregiuni 

Figura 4.12. Metoda de segmentare automată propusă de autor 

Algoritmul propus utilizează analiza în domeniul timp a semnalului vocal. După o filtrare 

trece-jos a semnalului, se detectează mai întâi punctele de trecere prin zero Zi din forma de undă. 

Apoi se calculează punctele de valoare minimă mi şi maximă Mi dintre două puncte de zero. 

Separarea linişte/vorbire se realizează utilizând o valoare de prag Ts aplicată asupra 

amplitudinii semnalului vocal. În segmentele de linişte (silence), toate punctele mi şi Mi trebuie 

să fie mai mici decât Ts . 

Pentru fiecare segment din semnalul vocal se calculează apoi distanţa dintre două puncte 

de zero adiacente Di . Se ia decizia de segment sonor (voiced) dacă această distanţă este mai mare 

decât o valoare de prag V. 

Un segment este considerat nesonor (unvoiced) dacă distanţa Di dintre punctele de zero 

adiacente este mai mică decât un prag U. 

Se definesc de asemeni segmente tranzitorii, acestea fiind segmentele pentru care 

condiţiile de mai sus nu sunt îndeplinite. 

În urma operaţiei de segmentare S/U/V (detectarea segmentelor de tip silence/ unvoiced 

/voiced), va avea loc o împărţire a semnalului vocal în clase de regiuni distincte, în scopul 

determinării proprietăţilor semnalului pe regiuni şi punerii în corespondenţă cu setul de foneme 

prezent la intrare. 

După o primă aplicare a algoritmului de mai sus, va fi generat un număr mare de regiuni. 

În timp ce regiunile sonore sunt determinate corect de la început, regiunile nesonore sunt

85 


fragmentate de o serie de regiuni de linişte, din cauza faptului că de obicei aceste regiuni 

nesonore au amplitudine mică. Toate aceste regiuni vor fi compactate într-o singură regiune 

nesonoră în cea de-a doua trecere a algoritmului. 

După segmentare, regiunile detectate vor fi puse în corespondenţă cu şirul de foneme 

prezent la intrare, pe baza unor reguli stabilite în funcţie de proprietăţile acustice ale fiecărei 

foneme rostite în limba română. Aşa cum se va arăta în paragrafele următoare, acest proces de 

punere în corespondenţă între regiunile distincte din semnalul vocal şi foneme are un rol foarte 

important în generarea automată a bazei de date vocale, şi se pretează la multe alte aplicaţii – 

inclusiv în domeniul recunoaşterii vorbirii. 

În cele ce urmează, se vor detalia algoritmii corespunzători fiecărei etape de segmentare. 

4.4.1. Detectarea punctelor de zero, minim şi maxim 

Detectarea punctelor de zero, minim şi maxim reprezintă primul pas al metodei de 

segmentare automată a regiunilor. Algoritmul propus utilizează analiza în domeniul timp a 

semnalului vocal. După o filtrare trece-jos a semnalului, se detectează mai întâi punctele de 

trecere prin zero (Zi) din forma de undă. Apoi se calculează punctele de valoare minimă (mi) şi 

maximă (Mi) dintre două puncte de zero, conform următorului algoritm : 

Detectarea punctelor de zero Zi , minim mi şi maxim Mi : 

Pentru fiecare eşantion Q(k) ce urmează după un punct de zero Z(i): 

(1) Dacă eşantionul k e mai mare decât maximul curent al segmentului i, Q(k) > M(i), 

atunci se actualizează maximul curent : M(i) = Q(k). 

(2) Dacă eşantionul k e mai mic decât minimul curent al segmentului i, Q(k) < m(i), 

atunci se actualizează minimul curent : m(i) = Q(k). 

(3) Se verifică condiţia de trecere prin zero : 

C_ZERO = ((Q(k-1) < 0) AND (Q(k) > 0)) OR (Q(k-1) > 0) AND (Q(k) < 0) ) 

(4) Dacă este îndeplinită condiţia C_ZERO, se memorează valorile m(i), M(i), Z(i+1) ; 

Z(i+1) devine noua origine de segment şi algoritmul se reia de la punctul de start. 

În figura 4.13 se arată un exemplu de detectare automată a punctelor de zero, minim şi 

maxim dintr-un segment vocal (v alorile numerice reprezintă amplitudinea semnalului în 

punctele detectate). 

Figura 4.13. Determinarea punctelor de zero, minim, maxim

86 


Primele zece puncte rezultate în urma aplicării algoritmului pe segmentul din figura 4.13 

sunt prezentate în tabelul 4.3. Pe prima linie sunt figurate tipul punctelor găsite (Z – zero, M – 

maxim, m – minim), iar pe linia a doua amplitudinile eşantioanelor în valoare absolută: 

Tabelul 4.3. Rezultatele algoritmului zero-minim-maxim 

P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 

Tip M0 Z1 m1 Z2 M2 Z3 m3 Z4 M4 Z5 

Amp. 9992 161 4311 54 10760 190 4881 56 11406 166 

4.4.2. Segmentarea S/U/V şi detecţia de regiuni 

Algoritmul propus de autor realizează segmentarea automată a semnalului vocal în 10 

clase de regiuni. Se împarte mai întâi semnalul vocal în 4 categorii de bază: linişte ( Silence), 

vocală sonoră ( Voiced), consoană nesonoră ( Unvoiced), respectiv tranziţie, apoi se realizează 

clasificarea acestora în 10 clase distincte de regiuni: linişte, consoană nesonoră, vocală sonoră, 

linişte-nesonoră, regiune de tip salt, neregulată, tranzitorie, tranzitorie densă, discontinuă de tip R 

şi discontinuă de tip G. 

Algoritmul comportă o abordare top-down, pe cinci nivele (vezi figura 4.14). Mai întâi, 

pe nivelul superior sunt detectate categoriile: linişte (L), vocală (V), consoană nesonoră (C). Pe 

nivelul doi se detectează categoria tranziţie ( T). Pe nivelul trei se clasifică categoriile de pe 

nivelurile unu şi doi în cele 10 clase de regiuni; pe nivelele patru şi cinci se găsesc clasele (1) - 

(10). 

N 1 

N 2 

N 3 

N 4 

N 5 

L V L C 

T T T 

L V L C 

L LB V VS T TN TD C 

V VR VG 

Figura 4.14. Algoritmul de detecţie a regiunilor 

Categorii LCV (SUV) 

Categoria T 

Clasificare 

Clase de regiuni 

Subtipuri

Au fost definite următoarele categorii de bază şi clase de regiuni : 

Tabelul 4.4. Categoriile de bază şi clasele de regiuni 

Categorii de bază Clase de regiuni 

1. L – Linişte 

2. V – Vocală (sonoră) 

3. C – Consoană (nesonoră) 

4. T – Tranziţie 

1. L - REG_LIN – Regiune de linişte 

87 


2. LB - REG_LIN_CONS - Regiune de tip linişte nesonoră 

3. V - REG_VOC - Regiune de tip vocală sonoră 

4. VS - REG_SALT - Regiune de tip salt 

5. T - REG_TRANZ- Regiune tranzitorie 

6. TD - REG_TRANZ_DENSA- Regiune tranzitorie densă 

7. TN - REG_NEREG - Regiune neregulată scurtă 

8. C - REG_CONS - Regiune de tip consoană nesonoră 

9. VR - REG_R - Regiune de discontinuitate de tip “R” 

10.VG - REG_G - Regiune de discontinuitate de tip “G” 

Corespondenţele dintre categoriile de bază şi clasele de regiuni sunt arătate în figura 4.15: 

CLASĂ 

CATEGORIE 

Figura 4.15. Relaţia dintre categoriile de bază şi clasele de regiuni 

Cele 10 clase de regiuni sunt următoarele : 

1. Regiune de tip linişte (REG_LIN) 

Este o regiune în care nu se detectează semnal vorbit, respectiv amplitudinea semnalului 

este foarte mică. 

2. Regiune de tip consoană nesonoră (REG_CONS) 

Pentru limba română, aici intră consoanele fricative /S/, /Ş/, /Ţ/, /F/, /Z/, /J/, /H/, precum 

şi africativele /Ce/, /Ci/, /Ge/, /Gi/ . 

Regiune 

L V T C 

L LB V VR VG VS T TN TD C

3. Regiune de tip vocală sonoră (REG_VOC) 

88 


Aici avem toate vocalele din limba română: /A/, /E/, /I/, /O/, /U/, /Ǎ/, /Î/, dar tot aici intră 

consoanele glide şi nazale /L/, /M/, /N/, precum şi unele dintre consoanele plozive /P/, 

/B/, /D/. 

4. Regiune de tip linişte-nesonoră (REG_LIN_CONS) 

Acest tip de regiune este o combinaţie între regiunea de tip linişte şi regiunea de tip 

consoană nesonoră. Detectarea acestei regiuni ca o categorie separată a fost necesară 

deoarece consoanele fricative sunt rostite de multe ori cu o intensitate scăzută, putând să 

fie regăsite în regiuni de tip linişte. 

5. Regiune de tip salt (REG_SALT) 

Este o regiune asemănătoare cu regiunea vocalică, dar fără să fie periodică. Se datoreşte 

balansului de semnal vocal deasupra sau dedesubtul liniei de zero. Necesitatea distingerii 

acesteia de regiunea vocalică se datoreşte faptului că ei nu-i corespunde în semnalul 

vorbit o vocală, ci o zonă tranzitorie sau de coarticulare. 

6. Regiune neregulată scurtă (REG_NEREG) 

Este o regiune ce permite detectarea consoanelor plozive precum /C/, /G/ sau /P/. De 

obicei apare după o zonă de linişte, având o durată scurtă şi o gamă de frecvenţe 

intermediară între vocale şi consoanele nesonore. 

7. Regiune tranzitorie (REG_TRANZ) 

Este regiunea intermediară situată şi ea în domeniul de frecvenţe dintre vocale şi 

consoane, dar fără să aibă caracteristicile regiunilor (R4)-(R6). 

8. Regiune tranzitorie densă (REG_TRANZ_DENSA) 

Este o regiune tranzitorie în care apar frecvenţe de ordin superior, ce poate corespunde 

consoanelor fricative. Semnalul nu este catalogat în categoria (R2) datorită balansului 

pozitiv sau negativ faţă de linia de zero. 

9. Regiune de discontinuitate de tip “R” (REG_R) 

Corespunde unei regiuni de discontinuitate vocalică asociată cu un minim de energie, ce 

poate fi datorată în mod particular consoanei glide /R/ care desparte o secvenţă de vocale. 

10. Regiune de discontinuitate de tip “G” (REG_G) 

Este o regiune de discontinuitate vocalică ce corespunde frecvenţelor intermediare 

asociate cu consoanele plozive (în particular cu /C/ şi /G/), ce apar atunci când aceste 

consoane se află în interiorul unei secvenţe vocalice. 

Experimentele efectuate au condus la realizarea unor corespondenţe între fonemele limbii 

române şi clasele de regiuni. Rezultatele la care a ajuns autorul sunt prezentate în tabelul 4.5.

Tabelul 4.5. Apartenenţa fonemelor limbii române la diferitele clase de regiuni 

A 

Ǎ 

B 

C 

Če 

D 

E 

F 

G 

Ğe 

H 

I 

Î 

J 

L 

M 

N 

O 

P 

R 

S 

Ş 

T 

Ţ 

U 

V 

X 

Z 

89 


LIN LCON VOC SALT CONS NERG TRZ DENS VR VG 

În cele ce urmează vor fi prezentate modurile de detectare a celor patru categorii de bază 

precum şi modurile de clasificare în cele 10 clase de regiuni. 

4.4.2.1. Detectarea categoriei Linişte 

Separarea linişte/vorbire din semnalul vocal se realizează utilizând o valoare de prag Ts 

aplicată asupra amplitudinii semnalului. În segmentele de Linişte ( Silence), toate punctele de 

minim mi şi maxim Mi (detectate prin algoritmul Zero-Min-Max) trebuie să fie mai mici decât 

pragul Ts : 

| 

M i | T 

s 

, i = s… s+n (4.55) 

| 

mi 

| T 

s 

unde: 

- s reprezintă indexul eşantionului curent din segmentul vocal, iar 

- n este numărul de eşantioane din acel segment.

90 


Detectarea categoriei Linişte se face pe primul nivel al algoritmului de segmentare. 

Algoritmul după care funcţionează acest detector este următorul: 

Detectorul pentru categoria Linişte : 

Pentru fiecare punct P(i) de tip zero (ZERO), minim (MIN) sau maxim (MAX) : 

(1) Se calculează condiţia: 

C_LIN = (P(i) = ZERO) OR ((P(i) = MIN) OR (P(i) = MAX)) AND (|P(i)| < Prag) 

(2) Cât timp C_LIN este adevărată, P(i) se cumulează în regiunea curentă 

Reg[ireg] ce se cataloghează ca Linişte . 

(3) Dacă durata regiunii Reg[ireg] este mai mare decât un prag de 0.5 ms 

(D(Reg[ireg]) > 0.5), atunci regiunea e validată şi se trece la pasul următor. 

(4) Se ajustează capetele segmentului la puncte de zero. 

(5) Se declanşează clasificatorul de nivel 3 pentru categoria Linişte. 

Ca urmare a aplicării acestui algoritm, vor fi detectate regiuni de tipul REG_LIN 

(regiune de linişte) şi REG_LIN_CONS (regiune de tip linişte nesonoră). Cele două tipuri de 

regiuni vor fi departajate prin clasificatorul categoriei Linişte : 

Clasificatorul pentru categoria Linişte : 

(1) Se calculează numărul de puncte de zero NZ(ireg) pentru regiunea curentă. 

(2) Dacă D(ireg) este durata regiunii curente, se calculează condiţia : 

CLAS_LIN = NZ(ireg) / D(ireg) > K1; 

(3) Dacă condiţia CLAS_LIN este adevărată, atunci se clasifică regiunea curentă 

de tip REG_LIN_CONS ; dacă CLAS_LIN este falsă, regiunea se clasifică 

REG_LIN . 

Figurile 4.16 şi 4.17 prezintă rezultatele detectării automate a unor regiuni din categoria 

Linişte. Figura 4.17 arată o regiune de tip linişte nesonoră, posibil candidat pentru o consoană 

fricativă. 

Figura 4.16. Detectarea unei regiuni de de tip REG_LIN (linişte)

Figura 4.17. Detectarea unei regiuni de tip REG_LIN_CONS (linişte nesonoră) 

4.4.2.2. Detectarea categoriei Vocală 

91 


Categoria Vocală corespunde segmentelor sonore din semnalul vocal. Pentru segmentele 

de vorbire se calculează distanţa dintre două puncte de zero adiacente Di = d(Zi, Zi+1). Se ia 

decizia de segment Sonor (Voiced) dacă această distanţă este mai mare decât o valoare de prag 

V : 

Di V , i = s,… , s+n (4.56) 

În figura 4.18, Z1, A, B, Zn reprezintă puncte de zero, M1 este un punct de maxim, iar m2 

e un punct de minim, punctele fiind detectate prin algoritmul Zero-Min-Max. 

Figura 4.18. Porţiune sonoră dintr-un segment de vorbire 

Pentru ca puncte de zero precum cele dintre punctele A şi B din figură să fie incluse în 

segmentul sonor, se aplică o tehnică de tip look-ahead. Astfel, un număr de maximum Nk puncte 

de zero dintre Zi şi Zi+k pot fi inserate în regiunea sonoră dacă Di-1 > V şi Di+k > V : 

D 

 

D 

i 

 

D 

i 

j 

1 

k 

V 

V 

V 

Z1 

D1 

M1 

m2 

, i = s,… , s+n ; j = i .. k ; k

92 


Detectorul pentru categoria Vocală : 

(1) Dacă P(i)=MAX, se calculează distanţa faţă de maximul precedent Dmax(i). 

(2) Se calculează condiţia pentru vocală: C_VOC = (Dmax(i) > Delta_Vocală) . 

(3) Dacă C_VOC este adevărată, P(i) se cumulează în regiunea curentă Reg[ireg] ce se 

cataloghează ca Vocală ; i = i+1; se reia algoritmul de la punctul (1). 

(4) Dacă C_VOC este falsă, se verifică extensia regiunii de la pasul următor. 

(5) Extensia regiunii : se calculează condiţia C_VOC pentru umătoarele N_Look_Ahead 

maxime. Dacă există un punct P(i) pentru care condiţia e adevărată, algoritmul se 

reia de la punctul (3). 

(6) Dacă durata regiunii Reg[ireg] este mai mare decât un prag de 5 ms (D(Reg[ireg]) > 

5), atunci regiunea e validată şi se trece la pasul următor. 


(8) Se declanşează clasificatorul de nivel 3 pentru categoria Vocală. 

Figura 4.19 prezintă rezultatele detectării automate a unei regiuni din categoria Vocală. 

Se observă periodicitatea şi amplitudinea mărită a semnalului din regiunea vocalică. 

Figura 4.19. Detectarea unei regiuni de tip REG_VOC (sonoră vocalică) 

În continuare se prezintă clasificatorul pentru categoria Vocală, ce clasifică regiunea ca o 

regiune vocalică sau de tip salt. Pentru o regiune vocalică, se împarte regiunea în subregiuni 

pentru a detecta eventuale discontinuităţi ce pot apărea datorită consoanelor glide (R) sau plozive 

(G, C) intercalate în acea regiune. 

Clasificatorul pentru categoria Vocală : 

(1) Se apelează detectorul pentru clasa REG_SALT ; dacă acesta întoarce o valoare 

pozitivă, regiunea se etichetează ca regiune de tip salt REG_SALT; dacă detectorul 

întoarce o valoare negativă, regiunea se etichetează ca Vocală REG_VOC , apoi se 

merge la pasul următor pentru determinarea subregiunilor vocalice. 

(2) Se determină perioadele din regiunea vocalică. 

(3) Pentru fiecare perioadă Per[iper], se apelează detectorul pentru clasa REG_R 

(subregiune sonoră corespunzătoare consoanei /R/) ; dacă detectorul întoarce o 

valoare pozitivă, se construieşte o subregiune etichetată REG_R , având centrul în 

perioada curentă Per[iper]. 

(4) Pentru fiecare perioadă Per[iper], se apelează detectorul pentru clasa REG_G 

(subregiune sonoră corespunzătoare consoanelor /G/ sau /C/) ; dacă detectorul 

întoarce o valoare pozitivă, se construieşte o subregiune etichetată REG_G , având 

centrul în perioada curentă Per[iper].

93 


Detectorul pentru regiunea de tip Salt ia în considerare faptul că în urma detecţiei 

vocalelor pot apărea situaţii de evidenţiere a unor regiuni tranzitorii care nu sunt periodice, ci 

prezintă doar o semiperioadă de durată relativ mare; în cele mai multe cazuri această 

semiperioadă este pozitivă, şi se datoreşte balansării semnalului deasupra liniei de zero. Figura 

4.20 arată două astfel de regiuni: 

Figura 4.20. Detectarea regiunilor de tip REG_SALT (regiune sonoră de tip salt). 

Detecţia regiunilor de tip Salt se bazează pe calculul densităţii energiei negative (adică a 

energiei semnalului de amplitudine negativă) Eneg : 

Eneg 

DEN 

(4.58) 

N 

unde N este numărul de eşantioane din regiune. 

Detectorul pentru regiunea de tip Salt : 

(1) Se calculează raportul D_EN[ireg] pentru regiunea curentă. 

(2) Dacă D_EN[ireg] < KS , se returnează True pentru a indica detecţia regiunii de tip 

Salt. 

4.4.2.3. Împărţirea în subregiuni vocalice 

Aşa cum se va arăta în capitolul dedicat segmentării fonematice, o regiune vocalică 

poate conţine, pe lângă vocale, şi anumite consoane care au o formă de undă apropiată de 

cea a vocalelor, ce apare din cauza coarticulării. Aceste consoane sunt : consoanele glide /L/, 

/R/, nazale /M/, /N/, dar şi unele consoane plozive : /C/, /G/, /P/, /D/. În scopul detectării 

acestor consoane din interiorul regiunilor vocalice, s-a proiectat un algoritm de împărţire a 

regiunilor în subregiuni. Algoritmul este adaptat în special detectării consoanelor /R/, /C/, 

/G/, care în urma experimentelor efectuate s-au dovedit a fi cel mai uşor de pus în evidenţă 

dacă ele apar în interiorul regiunilor vocalice.

4.4.2.3.1. Detectarea subregiunilor corespunzătoare consoanei /R/ 

Consoana /R/ ce apare într-o regiune vocalică de forma : 

REG_VOC = {VOC}+R{VOC}+ , 

94 


unde notaţia {VOC}+ înseamnă o succesiune de una sau mai multe vocale, 

corespunde fie cu un minim de amplitudine, fie cu un hiatus de periodicitate a semnalului 

vocal. Figura 4.21 arată un astfel de exemplu : 

Figura 4.21. Consoana /R/ în regiunea vocalică /AREA/ 

Modul de detectare a hiatusurilor de periodicitate va fi explicat în paragraful dedicat 

determinării perioadelor din regiunile vocalice sonore. 

În continuare se arată modul de detectare a minimelor locale de amplitudine a 

perioadelor, corespunzătoare regiunilor de tip REG_R. 

Pentru fiecare perioadă PC se ia un interval de 7 perioade centrat în PC, aşa cum se 

arată în figura 4.22. Punctele de maxim ale fiecărei perioade se notează P[0], P[1], ..., P[6]. 

În continuare se verifică relaţiile de ordonare: 

P[0] > P[1] > P[2] > P[3] (4.59) 

P[6] > P[5] > P[4] > P[3] 

Dacă relaţiile (4.59) sunt satisfăcute, punctul P[3] corespunzător perioadei PC este un 

punct de minim şi intervalul considerat se va eticheta ca regiune REG_R. 

0 

1 

R 

2 

3 

Figura 4.22. Determinarea minimului local al perioadelor 

4 

5 

6

95 


Dacă relaţiile (4.59) nu sunt satisfăcute din cauza punctelor de capăt P[0] sau P[6], 

atunci se admite şi condiţia ca P[3] să fie minim pentru intervalul ordonat [1,5], iar punctele 

de capăt P[0] şi P[6] să fie apropiate ca valoare de P[1], respectiv P[5]. 

Algoritmul în pseudocod este următorul: 

Detectorul pentru subregiunea de tip R : 

If (P[2]>P[1]) return false; 




If (P[0]

96 


4.4.2.3.2. Detectarea subregiunilor corespunzătoare consoanelor /C/, /G/ 

Detecţia regiunilor de tip REG_G, corespunzătoare consoanelor /C/ şi /G/ se bazează 

pe faptul că în banda de [3500-6500] Hz există în acest caz frecvenţe spectrale de 

amplitudine mărită, spre deosebire de cazul vocalelor în care aceste frecvenţe nu există. În 

figura 4.25 se arată spectrul unei regiuni de tip REG_G, comparativ cu cel al unei regiuni 

vocalice: 

Figura 4.24. Consoana /G/ (stânga) şi vocala /O/ (dreapta) 

Figura 4.25. Spectrele asociate consoanei /G/ şi vocalei /O/ 

Detectorul pentru subregiunea de tip G : 

(1) Se calculeaza maximul amplitudinii spectrale din banda [1,2500] Hz MAX1, 

pentru o fereastră W de N perioade din regiunea curentă. 

(2) Se calculeaza maximul amplitudinii spectrale din banda [3500,6500] Hz MAX2 

pentru fereastra W. 

(3) Se calculează raportul RGC[W] = MAX2/MAX1. 

(4) Dacă RGC[W] > KGC , se returnează True pentru a indica detecţia subregiunii de 

tip G. 

4.4.2.4. Detectarea categoriei Consoană : 

Categoria Consoană corespunde segmentelor nesonore. Un segment de vorbire este 

considerat Nesonor (Unvoiced) dacă distanţa Di dintre două puncte de zero adiacente este mai 

mică decât un prag U: 

Di U , i = s,… , s+n (4.60)

Figura 4.26. Porţiune nesonoră dintr-un segment de vorbire 

97 


Detectarea categoriei Consoană se face tot pe primul nivel al algoritmului de segmentare, 

în paralel cu detectarea celeilalte categorii corespondente de pe acest nivel: categoria Vocală. În 

continuare se prezintă algoritmul după care funcţionează acest detector : 

Detectorul pentru categoria Consoană : 

(1) Dacă P(i)=MAX, se calculează distanţa faţă de maximul precedent Dmax(i). 

(2) Se calculează condiţia pentru consoană : 

C_CONS = (Dmax(i) < Delta_Consoană). 

(3) Dacă C_CONS este adevărată, P(i) se cumulează în regiunea curentă Reg[ireg] 

ce se cataloghează ca şi Consoană ; i = i+1; se reia algoritmul de la punctul (1). 

(4) Dacă C_CONS este falsă, se verifică extensia regiunii de la pasul următor. 

(5) Extensia regiunii: se calculează condiţia C_CONS pentru umătoarele 

N_Look_Ahead maxime. Dacă există un punct P(i) pentru care condiţia e 

adevărată, algoritmul se reia de la punctul (3). 

(6) Dacă durata regiunii Reg[ireg] este mai mare decât un prag de 0.5 ms 

(D(Reg[ireg]) > 0.5), atunci regiunea e validată şi se trece la pasul următor. 


Di 

(8) Se etichetează regiunea curentă ca regiune de tip consoană nesonoră : 

Tip(Reg[ireg]) = REG_CONS. 

Figura 4.27 prezintă rezultatele detectării automate a unei regiuni din categoria 

Consoană. Caracteristic este numărul mare de treceri prin zero a semnalului din această regiune. 

Figura 4.27. Detectarea unei regiuni de tip REG_CONS (consoană nesonoră)

4.4.2.5. Detectarea categoriei Tranziţie 

98 


Detectarea categoriei Tranziţie se face pe nivelul doi al algoritmului de segmentare, după 

ce categoriile Linişte, Vocală şi Consoană au fost identificate. Se parcurg regiunile în ordine iar 

cele care nu au fost etichetate la nivelul 1 se etichetează ca regiuni de tranziţie. Pentru aceste 

regiuni se lansează clasificatorul categoriei Tranziţie : 

Clasificatorul pentru categoria Tranziţie : 

(1) Se lansează detectorul pentru regiune de tip REG_NEREG (regiune 

neregulată). Dacă detectorul întoarce un rezultat afirmativ, regiunea curentă se 

etichetează ca REG_NEREG. Dacă detectorul întoarce un rezultat negativ, se 

continuă cu pasul doi. 

(2) Se lansează detectorul pentru regiune de tip REG_TRANZ_DENSA (regiune 

tranzitorie densă). Dacă detectorul întoarce un rezultat pozitiv, regiunea 

curentă se etichetează ca REG_TRANZ_DENSA. Dacă detectorul întoarce un 

rezultat negativ, regiunea curentă se etichetează ca REG_TRANZ 

Detectarea regiunilor de tip Neregulată are ca scop evidenţierea “zimţurilor” care apar în 

semnal, adică a unor neregularităţi care indică posibilitatea rostirii unor consoane plozive (/C/ 

sau /G/). Aceste consoane au forma unor impulsuri de durată scurtă ce urmează după o perioadă 

de aprox. 5 ms de linişte (vezi figura 4.28) : 

Figura 4.28. Consoana plozivă /C / din cadrul silabei /CA/ 

În figura 4.28 se observă că această consoană are forma a trei succesiuni de impulsuri 

care urmează după mici perioade de linişte. Ca modalitate de detecţie, se calculează energia 

negativă (adică energia semnalului de amplitudine negativă) Eneg(m) din stânga fiecărui punct de 

minim m, începind cu dx = -0.225 ms, pe o durată D = 1 ms. Dacă raportul: Rneg = m 2 / Eneg(m) 

este mai mare decât un prag dat, atunci regiunea este de tip Neregulată. Algoritmul de detecţie 

este următorul: 

Detectorul pentru regiunea Neregulată: 

(1) Pentru fiecare punct P(i) de tip minim (MIN) se calculează energia negativă 

E_NEG(i) din stânga lui P(i) pe durata D. 

(2) Se calculează raportul R_NEG(i) şi se reţine raportul maxim R_NEG_MAX. 

(3) Dacă R_NEG_MAX > K şi durata regiunii D(ireg) < 10ms, se returnează 

True pentru a eticheta regiunea curentă ca regiune de tip Neregulată.

Figura 4.29 arată rezultatul detectării acestui tip de regiune: 

99 


Figura 4.29. Detectarea regiunilor de tip REG_NEREG (regiune neregulată scurtă). 

Regiunile clasificate astfel sunt figurate cu galben. 

Detectarea regiunilor de tip Tranzitorie densă este necesară pentru evidenţierea unor 

regiuni cu pondere mare a frecvenţelor ridicate în spectru, care pot fi de tipul consoanelor 

fricative. Detecţia acestui tip de regiuni se bazează pe calculul unui raport dintre amplitudinile 

frecvenţelor spectrale ale unui filtru trece-bandă 2500Hz – 4000Hz şi ale unui filtru trece-jos cu 

frecvenţa de tăiere 1000Hz, astfel: 

unde: 

R 

T 2 

 

kT 

1 

dens P 

 

k1 

FFT ( k) 

FFT ( k) 

(4.61) 

- FFT(k) este modulul transformatei Fourier a semnalului din poziţia spectrală k ; 

- T1 este poziţia spectrală corespunzătoare frecvenţei de 2000Hz : 

2500N 

T1 , cu N = numărul de eşantioane din segmentul curent, Fes fiind frecvenţa 

F / 2 

es 

de eşantionare ; 

- T2 este poziţia spectrală corespunzătoare frecvenţei de 3000Hz : 

4000N 

T2 , cu N = numărul de eşantioane din segmentul curent, Fes = frecvenţa de 

F / 2 

es 

eşantionare ; 

- P este poziţia spectrală corespunzătoare frecvenţei de 700Hz : 

1000N 

P . 

F / 2 

es

Detectorul regiunii tranzitorii dense funcţionează după următorul algoritm: 

Detectorul pentru regiunea Tranzitorie densă : 

(1) Se calculează transformata Fourier pe termen scurt pentru 

segmentul considerat. 

(2) Se calculează raportul R_DENS(ireg). 

(3) Dacă R_DENS(ireg) > KD, se returnează valoarea True 

pentru a eticheta regiunea curentă ca regiune de tip 

Tranzitorie densă. 

100 


Figura 4.30 prezintă comparativ graficul spectral FFT pentru o vocală (figura 4.30a) şi o 

consoană fricativă (figura 4.30b). Se observă diferenţa amplitudinilor de frecvenţă în benzile 0- 

1000Hz, respectiv 2500Hz-4000Hz. 

Figura 4.31 prezintă rezultatul detectării regiunii de tip Tranzitorie densă. 

(a) (b) 

Figura 4.30. Graficul spectrelor FFT pentru o vocală (a) şi o consoană fricativă (b) 

Figura 4.31. Detectarea unei regiuni de tip REG_TRANZ_DENSA (regiune tranzitorie densă) 

În stânga: spectrul FFT ; în dreapta: regiunea detectată, figurată prin line roşie dublă.

4.4.3. Compactarea regiunilor 

101 


După etapa de detectare a regiunilor, integrarea acestora într-o categorie segmentală de 

tipul Linişte, Sonoră, Nesonoră respectiv Tranziţie, şi după clasificarea într-una din cele 10 

clase de regiuni, urmează faza de compactare. Compactarea realizează gruparea regiunilor de 

dimensiuni mici într-o aceeaşi categorie segmentală. 

S-a remarcat faptul că după prima aplicare a algoritmului de segmentare se generează un 

număr mare de regiuni. Dacă regiunile sonore sunt determinate corect de la început, regiunile 

nesonore sunt fragmentate de o serie de regiuni de linişte, din cauza faptului că de obicei aceste 

regiuni nesonore au amplitudine mică. De asemeni, din cauza balansării semnalului deasupra sau 

dedesubtul liniei de zero, în cadrul unui segment nesonor pot apărea şi segmente tranzitorii. 

Algoritmul de compactare stabileşte mai întâi o secvenţă de regiuni ale cărei capete pot fi 

vocale Sonore sau Linişte : 

unde : 

R R ,..., R R 

S , , cu 

0, 1 n1 

n 

R , Rn 

VL { 

REG _VOC, 

REG _ LIN} 

(4.62) 

0 

c k 1, 

VL 

Ri C k | 10 , i 1 , n 1 

Ri reprezintă regiunile clasificate într-una din cele 10 clase ck (figura 4.32). 

R0 

. . . 

R1 R2 

Rn-1 

Rn 

Figura 4.32. Secvenţa de regiuni de compactat 

După stabilirea secvenţei de regiuni de compactat (regiunile de capăt R0 şi Rn nu se 

compactează), se încearcă gruparea regiunilor într-una sau eventual mai multe regiuni nesonore 

astfel : 

Cazul 1. Dacă ponderea regiunilor de tip consoană nesonoră REG_CONS este mai mare 

decât un prag K1, atunci secvenţa S se compactează într-o singură regiune de tip consoană 

nesonoră REG_CONS. 

Algoritmul care detectează acest tip de compactare este următorul (ireg1 este indicele 

regiunii R0, iar ireg2 este indicele regiunii Rn): 

for (i = ireg1+1; i < ireg2; i++) 

{ 

durata = Reg[i].stop - Reg[i].start; 

SumTotal += durata; 

if (Reg[i].tip == REG_CONS) 

SumCons+=durata; 

} 

p = SumCons / SumTotal; 

if (p>0.5) return true; 

else return false.

102 


Compactarea unei secvenţe de regiuni într-o singură regiune de tip consoană nesonoră 

este ilustrată în figurile 4.33 şi 4.34. Marginea din stânga (regiunea 23) este o regiune de tip 

linişte, iar marginea din dreapta (regiunea 38) este o regiune vocalică: 

Figura 4.33. Secvenţa de regiuni după prima aplicare a algoritmului 

Figura 4.34. Compactarea regiunilor într-un segment de tip consoană nesonoră 

Cazul 2. Dacă ponderea regiunilor de tip consoană nesonoră REG_CONS şi a regiunilor 

de tip linişte-nesonoră REG_LIN_CONS este mai mare decât un prag K2, atunci secvenţa S se 

compactează într-o singură regiune de tip linişte-nesonoră REG_LIN_CONS. Algoritmul pentru 

acest caz este următorul : 

for (i = ireg1+1; i < ireg2; i++) 

{ 

durata = Reg[i].stop - Reg[i].start; 

SumTotal += durata; 

if ((Reg[i].tip == REG_CONS) or (Reg[i].tip == REG_LIN_CONS) 

SumLinCons+=durata; 

} 

p = SumLinCons / SumTotal; 

if (p>0.3) 

return true; 

else 

return false.

103 


Un exemplu de segmentare pentru o regiune de tip linişte nesonoră este arătat în figurile 

4.35, respectiv 4.36. Aici regiunile numerotate sunt nesonore, regiunile figurate cu o singură 

linie, nenumerotate, sunt regiuni de linişte, iar regiunile figurate cu linie dublă sunt regiuni 

tranzitorii : 

Figura 4.35. Regiunile dintr-un segment nesonor după prima aplicare a algoritmului 

Toate aceste regiuni vor fi compactate în cea de-a doua trecere a algoritmului, astfel că 

rezultatul va fi o singură regiune de tip linişte-nesonoră, aşa cum se poate vedea în figura 4.36 : 

Figura 4.36. Compactarea regiunilor într-un segment de tip linişte-nesonoră 

Cazul 3. Dacă cele două condiţii anterioare de la punctele 1 şi 2 nu sunt îndeplinite, 

atunci secvenţa de regiuni se compactează în felul următor : 

Regiunile neregulate scurte (REG_NEREG) şi regiunile de tip linişte nesonoră 

(REG_LIN_CONS) de durată mai mare de 5 ms vor fi lăsate pe loc, iar celelalte regiuni vor fi 

compactate într-o singură regiune tranzitorie. 

Regiunile ce se compactează pot fi de tipul : consoană nesonoră, linişte-nesonoră de 

durată mică, de tip salt, tranzitorie sau tranzitorie densă, ţinând cont că la capetele secvenţei de 

compactare avem întotdeauna regiuni vocale sau linişte. 

R0 

1 2 3 4 5 6 7 8 

C1 

LIN NRG 

Figura 4.37. Compactarea regiunilor tranzitorii 

În figura 4.37, regiunile 1, 2 şi 3 se vor compacta în regiunea tranzitorie C1, iar regiunile 

5 şi 6 în regiunea tranzitorie C2. 

C2 

Rn

Algoritmul de compactare în acest caz arată astfel : 

st = ireg1; 

for (dr = st+1;dr< = ireg2;dr++) 

{ 

duration = (TabReg[dr].stop-TabReg[dr].start); 

tip = TabReg[dr].tip; 

if ( (dr == ireg2) or (tip == REG_NEREG) or 

((duration>5) and (tip == REG_LIN_CONS)) ) 

{ 

nr_compactări = dr-st-2; 

if (nr_compactări >0) 

{ 

TabReg[st+1].tip = REG_TRANZ; 

// Se mută regiunile la stânga cu dr-st-2 poziţii 

for(i = dr;i

4.4.4. Rezultatul final al segmentării în clase de regiuni 

105 


În figura 4.40 se prezintă rezultatul final al segmentării în clase de regiuni pentru 

sintagma « Evidenţierea unui cadru general ». Se pot observa aici următoarele clase: vocale- 

sonore – desenate cu portocaliu, consoane nesonore – o linie roşie, regiuni de tranziţie – linie 

roşie dublă, linişte – fără linie, linişte nesonoră – albastru. 

Figura 4.40. Rezultatul final al segmentării în clase de regiuni pentru sintagma : 

« Evidenţierea unui cadru general »

106 


4.4.5. Concluzii privitoare la segmentarea semnalului vocal în clase de 

regiuni 

Aşa cum am văzut, segmentarea în clase de regiuni este o etapă a analizei semnalului 

vocal utilizată atât în sinteza, cât şi în recunoaşterea vorbirii. Pentru sinteza bazată pe corpus în 

general, şi pentru sinteza bazată pe concatenarea unităţilor, este de mare importanţă segmentarea 

şi adnotarea corpusului vorbit, respectiv crearea unei baze de date cu unităţi acustice, într-un 

mod cât mai eficient. Segmentarea automată a semnalului vocal în clase de regiuni împlineşte 

aceste necesităţi, alături de segmentarea fonematică - ce va fi prezentată în capitolul următor. 

Algoritmul propus de autor realizează segmentarea automată a semnalului vocal în 10 

clase de regiuni. Abordarea este în domeniul timp al analizei, deşi detectarea unor clase 

particulare a necesitat şi calcule în domeniul frecvenţelor. Algoritmul împarte mai întâi semnalul 

vocal în 4 categorii de bază : linişte, sonoră, nesonoră, respectiv tranziţie, apoi realizează 

clasificarea în cele 10 clase distincte de regiuni: linişte, consoană nesonoră, vocală sonoră, 

linişte-nesonoră, de tip salt, neregulată, tranzitorie, tranzitorie densă, discontinuă de tip R şi 

discontinuă de tip G. 

Avantajul algoritmului faţă de alte abordări este rapiditatea derivată din efectuarea 

calculelor în domeniul timp şi detectarea categoriilor de bază dintr-o singură parcurgere a 

eşantioanelor de semnal. De asemeni, diferitele tipuri de regiuni sunt detectate în principal pe 

baza parametrilor obţinuţi în prima fază a algoritmului. 

În această etapă s-au proiectat: 

- un algoritm de determinare a punctelor de zero, minim şi maxim din semnalul vocal în 

domeniul timp; 

- o metodă de detecţie a segmentelor S/U/V (Silence/Voiced /Unvoiced) şi clasificare în 

tipuri de regiuni a semnalului vocal, metodă ce cuprinde : 

- 4 detectori pentru categoriile de bază (linişte, sonoră, nesonoră, tranziţie) ; 

- 8 clasificatori pentru clasele de regiuni propriu-zise (linişte, consoană nesonoră, vocală 

sonoră, linişte-nesonoră, de tip salt, neregulată, tranzitorie, tranzitorie densă); 

de tip G); 

- 2 detectori pentru determinarea subregiunilor (discontinuitate de tip R şi discontinuitate 

- un algoritm de compactare a regiunilor pentru gruparea regiunilor similare şi reducerea 

numărului de regiuni.

107 


4.5. Detectarea perioadelor din forma de undă. Punctele de închidere 

glotală 

Detectarea perioadelor din forma de undă, corespunzând frecvenţei fundamentale a 

semnalului, este importantă atât pentru analiza sincronă cu frecvenţa ( pitch synchronous 

analysis), cât şi pentru modificarea proprietăţilor semnalului vocal în domeniul timp (de exemplu 

modificarea tonalităţii, intonaţiei şi ritmului vorbirii). 

Metodele folosite pentru detectarea perioadelor formei de undă [Nay07] utilizează 

modelarea LPC, calculând vârfurile din semnalul rezidual LPC prin filtrare adaptivă, sau calculul 

discontinuităţilor spectrale prin transformate timp-frecvenţă, discontinuităţi de energie în 

semnalul vorbit sau în forma de undă corespunzătoare tractului vocal. 

O metodă generică este cea prezentată de Childers şi Hu în [Chi94]. Metoda utilizează 

rezultatele segmentării S/U/V a semnalului vocal precum şi semnalul erorii de predicţie e(n) din 

analiza LPC pentru a detecta atât perioadele din forma de undă a semnalului de intrare, cât şi 

punctele de închidere glotală GCI ( Glottal Closure Instants). Punctele GCI corespund cu 

momentele de vibraţie ale glotei în producerea semnalului vocal, respectiv cu trenurile de 

impulsuri în semnalul de excitaţie glotală. 

Algoritmul de detecţie constă din două etape: (1) estimarea perioadelor din forma de 

undă şi (2) alegerea vârfului de semnal corespunzător fiecărei perioade. 

1. Estimarea perioadelor din forma de undă 

Algoritmul de estimare a perioadelor din semnalul de intrare este următorul: 

P1. Se consideră un segment din semnalul erorii de predicţie LPC, semnal notat cu eLp(n). 

P2. Se aplică un filtru trece-jos segmentului considerat. 

P3. Se calculează cepstrumul Ce(n) pe segmentul n: 

Ce Lp 

( n) 

IFFT (| FFT ( e ( n)) 

|), 1n 

N 

(4.63) 

unde N este dimensiunea cadrului ( N 25). 

P4. Se caută indexul m pentru care Ce(m) are amplitudinea maximă în subsetul: 

i) 

| 25 i 

N 

 

C e 

( (4.64) 

P5. Se caută indexul k pentru care Ce(k) are amplitudinea maximă în subsetul: 

( i) 

| 25 i m 

25 

C e 

(4.65) 

P6. Dacă Ce(k) > K Ce(m) (unde constanta K ~ 0.7), k este perioada estimată; în caz contrar 

se alege indicele m pentru această estimare. 

P7. Dacă se observă o schimbare bruscă în perioada formei de undă în comparaţie cu 

perioadele detectate anterior, atunci semnalului i se aplică un filtru trece-jos şi 

algoritmul se reia cu pasul 3.

108 


2. Detectarea vârfului de semnal corespunzător GCI pentru fiecare perioadă 

Detectarea vârfului de semnal corespunzător GCI se realizează astfel: 

P1. În fiecare cadru analizat (de 256 de eşantioane) se caută vârful cu valoarea minimă 

negativă din eLp(n). 

P2. Se ia o fereastră în jurul vârfului considerat. Dacă N este numărul total de eşantioane din 

fereastră, atunci se consideră N/3 eşantioane în faţa vârfului, şi 2N/3 eşantioane în 

spatele vârfului (se ia N=46). 

P3. Se calculează funcţia de corelaţie a ferestrei considerate faţă de semnalul eLp(n). Astfel 

se creează semnalul de corelaţie Cte(n). 

P4. Vârfurile pozitive din Cte(n) dau estimările iniţiale pentru punctele GCI. 

P5. Se ajustează estimările iniţiale ale GCI pe baza perioadelor detectate cu algoritmul de la 

punctul 1; se ţine cont şi de faptul că perioada minimă este 25 de eşantioane. 

a) 

GCI GCI GCI GCI 

b) 

Figura 4.41. Ilustrarea algoritmului de detecţie a perioadelor şi punctelor glotale GCI. 

a) secvenţa erorii de predicţie eLp(n); b)secvenţa semnalului corelat Cte(n)

109 


4.6. Contribuţii ale autorului în determinarea perioadelor de semnal 

Aşa cum am văzut în secţiunea 4.5, una din cele mai uzuale metode de determinare a 

punctelor de impuls glotal (corespunzătoare perioadelor de semnal) se bazează pe calculul erorii 

de predicţie LPC, deci are la bază un mod de calcul indirect [Chi94]. De asemeni, au fost 

dezvoltate metode folosind funcţia de autocorelaţie, calculul cepstrumului şi filtrarea inversă 

(SIFT) pentru a estima perioada de semnal [Nay07], sau metode statistice, precum [Sak03]. 

Aceste metode determină valori medii ale perioadei - necesare în procesul analizei - dar nu 

determină în mod exact cadrul corespunzător pentru fiecare perioadă. 

În scopul extragerii proprietăţilor glotale corespunzătoare unei perioade de semnal, este 

necesară o abordare sincronă cu frecvenţa. Algoritmul propus de autor realizează acest lucru, şi 

se aplică nu unui semnal generic oarecare, ci în mod specific unui semnal vocal sonor, 

cvasiperiodic. 

4.6.1. Algoritmul de determinare a perioadelor şi maximelor de perioadă 

Algoritmul propus de autor se bazează pe un mod de calcul exclusiv în domeniul timp, 

ceea ce îl face deosebit de rapid şi eficient. Alte avantaje care derivă din această abordare sunt: 

detectarea exactă a capetelor intervalului de perioadă, determinarea precisă a fiecărei perioade 

dintr-un segment sonor cvasiperiodic cu frecvenţa variabilă, determinarea rapidă a maximelor de 

perioadă. 

Algoritmul este prezentat în figura 4.42 : 

Determinare Pivot 

Estimare Perioadă 

Detecţie Puncte de Maxim Detecţie Puncte Hiatus 

Marcare Perioadă 

Figura 4.42. Algoritmul de determinare a perioadelor de semnal 

Aşa cum se observă din figura 4.42, algoritmul are 4 paşi succesivi: determinarea 

punctului de plecare (punctul pivot), determinarea unei estimări a perioadei, detecţia punctelor 

de maxim şi de hiatus pentru fiecare perioadă, şi apoi marcarea intervalelor de perioadă. 

Punctul pivot este necesar a fi determinat pentru a şti poziţia primului maxim de 

perioadă, în funcţie de care se vor calcula toate celelalte puncte de maxim. Pentru determinarea

110 


acestuia, după o filtrare mediană a semnalului, se calculează cu algoritmul ZeroMinMax 

(prezentat în paragraful 4.4.1) punctele de zero, minim şi maxim din semnalul sonor. Apoi se ia 

eşantionul din semnal care are amplitudinea cea mai mare dintre punctele de maxim, pe o 

distanţă D de la începutul segmentului considerat. Acesta este punctul pivot. 

Apoi se încearcă estimarea perioadei actuale a semnalului în jurul punctului pivot. Pentru 

aceasta se determină punctele din vecinătatea stânga şi dreapta a punctului pivot care au 

amplitudinea comparabilă cu acesta. Prin medierea distanţelor între aceste două puncte şi punctul 

pivot central se obţine estimarea iniţială a perioadei. 

În pasul al treilea se determină toate maximele de perioadă, pornind de la punctul pivot 

către stânga, respectiv către dreapta. Un maxim de perioadă se determină astfel: ştiindu-se că 

distanţa faţă de punctul anterior este egală cu perioada estimată, se găseşte punctul de maxim 

local care se află la distanţa minimă faţă de această poziţie. 

Dacă la o anumită iteraţie nu se găseşte un punct de maxim care să se găsească în poziţia 

preconizată, fie din cauza depăşirii perioadei admise, fie din cauza amplitudinii mici de semnal, 

următorul punct de maxim local se marchează ca hiatus de perioadă – în primul caz, respectiv ca 

hiatus de amplitudine – în cel de-al doilea. 

În final, în pasul patru, după determinarea tuturor punctelor de maxim de perioadă, se 

calculează punctele de capăt ale intervalelor de perioadă. Punctul de start al fiecărui interval se ia 

ca fiind primul punct de zero care precede maximul de perioadă corespunzător. Astfel fiecare 

interval de perioadă începe la punctul său de zero iniţial şi durează până la punctul iniţial al 

intervalului următor. 

Algoritmul Determina_Perioade : 

P1. Pe segmentul considerat se determină punctul pivot. 

P2. Se determină perioada iniţială prin găsirea punctelor de amplitudine 

comparabilă cu pivotul în stânga şi dreapta sa. 

P3. Se determină maximele de perioadă : 

a) între poziţia de start a segmentului şi poziţia pivotului; 

b) între poziţia pivotului şi poziţia de sfârşit a segmentului. 

Dacă în acest pas se gaseşte un punct de hiatus, atunci se apelează 

recursiv algoritmul între poziţia de hiatus şi poziţia finală. 

P4. Se marchează intervalele de perioadă prin găsirea punctelor de zero 

ce preced maximele de perioadă. 

Din descrierea algoritmului global în pseudocod reiese modul cum se apelează 

procedurile corespunzătoare celor 4 etape : 

DeterminaPerioade(poz_start, poz_stop, perioada) 

// Calculeaza maximele de perioadă pentru un segment sonor 

// La inceput perioada =0 

{ 

// P1. Determinarea punctului pivot: 

pivot=DeterminaPivot(poz_start, poz_stop, poz_pivot);

P2. Estimarea perioadei: 

if(perioada==0.) 

EstimarePerioada(poz_pivot,poz_start,poz_stop,perioada); 

// P3a. Determinarea maximelor de perioadă 

// între poziţia de start a segmentului şi poziţia pivotului 

perioada1=perioada; 

complet=DeterminaMaximePerioade(poz_pivot,poz_start,perioada1,poz_hiat); 

if(!complet) 

{ 

if(DurationIndex(poz_hiat,poz_start) > 45 /* ms */) 

perioada1=0; // se recalculează şi perioada 

DeterminaPerioade(poz_start,poz_hiat,perioada1); 

} 

// P3b. Determinarea maximelor de perioadă 

// între poziţia pivotului şi poziţia de sfârşit a segmentului 

perioada2=perioada; 

complet=DeterminaMaximePerioade(poz_pivot,poz_stop,perioada2,poz_hiat); 

if(!complet) 

{ 

if(DurationIndex(poz_stop,poz_hiat) > 45) 

perioada2=0; // se recalculează şi perioada 

DeterminaPerioade(poz_hiat,poz_stop,perioada2); 

} 

// P4. Marcarea intervalelor de perioadă: 

MarcarePerioade(poz_start, poz_stop); 

} 

4.6.1.1. Determinarea pivotului 

111 


Punctul pivot reprezintă punctul de referinţă în funcţie de care se vor calcula toate 

celelalte puncte de maxim de perioadă. Pentru determinarea acestuia, după o filtrare mediană a 

semnalului, se calculează cu algoritmul ZeroMinMax punctele de zero, minim şi maxim din 

semnalul sonor. Apoi se ia eşantionul din semnal care are amplitudinea cea mai mare dintre 

punctele de maxim, pe o distanţă D de la începutul segmentului considerat. Acesta este punctul 

de start: punctul pivot. 

Mk(i) 

D 

PIV 

Figura 4.43. Determinarea punctului pivot

Punctul pivot se determină conform relaţiei : 

PIV max( M k ( i)), 

k 0,.. 

N ; i D 

(4.66) 

unde N reprezintă numărul de maxime locale Mk din segmentul considerat. 

Algoritmul Determină_Pivot : 

(1) Se iniţializează valoarea pivotului: PIV=0 ; 

112 


(2) Pentru fiecare punct Mk(i) de tip maxim local (MAX) se execută paşii (3) şi (4) 

(3) Se determină condiţia C_PIV = (Mk(i) > PIV ) AND (Mk(i) != HIAT_PERIOD) 

AND (Mk(i) != HIAT_AMPLITUDE) 

(4) Dacă C_PIV este adevărată, atunci PIV = Mk (i). 

(5) Dacă PIV>0 se returnează True, altfel False. 

Prin modul de determinare a punctului pivot se observă că acesta este întotdeauna un 

punct de maxim de perioadă. Astfel el poate fi considerat ca fiind punctul de referinţă pentru 

determinarea celorlalte maxime de perioadă din segmentul de semnal analizat. 

4.6.1.2. Estimarea perioadei 

În pasul al doilea se face estimarea perioadei actuale a semnalului în jurul punctului 

pivot. Pentru a face estimarea se determină punctele din vecinătatea stânga şi dreapta a punctului 

pivot care au amplitudinea comparabilă cu acesta. Dacă cele două estimări sunt aproximativ 

egale, estimarea iniţială a perioadei se obţine prin medierea distanţelor între aceste două puncte 

şi punctul pivot central. Dacă cele două estimări sunt diferite, atunci se ia perioada cea mai 

apropiată de valoarea medie a perioadelor vocalice determinate până în acel moment. Acest mod 

de calcul creşte robusteţea algoritmului ducând la minimizarea erorilor de estimare pentru 

perioada de semnal. 

MS(i) PIV MD(j) 

D1 D2 

Figura 4.44. Estimarea perioadei actuale a semnalului

Estimarea perioadei actuale se face conform relaţiilor: 

113 


D 

1 d 

( PIV , M S ( i)) 

 

D 

2 d 

( PIV , M D ( j)) 

(4.67) 

 

PER 

( 

D1 

D 

2 ) / 2 

unde: 

- MS(i) este punctul de maxim local din stânga pivotului de amplitudine comparabilă cu 

pivotul: ( ( i), 

PIV ) S 

M S 

- MD(j) este punctul de maxim local din dreapta pivotului de amplitudine comparabilă cu 

acesta: ( ( j), 

PIV ) S 

M D 

Algoritmul de estimare a perioadei este explicat în cele ce urmează : 

Algoritmul Estimare_Perioadă : 

(1) Se iniţializează valorile de perioadă din stânga şi dreapta pivotului: Per[Stânga] = 

Per[Dreapta] = 0 , Stânga =0 , Dreapta = 1 , ind_per = 0; 

(2) Pentru direcţia Stânga, apoi Dreapta se execută paşii (3) – (9) ; 

(3) Pentru raportul de amplitudine R_AMP = 70%, scăzând cu 10% la fiecare iteraţie, se 

execută paşii (4) – (9) ; 

(4) Pentru fiecare punct P(i) de tip maxim local (MAX) ce urmează după pivotul PIV în 

direcţia curentă se execută paşii (5) - (9). 

(5) Se calculează distanţa – în număr de eşantioane - dintre pivot şi punctul curent : DIST 

= D( P(i) , PIV ) 

(6) Dacă DIST < D_MIN (se ia D_MIN corespunzător valorii de 2,5 ms), atunci P(i) nu este 

un maxim de perioadă şi se reia pasul (4) cu următoarea iteraţie ; 

(7) Dacă DIST > D_MAX (se ia D_MAX corespunzător valorii de 12,5 ms), atunci P(i) nu 

este un maxim de perioadă şi se reia pasul (4) cu următoarea iteraţie; 

(8) Se calculează COND_GASIT = P(i) / PIV > R_AMP; 

(9) Dacă COND_GASIT e adevărată, înseamnă că s-a găsit următorul maxim de perioadă: 

se reţine valoarea perioadei corespunzătoare: Per[ind_per] = | i – i_pivot | ; se reia pasul (2) cu 

următoarea iteraţie, căutându-se următorul maxim de perioadă în cealaltă direcţie; 

(10) În finalul iteraţiilor, dacă Per[Stânga] = 0, se ia pentru valoarea perioadei estimate 

PER = Per[Dreapta] ; dacă Per[Dreapta] = 0, se ia pentru valoarea perioadei estimate PER = 

Per[Stânga] ; se returnează True. Acest caz se întâlneşte când pivotul a fost detectat în 

extremitatea stânga sau dreapta a segmentului considerat; 

(11) Dacă valorile celor două perioade diferă cu o marjă mică de eroare: |Δ(Per[Stânga] - 

Per[Dreapta])| < Δ_ER, atunci se ia pentru valoarea perioadei estimate: PER = (Per[Stânga] + 

Per[Dreapta]) / 2; se returnează True; 

(12) Dacă |Δ(Per[Stânga] - Per[Dreapta])| > Δ_ER, atunci se ia pentru valoarea perioadei 

estimate perioada cea mai apropiată de valoarea medie Per_Med a perioadelor vocalice 

calculată până în acel moment: PER = Per[k], unde k minimizează expresia |Δ(Per[k] – 

Per_Med)| ; se returnează True.

4.6.1.3. Detectarea maximelor de perioadă 

114 


În această etapă se determină toate maximele de perioadă, pornind de la punctul pivot 

către stânga, respectiv către dreapta. Pornind de la un maxim care a fost determinat, următorul 

maxim de perioadă se găseşte astfel: mai întâi se face o estimare a poziţiei acestui punct ştiinduse 

că distanţa faţă de punctul anterior este egală cu perioada curentă estimată, apoi se determină 

punctul de maxim local care se află la distanţa minimă faţă de poziţia estimată. Perioada curentă 

se actualizează în conformitate cu poziţia ultimului punct găsit. 

Dacă la o anumită iteraţie nu se găseşte un punct de maxim care să se găsească cu o 

marjă de eroare în poziţia preconizată, fie din cauza depăşirii perioadei admise, fie din cauza 

amplitudinii mici de semnal, următorul punct de maxim local se marchează ca hiatus de perioadă 

– în primul caz, respectiv ca hiatus de amplitudine – în cel de-al doilea. 

k=NS 

Mk-1(j) 

Mk(i) 

Dk 

Pk-1 

Figura 4.45. Detectarea maximelor de perioadă pornind de la punctul pivot 

în stânga, respectiv în dreapta 

Condiţia pentru determinarea unui maxim de perioadă Mk(i) este următoarea: 

D 

k d 

( M k 1 

( j), 

M k ( i)) 

 

(4.68) 

| Dk 

P 

k 1 

| / Pk 

1 

 

unde: 

- Dk este distanţa dintre punctul de maxim precedent Mk-1(j) şi punctul maxim curent Mk(i); 

k = 1.. NS în stânga pivotului, k = 1.. ND în dreapta pivotului; 

- Pk-1 este perioada estimată la pasul anterior, unde P0 a fost determinată conform 

algoritmului din paragraful 4.6.1.2 ; 

- Δ este pragul pentru eroarea relativă între perioada estimată la pasul anterior şi distanţa 

efectivă dintre ultimele două puncte de maxim. 

După determinarea unui maxim de perioadă Mk(i) se realizează actualizarea perioadei 

estimate Pk: 

Pk k 

k 

PIV 

k=0 

( P 1 N( 

k) 

D 

) /( N( 

k) 

1 

) 

(4.69) 

În relaţia (4.69), N(k) este un factor de ponderare care poate fi ales egal cu numărul de 

perioade parcurse până la pasul anterior, adică N(k) = k - 1, sau poate fi ales egal cu o constantă. 

În algoritmul prezentat mai jos s-a ales varianta constantei ( N=4) care introduce o modificare 

mult mai rapidă a perioadei estimate curente, ce ţine seama de modificările reale ale frecvenţei 

semnalului datorită folosirii intonaţiei în rostire. 

k=ND

115 


Algoritmul pentru determinarea maximelor de perioadă este descris în cele ce urmează: 

Algoritmul Determina_Maxime_Perioade: 

(1) Se iniţializează intervalele de căutare pentru un maxim de perioadă : Dmin = 

Per0(1-Δ); DMax = Per0(1+Δ), unde Per0 este perioada estimată iniţial cu algoritmul 

EstimarePerioadă ; 

(2) Se iniţializează amplitudinea maximului curent cu 0: MaxCrt = 0, respectiv a 

maximului anterior cu valoarea (ca amplitudine) a pivotului : MaxAnter = PIV ; 

(3) Pentru fiecare punct Mk(i) de tip maxim local (MAX) situat între poziţia pivotului şi 

capătul din stânga, respectiv dreapta al segmentului, se execută paşii (4) – (13) 

(4) Se calculează distanţa Dk dintre punctul maxim curent Mk(i) şi punctul maxim 

anterior Mk-1(j) (primul maxim este pivotul): Dk = d( Mk(i), Mk-1(j) ) ; 

(5) Dacă Dk < Dmin, se merge la pasul (3) cu următoarea iteraţie ; 

(6) Dacă Dk < Dmax : dacă Mk(i) > MaxCrt, atunci MaxCrt = Mk(i) şi se merge la pasul 

(3) cu următoarea iteraţie 

(7) Dacă Dk > Dmax, verificăm dacă am găsit următorul maxim de perioadă ; se 

execută paşii (8) – (13) ; 

(8) Dacă MaxCrt == 0, înseamnă că n-am găsit nici un maxim în intervalul preconizat 

de o perioadă ; în acest caz maximul următor se marchează ca fiind un punct de hiatus de 

perioadă : Mk(i) = HIAT_PERIOD ; se iese din program cu valoarea False, indicându-se 

faptul că algoritmul s-a oprit la un punct de hiatus. 

(9) Dacă MaxCrt Prag_Linişte, atunci am găsit următorul maxim de perioadă; se 

marchează maximul curent ca un maxim de perioadă : Mk(i) = MAX_PERIOD şi se execută 

paşii (11) - (13). 

(11) Se actualizează perioada curentă : Per 4Per 

D 

) / 5. 

k 

( k 1 k 

(12) Se refac iniţializările pentru găsirea următorului maxim de perioadă : MaxCrt =0 ; 

Dmin = Perk(1-Δ) ; DMax = Perk(1+Δ). 

(13) Se merge la pasul (3) cu următoarea iteraţie. 

(14) În finalul iteraţiilor, am ajuns la capătul segmentului cu toate punctele de maxim de 

perioadă determinate ; se returnează valoarea True. 

Un exemplu de determinare automată a maximelor de perioadă, în care s-a identificat de 

asemeni şi un punct de hiatus, este ilustrat în figura 4.46. 

Figura 4.46. Detectarea automată a maximelor de perioadă

116 


În figura 4.46, toate punctele 1 – 22 fac parte din aceeaşi regiune vocalică. Algoritmul a 

identificat punctul 9 ca fiind punctul pivot, apoi a determinat maximele de perioadă mai întâi spre 

stânga (punctele 8 – 1) şi apoi spre dreapta (punctele 10 – 13). După punctul 13 nu s-a mai putut 

identifica un maxim situat la distanţa estimată de perioadă, deci punctul s-a marcat ca un hiatus, 

şi algoritmul se reia începând cu acest punct până la capătul segmentului. Din nou s-a determinat 

punctul pivot (19), s -a estimat o nouă perioadă, şi s-au determinat toate celelalte maxime de 

perioadă. 

4.6.1.4. Marcarea intervalelor de perioadă 

După determinarea tuturor punctelor de maxim de perioadă, se calculează punctele de 

capăt ale intervalelor de perioadă. Punctul de start al fiecărui interval se ia ca fiind primul punct 

de zero care precede maximul de perioadă corespunzător. Astfel fiecare interval de perioadă 

începe la punctul său de zero iniţial şi durează până la punctul iniţial al intervalului următor. 

Mk(i) Mk+1(j) 

Zk(m) Zk+1(n) 

PERk 

Figura 4.47. Determinarea intervalelor de perioadă 

Intervalul de perioadă PERk corespunzător punctului de maxim Mk(i) se calculează 

conform relaţiei : 

PERk d( 

Z k ( m), 

Z k 1 

( n)) 

(4.70) 

unde: 

- Zk(m) este primul punct de zero anterior lui Mk(i) 

- Zk+1(n) este primul punct de zero anterior lui Mk+1(j) 

Calculată în număr de eşantioane, PERk = n-m , iar pe axa timpului : 

PERk(t) = (n-m)/Fes , unde Fes este frecvenţa de eşantionare. 

Algoritmul care realizează marcarea intervalelor de perioadă este următorul : 

Algoritmul Marcare_Perioade: 

(0) Se iniţializează începutul primului interval de perioadă: k = 0 şi Start0 = Start_Segment; 

(1) Pentru fiecare punct P(i) din interiorul segmentului considerat, se execută paşii (2) – (6) 

(2) Dacă P(i) este un punct de tip ZERO, se reţine poziţia lui : Zk(m)=P(i). 

(3) Dacă P(i) este un punct de tip maxim de perioadă (MAX_PERIOD), se execută paşii (4) 

– (6) ; dacă nu, se merge la pasul (6). 

(4) Pentru k >= 1, se reţine poziţia de început a perioadei curente : Startk = m, unde m este 

indicele ultimului punct de zero detectat la pasul (2).

117 


(5) Pentru k >= 1, se marchează începutul şi sfârşitul intervalului de perioadă anterior: 

PERk-1.start = Startk-1 ; PERk-1.end = Startk ; k = k+1. 

(6) Se merge la pasul (1) cu iteraţia următoare. 

(7) La sfârşit, se marchează şi ultimul interval de perioadă : PERk-1.start = Startk-1 ; 

PERk-1.end = End_Segment. 

4.6.1.5. Rezultate obţinute cu algoritmul propriu de determinare a intervalelor de 

perioadă 

Algoritmul funcţionează cu rezultate bune atât în cazul vocii masculine, cât şi în cazul 

celei feminine. În cazul vocilor cu timbru normal, rezultatele sunt exacte. Dacă timbrul vocii este 

foarte bogat în armonici, din cauză că semnalul baleiază foarte rapid peste linia de zero, uneori 

pot exista variaţii de 1-5% în determinarea punctelor de capăt pentru unele perioade, dar aceste 

variaţii sunt compensate la perioadele vecine. 

Algoritmul propus aici este mult mai precis decât metodele care implică analiza 

semnalului în domeniul frecvenţă, dat fiind faptul că aici (în metoda propusă) se analizează 

direct eşantioanele de semnal, fără a fi necesară ferestruirea – ce conduce întotdeauna la 

aproximaţii. 

În figura 4.48 se arată rezultatul final al determinării intervalelor de perioadă pentru o 

vocală rostită de un vorbitor masculin: 

Figura 4.48. Rezultatul final al determinării intervalelor de perioadă 

Tabelul 4.6 indică lungimea intervalelor de perioadă pentru segmentul vocal de mai sus. 

Tabelul 4.6. Lungimea intervalelor de perioadă pentru segmentul vocal exemplificat 

P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12 P13 Pmed 

Nw 271 240 261 287 323 350 354 353 355 366 323 507 387 337 

Tw 

(ms) 

6.12 5.42 5.89 6.48 7.30 7.91 8.00 7.98 8.02 8.27 7.30 11.4 8.75 7.60 

În tabelul 4.6, NW indică lungimea celor 13 intervale de perioadă în număr de eşantioane, iar 

Tw în milisecunde. Pe ultima coloană s-a calculat perioada medie.

118 


4.6.1.6. Concluzii cu privire la algoritmul propriu de determinare a intervalelor de 

perioadă 

În acest capitol s-a prezentat un algoritm propriu de determinare a intervalelor de 

perioadă pentru un semnal vocal. Algoritmul este deosebit de exact, lucrând exclusiv în 

domeniul timp al analizei. Spre deosebire de alte metode de calcul în domeniul frecvenţă, el nu 

necesită ferestruire şi nici calcule complexe, fiind foarte rapid. 

Metoda comportă patru paşi succesivi : 

a. Determinarea punctului de plecare (punctul pivot); 

b. Determinarea unei estimări a perioadei de semnal; 

c. Detecţia punctelor de maxim şi de hiatus pentru fiecare perioadă; 

d. Marcarea intervalelor de perioadă prin detectarea punctelor de capăt. 

Fiecare etapă a necesitat elaborarea a câte unui algoritm distinct, care a fost prezentat 

împreună cu rezultatele obţinute. 

Au fost proiectaţi astfel 4 algoritmi : 

- un algoritm în domeniul timp pentru determinarea punctului pivot, primul maxim de perioadă 

în funcţie de care se calculează toate celelalte puncte de maxim ; 

- un algoritm în domeniul timp pentru determinarea unei estimări a perioadei de semnal în jurul 

punctului pivot ; 

- un algoritm în domeniul timp pentru determinarea maximelor de perioadă, pornind de la 

punctul pivot către stânga, respectiv către dreapta, în segmentul considerat ; algoritmul este de 

asemenea capabil să detecteze punctele de hiatus care apar în segmentul vocal, şi le clasifică 

în hiatus de perioadă, respectiv hiatus de amplitudine ; 

- un algoritm în domeniul timp pentru determinarea punctelor de capăt ale intervalelor de 

perioadă, puncte ce sunt strâns legate de maximele de perioadă.

4.7. Segmentarea fonematică 

119 


În ultimii ani, sinteza vorbirii realizată prin concatenare a devenit din ce în ce mai 

populară pentru înalta calitate a vocii sintetice pe care o oferă. Prin selectarea şi concatenarea 

unităţilor de vorbire stocate într-o bază de date, astfel de sintetizatoare pot selecta o secvenţă de 

unităţi ce corespunde foarte precis contextului de la intrare. Prin acest proces, modificarea 

semnalului este minimă, păstrându-se astfel caracterul natural al discursului original. 

Cu toate acestea, calitatea semnalului de vorbire obţinut la ieşire este extrem de 

dependentă de corpusul din baza de date şi de prelucrările operate pe acest corpus. Rezultă de 

aici importanţa etichetării şi adnotării corecte a corpusului existent, proces în care transcrierea 

fonetică şi segmentarea fonematică sunt sarcini de primă importanţă. 

Segmentarea fonematică reprezintă procesul de asociere a unor simboluri fonematice 

prezente în textul de la intrare cu semnalul vorbit. În urma segmentării, din semnalul vorbit se 

vor extrage unităţile acustice, care vor fi înregistrate apoi în baza de date. 

Dacă transcrierea fonetică a textului nu implică dificultăţi deosebite, cea mai grea sarcină 

în procesul de prelucrare a corpusului şi de creare a bazei de date vocale este cea de segmentare. 

Acest lucru se datorează faptului că metodele de segmentare automată nu sunt suficient de fiabile 

la ora actuală, şi astfel verificarea manuală a segmentării rămâne obligatorie, proces extrem de 

costisitor atât în termeni de timp cât şi în costuri de dezvoltare. 

Această nevoie de intervenţie manuală este considerată ca un factor de limitare pentru 

construirea de noi corpusuri utilizate în sinteză. Având în vedere creşterea cererii înspre 

diversificarea vocilor de sinteză, se impune îmbunătăţirea preciziei şi gradului de automatizare a 

segmentării şi adnotării corpusurilor utilizate în aplicaţii de tip text-to-speech. 

Pe plan internaţional au fost dezvoltate mai multe metode în vederea segmentării 

automate sau semiautomate a semnalului vocal: metode iterative bazate pe antrenare, metode 

bazate pe reguli de asociere, metode bazate pe calcule statistice, etc. Prezentăm în continuare pe 

scurt trei dintre acestea, pe care le considerăm generice pentru rezolvarea acestui tip de 

problemă. 

Cele trei metode sunt: segmentarea cu modele Markov ascunse (Hidden Markov Models - 

HMM), rafinarea frontierelor de regiuni, segmentarea bazată pe probabilităţi generalizate 

(Generalized Likelihood Ratio - GLR). 

4.7.1. Segmentarea fonematică folosind modele Markov ascunse 

Această abordare este considerată o abordare standard pentru segmentarea semnalului 

vocal. Algoritmul constă din doi paşi. Primul pas este o fază de antrenare care are ca scop 

estimarea modelelor acustice. În al doilea pas se utilizează aceste modele, generându-se 

clasificări ale segmentelor vocale prin intermediul algoritmului Viterbi, făcându-se o aliniere 

între modelele asociate secvenţei cunoscute de foneme şi semnalul vorbit. 

Faza de antrenare e importantă pentru că acurateţea segmentării prin modele Markov 

HMM depinde de calitatea estimării modelelor. Există câteva metode pentru determinarea 

acestor modele.

120 


O primă metodă (HMM standard) utilizează antrenarea iterativă [You02] pe întreg 

corpus-ul. Frontierele de regiuni rezultate dintr-o parcurgere manuală a corpus-ului sunt utilizate 

pentru iniţializarea şi re-estimarea modelelor prin algoritmul Baum-Welch. După câteva iteraţii 

ale procesului de antrenare, diferenţele dintre frontierele obţinute manual şi cele obţinute prin 

metoda HMM se reduc semnificativ. 

O altă metodă (HMMSeg) este cea ilustrată în figura 4.49. Ea utilizează o bază de date de 

mici dimensiuni segmentată şi etichetată manual pentru estimarea modelelor [Mat03]. În faza 

următoare întreg corpus-ul va fi segmentat folosind aceste modele. Dacă baza de date iniţială 

folosită la antrenare conţine câteva variante ale fiecărei foneme, atunci procesul de iniţializare a 

modelelor este bun şi metoda va genera rezultate bune la segmentare [Jar06]. 

Estimare 

Baum-Welch 

Figura 4.49. Segmentarea HMM bazată pe un corpus segmentat manual [Jar08] 

4.7.2. Segmentarea bazată pe rafinarea frontierelor 

Ideea principală a acestei metode este de a antrena un set de modele de segmentare 

folosind o bază de date de mici dimensiuni segmentată şi etichetată manual. Apoi, aceste modele 

vor servi la rafinarea frontierelor segmentării iniţiale pe corpusul dorit [Wan04]. Mai exact, 

această metodă este realizată în doi paşi, aşa cum se arată în figura 4.50. 

Segmentare 

iniţială 

Rafinarea 

frontierelor din 

segmentare 

Segmentare 

finală 

Iniţializare 

Modele 

Potrivire 

Viterbi 

Segmentare 

Corpus de 

antrenare 

segmentat manual 

Modele GMM 

Figura 4.50. Paşii algoritmului de segmentare bazat pe rafinarea frontierelor [Jar08] 

Pentru fiecare frontieră din corpusul de antrenare, se creează un supervector prin 

concatenarea vectorilor acustici a (2N+1) cadre din jurul frontierei stabilită manual. Fiecare 

frontieră B depinde de fonema din stânga X şi de fonema din dreapta Y, grupul (X,B,Y)

Pasul 

Frontiera Mărimea 

cadrului 

121 


alcătuind o aşa-numită pseudo-trifonă [Wan04]. Mai întâi pseudo-trifonele sunt grupate în clase 

folosind un arbore de regresie şi clasificare ( Classification and Regression Tree - CART) 

[Ode95], apoi se estimează un model Gaussian GMM (Gaussian Mixture Model) pentru fiecare 

clasă. 

Figura 4.51. Modul de construcţie a unui supervector [Jar08] 

Al doilea pas urmăreşte rafinarea frontierelor de segment pentru o segmentare iniţială 

dată. Având la intrare un corpus vorbit şi segmentarea lui iniţială, se caută în vecinătatea fiecărei 

frontiere de segment punctul care maximizează o funcţie de potrivire pentru supervectorul 

corespunzător acelui punct. Funcţia de potrivire se calculează astfel: pentru fiecare punct din 

vecinătatea frontierei considerate, se construieşte un supervector centrat pe cadrul curent, la fel 

ca în faza de antrenare; cum acest supervector reprezintă o pseudo-trifonă, se utilizează arborele 

de regresie CART [Ode95] pentru a determina clasa ce corespunde cu acea pseudo-trifonă. 

Funcţia de potrivire se calculează între clasa psedo-trifonei şi supervectorul curent folosind 

mixturi gaussiene GMM. 

Algoritmul foloseşte constrângerea lingvistică prin faptul că necesită cunoaşterea iniţială 

a secvenţei de foneme asociate corpusului pentru a crea modelele de segmentare. 

Figura 4.52. Pseudo-trifonele din propoziţia în limba franceză “On comptait deux projets 

d’entreprise distincts” [Jar08]

4.7.3. Segmentarea bazată pe probabilităţi generalizate 

4.7.3.1. Algoritmul de bază 

122 


Scopul metodei utilizată de Brandt [Bra83] este de a detecta discontinuităţile din 

semnalul vocal. Semnalul vocal este constituit dintr-o suma de segmente omogene. Fiecare 

segment w este o secvenţă finită w=(yn) de eşantioane care respectă următorul model 

autoregresiv: 

(4.71) 

În ecuaţia (4.71 ), p este ordinul modelului, acelaşi pentru toate segmentele, en este un 

zgomot alb Gaussian de medie nulă cu varianţa σ 2 . 

Un astfel de segment w este caracterizat de un vector Θ = (a1, … , ap, σ). Fie w0 un 

segment având N eşantioane, Θ0 fiind vectorul corespondent. Se urmăreşte să se decidă dacă w0 

trebuie împărţit în două subsegmente w1 şi w2 sau nu. Segmentul iniţial se va împărţi în două 

dacă există un salt între vectorii Θ1 şi Θ2 corespunzători celor două subsegmente. Pentru a lua 

această decizie, se utilizează raţia de probabilitate generalizată ( Generalized Likelihood Ratio 

GLR) [Bra83] (presupunând că y1, … , yn sunt gaussiene): 

(4.72) 

unde: 

- r este numărul de eşantioane corespunzător subsegmentului w1, 

- şi sunt estimările deviaţiilor standard ale zgomotului pentru modelele caracterizate 

de vectorii Θ1 şi Θ2. 

Metoda decide dacă apare un salt între vectorii Θ1 şi Θ2 corespunzători subsegmentelor 

w1 şi w2 prin compararea valorii maxime a lui DN(r) cu o valoare de prag [And88]. 

4.7.3.2. Algoritmul ce foloseşte o segmentare iniţială după secvenţa de foneme 

Metoda de bază, care are ca scop detectarea discontinuităţilor din semnalul vocal, se 

poate adapta pentru cazul în care secvenţa de foneme asociată semnalului este cunoscută. În 

acest caz, se obţine mai întâi o segmentare iniţială folosind metoda bazată pe modele Markov 

HMM. Pentru fiecare frontieră de segment, se ia un interval pe care se aplică metoda GLR, care 

va produce o segmentare mai precisă a regiunilor separate de acea frontieră. 

Astfel, presupunem că (U0, U1, … , UL) sunt frontierele segmentării iniţiale. În continuare 

U i 1 U 

i 

se caută o discontinuitate a semnalului între punctele Vi 

 

2 

U i U 

i1 

şi V i1 

, cu i în 

2 

intervalul (1, … , L − 1), prin determinarea punctului care maximizează raţia GLR. 

În acest mod se produce o redistribuţie mult mai precisă a frontierelor de segment.

123 


4.7.4. Rezultate obţinute prin cele trei metode de segmentare fonematică 

Pentru evaluarea celor trei metode de segmentare, s-a calculat eroarea de segmentare a 

metodei automate faţă de metoda manuală, cu o toleranţă de 20 ms. Eroarea s-a calculat pe 2 

corpusuri diferite segmentate manual, pentru limba franceză şi engleză. S-au luat în considerare 

mai întâi 100 de propoziţii, apoi 300 şi în final 700. 

Rezultatele testului sunt prezentate în tabelul 4.7. 

Tabelul 4.7. Acurateţea segmentării pentru cele trei metode de segmentare [Jar08] 

AlgSize HMMSeg (%) RefinedHMMSeg (%) BrandtSeg (%) 

FRcorpus 100 91.71 91.08 83.22 

ENcorpus 91.98 89.58 86.78 

FRcorpus 300 92.51 93.26 83.39 

ENcorpus 92.95 92.46 87.10 

FRcorpus 700 92.47 94.00 83.38 

ENcorpus 93.00 93.50 87.09

124 


4.8. Contribuţii ale autorului în problematica segmentării fonematice 

automate a semnalului vocal 

Aşa cum am văzut, segmentarea fonematică reprezintă procesul de asociere a 

simbolurilor fonematice prezente în textul de la intrare cu semnalul vorbit. Scopul acestei 

asocieri este de a realiza o decupare automată a semnalului în segmentele acustice 

corespunzătoare unităţilor lingvistice de la intrare care trebuie sintetizate (figura 4.53). 

EVIDENŢIEREA UNUI CADRU GENERAL ... 

Figura 4.53. Evidenţierea segmentelor corespunzătoare unităţilor lingvistice 

Aceste unităţi lingvistice pot fi litere (foneme), silabe, grupuri d e litere sau cuvinte 

întregi, în funcţie de metoda abordată. După separarea segmentelor din semnalul înregistrat, 

unităţile acustice sunt parametrizate, etichetate şi integrate în baza de date folosită în sinteză. 

Metoda de segmentare propusă de autor este o metodă bazată pe reguli de asociere, ce 

realizează o corespondenţă între grupuri de litere prezente la intrare şi regiunile distincte ale 

semnalului vocal. Algoritmul de segmentare urmăreşte textul de la intrare, şi încearcă să 

găsească cea mai bună potrivire pentru fiecare grup de litere prezentat cu una sau mai multe 

regiuni din semnalul vocal (vezi figura 4.54). 

În figura 4.54 se observă că textul de la intrare este mai întâi rescris într-o anumită 

transcripţie fonetică, folosind un tabel simplu de corespondenţe. Textul transcris se desparte apoi 

într-o secvenţă de grupuri fonetice Gi. Pe baza regulilor de asociere Ri se stabileşte o 

corespondenţă cu regiunile segmentate din semnalul vocal REGj. 

Aşadar metoda prezentată comportă trei paşi distincţi : 

1. Transcrierea fonetică a textului de la intrare ; 

2. Segmentarea semnalului vocal în regiuni ; 

3. Scrierea regulilor de asociere pentru fiecare grup fonetic. 

În capitolele anterioare a fost descrisă deja etapa B, de segmentare a semnalului vocal în 

regiuni. În cele ce urmează vor fi prezentate celelalte două etape: A, transcrierea fonetică şi C, 

scrierea regulilor de asociere.

TEXT 

Text 

Transcris 

Regiuni 

Dsitincte 

SEMNAL 

VOCAL 

GL1 GL2 GLn 

REG1 

Stream FONEME 

R1 R2 Rn 

REG2 

Stream REGIUNI 

Figura 4.54. Metoda de segmentare fonematică propusă de autor 

4.8.1. Transcrierea fonetică a textului de la intrare 

125 


Transcrierea fonetică a textului este necesară pentru a diferenţia rostirile diferite ale 

aceleiaşi foneme în funcţie de contextul în care ea apare (de exemplu pentru fonema /C/, avem 

rostirile « Ca-să », respectiv « Ce-ta-te »), dar şi pentru a îngloba caracterele speciale din text 

care implică separarea cuvintelor ( cum ar fi , , virgula, punctul, etc.). De 

asemenea a fost luată în considerare şi pauza de rostire care apare uneori între două foneme 

succesive (de exemplu în cazul grupului vocală+consoană : {VOC}{C}, unde {C} este o 

consoană plozivă precum /C/ , /G/ sau /P/). 

Transcrierea fonetică se face conform următorului tabel de corespondenţe: 

Tabelul 4.8. Tabel de corespondenţe pentru transcrierea fonetică 

REGm 

Caracter din text Transcriere fonetică 

început de fişier B 

Vocală {VOC} {VOC} în lowercase 

l, r, m, n l, r, m, n 

ce, ci, ge, gi TCe, TCi, TGe, TGi 

che, chi, ghe, ghi Tce, Tci, Tge, Tgi 

ş, ţ TS, Tþ 

orice altă consoană {CONS} T{CONS} 

cratima se omite 

spaţiu, tab, virgulă Z 

alte caractere speciale Z 

Se observă că în transcripţia fonetică se face distincţia dintre caractere mici (lowercase) 

şi majuscule ( uppercase). Vocalele, precum şi consoanele /l/, /r/, /m/, /n/ rămân neschimbate. 

… 

…

126 


Pentru celelalte consoane observăm inserarea unui caracter suplimentar ca şi prefix: /T/. Acesta 

semnifică o pauză care poate apărea înaintea rostirii acelei consoane. Caracterele speciale şi 

caracterele despărţitoare , , virgula, punctul, etc., se notează cu /Z /, 

semnificând o pauză mai mare în rostire. 

Ca un exemplu, secvenţa: 

 

se transcrie fonetic astfel: 

. 

4.8.2. Proiectarea regulilor de asociere pentru fiecare grup fonetic 

După etapele de transcriere fonetică a textului de la intrare şi segmentare a semnalului 

vocal în regiuni, urmează etapa de asociere între diferitele grupuri de caractere fonetice şi 

regiunile din semnal (figura 4.55). 

ik k 

Figura 4.55. Asocierea grupurilor fonetice cu regiunile 

În figura 4.55, fiecare grup Gi se asociază cu o serie de regiuni REGik, unde 

1 i 

1 

, k 1 

.. m , şi card({ ik 

, k 1 .. m}) 

1 

, adică fiecare grup Gi se va asocia cu una sau mai 

multe regiuni succesive din semnalul vocal. 

Fie un grup fonetic notat cu Gi. Acesta va fi asociat cu o secvenţă de caractere fonetice 

astfel : 

i 

G1 

Gn 

Gi 

i 

i i 

F F F 

G ,..., 

(4.73) 

1 , 2 

unde Fp i este un caracter din transcrierea fonetică, cu p = 1, ..., ki. 

ki 

REGi1 

REGim 

REGik

În mod analog, grupul Gi+1 este asociat cu secvenţa: 

1 i 

1 

i1 

i1 

i 

F , F ,..., F 

G (4.74) 

1 

2 

k ( i1 

) 

127 


unde ind(F1 i+1 ) = ind(Fki i ) + 1, notându-se prin ind(Fp i ) indicele caracterului Fp i din 

transcrierea fonetică. 

Se urmăreşte asocierea grupurilor fonetice succesive cu două secvenţe de regiuni care să 

fie de asemenea succesive, astfel : 

Gi 

REG( 

i, 

1) 

... REG( 

i, 

Ni 

) } 

G REG i 1 

, 1) 

... REG( 

i 1 

, N ) } (4.75) 

i1 

( i1 

unde: 

- REG(i,p)) este regiunea cu numărul de ordine p din secvenţa asociată grupului Gi . 

Dacă notăm cu ind(REG(i,p)) indicele global al regiunii REG(i,p)) în secvenţa totală de 

regiuni, 

atunci avem îndeplinite condiţiile: 

ind(REG(i, p+1)) = ind(REG(i, p)) + 1 

ind(REG(i+1, 1)) = ind(REG(i, Ni)) + 1 (4.76) 

Prima relaţie din (4.76) semnifică faptul că regiunile cu care se asociază fiecare grup Gi 

sunt succesive, iar cea de-a doua relaţie semnifică faptul că secvenţele de regiuni cu care sunt 

asociate cele două grupuri Gi şi Gi+1 trebuie să fie şi ele succesive. 

În continuare mai rămâne să explicităm grupurile fonetice, respectiv caracterele care pot 

intra în componenţa fiecărui grup, precum şi regulile de asociere grupuri-regiuni, care trebuie să 

respecte condiţiile (4.73) – (4.76). 

Pentru asocierea grupurilor fonetice cu secvenţele de regiuni corespunzătoare, s-a folosit 

generatorul automat de analizoare pentru intrări de tip şiruri de caractere ( text stream parser) 

numit LEX [Fre05]. LEX-ul generează un analizor lexical (scanner) de text conform cu un set de 

reguli furnizate în notaţia Bachus-Naur Form (vezi Anexa 1). 

Fiecare regulă din setul de reguli conţine specificarea unui pattern de caractere, care 

trebuie potrivit cu şirul curent de la intrare, şi o acţiune care se execută. În cazul nostru acţiunea 

care se execută este verificarea unei condiţii pentru secvenţa de regiuni care poate corespunde cu 

pattern-ul fonetic. 

Scanner-ul generat are la intrare şirul de caractere rezultat din transcripţia fonetică, şi pe 

baza regulilor înmagazinate realizează următoarele acţiuni : 

1) preia secvenţa curentă de caractere din şirul de intrare ; 

2) identifică regula corespunzătoare prin pattern-matching; 

3) încearcă să găsească o secvenţă de regiuni din tabela de regiuni care să se potrivească 

cu condiţia specificată de regulă.

128 


Figura 4.56 prezintă un exemplu de asociere între secvenţa de foneme i 

i i 

G i F1 

, F2 

,..., Fk 

şi secvenţa de regiuni i 

i i 

SR N ) REG , REG ,..., REG , prin identificarea unei reguli de 

( 1 2 

corespondenţă [ Ri : Gi Cond_Regi ] : 

Input 

Scanner 

Output 

… 

… 

… 

i 

REG1 

i 

F1 

Figura 4.56. Scanner-ul generat şi asocierea de regiuni 

Algoritmul de căutare a unei asocieri între secvenţa curentă (grupul) de caractere şi o 

secvenţă de regiuni este următorul: 

Algoritmul Grupuri--Regiuni : 

i i 

F2 … Fk … … 

R1: G1 Cond_Reg1 

Ri: Gi Cond_Regi 

Rn: Gn Cond_Regn 

SR 

i 

REG2 

P1. Se preia secvenţa maximă de caractere i 

i i 

G F F ,..., F 

Gi 

… 

i 

N 

i 

REGN 

astfel încât să existe o 

1 , 2 

regulă [ Rj : Gj Cond_Regj ] pentru care există corespondenţa : Gi Gj. 

P2. Se caută un indice N pentru care secvenţa curentă de regiuni SR(N) = {REG1, 

REG2,...REGN } verifică condiţia Cond_Regj ; dacă există, se face asocierea Gi SR(N) şi 

se returnează True. 

P3. Dacă nu se găseşte SR(N) în tabela de regiuni, atunci regula Rj se abandonează şi 

se merge la pasul următor P4. 

P4. Se caută o nouă regulă subsecventă [ Rj+k : Gj+k Cond_Regj+k ] astfel încât să existe 

corespondenţa Gi Gj+k. Dacă există, se merge la pasul P2 ; dacă nu, se continuă cu 

pasul P5. 

P5. Se reduce secvenţa de caractere cu unu (k=k-1) ; dacă avem k>=1, se reia algoritmul 

de la pasul P1 pentru a căuta o asociere pentru noul pattern Gi. 

P6. Dacă avem k

129 


La început sunt definite macro-urile care specifică fonemele urmărite la intrare, apoi 

urmează regulile propriu-zise. Au fost definite următoarele macro-uri : 

CONS [bpsþGCSzx] 

VOC1 [aeiouãîâ] 

VOC ([aeiouãîâ]|[mnl]) 

LIT [a-zþãîâ] 

Unei acţiuni corespunzătoare unei reguli i s-a asociat o serie de funcţii primitive, unde 

fiecare funcţie are rolul de a testa o condiţie pentru validarea acelei reguli, şi anume: 

rule.action.CheckRule(n) verifică dacă analizorul a trecut sau nu de regula curentă 

într-o fază anterioară de căutare a secvenţei fonetice; se 

aplică pentru o singură regiune 

rule.action.CheckFirstRule(n) verifică dacă analizorul a trecut sau nu de regula 

curentă într-o fază precedentă de căutare; se aplică pentru o 

sumă de regiuni 

rule.action.CheckRegion(type) verifică dacă regiunea curentă din tabela de regiuni 

este de tipul 

rule.action.CheckSumReg(type) verifică dacă o sumă (serie) de regiuni este de tipul 

specificat 

rule.action.SetLen(len1,len2) setează lungimea minimă, respectiv maximă pentru 

o regiune 

rule.action.SetGrupLen() setează lungimea minimă, respectiv maximă pentru o 

secvenţă de regiuni, în funcţie de fonemele găsite la intrare 

rule.action.TestReject() verifică dacă secvenţa de regiuni din tabela de regiuni 

respectă condiţiile impuse; dacă da, atunci se face o asociere 

între secvenţa de foneme de la intrare şi secvenţa de regiuni; 

dacă nu, regula curentă e abandonată şi se trece la următoarea 

regulă, pentru aceeaşi secvenţă fonetică de la intrare 

rule.action.TestUnput() verifică dacă secvenţa de regiuni din tabela de regiuni 

respectă condiţiile impuse, şi dacă da, atunci se face o 

asociere între secvenţa de foneme de la intrare şi secvenţa de 

regiuni; dacă nu, secvenţa fonetică curentă e abandonată (nu i 

s-a găsit nici o potrivire) şi se încearcă o nouă potrivire 

pentru secvenţa fonetică anterioară.

130 


Astfel, pentru fiecare grup fonetic care a fost potrivit cu o regulă prin pattern matching, 

se încearcă asocierea cu o regiune sau o serie de regiuni consecutive care respectă condiţiile 

specificate de acea regulă. Aceste condiţii se referă la lungimea minimă şi maximă pe care 

trebuie să o aibă regiunea sau secvenţa de regiuni, precum şi la tipul regiunilor. 

Fiecare vorbitor prezintă anumite tipare în care se incadrează rostirea lui. Astfel, fiecare 

fonemă, vocală sau consoană, va avea propriile caracteristici în ceea ce priveşte: (1) durata 

rostirii şi (2) forma semnalului, aflată în concordanţă cu un anumit tip de regiune detectată din 

semnalul vorbit. 

Toate aceste caracteristici trebuie evidenţiate în setul de reguli care va fi proiectat, astfel 

încât să se respecte anumite limite în ceea ce priveşte durata, respectiv anumite tipuri generice de 

regiuni în ceea ce priveşte forma de semnal. 

Uneori pentru o anumită fonemă sau un acelaşi grup de foneme trebuie scrise mai multe 

reguli (rareori mai mult de două sau trei), care să specifice toate instanţele (formele concrete) 

care se caută în semnal. La sfârşitul fiecărui grup de reguli trebuie invocată primitiva 

TestUnput() pentru a indica faptul că au fost efectuate toate încercările de potrivire pentru 

grupul fonetic curent. Dacă analizorul ajunge la această regulă şi nu o validează (nu găseşte nici 

o potrivire pentru grupul fonetic curent), atunci se revine la secvenţa fonetică anterioară pentru a 

încerca o nouă potrivire. 

Avantajul acestei abordări cu privire la asocierea foneme-regiuni, abordare bazată pe 

reguli de asociere, este următoarea: odată scris un set de reguli pentru un vorbitor, el va putea fi 

adaptat cu uşurinţă pentru un altul rescriind doar condiţiile de validare pentru grupurile 

fonematice; în general, vor trebui modificate duratele fonemelor, precum şi unele caracteristici 

pentru regiuni. 

Setul de reguli prezentat a fost proiectat iniţial pentru un vorbitor masculin şi apoi a fost 

extins şi pentru un vorbitor feminin. 

A. Pentru duratele fonemelor s-a folosit următoarea notaţie: 

L_ , 

unde: specifică fonema sau categoria fonematică respectivă, 

de exemplu: VOC vocală, CONS consoană, D fonema /d/ 

specifică durata minimă (n=1), respectiv maximă (n=2) a fonemei 

În tabelul 4.9 se prezintă duratele rostirii pentru diferite grupuri de foneme : 

B. Pentru tipurile de regiuni avem următoarele notaţii: 

- R_LIN - Regiune de linişte sau linişte nesonoră 

- R_VOC - Regiune de tip vocală sonoră 

- R_CONS - Regiune de tip consoană nesonoră 

- R_ZT – Zonă tranzitorie: poate fi o regiune de tip tranzitorie, tranzitorie 

densă, de tip salt, sau o regiune neregulată scurtă 

- R_ANY – orice tip de regiune

Tabelul 4.9. Duratele rostirii pentru diferite grupuri de foneme 

Notaţie 

Durată 

minimă 

(ms) 

Notaţie 

131 

Durată 

maximă 

(ms) 

Tip fonemă 

L_BEGIN1 0. L_BEGIN2 1500. Început fişier 

L_VOC1_SING 21. L_VOC2_SING 230. Vocală singulară 

L_VOC1 42. L_VOC2 150. Vocală 

L_CONS1 18. L_CONS2 220. Consoană 


L_LMN1 0. L_LMN2 40. Consoane glide: /l/, /m/, /n/ 

L_C1 2.5 L_C2 45. /c/ 

L_G1 2.5 L_G2 45. /g/ 

L_V1 10. L_V2 80. /v/ 

L_D1 5. L_D2 70. /d/ 

L_P1 1.3 L_P2 33. /p/ 

L_B1 1.1 L_B2 22. /b/ 

L_R1 5. L_R2 50. /r/ scurt 

L_REND1 17. L_REND2 70. /r/ lung 

L_PBI1 20. L_PBI2 70. /pi/, /bi/ 

L_DR1 20. L_DR2 100. /dr/ 

L_PR1 10. L_PR2 80. /pr/ 

L_T1 7. L_T2 150. /t/ 

L_TR1 22. L_TR2 120. /tr/ 

L_F1 20. L_F2 135. /f/ 

L_TRANZ_FON1 0. L_TRANZ_FON2 143. Tranziţie între foneme 

L_TRANZ_CUV1 0. L_TRANZ_CUV2 650. Tranziţie între cuvinte 

Aşa cum aminteam anterior, fiecare regulă se termină cu una din primitivele 

TestReject() sau TestUnput(). Dacă regiunile din tabelul de regiuni respectă condiţiile 

de formă şi durată impuse de fiecare regulă, atunci regula se validează şi se face asocierea 

grupului de foneme curent cu setul de regiuni. Dacă nu se respectă condiţiile impuse, atunci se 

trece la regula următoare. 

În continuare se prezintă câteva exemple din setul de reguli de asociere foneme-regiuni.

132 


SETUL DE REGULI PENTRU ASOCIEREA FONEME-REGIUNI (extras) 

{VOC}+(r|Zr|T[cgbdvp])+{VOC}+ { 

// sir de vocale continind mai multe consoane 

// consecutive precum ‘r’,’c’,’g’,’b’,’d’,’v’,’p’ 

//ex: ‘s-eCVen-ţiali’ 

SetGrupLen(); 

if(ok=CheckRegion(R_VOC)) 

ok=CheckRule(3); 

TestReject(); 

} 

{VOC}+r{VOC}+(r{VOC}*)?Z{VOC}+ { 

/*sir de vocale inglobind 'r' si 'Z' (terminator de cuvint) 

*/ 

nrvoc=yyleng-1; 

SetLen(nrvoc*L_VOC1,nrvoc*L_VOC2); 

ll1+=L_R1; ll2+=L_R2; 



TestReject(); 

} 

{VOC}+iZ/{VOC}+ { 

/*sir de vocale cu ‘i’ la sfirsit */ 





TestReject(); 

} 

{VOC}+Z{VOC}+ { 

/*sir de vocale inglobind 'Z' */ 





TestReject(); 

} 

{VOC}+ { // sir de mai multe vocale 

nrvoc=yyleng; 

if(nrvoc==1) 

SetLen(nrvoc*L_VOC1_SING,nrvoc*L_VOC2_SING); 

else 




TestUnput(); 

} 

sTt { /* grupul ‘st’ */ 

SetLen(L_CONS1+L_T1,L_CONS2+L_T2); 

if(ok=CheckRegion(R_CONS)) 

ok=CheckRule(34);

TestReject(); 

} 

{CONS} { /* CONSOANA SINGULARA */ 

SetLen(L_CONS1,L_CONS2); 

if(ok=CheckRegion(R_CONS)) 


TestReject(); 

} 

r/Z { // ‘r’ la sfirsitul cuvintului 

CheckFirstRule(49); 

SetLen(L_REND11,L_REND2); 

ok=CheckSumReg(R_ANY); 

if(!ok) ilexreg=ilexreg1; 

TestReject(); 

} 

r { // ‘r’ la mijlocul cuvintului 


SetLen(L_R1,L_R2); 


TestUnput(); 

} 

c { //’c’: suma de regiuni 


SetLen(L_C1,L_C2); 


TestUnput(); 

} 

tr { // grupul ‘tr’ 


MarkLenGrup(); // mai multe caractere 

SetLen(L_TR1,L_TR2); 

r=R_ANY; 

ok=CheckSumReg(r); 

TestReject(); 

} 

T { /* TRANZITIE INTRE FONEME */ 

// se consuma o SUMA de regiuni 


SetLen(L_TRANZ_FON1,L_TRANZ_FON2); 


TestUnput(); 

} 

Z { /* TRANZITIE INTRE CUVINTE */ 

// se consuma o SUMA de regiuni 


SetLen(L_TRANZ_CUV1,L_TRANZ_CUV2); 

r=R_ANY; //& ~R_VOC; 

ok=CheckSumReg(r); 

TestUnput(); 

} 

133 

Cap. 4. Analiza semnalului vocal

134 


4.8.3. Rezultate obţinute în urma aplicării metodei propuse de asociere 

foneme-regiuni 

Pentru un anumit vorbitor, rezultatele asocierii dintre şirul de foneme de la intrare şi setul 

de regiuni din semnalul vocal depind de doi factori: 

1. Modul de segmentare al semnalului vocal. 

2. Setul de reguli de asociere corespunzător acelui vorbitor. 

Am văzut că segmentarea semnalului vocal cu metoda propusă de autor împarte semnalul 

în 10 clase de regiuni distincte, frontierele dintre regiuni fiind bine delimitate. Problema cea mai 

delicată o constituie construirea setului de reguli de asociere pentru vorbitorul considerat. 

Proiectarea setului de reguli se face folosind un corpus de înregistrări ale vorbitorului, pe baza 

căruia se scriu regulile pentru fiecare grup de foneme care prezintă o rostire distinctă. 

Odată ce a fost scris un set de reguli pentru un vorbitor, transcrierea sa pentru un altul se 

face mai uşor, modificând doar elementele de durată şi eventual tipul de regiuni asociate pentru 

fiecare grup de foneme. Autorul a proiectat mai întâi un set de reguli pentru un vorbitor 

masculin, ce a fost apoi uşor adaptat şi pentru un vorbitor feminin. 

În urma aplicării metodei proprii de asociere foneme-regiuni, problemă întrucâtva mai 

simplă decât recunoaşterea fonemelor direct din semnalul vocal, s-a constatat că aceste 

constrângeri de durată şi formă de semnal sunt suficiente pentru a face o asociere corectă. 

Desigur că este necesară o proiectare atentă a regulilor. 

S-a constatat că setul de reguli proiectat asigură o asociere corectă dintre foneme şi 

regiuni, cu erori mici care apar doar în cazul când în semnal apar regiuni tranzitorii succesive de 

durată scurtă. Unele dintre aceste regiuni pot fi puse în corespondenţă cu grupul de foneme 

considerat (dacă respectă condiţiile de durată), sau pot fi incluse în tranziţiile intrafonematice, 

fapt care nu are o importanţă deosebită, ţinând cont că de obicei procesul de asociere foneme- 

regiuni se face pentru detectarea unor unităţi fonetice de tip grup de foneme, şi nu pentru foneme 

singulare. Acesta este şi cazul lucrării de faţă, în care s-a utilizat o abordare bazată pe silabe. 

Ca un fapt interesant care s-a constatat pe măsura proiectării setului de reguli, dacă o 

anumită regulă de asociere lipsea din set, procesul de asociere automată se oprea exact la grupul 

de foneme care nu avea regula corectă, şi nu avansa cu o asociere greşită. Acest fapt a constituit 

un avantaj în procesul proiectării regulilor, şi demonstrează că aceste constrângeri bazate pe 

durată şi tip de regiune sunt valide. 

În continuare se prezintă comparativ rezultatele aplicării metodei de asociere foneme- 

regiuni asupra unei fraze rostite de un vorbitor masculin (figura 4.57), respectiv asupra unei fraze 

rostite de un vorbitor feminin (figura 4.58).

135 


Figura 4.57. Asocierea foneme – regiuni pentru sintagma : rostită de un vorbitor masculin

136 


Figura 4.58. Asocierea foneme – regiuni pentru sintagma : rostită de un vorbitor feminin

4.8.4. Experimente privind segmentarea în subregiuni fonematice 

137 


În urma procesului de asociere a grupurilor de foneme cu regiunile din semnalul vocal, 

vor exista două situaţii distincte de asociere: 

1) o anumită fonemă este asociată în mod unic cu o regiune sau un set de regiuni; 

2) un grup de mai multe foneme va fi asociat cu o regiune sau un set de regiuni. 

Primul caz apare de regulă atunci când e vorba de o consoană nesonoră (/s/, /ş/, /t/, /ţ/, /j/, 

/f/, /č/, /ğ/) sau de o vocală singulară (ce nu apare într -un grup de vocale). În acest caz 

segmentarea este în mod precis determinată. 

Al doilea caz apare atunci când se întâlneşte un grup de foneme alcătuit din vocale, 

consoane glide (/l/, /m/, /n/) sau /r/. De cele mai multe ori, un astfel de grup va fi asociat cu o 

singură regiune de tip sonor-vocalic (vezi figura 4.59). 

a) b) 

Figura 4.59. Asocierea unui grup de mai multe foneme cu o singură regiune 

a) grupul /milor/ din cuvântul 

b) grupul /area/ din cuvântul 

Aşa cum am subliniat în subcapitolul precedent, acest caz particular nu împietează asupra 

procesului de detectare a unităţilor lingvistice folosit în construirea corpusului vocal adnotat, mai 

ales atunci când unităţile lingvistice sunt alcătuite din grupuri de foneme, precum silabele. 

Totuşi, dacă se doreşte separarea fonemelor dintr-o astfel de regiune corespunzătoare 

unui grup de foneme, vor trebui utilizate anumite metode bazate pe detectarea caracteristicile 

intrinseci ale fiecărei foneme. 

Autorul a experimentat două metode: 

M1. O metodă bazată pe determinarea translaţiilor bruşte din regiune; 

M2. O metodă bazată pe modelare fonematică. 

Ambele metode presupun calcularea coeficienţilor de semnal caracteristici fiecărei 

foneme (s-au folosit coeficienţii Fourier), precum şi calculul unei distanţe între două seturi de 

coeficienţi de comparat.

4.8.4.1. Calculul distanţei dintre două seturi de coeficienţi fonematici 

138 


Există mai multe metode de calcul a distanţei dintre două seturi de coeficienţi asociaţi 

unor cadre de semnal. Astfel, pentru două seturi de vectori X={x1, x2, …, xp} şi Y={y1, y2, …, yp}, 

putem calcula distanţele [Web02]: 

Distanţa Euclidiană: (4.77) 

Distanţa Manhattan: (4.78) 

Distanţa Cebîşev: (4.79) 

Distanţa Minkovski: (4.80) 

Toate aceste distanţe se calculează pe baza diferenţei coeficienţilor corespunzători din cei 

doi vectori. Totuşi, pentru două seturi de coeficienţi Fourier este mult mai adecvat calculul pe 

baza rapoartelor de coeficienţi decât pe baza diferenţelor. 

Acest fapt este simplu de observat în cazul a două cadre de semnal de aceeaşi formă dar 

de amplitudine diferită (de exemplu o aceeaşi vocală rostită cu intensităţi diferite). În acest caz 

cele două seturi de coeficienţi Fourier sunt asemenea şi se obţin unul din altul prin aplicarea unui 

factor de multiplicare proporţional cu raportul intensităţilor celor două forme de semnal. 

Ca urmare, s-a urmărit calcularea unei distanţe între două seturi de coeficienţi Fourier 

a={a1, a2, …,an} şi b={b1, b2, …,bn} între care se calculează un raport r, distanţă notată cu 

E(a,b,r). Acestă distanţă are rol de eroare pătratică minimă şi respectă proprietăţile: 

P1. E(a,b,r)= E(b,a,1/r) 

P2. E(a,a,1)=0 (4.81) 

P3. E(a,ra,r)=0 

P4. E(a,b,r)= E(na,mb,(m/n)r) 

Proprietatea P1 reprezintă proprietatea de comutativitate a distanţei. Proprietatea P2 

statuează faptul că distanţa E calculată asupra aceluiaşi vector este nulă. P3 este proprietatea de 

scalare a unui vector: distanţa dintre un vector şi vectorul scalat cu un raport r este nulă. P4 este 

proprietatea de scalare generalizată: distanţa dintre doi vectori având raportul r este aceeaşi cu 

distanţa dintre vectorii scalaţi cu factorii n, respectiv m, raportul modificându-se proporţional cu 

factorii de scalare. 

S-a luat următoarea formulă de calcul pentru distanţa E bazată pe raportul r dintre 

vectorii a şi b : 

2 

a 

i bi 

1 

E( 

a, 

b, 

r) 

r 

 

(4.82) 

i1 , nb 

i ai 

r 

Se observă că distanţa definită de relaţia (4.82) respectă condiţiile P1 ... P4 din (4.81). 

În continuare se urmăreşte calculul raportului r astfel încât distanţa E (cu rol de eroare 

pătratică) să fie minimă.

Dacă notăm 

sau, explicitând suma: 

a 

a 

a 

1 

2 

n 

p1 , p 2 , …, p n , atunci relaţia (4.82) devine: 

b1 

b2 

bn 

139 

2 


1 

E( 

a, 

b, 

r) 

p 

ir 

 

 

(4.83) 

i1 , n 

pi 

r 

2 2 

2 2 1 1 1 1 

E( 

a, 

b, 

r) 

( p1 

p 

2 ... 

p 

n ) r ( 

... 

) 2 

n (4.84) 

2 2 

2 2 

p p p r 

dE 

Punând condiţia ca E să fie minimă, avem 0 

, adică: 

dr 

2 2 

2 1 1 1 1 

2( p1 

p 

2 ... 

p 

n ) r 2 

( ... 

) 0 

2 2 

2 3 

p p p r 

Rezultă valoarea lui r care minimizează distanţa E: 

Sau dacă notăm 

r 

4 

2 

1 

2 

1 

2 

2 

2 

2 

1 

2 

1 

2 

n 

2 

n 

2 

n 

n 

(4.85) 

1 1 1 

... 

 

p p p 

(4.86) 

p p 

... 

p 

1 1 1 

I ... 

şi 

p p p 

2 

1 

2 

2 

r 

I 

S 

2 

n 

S p p 

p 

, atunci: 

2 2 

2 

1 2 ... n 

2 (4.87) 

Din (4.87), expresia lui E devine: 

2 1 

E ( a , b, 

r ) Sr I 

2 

n 

(4.88) 

2 

r 

Înlocuind pe (4.87) în (4.88), obţinem distanţa minimă dintre a şi b în funcţie de r: 

E r ( a , b ) 2 ( IS n 

) 

(4.89) 

min, 

Astfel putem alege expresia distanţei dintre a şi b: 

E ( a, 

b) 

IS n 

1 

expresie ce are proprietatea: ( E ( a, 

b)) 

0 

, sau: 

min 1 

a, 

b 

(4.90) 

E2 ( a, 

b) 

IS , cu min( E2 

( a, 

b)) 

n 

. (4.91) 

a, 

b 

De aici obţinem valoarea distanţei pătratice minime în raport cu r dintre vectorii a şi b: 

2 

IS , unde min( 

E( 

a, 

b)) 

0 

a, 

b 

E ( a , b ) n 

. (4.92)

F(C1) 

C1 C2 

Np 

E(a,b) 

140 

Dp 


Valoarea distanţei pătratice minime dată de formula ( 4.92) a fost folosită pentru 

determinarea gradului de asemănare dintre două seturi de coeficienţi corespunzătoare a două 

forme de undă. 

În continuare vom explicita cele două metode de segmentare în subregiuni fonematice 

prezentate la începutul lui 4.8.4, metode ce se bazează pe calculul distanţei pătratice minime 

E(a,b). 

4.8.4.2. Metoda de segmentare în subregiuni fonematice bazată pe determinarea 

tranziţiilor bruşte din regiune 

Această metodă de segmentare presupune calculul coeficienţilor Fourier pentru două 

cadre succesive sau apropiate din semnal şi compararea acestora folosind distanţa pătratică 

minimă (paragraful 4.8.4.1) în scopul detectării tranziţiilor bruşte care apar în regiunea studiată. 

Aceste tranziţii bruşte reprezintă tranziţiile de la o fonemă la alta şi corespund cu frontierele de 

subregiuni. 

Cadrele de semnal se iau sincron cu frecvenţa, şi cuprind un număr de Np perioade (de 

obicei Np = 1, 2 sau 3). Distanţa dintre cele două cadre de referinţă va fi Dp (se ia la fel Dp = 1, 

2 sau 3 perioade). Apoi se extrag cei doi vectori ce cuprind primii n coeficienţi Fourier pentru 

cele două cadre, şi se calculează E(a,b) – figura 4.60. 

a1 

a2 

a3 

... 

... 

an 

F(C2) 

Figura 4.60. Metoda de segmentare bazată pe determinarea tranziţiilor bruşte din regiune 

b1 

b2 

b3 

... 

... 

bn

141 


Algoritmul de stabilire a frontierelor de subregiuni prin metoda tranziţiilor este următorul: 

Algoritmul Subregiuni – Metoda Tranziţiilor 

P1. Pentru fiecare regiune REG de tip sonor-vocalică se execută paşii P2 – P8. 

P2. Se iniţializează indicele de perioadă curent Ip = 0. 

P3. Cât timp indicele de perioadă curent Ip este în interiorul regiunii curente REG, se execută 

paşii P4 – P8. 

P4. Se găseşte cadrul C2(Ip, Np) de lungime Np perioade, care începe la indicele de perioadă 

Ip. 

P5. Se calculează vectorul coeficienţilor Fourier pentru cadrul C2, b = F(C2) . 

P6. Dacă s-a găsit cadrul anterior C1(Ip - Dp, Np) de lungime Np perioade, care începe la 

indicele de perioadă Ip – Dp, se ia vectorul coeficienţilor Fourier pentru cadrul C1, a = 

F(C1) şi se calculează distanţa pătratică minimă E(a,b). 

P7. Dacă distanţa E(a,b) este mai mare decât un prag dat Ptb, atunci înseamnă că între cele 

două cadre C1 şi C2 a apărut o tranziţie bruscă, şi se marchează o frontieră de 

subregiune la perioada de indice Ip-Dp/2. 

P8. Se incrementează indicele de perioadă: Ip = Ip +1, şi se reiau paşii P3, P4 cu următorul 

cadru C2(Ip, Np). 

4.8.4.3. Rezultate obţinute prin metoda de segmentare bazată pe determinarea 

tranziţiilor bruşte din regiune 

S-au făcut experimente pentru diferite valori ale parametrilor Np şi Dp, pentru regiuni de 

tip sonor-vocalic la care s-a aplicat metoda curentă de segmentare în subregiuni. 

În continuare se ilustrează câteva exemple de segmentare în subregiuni pentru diferite 

cadre de semnal preluate de la un vorbitor masculin şi unul feminin. 

1) Vorbitor masculin: 

Figura 4.61. Segment vocalic pentru un vorbitor masculin - secvenţa 

În figura 4.61 avem un segment vocalic compus din 3 subregiuni fonematice, 

corespunzând cu fonemele /E/, /L/, /O/. Tabelul 4.10 prezintă rezultatul comparării perioadelor 

de semnal folosind parametrii Np=2, Dp=1, Prag=30, respectiv Np=2, Dp=2, Prag=50. În primul 

caz frontierele sunt situate la perioadele 5/6, respectiv 14/15; în al doilea caz, la 15/16.

Tabelul 4.10. Stabilirea frontierelor pentru segmentul 

Np=2, Dp=1, Prag=30 Np=2, Dp=2, Prag=50 

142 


Perioade E(a,b) Front. Perioada a - b E(a,b) Front 

Period 1 - 2 13 0 Period 1 - 3 16 0 

Period 2 - 3 1 0 Period 2 - 4 6 0 

Period 3 - 4 4 0 Period 3 - 5 3 0 

Period 4 - 5 5 0 Period 4 - 6 386 1 

Period 5 - 6 191 1 Period 5 - 7 342 1 

Period 6 - 7 9 0 Period 6 - 8 29 0 

Period 7 - 8 6 0 Period 7 - 9 13 0 

Period 8 - 9 3 0 Period 8 - 10 1 0 

Period 9 - 10 3 0 Period 9 - 11 7 0 

Period 10 - 11 6 0 Period 10 - 12 9 0 

Period 11 - 12 4 0 Period 11 - 13 9 0 

Period 12 - 13 3 0 Period 12 - 14 38 0 

Period 13 - 14 56 1 Period 13 - 15 32 0 

Period 14 - 15 42 1 Period 14 - 16 165 1 

Period 15 - 16 49 1 Period 15 - 17 74 1 

Period 16 - 17 8 0 Period 16 - 18 9 0 

Period 17 - 18 1 0 Period 17 - 19 1 0 

Period 18 - 19 1 0 Period 18 - 20 2 0 

Period 19 - 20 0 0 Period 19 - 21 1 0 

Period 20 - 21 0 0 Period 20 - 22 1 0 

Period 21 - 22 0 0 Period 21 - 23 1 0 

Period 22 - 23 0 0 Period 22 - 24 1 0 

Period 23 - 24 1 0 Period 23 - 25 2 0 

Period 24 - 25 0 0 Period 24 - 26 1 0 

Period 25 - 26 0 0 Period 25 - 27 1 0 

Period 26 - 27 1 0 Period 26 - 28 3 0 

Period 27 - 28 0 0 Period 27 - 29 5 0 

Period 28 - 29 7 0 Period 28 - 30 1 0 

Period 29 - 30 3 0 

În figura 4.62 avem un segment vocalic compus din subregiunile corespunzătoare 

fonemelor /A/, /R/, /EA/. Tabelul 4.11 prezintă rezultatul comparării perioadelor de semnal 

folosind parametrii Np=2, Dp=1, Prag=30, respectiv Np=2, Dp=2, Prag=50. În primul caz avem 

o frontieră situată la intervalul de perioadă 17/18, delimitând segmentul în două regiuni /AR/ şi 

/EA/; în al doilea caz, avem două frontiere apropiate, la indicii 16, respectiv 18, delimitând 

segmentul în trei regiuni: /A/, /R/ şi /EA/. 

Figura 4.62. Segment vocalic pentru un vorbitor masculin - secvenţa

Tabelul 4.11. Stabilirea frontierelor pentru segmentul 

2) Vorbitor feminin: 


143 


Perioade E(a,b) Front. Perioada a - b E(a,b) Front 

Period 1 - 2 4 0 Period 1 - 3 8 0 

Period 2 - 3 2 0 Period 2 - 4 5 0 

Period 3 - 4 1 0 Period 3 - 5 2 0 

Period 4 - 5 0 0 Period 4 - 6 0 0 

Period 5 - 6 0 0 Period 5 - 7 1 0 

Period 6 - 7 0 0 Period 6 - 8 1 0 

Period 7 - 8 0 0 Period 7 - 9 1 0 

Period 8 - 9 0 0 Period 8 - 10 1 0 

Period 9 - 10 0 0 Period 9 - 11 1 0 

Period 10 - 11 1 0 Period 10 - 12 5 0 

Period 11 - 12 2 0 Period 11 - 13 11 0 

Period 12 - 13 3 0 Period 12 - 14 8 0 

Period 13 - 14 1 0 Period 13 - 15 6 0 

Period 14 - 15 2 0 Period 14 - 16 12 0 

Period 15 - 16 4 0 Period 15 - 17 70 1 

Period 16 - 17 28 0 Period 16 - 18 9 0 

Period 17 - 18 30 1 Period 17 - 19 63 1 

Period 18 - 19 12 0 Period 18 - 20 31 0 

Period 19 - 20 3 0 Period 19 - 21 5 0 

Period 20 - 21 1 0 Period 20 - 22 4 0 

Period 21 - 22 2 0 Period 21 - 23 4 0 

Period 22 - 23 1 0 Period 22 - 24 1 0 

Period 23 - 24 0 0 Period 23 - 25 1 0 

Period 24 - 25 0 0 Period 24 - 26 0 0 

Period 25 - 26 0 0 Period 25 - 27 2 0 

Period 26 - 27 1 0 Period 26 - 28 5000 1 

Period 27 - 28 5000 0 Period 27 - 29 8 0 

Figura 4.63. Segment vocalic pentru un vorbitor feminin - secvenţa

144 


În figura 4.63 avem un segment vocalic compus din subregiunile corespunzătoare 

fonemelor /E/, /N/, /E/, /R/, /A/, /L/. Tabelul 4.12 prezintă rezultatul comparării perioadelor de 

semnal folosind parametrii Np=2, Dp=2, Prag=50, respectiv Np=2, Dp=3, Prag=50. Rezultatele 

delimitării frontierelor de subregiuni sunt arătate în tabelul 4.13. 

Tabelul 4.12. Compararea perioadelor pentru secvenţa 


Perioade E(a,b) Front. Perioade E(a,b) Front. 

Period 1 - 3 323 1 Period 1 - 4 469 1 

Period 2 - 4 27 0 Period 2 - 5 46 0 

Period 3 - 5 36 0 Period 3 - 6 36 0 

Period 4 - 6 3 0 Period 4 - 7 8 0 

Period 5 - 7 3 0 Period 5 - 8 17 0 

Period 6 - 8 13 0 Period 6 - 9 30 0 

Period 7 - 9 16 0 Period 7 - 10 47 0 

Period 8 - 10 15 0 Period 8 - 11 36 0 

Period 9 - 11 16 0 Period 9 - 12 21 0 

Period 10 - 12 10 0 Period 10 - 13 17 0 

Period 11 - 13 5 0 Period 11 - 14 8 0 

Period 12 - 14 2 0 Period 12 - 15 4 0 

Period 13 - 15 5 0 Period 13 - 16 105 1 

Period 14 - 16 96 1 Period 14 - 17 170 1 

Period 15 - 17 117 1 Period 15 - 18 179 1 

Period 16 - 18 39 0 Period 16 - 19 216 1 

Period 17 - 19 369 1 Period 17 - 20 631 1 

Period 18 - 20 47 0 Period 18 - 21 34 0 

Period 19 - 21 6 0 Period 19 - 22 14 0 

Period 20 - 22 9 0 Period 20 - 23 20 0 

Period 21 - 23 6 0 Period 21 - 24 7 0 

Period 22 - 24 7 0 Period 22 - 25 31 0 

Period 23 - 25 26 0 Period 23 - 26 171 1 

Period 24 - 26 173 1 Period 24 - 27 258 1 

Period 25 - 27 519 1 Period 25 - 28 619 1 

Period 26 - 28 42 0 Period 26 - 29 114 1 

Period 27 - 29 26 0 Period 27 - 30 37 0 

Period 28 - 30 17 0 Period 28 - 31 27 0 

Period 29 - 31 6 0 Period 29 - 32 7 0 

Period 30 - 32 2 0 Period 30 - 33 3 0 

Period 31 - 33 3 0 Period 31 - 34 3 0 

Period 32 - 34 1 0 Period 32 - 35 2 0 

Period 33 - 35 1 0 Period 33 - 36 6 0 

Period 34 - 36 10 0 Period 34 - 37 8 0 

Period 35 - 37 7 0 Period 35 - 38 2 0 

Period 36 - 38 7 0 Period 36 - 39 12 0 

Period 37 - 39 8 0 Period 37 - 40 9 0 

Period 38 - 40 1 0 Period 38 - 41 2 0 

Period 39 - 41 1 0 Period 39 - 42 1 0 

Period 40 - 42 0 0 Period 40 - 43 1 0 

Period 41 - 43 0 0 Period 41 - 44 2 0 

Period 42 - 44 1 0 Period 42 - 45 0 0 

Period 43 - 45 0 0 Period 43 - 46 2 0 

Period 44 - 46 7 0 Period 44 - 47 1 0 

Period 45 - 47 1 0 Period 45 - 48 2 0 

Period 46 - 48 3 0 Period 46 - 49 6 0 

Period 47 - 49 3 0 Period 47 - 50 16 0 

Period 48 - 50 10 0 Period 48 - 51 5000 1

145 


Period 49 - 51 5000 1 Period 49 - 52 5000 1 

Period 50 - 52 5000 1 Period 50 - 53 5000 1 

Period 51 - 53 5000 1 Period 51 - 54 5000 1 

Period 52 - 54 5000 1 Period 52 - 55 5000 1 

Period 53 - 55 5000 1 Period 53 - 56 5000 1 

Period 54 - 56 5000 1 Period 54 - 57 5000 1 

Period 55 - 57 5000 1 Period 55 - 58 5000 1 

Period 56 - 58 37 0 Period 56 - 59 76 1 

Period 57 - 59 5000 1 Period 57 - 60 5000 1 

Period 58 - 60 13 0 Period 58 - 61 17 0 

Period 59 - 61 23 0 Period 59 - 62 36 0 

Period 60 - 62 5 0 Period 60 - 63 19 0 

Period 61 - 63 13 0 Period 61 - 64 28 0 

Period 62 - 64 12 0 Period 62 - 65 21 0 

Period 63 - 65 6 0 Period 63 - 66 21 0 

Period 64 - 66 10 0 Period 64 - 67 13 0 

Period 65 - 67 17 0 Period 65 - 68 29 0 

Period 66 - 68 5 0 Period 66 - 69 2 0 

Period 67 - 69 4 0 Period 67 - 70 5 0 

Period 68 - 70 1 0 Period 68 - 71 2 0 

Period 69 - 71 3 0 Period 69 - 72 6 0 

Period 70 - 72 3 0 Period 70 - 73 6 0 

Period 71 - 73 3 0 Period 71 - 74 3 0 

Period 72 - 74 1 0 Period 72 - 75 1 0 

Period 73 - 75 0 0 Period 73 - 76 1 0 

Period 74 - 76 0 0 Period 74 - 77 0 0 

Period 75 - 77 0 0 Period 75 - 78 0 0 

Period 76 - 78 0 0 Period 76 - 79 0 0 

Period 77 - 79 1 0 Period 77 - 80 1 0 

Period 78 - 80 1 0 Period 78 - 81 2 0 

Period 79 - 81 1 0 Period 79 - 82 3 0 

Period 80 - 82 2 0 Period 80 - 83 39 0 

Period 81 - 83 29 0 Period 81 - 84 49 0 

Period 82 - 84 35 0 Period 82 - 85 13 0 

Period 83 - 85 6 0 Period 83 - 86 4 0 

Period 84 - 86 4 0 Period 84 - 87 2 0 

Period 85 - 87 10 0 Period 85 - 88 31 0 

Period 86 - 88 19 0 Period 86 - 89 76 1 

Period 87 - 89 37 0 Period 87 - 90 189 1 

Period 88 - 90 78 1 Period 88 - 91 205 1 

Period 89 - 91 72 1 Period 89 - 92 115 1 

Period 90 - 92 18 0 Period 90 - 93 31 0 

Period 91 - 93 10 0 Period 91 - 94 13 0 

Period 92 - 94 7 0 Period 92 - 95 25 0 

Period 93 - 95 8 0 Period 93 - 96 24 0 

Period 94 - 96 15 0 Period 94 - 97 13 0 

Period 95 - 97 4 0 Period 95 - 98 14 0 

Period 96 - 98 10 0 Period 96 - 99 5 0 

Period 97 - 99 3 0 Period 97 - 100 5 0 

Period 98 - 100 3 0 Period 98 - 101 2 0 

Period 99 - 101 1 0 Period 99 - 102 2 0 

Period 100 - 102 2 0 Period 100 - 103 5 0 

Period 101 - 103 3 0 Period 101 - 104 8 0 

Period 102 - 104 6 0 Period 102 - 105 68 1 

Period 103 - 105 86 1 Period 103 - 106 50 1 

Period 104 - 106 50 1 Period 104 - 107 59 1 

Period 105 - 107 67 1 Period 105 - 108 57 1 

Period 106 - 108 16 0 Period 106 - 109 82 1 

Period 107 - 109 68 1 Period 107 - 110 186 1 

Period 108 - 110 154 1

Tabelul 4.13. Stabilirea frontierelor pentru secvenţa 

146 



Indice Front. Perioade Front. Frontiera Perioade Front. Frontiera 

F1 14 - 19 16/17 13- 20 16/17 

F2 24 – 27 25/26 23 – 29 26 

F3 49 -51 50 48 – 51 49/50 

F4 57 - 59 58 57 – 60 58/59 

F5 88 - 91 89/90 86 – 92 89 

F6 103 - 110 106/107 102 - 110 106 

Din tabelul 4.12 se observă că subregiunea delimitată de frontierele F3 şi F4 este 

neperiodică, ea va fi asociată cu consoana glidă /R/. Asocierea foneme-subregiuni va fi 

următoarea: 

E 

Figura 4.64. Determinarea subregiunilor vocalice pentru secvenţa 

Din experimentele prezentate se vede că rezultatele sunt convergente atât în cazul 

vorbitorului masculin, cât şi în cazul vorbitorului feminin, chiar folosind diferite seturi de 

parametri. Avantajul metodei derivă din simplitatea şi cantitatea redusă de calcule necesară. 

Ca o observaţie care trebuie să fie făcută relativ la acestă metodă, dacă numărul de 

frontiere detectate este mai mare decât N-1, unde N este numărul de subregiuni fonematice în 

care se împarte regiunea, atunci vor trebui luate în consideraţie şi tranziţiile fonematice 

(difonemele). Astfel, pentru cazul vorbitorului feminin prezentat anterior, a fost considerată şi 

tranziţia /A/ - /L/ (difonema /AL/). 

N E R A AL L 

Fstart F1 F2 F3 F4 F5 F6 Fend 

Pentru a asocia în mod corect fonemele şi tranziţiile fonematice cu subregiunile detectate, 

va trebui folosită o metodă de recunoaştere a fonemelor pe baza caracteristicilor spectrale, aşa 

cum este metoda prezentată în cele ce urmează.

147 


4.8.4.4. Metoda de segmentare în subregiuni fonematice bazată pe modelarea 

caracteristicilor spectrale 

Această metodă de segmentare în subregiuni fonematice se bazează tot pe calculul 

coeficienţilor Fourier, şi se aplică asupra regiunilor sonor-vocalice din semnalul vocal, la fel ca 

şi metoda bazată pe detectarea tranziţiilor bruşte. Metoda presupune modelarea caracteristicilor 

spectrale ale fiecărei foneme de tip vocală sau consoană glidă şi detectarea fonemelor din 

regiunea ţintă prin compararea cu modelul. 

Metoda cuprinde 4 faze: (1) faza de modelare; (2) compararea vectorilor regiunii ţintă cu 

modelul; (3) regăsirea modelului fonematic şi etichetarea regiunilor; (4) gruparea fonemelor şi 

determinarea subregiunilor. 

1) Faza de modelare 

Faza de modelare cuprinde realizarea în regim manual a mai multor modele pentru 

fiecare fonemă în parte. Această fază corespunde cu faza de antrenare caracteristică oricărui 

proces de recunoaştere bazată pe model. Modelarea se face pentru un singur vorbitor (se 

construieşte câte un fişier model pentru fiecare vorbitor). Fonemele pentru care se realizează 

modelarea sunt: vocalele /a/, /e/, /i/, /o/, /u/, /ă/, /î/, şi respectiv consoanele glide /l/, /m/, /n/. 

Crearea unui model implică: 

a) Alegerea unui cadru din semnal ce corespunde cu fonema dorită. Cadrele se aleg 

sincron cu frecvenţa şi pot avea o lungime de 1,2, 3 sau 4 perioade. Fiecare fişier model se va 

crea utilizând o lungime prestabilită a cadrelor. 

b) Calculul coeficienţilor Fourier corespunzători. În metoda prezentată s-a ales utilizarea 

primilor N= 10 .. 12 coeficienţi ce corespund primelor N= 10..12 maxime din spectrul Fourier. 

c) Memorarea în fişierul model. 

În figura 4.65 se prezintă un exemplu de modelare pentru fonemele /A/ şi /E/ preluate de 

la un vorbitor masculin. Cadrele au o lungime de două perioade, iar în fişierul model se vor 

introduce primele 12 maxime (corespunzătoare formanţilor) din spectrul Fourier. 

(1) (2) 

Figura 4.65. Modelarea fonemelor (1) /E/, (2) /A/; sus: cadrul de semnal, jos: spectrul Fourier

2) Compararea vectorilor din regiunea ţintă cu modelul 

148 


Această fază presupune detectarea cadrelor din regiunea ţintă de lungime egală cu 

lungimea cadrelor aleasă pentru modelare, calculul coeficienţilor Fourier de aceeaşi manieră ca 

şi în faza precedentă, construirea vectorilor de caracteristici, şi compararea vectorilor cu 

modelele din fişierul model. Compararea se face pe baza distanţei minime pătratice E(a,b) 

expusă în paragraful 4..8.4.1. 

Compararea vectorilor din regiunea ţintă cu modelul este ilustrată în figura 4.66. C este 

cadrul curent, F(C) este vectorul coeficienţilor Fourier asociat cadrului C, MF este modelul 

asociat fonemei F. 

F(C) 

Model 

Figura 4.66. Compararea vectorilor din regiunea ţintă cu modelul 

În urma fazei de comparare a vectorilor din regiunea ţintă cu modelele din fişierul model 

rezultă câte un set de modele corespondente pentru fiecare cadru C: 

C 

M M M 

SM ,..., , (4.93) 

f 1, 

f 2 

unde Mfi sunt instanţe ale modelelor fonematice, având: 

fi 

C 

F1 F2 F3 F4 … Fn-1 Fn 

MA ME MI 

MO MU ML 

f 

fn 

E( M , F( 

C)) 

P 

, i 1.. 

n , (4.94) 

unde Pf este un prag fixat, iar F(C) este vectorul de caracteristici al cadrului C.

3) Regăsirea modelului fonematic şi etichetarea regiunilor 

149 


Această fază presupune găsirea modelului fonematic cel mai probabil de asociat cu cadrul 

curent din regiunea ţintă. Etichetarea cu foneme poate fi făcută pentru fiecare cadru independent 

sau în corelaţie cu cadrele învecinate. 

minimă : 

În primul caz modelul asociat MC este cel pentru care distanţa pătratică E(MC,F(C)) este 

E( M C , F( 

C)) 

min E( 

M fi , F( 

C)) 

, (4.95) 

unde M fi SM C . 

i1 

.. n 

În al doilea caz, în care etichetarea se face în corelaţie cu cadrele învecinate, dacă aceste 

cadre vecine fac parte dintr-un şir etichetat cu o aceeaşi fonemă fk, şi dacă Mfk face parte din setul 

SMC, atunci Mfk se va asocia cu cadrul C chiar dacă nu respectă condiţia (4.95). 

4) Gruparea fonemelor şi determinarea subregiunilor 

În această ultimă fază subregiunile sunt determinate prin găsirea şi extinderea secvenţelor 

de cadre vecine etichetate cu aceeaşi fonemă. Dacă o secvenţă {Fi} este întreruptă de o fonemă 

singulară diferită Fp, secvenţa va fi extinsă şi peste cadrul respectiv: 

Fi Fi … Fi Fp Fi -> Fi Fi … Fi Fi Fi 

Figura 4.67. Extinderea secvenţelor fonematice 

În finalul procesului de extindere a secvenţelor fonematice, Ure se marchează graniţele de 

subregiuni ca fiind graniţele secvenţelor fonematice. 

În concluzie, metoda de segmentare în subregiuni fonematice bazată pe modelarea 

caracteristicilor spectrale are o mare aplicabilitate practică. Dacă se foloseşte în corelaţie cu 

metoda de segmentare fonematică prezentată în secţiunea 4.8, atunci cunoscându-se secvenţa 

fonematică asociată cu fiecare regiune, se va putea determina corespondenţa exactă dintre fiecare 

fonemă şi cadrele din acea regiune. 

1 2 k-1 k k+1 1 2 k-1 k k+1 

Pe de altă parte metoda de segmentare în subregiuni bazată pe model poate fi folosită şi 

în recunoaşterea vorbirii. În acest caz vor trebui luate în consideraţie toate combinaţiile de 

foneme care rezultă din setul SMC ( 4.93), iar combinaţia exactă va trebui determinată prin 

utilizarea unei predicţii lingvistice bazată pe vocabular. 

che 

a 

me 

die

150 


4.8.4.5. Rezultate obţinute prin metoda de segmentare în subregiuni fonematice 

bazată pe modelarea caracteristicilor spectrale 

S-au făcut experimente pentru diferite lungimi de cadre, pentru regiuni de tip sonorvocalic 

la care s-a aplicat metoda curentă de segmentare în subregiuni. S-a constatat o bună 

funcţionalitate a metodei chiar pentru fişiere model de mici dimensiuni, de aproximativ 15-20 de 

modele pentru o fonemă. Erorile care apar sunt mici şi ele derivă din cazurile de coarticulare 

nemodelate, când o anumită fonemă este rostită în mod asemănător cu o alta. 

În continuare se ilustrează un exemplu de segmentare în subregiuni pentru o regiune 

vocalică preluată de la un vorbitor masculin. 

Exemplu: Vorbitor masculin; regiune sonor-vocalică; lungime cadru: două perioade 

Figura 4.68. Regiune sonor-vocalică corespunzând cu secvenţa /E/, /N/, /E/ 

a) În faza de modelare s-au introdus în baza de modele următoarele foneme : 

/A / : 9 instanţe 

/E/ : 20 instanţe 

/I/ : 3 instanţe 

/L/ : 6 instanţe 

/M/ : 3 instanţe 

/N/ : 6 instanţe 

/O/ : 10 instanţe 

/U/ : 3 instanţe 

Total : 60 modele 

b) În faza de comparare s-au obţinut următoarele valori pentru distanţa pătratică E(a,b) 

(s-au prezentat doar valorile corespunzătoare primelor 9 cadre) : 

Tabelul 4.14. Compararea cadrelor cu modelele 

Per 2 Per 3 Per 4 Per 5 Per 6 Per 7 Per 8 Per 9 Per 10 

A 141.8 288.4 150.5 73.3 59.9 68.1 168.5 8034.4 3444.8 

A 173.7 334.2 188.2 97.7 73.7 79.4 230.4 9487.5 3966.5 

A 280.2 521.1 288.6 151.1 115.9 117.8 353.0 13643.1 5778.5 

A 265.1 566.4 299.8 146.1 135.6 164.6 399.8 18084.1 7620.7 

A 167.0 341.1 180.5 87.0 84.8 135.7 324.5 10683.3 4439.0 

A 221.1 361.3 206.0 112.3 75.4 71.1 243.0 8073.2 3327.2

151 


A 45.8 93.2 41.3 15.4 15.7 48.9 91.6 2463.0 1071.3 

A 25.1 65.2 42.6 27.5 20.7 28.5 36.2 2331.5 993.5 

A 31.6 70.9 49.0 32.7 19.5 19.6 32.0 2314.3 973.5 

E 575.1 297.4 559.1 887.6 420.3 198.1 119.9 232.6 113.0 

E 294.5 117.1 227.4 467.7 489.0 780.5 302.8 8.3 9.8 

E 175.6 96.2 140.7 254.5 315.4 708.6 329.4 148.7 109.6 

E 22.7 12.4 17.6 31.6 20.3 38.7 20.5 182.3 73.7 

E 2.3 5.9 0.8 3.6 7.8 45.8 26.1 358.4 159.3 

E 4.0 2.1 1.3 8.9 10.7 41.7 15.0 236.2 102.0 

E 42.3 44.6 30.2 25.6 5.7 3.1 20.6 721.2 288.4 

E 7.2 15.1 4.3 5.2 17.5 85.7 47.4 429.8 213.2 

E 14.4 28.6 8.4 1.7 9.9 65.8 58.1 759.5 342.8 

E 16.3 40.2 13.6 2.5 10.7 66.6 69.2 1155.5 522.7 

E 13.9 34.1 10.8 1.6 8.3 58.4 60.8 986.1 446.1 

E 52.0 32.7 31.1 53.6 77.1 238.1 117.4 149.5 92.9 

E 3.2 4.6 0.8 3.9 8.5 48.4 24.4 303.9 134.6 

E 65.1 114.7 71.2 41.4 20.1 16.7 60.9 2976.8 1228.8 

E 14.9 23.1 7.9 4.2 9.8 55.7 46.3 626.2 268.9 

E 7.2 19.5 4.8 0.6 4.3 40.1 34.8 675.9 302.3 

E 59.6 116.2 49.9 18.8 24.0 78.2 129.7 2677.3 1198.0 

E 32.2 67.6 26.4 8.8 15.6 69.0 87.5 1565.3 726.0 

E 141.4 260.4 133.0 63.8 52.7 76.1 209.9 6465.2 2757.5 

E 24.0 59.3 23.4 6.9 14.2 66.1 77.4 1729.3 779.6 

I 231.2 98.5 198.8 391.9 373.3 488.8 166.5 11.1 11.1 

I 184.5 100.3 204.9 395.2 419.1 520.5 141.3 36.8 38.3 

I 67.7 28.8 56.7 102.7 62.2 44.7 8.3 141.2 52.2 

L 169.1 83.7 171.0 302.6 219.5 214.4 74.3 56.5 27.8 

L 34.9 21.1 42.2 71.5 45.8 47.5 13.7 205.2 84.3 

L 309.9 146.7 284.4 479.4 268.3 169.0 73.4 107.3 48.2 

L 97.8 36.2 82.3 171.1 152.7 173.8 47.2 29.1 11.2 

L 61.2 36.7 54.0 104.4 169.1 480.9 168.5 83.1 74.0 

L 46.1 24.3 55.5 111.7 114.7 145.4 30.9 109.9 56.5 

M 111.1 59.5 129.0 250.4 236.5 227.3 50.7 110.9 64.1 

M 812.4 314.9 554.0 1128.1 1226.1 2164.0 821.9 8.5 33.4 

M 158.7 71.7 147.6 302.7 339.8 515.3 155.4 14.6 19.6 

N 231.3 79.1 149.3 312.5 301.2 454.6 181.3 7.2 1.2 

N 177.4 76.8 150.4 291.9 253.9 233.6 75.4 79.4 37.2 

N 77.5 32.4 74.7 157.8 164.1 219.6 55.8 37.0 21.2 

N 134.5 66.9 136.6 270.1 255.7 239.6 55.9 113.0 64.8 

N 44.1 22.3 39.3 66.9 35.8 23.1 1.8 244.5 93.6 

N 97.2 48.8 85.2 148.0 107.5 78.6 23.9 249.6 95.8 

O 23.1 53.9 21.0 8.9 26.1 118.8 99.9 1235.9 609.4 

O 23.4 52.2 18.8 4.7 14.6 79.5 85.3 1327.1 609.0 

O 17.2 29.0 10.2 5.0 8.5 51.8 54.3 604.8 280.3 

O 18.4 35.4 13.7 7.1 15.7 78.4 75.0 721.7 347.6 

O 33.7 68.7 28.2 10.6 16.2 68.2 94.1 1539.9 709.1 

O 34.6 71.1 30.1 11.2 13.6 53.6 84.3 1718.0 774.1 

O 31.8 65.4 26.5 9.6 14.6 63.5 87.3 1491.9 685.4 

O 63.8 124.1 55.3 22.6 22.4 56.1 106.3 2885.4 1298.5 

O 312.2 501.0 346.1 217.9 117.6 60.8 208.6 10500.7 4278.5 

O 66.5 147.1 66.3 27.2 36.9 105.6 155.5 3922.2 1780.5 

U 11.4 4.0 12.8 33.5 38.3 73.5 15.6 168.4 74.9 

U 85.0 95.4 90.2 85.9 33.0 4.1 18.8 1588.2 624.6 

U 53.4 30.9 47.3 72.7 33.9 15.3 2.7 339.8 127.9

c) În faza de etichetare s-a mers pe regăsirea modelului cu distanţa E(a,b) minimă. 

S-au obţinut următoarele asocieri (vezi figura 4.69): 

C7 

C8 

Figura 4.69. Etichetarea perioadelor din regiune 

152 


d) În faza de determinare a subregiunilor fonematice, se verifică dacă există secvenţe de cadre 

de lungime redusă (unul sau două cadre). Aceste secvenţe reprezintă : 

(1) cadre de tranziţie, dacă despart două secvenţe fonematice diferite, sau 

(2) artefacte, dacă sunt incluse într-o secvenţă corespunzătoare unei singure foneme. 

În exemplul nostru cadrele 14-17 sunt cadre de tranziţie, iar cadrul 23 e un artefact. 

De asemeni, aici trebuie ţinut cont de faptul că s-au considerat cadre de lungime egală 

cu două perioade. Astfel, cadrul 7, compus din perioadele 7 şi 8, este asociat cu fonema /E/, iar 

cadrul 8, compus din perioadele 8 şi 9, cu fonema /N/. Ca urmare va trebui luat în considerare un 

cadru intermediar, de tranziţie, la nivelul perioadei 8. Dacă însă există o succesiune de tip 

secvenţă fonematică – cadru de tranziţie, atunci nu se mai ia în considerare cadrul intermediar. 

În urma procesului de grupare a fonemelor şi extindere a secvenţelor fonematice, s-au 

obţinut următoarele subregiuni (cadrele figurate cu galben sunt cadre de tranziţie): 

t t 

Figura 4.70. Determinarea subregiunilor fonematice prin metoda modelării

153 


4.8.5. Aplicaţii ale segmentării fonematice în realizarea bazelor de date 

acustice 

Metodele de segmentare fonematică descrise anterior au fost proiectate în vederea 

adnotării şi segmentării corpusului vorbit pentru realizarea bazei de date cu unităţi acustice. Baza 

de date vocală este constituită din acel set de sunete elementare prin concatenarea cărora se poate 

genera un semnal sonor corespunzător unui text oarecare. 

Aceste unităţi de bază pot fi alese dintre: cuvinte, propoziţii, morfeme, silabe, foneme, 

difoneme etc., în funcţie de cerinţele aplicaţiei. Folosirea cuvintelor şi propoziţiilor (înregistrarea 

lor ca forme de undă, inclusiv intonaţie, articulare etc.) duce la obţinerea unei vorbiri de bună 

calitate, dar pentru un domeniu lingvistic restrâns. 

Autorul a ales pentru implementare varianta folosirii silabelor ca unităţi de bază. Această 

alegere are avantajul utilizării unor segmente de vorbire suficient de mari ca să păstreze 

elmentele de prozodie intrasegmentală (cum ar fi accentele), dar suficient de mici ca să asigure o 

dimensiune rezonabilă a bazei de date. Un alt avantaj al folosirii silabelor este faptul că prin 

concatenare nu rezultă artefacte acustice, cum este cazul difonemelor de exemplu, caz în care 

este necesar să se realizeze un proces de interpolare în punctele de concatenare. 

Corpusul vorbit folosit pentru extragerea unităţilor acustice a fost alcătuit atât din 

propoziţii obişnuite şi cuvinte care conţin grupurile fonematice dorite (silabele în cazul nostru), 

precum şi din cuvinte artificiale folosite pentru a evidenţia mai bine un anumit grup de foneme. 

Realizarea bazei de date presupune separarea unităţilor acustice din semnalul vocal 

printr-o metodă manuală sau automată, şi apoi stocarea acestora în structura ierarhică a bazei de 

date. Aşa cum se va prezenta în capitolul dedicat metodei proprii de sinteză, autorul a folosit o 

metodă semiautomată, în care unităţile acustice sunt determinate pe baza aplicării metodei de 

segmentare fonematică asupra unui corpus paralel text-voce. 

Un exemplu de extragere a unităţilor acustice din cuvinte artificiale este ilustrat în figura 

următoare: 

T A T I T A T A D E T A 

BD vocală 

Figura 4.71. Extragerea unităţilor acustice din semnalul vocal

154 


4.8.6. Concluzii privitoare la contribuţiile autorului în segmentarea 

fonematică a semnalului vocal 

Metodele de segmentare fonematică a semnalului vocal sunt foarte utile în procesul de 

creare a bazei de date acustice, când avem de-a face cu un corpus de dimensiuni mari care 

trebuie segmentat şi adnotat. Cu cât aceste metode sunt mai automatizate, cu atât munca depusă 

de operatorul uman este mult uşurată. Metodele propuse de autor vin în întâmpinarea acestui 

deziderat şi aduc o contribuţie importantă în acest domeniu al analizei şi prelucrării corpusului 

vocal. 

O altă aplicaţie foarte importantă a acestor metode de detectare a unităţilor fonematice 

din semnalul vocal este în domeniul recunoaşterii vorbirii. Dezvoltarea şi aprofundarea 

metodelor de segmentare fonematică va duce implicit şi la soluţionarea problemei recunoaşterii, 

arătând astfel domeniul vast de aplicabilitate şi operabilitate al acestor metode. 

S-au propus în acest capitol trei metode pentru segmentarea fonematică, metode ce pot fi 

utilizate individual sau coroborat. Prima metodă detectează grupurile de foneme din semnalul 

vocal pe baza textului cunoscut de la intrare, folosind segmentarea prealabilă în regiuni. A doua 

metodă realizează împărţirea regiunilor în subregiuni fonematice, calculând tranziţiile dintre 

cadrele fiecărei regiuni. A treia metodă detectează separat fonemele din regiunile 

multifonematice şi funcţionează pe bază de model. 

Avantajul acestor metode derivă din modul de abordare sincron cu frecvenţa, ceea ce le 

dă o notă de precizie în plus faţă de alte abordări. 

În acestă fază s-au realizat: 

a) o metodă de segmentare în grupuri de foneme a semnalului vocal pe baza textului cunoscut de 

la intrare; pentru aceasta s-a proiectat: 

- un set de reguli care impun anumite constrângeri de formă şi durată pentru fiecare grup 

fonematic; 

- un algoritm de asociere între un grup fonematic şi o secvenţă de regiuni; 

b) o metodă ce realizează împărţirea regiunilor în subregiuni fonematice, calculând tranziţiile 

dintre cadrele fiecărei regiuni; pentru aceasta s-a proiectat: 

- un mod de calcul a distanţei minime pătratice dintre două cadre de semnal, distanţă ce 

se aplică vectorilor de caracteristici bazaţi pe coeficienţi Fourier; 

- un algoritm de detectare a frontierelor de subregiuni pe baza tranziţiilor bruşte dintre 

cadre; 

c) o metodă ce separă fonemele din regiunile multifonematice, funcţionând pe bază de model; 

pentru aceasta s-au proiectat 4 algoritmi şi metode: 

- o metodă de modelare semiautomată a fonemelor; 

- un algoritm de comparare a vectorilor regiunii ţintă cu modelul; 

- un algoritm de regăsire a modelului fonematic şi de etichetare a regiunilor; 

- un algoritm de grupare a fonemelor şi segmentare în subregiuni.

5. Sinteza de voce 

5.1. Modelul general al sintezei vorbirii 

Sinteza vorbirii presupune generarea automată a vorbirii de către un sistem automat. Din 

punct de vedere al realizării fizice, sinteza de voce poate fi implementată atât pe un calculator cât 

şi pe diverse dispozitive electronice sau de telecomunicaţii prin componente dedicate (circuite 

integrate, circuite programabile, microcontroler, etc.). 

Există două concepte de bază ce definesc sistemele de sinteză a vocii: conversia textrostire 

(sistemele text-to-speech), şi sinteza propriu-zisă a vorbirii. Sistemele text-to-speech 

(figura 5.1) pornesc de la un text de sintetizat, parcurg o fază de analiză lexicală în care sunt 

determinate unităţile lexicale componente (prop oziţii, cuvinte, silabe, foneme), apoi pe baza 

acestor unităţi lexicale vor fi generaţi anumiţi parametri acustici care vor fi utilizaţi în generarea 

vorbirii [Bur96]. 

Analiză 

Generare 

Text Rostire 

lexicală 

parametri 

Figura 5.1. Sistem de sinteză a vorbirii pornind de la text 

Ultima etapă procesuală din cadrul sistemului text-to-speech, şi anume generarea rostirii 

pe baza parametrilor acustici, reprezintă sinteza de voce propriu-zisă. Sistemele sintetizatoare de 

voce diferă deci de sistemele text-to-speech prin faptul că primele utilizează la intrare nu direct 

textul de sintetizat, ci parametrii acustici pe baza cărora va fi posibilă generarea rostirii. 

Există două faze principale în cadrul procesului de sinteză a vorbirii: 

1. Faza de analiză, ce presupune înregistrarea, codificarea şi parametrizarea unor unităţi 

acustice într-o bază de date vocală. Unităţile acustice pe baza cărora se va realiza sinteza unui 

text sau a unei rostiri se preiau în general dintr-o rostire preliminară a unui vorbitor. 

2. Faza de sinteză reprezintă sinteza propriu-zisă a vorbirii: se porneşte de la un text care 

se prelucrează şi apoi se generează semnalul vocal pe baza cunoştinţelor înmagazinate a-priori în 

baza de date vocală. 

Aceste două faze din cadrul procesului de sinteză a vorbirii sunt ilustrate în figurile 

următoare. Prima fază – faza de analiză – este ilustrată în figura 5.2: 

Rostire 

Segmentare 

Unităţi 

acustice 

Codificare - 

Parametrizare 

Figura 5.2. Faza de analiză din cadrul sintezei vorbirii 

155 

Unităţi acustice 

codificate sau 

parametrizate 

Înregistrare 

date 

Baza de 

date vocală

156 

Cap. 5. Sinteza de voce 

Aşa cum se observă din figura 5.2, faza de analiză presupune ca dintr-o rostire 

preliminară a unui vorbitor să se determine anumite unităţi acustice ce vor fi folosite ulterior în 

procesul de sinteză. Unităţile acustice se generează în cadrul unui proces de segmentare ce 

presupune separarea rostirii iniţiale în componente: cuvinte, silabe, foneme sau difoneme 

(jumătăţi de foneme). Segmentarea rostirii este realizată în general printr-un proces manual sau 

semiautomat [Bur96]. 

Unităţile acustice obţinute în urma procesului de segmentare vor fi apoi codificate şi 

parametrizate în vederea stocării pe suport magnetic digital într-o bază de date. Codificarea este 

necesară pentru a reduce dimensiunea înregistrărilor din baza de date, ţinând cont că unităţile 

acustice iniţiale conţin eşantioane vocale digitizate reprezentând un mare volum de informaţie. 

Suplimentar, unităţile acustice vor fi parametrizate în vederea reconstrucţiei ulterioare a 

semnalului vocal. În final, unităţile acustice codificare şi parametrii obţinuţi se vor introduce în 

baza de date vocală. 

Urmează faza de sinteză propriu-zisă pornind de la un text de intrare: 

Text 

Analiză 

lingvistică 

Unităţi 

lexicale 

Figura 5.3. Faza de sinteză din cadrul sintezei vorbirii 

În cadrul acestei faze, printr-un proces de analiză lingvistică, textul de sintetizat este 

descompus mai întâi în unităţi lexicale de tip propoziţie, cuvânt, fonemă. Pentru fiecare unitate 

lexicală se caută apoi punerea în corespondenţă cu unităţile acustice stocate în baza de date 

vocală. După găsirea celei mai bune potriviri cu o unitate acustică, se regăsesc parametrii 

acustici corespunzători stocaţi în baza de date. Pe baza unităţilor acustice parametrizate se 

generează formele de undă necesare printr-un proces de sinteză de semnal vocal. Rostirea 

propriu-zisă se produce prin concatenarea formelor de undă ce vor fi trimise apoi către un 

dispozitiv fizic generator de semnal. 

Baza de 

date vocală 

Regăsire 

parametrii 

Unităţi acustice 

parametrizate 

Sinteza 

semnalului 

vocal 

Rostire 

Generare forme 

de undă

5.2. Sistemul de sinteză text-to-speech 

157 


5.2.1. Caracteristicile unui sistem text-to-speech. Metode de bază folosite 

Sistemul text-to-speech este sistemul care asigură realizarea unui proces complet de 

conversie a unui text în vorbire continuă. În cadrul acestui proces sunt prezente două faze 

distincte: faza de analiză lingvistică şi faza de generare a parametrilor acustici, aşa cum se 

prezintă în figură: 

Text 

Tex 

tto- 

Spe 

Analiză 

lingvistică 

Generare 

parametrii 

acustici 

Figura 5.4. Sistemul text-to-speech 

Analiza lingvistică are ca scop determinarea unităţilor lingvistice din cadrul textului, cum 

ar fi: propoziţii, ech cuvinte, silabe, foneme. Generarea parametrilor acustici urmăreşte identificarea 

şi extragerea dintr-o Text bază de date vocală a parametrilor corespunzători unităţilor lingvistice. Pe 

baza acestor parametrii, un sintetizor vocal va genera rostirea propriu-zisă. 

Există trei metode de bază în sinteza text-to-speech: metoda bazată pe concatenarea 

formelor de undă, metoda bazată pe analiză-sinteză, şi metoda bazată pe reguli [Bur97]. 

1. Metoda directă, bazată pe concatenarea formelor de undă, este cea mai simplă şi 

presupune înregistrarea în baza de date vocală a sunetelor înregistrate ca atare (codificate sau 

nu). Rostirea este generată prin alăturarea înregistrărilor ce corespund unităţilor lingvistice al 

textului de sintetizat. Metoda este schematizată în figura 5.5. 

Forme de 

undă 

Codificare 

Memorare 

Compunerea 

formelor de 

undă 

Rostire 

Figura 5.5. Metoda bazată pe concatenarea formelor de undă [Bur97] 

Rostire 

Metoda directă are avantajul unei calităţi ridicate a vorbirii sintetizate, având rata 

debitului de date de 64-128 kbit/s (fără codificare). Calitatea rostirii depinde de calitatea 

unităţilor acustice stocate în baza de date vocală, precum şi de modul de conectare al unităţilor 

acustice. În schimb este dificilă schimbarea trăsăturilor prozodice ale vorbirii: ritm, intonaţie, 

accent şi timbru. Pentru reducerea dimensiunilor bazei de date, de obicei formele de undă se 

codifică folosind metodele PCM sau ADPCM, rezultând astfel o rată de date de 16-32 kbit/s 

2. În cadrul metodei bazată pe analiză-sinteză, formele de undă preînregistrate sunt 

transformate în secvenţe de parametrii care se memorează în baza de date vocală. Metoda 

presupune două faze distincte: faza de analiză, în care sunt generaţi parametrii din formele de 

undă iniţiale, şi faza de sinteză, în care se generează rostirea prin concatenarea secvenţelor de 

parametrii şi trimiterea secvenţei rezultate către sintetizatorul de voce.

158 


Metodele clasice care ilustrează această categorie sunt metoda formantică şi metoda 

predicţiei liniare LPC. 

În primă fază, se înregistrează unităţile acustice dintr-o rostire preliminară. Apoi se va 

genera secvenţa de parametri corespunzătoare unităţilor acustice. În cadrul metodei formantice, 

secvenţa de parametri este constituită pe baza frecvenţelor şi lăţimilor de bandă ale formanţilor. 

Metoda LPC furnizează ca secvenţă de parametri de sinteză un set de coeficienţi de predicţie, 

care aproximează forma spectrală a undei sonore. În a treia fază se concatenează secvenţele de 

parametri şi se generează rostirea propriu-zisă [Bur97]. 

Metoda este ilustrată în figura 5.6. 

Secvenţă de 

parametri 

Codificare 

Memorare 

Figura 5.6. Metoda bazată pe analiză-sinteză [Bur97] 

Analiza se bazează de obicei pe un model de producţie vocală, care este specific metodei 

folosite. Astfel, unităţile sonore preînregistrate sunt analizate în conformitate cu acest model de 

producţie vocală, se parametrizează şi se înregistrează în baza de date secvenţa de parametri 

corespunzătoare unităţilor acustice. Sinteza va rezulta în urma compunerii secvenţelor de 

parametri caracteristice fiecărei unităţi. 

Metoda formantică utilizează ca model de producţie vocală o secvenţă de circuite de 

rezonanţă acordate pe frecvenţele formanţilor. Metoda LPC foloseşte ca model un filtru liniar ce 

are la intrare un semnal de excitaţie sonor sau nesonor. 

Rata debitului de date în cazul metodei bazată pe analiză-sinteză este mult mai redusă 

datorită avantajului parametrizării, şi anume de 2,5-9 kbit/s. 

3. Metoda bazată pe reguli are la intrare o secvenţă de litere sau simboluri fonematice, 

un set de parametri care modelează trăsăturile prozodice ale secvenţei (cum ar fi frecvenţa 

fundamentală, amplitudinea, durata), şi un set de reguli de sinteză fonetice şi lingvistice care 

specifică modalităţile de recompunere a unităţilor acustice pentru a genera rostirea [Bur97]. 

Metoda este ilustrată în figura 5.7. 

Secvenţă de 

simboluri 

Trăsături 

prozodice 

Set de 

reguli 

Codificare 

Memorare 

Codificare 

Memorare 

Codificare 

Memorare 

Figura 5.7. Metoda bazată pe reguli [Bur97] 

Compunerea 

secvenţelor de 

parametri 

Generare 

parametri 

Rostire 

Rostire

159 


În baza de date se memorează parametrii caracteristici pentru unităţile elementare cu care 

se lucrează (foneme, difoneme, silabe). În faza de sinteză, unităţile se vor concatena pe baza unor 

reguli de concatenare. Trăsăturile prozodice (amplitudine, tonalitate, durată) se controlează 

printr-un set de reguli prozodice ce se aplică pentru fiecare unitate în parte. 

Calitatea sintezei depinde în acest caz atât de calitatea unităţilor elementare înregistrate în 

baza de date, cât şi de modul de realizare şi performanţa regulilor prozodice şi de concatenare 

[Bur97]. 

5.2.2. Etape în sinteza de voce pornind de la text 

Etapele procesuale ale sintezei text-to-speech se împart în două categorii de bază 

[Bur97]: 

1) Analiza textului de la intrare în scopul obţinerii unei reprezentări fonetice şi prozodice 

a textului; 

2) Transformarea reprezentării fonetice-prozodice în semnal vocal, pe baza folosirii unor 

reguli de sinteză. 

Analiza textului cuprinde: preprocesarea lingvistică, analiza sintactică şi lexicală, 

transcrierea fonetică şi determinarea prozodiei. 

Sinteza presupune generarea secvenţei de parametri corespunzătoare textului şi sinteza 

propriu-zisă a vorbirii. 

Preprocesarea lingvistică este prima etapă în analiza textului de la intrare, în care se 

urmăreşte aducerea textului la o formă normalizată. Aici se refac abrevierile (de exemplu „Dr.” 

devine „doctor”), se transformă numerele care apar ca cifre în numere exprimate literar („1000” 

devine „o mie”), şi de asemenea tot în acestă fază se detectează terminatorii de propoziţie, care 

vor da primele informaţii despre tipul propoziţiei (` . ` ` ? ` `! ` , ce corespund cu o propoziţie 

afirmativă, interogativă, respectiv imperativă). 

Analiza sintactică este necesară pentru a aduce textul la o formă corectă din punct de 

vedere gramatical, ştiut fiind faptul că orice greşeală de scriere a unui cuvânt îl poate face greu 

inteligibil în urma sintezei vocale. Astfel, cuvintele sunt confruntate cu modul corect de scriere 

aşa cum apare de exemplu într-un dicţionar, şi de asemenea, în cazul limbii române, se verifică şi 

corectitudinea inserării diacriticelor (`ă` `î` `ş` `ţ`). 

Urmează etapa de determinare a unităţilor lexicale, efectuată prin intermediul unui 

parser sau analizor lexical. Aici se determină unităţile textuale dorite, cum ar fi: propoziţii, 

cuvinte, silabe, foneme. Dacă de exemplu se doreşte regăsirea silabelor din cadrul cuvintelor, 

analizorul va trebui să fie ghidat de un set de reguli sintactice şi de despărţire a cuvintelor în 

silabe, reguli specifice limbii pentru care se va realiza sinteza. 

Etapa de transcriere fonetică are ca scop realizarea unei transcrieri standardizate a 

fonemelor din text (grafeme), folosind un set de simboluri fonetice standardizate ( de exemplu 

grupul `che` va avea transcrierea fonetică [ce], iar `ce` va avea transcrierea fonetică [c~e]; astfel 

sintetizatorul va şti că va trebui să folosească seturi diferite de parametrii pentru a genera două 

tipuri distincte de rostire).

160 


Urmează apoi etapa de determinare a prozodiei pentru segmentele vocale analizate. Pe 

baza unor reguli prozodice specifice limbii, se va determina accentul, intonaţia şi ritmul corect 

pentru fiecare unitate fonematică. Regulile prozodice se aplică atât la nivelul suprasegmental al 

propoziţiilor, realizându-se un contur prozodic al propoziţiei, cât şi la nivel segmental, în 

interiorul cuvintelor. 

Regulile aplicate dau pentru fiecare unitate de sintetizat o anumită corecţie la nivelul 

parametrilor: frecvenţă fundamentală, amplitudine şi durată, în funcţie de tipul popoziţiei 

determinat în etapa de procesare lingvistică, de locul cuvântului în propoziţie, precum şi de locul 

silabei sau fonemei în cadrul cuvântului. 

Pe lângă prozodia lingvistică, care se determină pe baza analizei lingvistice a textului, în 

ultimii ani se ţine cont tot mai mult şi de prozodia emoţională, pentru a simula stările emoţionale 

pe care le poate avea un vorbitor (bucurie, teamă, linişte, etc.). 

După aceste etape de analiză a textului, urmează etapele încadrate în faza de sinteză. 

Prima dintre ele este etapa de generare a parametrilor acustici pentru sinteză. Pe baza 

simbolurilor fonematice care provin din etapa de transcriere fonetică şi a modificărilor prozodice 

determinate pe baza regulilor privind intonaţia şi ritmul, se generează secvenţa de parametrii 

corespunzătoare textului de sintetizat. 

Text 

Simboluri fonetice 

( a b c ...) 

Prozodie Cunoştinţe 

Secvenţă de parametri 

( a1 a2 a3 ...) 

Figura 5.8. Etapa de generare a parmetrilor acustici [Bur97] 

Baza de 

date 

vocală 

În această etapă se folosesc cunoştinţele înmagazinate în baza de date vocală, de unde se 

regăsesc parametrii de bază pentru fiecare unitate fonetică. Parametrii de bază se vor modifica în 

urma alterărilor prozodice, şi apoi se vor concatena pentru a genera secvenţa parametrică pentru 

întregul context propoziţional. 

În continuare urmează faza de sinteză propriu-zisă, în care secvenţele de parametri se 

transformă în forme de undă care pot fi redate sonor prin intermediul unui dispozitiv audio. 

Constituirea formelor de undă din secvenţa de parametri se realizează pe baza unor reguli de 

sinteză bine determinate.

Etapele procesuale ale sintezei TTS sunt ilustrate în figura 5.9: 

Text 

Preprocesare lingvistică Text în formă normalizată 

Analiză sintactică Text corect gramatical 

Determinare unităţi 

lexicale 

Figura 5.9. Etapele procesuale ale sintezei TTS [Bur97] 

161 

Propoziţii, cuvinte, foneme 

Transcriere fonetică Simboluri fonetice 

Determinarea prozodiei Parametrii prozodici 

Generare parametri 

acustici 

Parametrii de sinteză 

Sinteza Forme de undă 

Rostire 

Cap. 5. Sinteza de voce

6. Metode de sinteză de voce 

6.1. Clasificarea metodelor de sinteză de voce 

Sinteza vorbirii poate fi realizată prin mai multe metode, care diferă în funcţie de nivelul 

abordării, modelul de producere a vorbirii şi domeniul de analiză şi prelucrare a semnalului 

vocal. 

A. În funcţie de nivelul abordării, metodele de sinteză se grupează în două categorii: 

metode care abordează sinteza de nivel jos, respectiv sinteza de nivel înalt. 

Metodele care abordează sinteza de nivel jos pornesc de la specificarea unor parametri 

acustici şi generează vorbirea sintetică prin re-crearea formei de undă a semnalului vocal 

[Bur96]. 

Această categorie cuprinde: 

- metode bazate pe codificarea şi recompunerea vorbirii, metode implementate în sistemele 

de tip vocoder; 

- metode de sinteză formantică, ce utilizează specificarea parametrilor formantici din 

spectrul acustic pentru generarea vorbirii; 

- metode de sinteză bazate pe predicţie liniară, ce urmăresc prezicerea eşantioanelor de 

semnal pe baza eşantioanelor precedente; 

- metode de sinteză prin concatenarea formelor de undă, ce implică preînregistrarea şi apoi 

recompunerea formelor de undă corespunzătoare unităţilor acustice; 

- sinteza articulativă, ce implică utilizarea unor parametri generaţi pe baza unui model 

articulator de producere a vorbirii. 

Sintetizatoarele de vorbire care implementează metodele de nivel jos generează semnalul 

vocal de la ieşirea unui sistem de sinteză vocală. Exemple de astfel de sintetizatoare sunt: 

sistemul Holmes de sinteză formantică cu rezonatori în paralel, sistemul Klatt ce foloseşte o 

metodă formantică hibridă serie-paralel, sistemul PSOLA bazat pe concatenarea formelor de 

undă. Toate aceste sisteme nu pot genera semnal vocal cât timp ele nu sunt controlate de către un 

software de sinteză de nivel înalt. 

Metodele de sinteză de nivel înalt sunt de tipul text-to-speech sau concept-to-speech. 

Sistemele text-to-speech generează vorbirea pe baza textului de la intrare, iar sistemele conceptto-speech 

sunt sisteme de dialog vocal în care vorbirea se generează pe baza unei descrieri 

lingvistice ce rezultă în urma dialogului cu utilizatorul. Caracteristic acestor metode este faptul 

că ele includ o abordare lingvistică, prin aceasta diferenţiându-se de metodele de nivel jos 

[Bur96]. 

Problemele specifice abordate de către aceste metode de nivel înalt sunt: conversia 

ortografie-foneme, descompunerea cuvintelor în morfeme, crearea de dicţionare cu informaţie 

sintactică şi fonetică, crearea regulilor de pronunţie, determinarea prozodiei (intonaţiei) din 

cadrul elementelor fonetice – propoziţii şi cuvinte. 

Sintetizatoarele de nivel înalt sunt responsabile pentru generarea intrării către 

sintetizatoarele de nivel jos. Intrarea într-un sistem de sinteză de nivel înalt este constituită din 

textul de sintetizat, în timp ce ieşirea furnizează parametrii acustici necesari sintezei vocale. 

162

163 

Cap. 6. Metode de sinteză de voce 

Exemple de sintetizatore de nivel înalt sunt: INFOVOX, DECTalk, SPRUCE. Primele 

două sunt conectate la generatoare de semnal vocal dedicate, pe când al treilea poate controla 

orice tip de sintetizator de nivel jos. 

B. În funcţie de domeniul de analiză abordat, metodele de sinteză a vorbirii se împart 

în două categorii: metode de sinteză în domeniul timp şi metode de sinteză în domeniul frecvenţă 

[Bur96]. 

Metodele de sinteză în domeniul timp realizează concatenarea directă a formelor de undă 

stocate în prealabil în baza de date vocală. Cele mai simple sintetizatoare bazate pe aceste 

metode nu utilizează parametrizarea unităţilor acustice, utilizând direct forma de undă a 

semnalului în domeniul timp. 

Modelul general al acestui tip de sinteză este ilustrat în figura 6.1. 

Rostire 

CODIFICARE 

Text 

SINTEZA 

Unităţi 

acustice 

Unităţi 

lexicale 

Formă de undă 

codificată 

Secvenţe de 

forme de undă 

Figura 6.1. Modelul sintezei în domeniul timp 

Baza de date 

vocală 

Rostire 

În cadrul acestui model, într-o primă fază de codificare şi înregistrare a formelor de undă, 

unităţile acustice de tipul silabelor, fonemelor, demifonemelor, se înregistrează dintr-o rostire 

preliminară a unui vorbitor. Ele se vor înregistra ca forme de undă cu o anumită codificare (de 

exemplu PCM) într-o bază de date vocală. 

În faza de sinteză propriu-zisă, după separarea unităţilor lexicale din textul de sintetizat 

(unităţi lexicale care trebuie să fie de acelaşi tip cu unităţile acustice preînregistrate), se va 

urmări punerea în corespondenţă cu unităţile acustice din baza de date vocală şi reconstituirea 

secvenţelor de undă asociate. Apoi printr-un proces de concatenare a secvenţelor de undă se va 

genera rostirea propriu-zisă. 

Avantajul major al acestor metode de sinteză prin concatenare în domeniul timp este 

reprezentat de calitatea aproape naturală a vocii sintetizate. Dintre dezavantaje se pot aminti o 

cantitate importantă de resurse folosite în procesul memorării formelor de undă, dar şi 

dificultăţile legate de modificarea prozodiei vorbirii.

164 


Metodele de sinteză în domeniul frecvenţă realizează sinteza vocală pe baza unor 

parametri acustici generaţi în urma aproximării unor caracteristici spectrale din domeniul 

frecvenţă. Astfel, pentru a realiza sinteza unui text, mai întâi se generează parametrii acustici 

corespunzători rostirii, şi apoi sunt generate formele de undă ale semnalului vocal [Bur96]. 

Modelul general al sintezei vorbirii în domeniul frecvenţă este ilustrat în figura 6.2: 

Rostire 

ANALIZA 

Text 

SINTEZA 

Unităţi 

acustice 

Unităţi 

lexicale 

Generare 

parametri 

Secvenţe de 

parametri 

Figura 6.2. Modelul sintezei în domeniul frecvenţă 

Baza de date 

parametrizată 

Generare forme 

de undă 

Rostire 

În faza de analiză a sintezei din domeniul frecvenţă, unităţile acustice separate din 

rostirea preliminară sunt parametrizate în funcţie de caracteristicile spectrale ale semnalului 

vocal. Parametrii sunt apoi înregistraţi în baza de date şi indexaţi în scopul unei regăsiri facile. 

În faza de sinteză, unităţile lexicale (cuvinte, silabe, foneme) din textul de sintetizat sunt 

transformate în secvenţe de parametri regăsiţi din baza de date parametrizată. Parametrii acustici 

sunt ajustaţi în funcţie de prozodia cerută, iar pe baza lor vor fi generate formele de undă 

corespondente. 

Avantajul metodelor bazate pe sinteza în domeniul frecvenţă constă în primul rând din 

posibilitatea realizării facile a aspectelor de prozodie (ritm, accent, intonaţie) prin calculul şi 

generarea corespunzătoare a parametrilor acustici şi spectrali. Un alt avantaj rezultă din faptul că 

în baza de date se păstrează nu formele de undă, ca în cazul metodelor din domeniul timp, ci 

parametrii acustici, ceea ce duce la o mare economie de resurse de memorie şi computaţionale. 

Ca dezavantaj se poate aminti faptul că parametrizarea rostirii de la intrare în faza de 

analiză duce la aproximarea semnalului vocal şi ca urmare în faza de reconstrucţie a semnalului 

de la ieşire vorbirea rezultată va avea o calitate ‚sintetică’, depărtându-se de vorbirea naturală. 

În continuare se prezintă câteva metode uzuale ce generează rezultate bune în sinteză, atât 

pentru domeniul frecvenţă cât şi pentru domeniul timp.

6.2. Metode de sinteză în domeniul frecvenţă 

165 


Ca exemple de metode ce utilizează analiza semnalului vocal în domeniul frecvenţă 

putem aminti: 

- metoda de sinteză prin predicţie liniară, ce utilizează pentru generarea semnalului vocal 

o serie de parametri numiţi coeficienţi de predicţie; 

- metoda de sinteză formantică, ce utilizează informaţiile despre formanţii spectrali în 

procesul generării unităţilor acustice. 

6.2.1. Sinteza bazată pe predicţie liniară 

Termenul de predicţie liniară a fost introdus prima dată de către N. Wiener în 1949 

([Wie49], [Har01]), această tehnică fiind folosită într-o gamă largă de aplicaţii. În domeniul 

cercetării semnalului vocal, această tehnică a fost folosită prima dată de către Itakura şi Saito (în 

1968) şi Atal şi Schroeder (în 1968), pentru analiza şi sinteza semnalului vocal [Ave04]. 

Importanţa predicţiei liniare constă în faptul că sursa de semnal vocal şi caracteristicile ei 

spectrale pot fi reprezentate în mod exact şi eficient de un număr mic de parametri. În plus, aceşti 

parametri se obţin prin calcule relativ simple [Tod05]. 

La început această tehnică a fost dezvoltată cu scopul de a coda semnalul vocal, iar mai 

apoi a devenit foarte importantă în analiza şi sinteza acestuia [Hu93]. 

Această metodă de sinteză este cunoscută sub denumirea de sinteză LPC ( Linear 

Predictive Coding synthesis) şi face parte din categoria sistemelor de analiză-sinteză a 

semnalului vocal (analysis by synthesis systems). 

Într-un sistem de analiză-sinteză, unda vocală este sintetizată folosind o sursă de excitaţie 

şi parametri de articulaţie, care au fost în prealabil extraşi cu ajutorul unui circuit care modelează 

mecanismul de producere al vorbirii. Modelul sistemului fonator pe care se bazează metoda 

analizei şi sintezei prin predicţie liniară este modelul ‘sursă-filtru’, model prezentat în figura 

următoare: 

F0 

Sursă 

G 


H(z) 

Parametrii 

tractului vocal 

Figura 6.3. Modelul producerii vorbirii prin metoda LPC 

Modelul LPC al producerii vorbirii este generat în concordanţă cu producerea sunetului 

de către sistemul fonator uman. Astfel, energia sonoră de bază este furnizată de către un semnal 

de excitaţie, care poate să fie periodic sau neperiodic, în funcţie de sunetul produs (tren de 

impulsuri periodice pentru cazul vocalelor sau zgomot alb în cazul consoanelor). Pentru un 

semnal de excitaţie periodic, se furnizează frecvenţa fundamentală F0 ca parametru de intrare în 

generator. 

s(n)

166 


Semnalul de excitaţie este apoi amplificat cu un factor G (numit câştigul modelului) şi 

trecut printr-un filtru variabil având funcţia de transfer H(z). Filtrul variabil modelează 

comportamentul tractului vocal din cadrul sistemului fonator, şi va produce la ieşire semnalul 

scontat s(n). Filtrul este controlat pe baza unor parametri care sunt coeficienţii LPC {ak}. 

Parametrii sunt calculaţi pentru fiecare segment de vorbire de aproximativ 10-30 ms. 

Funcţia de transfer a filtrului are expresia [Tod05]: 

G 

H ( z) 

p 

1 

k 1 

a 

k 

z 

k 

G 

 

A( 

z) 

unde: G este câştigul filtrului, iar 

ak sunt coeficienţii de predicţie LPC. 

(6.1) 

Câştigul se poate determina pe baza erorii de predicţie dintre semnalul calculat cu 

ajutorul filtrului recursiv şi semnalul original. Pentru calculul parametrilor ak există mai multe 

metode, dintre care cele mai cunoscute sunt metoda autocorelaţiei (prin algoritmul Levinson - 

Durbin) şi metoda covarianţei. 

Astfel, metoda de sinteză LPC are ca obiectiv estimarea parametrilor unui sistem 

susceptibil de a genera un semnal artificial cât mai apropiat de semnalul original. În cazul acestei 

metode de sinteză, semnalul sintetizat poate fi văzut ca şi o combinaţie liniară a p eşantioane 

precedente la care se adaugă şi efectul semnalului de excitaţie. 

Un aspect important în analiza prin predicţie liniară este alegerea numărului de 

coeficienţi de predicţie p. Acesta depinde de frecvenţa de eşantionare a semnalului: de exemplu 

la o frecvenţă de eşantionare de 8 kHz se vor lua în calcul 10 –12 poli. De asemenea numărul 

coeficienţilor utilizaţi este în strânsă corelare cu eroarea de predicţie. Astfel s-a observat că 

eroarea de predicţie scade o dată cu creşterea numărului de coeficienţi de predicţie luaţi în calcul. 

Cu ajutorul sintezei prin predicţie liniară se poate obţine o voce sintetizată de calitate 

destul se bună. Totuşi, datorită modelului numai poli folosit în această metodă de sinteză, în 

cazul sunetelor nazalizate de exemplu, modelarea spectrală a formanţilor este de o calitate mai 

slabă. În astfel de situaţii, sintetizorul LPC produce frecvent vârfuri spectrale (spectral peaks ) a 

căror lăţime de bandă este prea mare, acest lucru concretizându-se în vocea sintetizată prin 

apariţia unui bâzâit (‘buzzines’ ). 

Pentru îmbunătăţirea determinării funcţiei de transfer a tractului vocal se pot calcula şi 

zerourile pe lângă polii spectrali. Astfel, este posibilă transformarea unui pol în zerou, printr-o 

dezvoltare în serie şi de asemenea, în mod asemănător se poate elimina un zerou spectral. 

Această soluţie este însă incompatibilă cu cerinţa de compresie a datelor, respectiv cu cerinţa de 

reducere a debitului de informaţie.

6.2.2. Sinteza formantică 

167 


Sinteza formantică a apărut prin anii ’50 prin contribuţia specialiştilor Lawrence şi Fant. 

La baza metodei stă faptul că în timp ce sunetul vocal parcurge distanţa de la glotă până la buze, 

spectrul larg al sursei de excitaţie este modulat datorită selectivităţii în frecvenţă a tractului 

vocal, rezultând formaţii. Ideea sintezei formantice este generarea unui spectru vocal în jurul 

acestor formanţi şi cu lărgimea benzii corespunzătoare ([Bod02], [Tod09]). 

Fiecare formant, caracterizat prin frecvenţa de rezonanţă Fk şi banda de trecere Bk, este 

realizat printr-un rezonator de ordinul doi. În general sunt utilizaţi trei-patru formanţi, eventual şi 

alţi formanţi de ordin superior. Rezonatorii pot fi conectaţi în serie (ca scadă) sau în paralel 

rezultând două structuri specifice [Fer97]: 

Configuraţia în serie se bazează numai pe polii funcţiei de transfer a tractului vocal, ceea 

ce este insuficient pentru reprezentarea tuturor sunetelor vocale. Mai mult decât atât s-a 

observat în spectrul vorbirii reale că amplitudinea formanţilor superiori este funcţie a 

formanţilor inferiori, deoarece aceştia din urmă introduc în spectru o pantă de 12 

db/octavă. Acest fenomen nu se poate simula prin serializarea filtrelor. 

Configuraţia paralelă a filtrelor cu doi poli complex conjugaţi este mai generală. Aceasta 

permite obţinerea unei funcţii de transfer cu poli şi zerouri dorite, motiv pentru care 

această metodă este convenabilă pentru generarea sunetelor care conţin zerouri (de 

exemplu sunetele nazale). 

Avantajele metodei de sinteză formantică sunt [Fer97]: 

Parametrii de sinteză sunt în relaţie strânsă cu producerea şi propagarea sunetului prin 

tractul vocal. Dacă se respectă condiţia continuităţii în evoluţia parametrilor, 

sintetizoarele formantice pot genera sunete sintetice cu sonoritate plăcută. 

Pe lângă tipurile de excitaţie uzuale (sonor, nesonor) sintetizoarele formantice permit 

utilizarea excitaţiei mixte adică generarea unui semnal de excitaţie care conţine atât o 

componentă periodică cât şi o componentă aleatoare de tip zgomot. 

Dintre dezavantaje amintim [Fer97]: 

Problema majoră a sintetizoarelor formantice este obţinerea datelor cu care se va opera. 

Urmărirea traiectoriei formanţilor este o sarcină foarte dificilă datorită faptului că această 

analiză nu poate fi automatizată complet, iar determinarea lăţimilor de bandă aferente 

este şi mai problematică. 

Alt dezavantaj provine din sonoritatea prea netedă realizată. În vorbirea reală există şi 

tranziţii rapide, iar anumiţi formanţi pot să dispară pe durata acestora. Modelarea acestor 

efecte necesită reguli precise şi numeroase, dar care duc la creşterea corespunzătoare a 

calităţii vocii sintetizate. 

Sinteza formantică permite generarea unei voci sintetice de calitate foarte bună, dar faza 

de analiză şi pregătirea datelor poate fi greoaie, iar valoarea parametrilor finali trebuie 

determinată prin încercări succesive sau utilizând metode de optimizare pe baza unor criterii 

specifice.

168 


O altă variantă a sintezei formantice, şi anume metoda sintezei formantice în domeniul 

timp, se utilizează pentru sinteza vocii cântate [Fer97]. Această metodă se bazează pe 

superpoziţia şi concatenarea formelor aferente diferiţilor formanţi. 

Metoda permite stabilirea exactă a timpului de atac şi a perioadei de cădere (amortizare), 

factorii având importanţă deosebită în cazul sunetelor muzicale, permiţând obţinerea unor 

rezultate de o calitate remarcabilă. Achiziţia şi pregătirea datelor este însă la fel de anevoioasă ca 

şi în cazul sintezei formantice în domeniul frecvenţă. 

6.2.2.1. Realizarea excitaţiei 

În cazul sistemului fonator, funcţionarea sursei (corzi vocale) şi a filtrului (tractul vocal) 

poate fi considerată independentă. Acest fapt prezintă avantaj în cadrul sintezei. Plecând de la 

observarea directă a mişcării corzilor vocale, Flanagan a determinat pe bază de calcule forma 

undei glotice. Aceasta variază numai puţin în funcţie de sunetele emise. 

Deschiderea glotei se produce lent, după care urmează închiderea bruscă a acesteia. 

spectrul aferent prezintă o pantă asimptotică de -40 db/decadă. 

Practic se încearcă reproducerea acestui spectru cu diferite aproximaţii. A fost 

experimentată, de exemplu, aproximaţia triunghiulară. Aceasta este foarte simplă, dar spectrul 

său poate să prezinte un zero, ceea ce ar perturba primul formant. 

Cea mai bună aproximare se poate obţine cu aproximaţia polinomială, dar şi aceasta 

prezintă discontinuităţi ale derivatei sale. De obicei această undă se interpolează în funcţie de 

variaţia perioadei fundamentale. 

O altă metodă utilizată constă în excitarea unui filtru trece jos de ordinul doi printr-un 

tren de impulsuri. 

Se poate observa că, faţă de unda glotică naturală, aceasta este inversată în timp, motiv 

pentru care se modifică faza spectrului, nu însă şi amplitudinea. Frecvenţa de tăiere a filtrului 

trece-jos utilizat este de ordinul a 50 Hz. 

Acestea au fost metodele de excitare pentru sunetele sonore. 

Cele nesonore se obţin prin excitarea cu secvenţe pseudoaleatoare a căror caracter 

periodic este insesizabil, dacă perioada depăşeşte 5 secunde. 

6.2.2.2. Sinteza în cascadă 

Acest tip de sinteză constă în înscrierea a 3 sau 4 rezonatori de ordinul doi, care 

realizează fiecare câte un formant de frecvenţa Fk şi banda de trecere Bk. Transmitanţa se 

normează pentru a obţine câştig nul la frecvenţă zero. 

Transmitanţa are expresia [Fer97]: 

unde : 

T 

B 

k 

k z 1 2 

1b 

1 z b 

2 z 

k 

k 

(6.2)

2k k 

b1k 2 

b2 

cos k 

Bk 1 

b 

1 b 

k 2k 

1 

2 

B 

/ f 

169 

es 

2 F 

/ f 

(6.3) 

k 

es 


Dacă transmitanţa canalului vocal se consideră a poseda numai poli, transmitanţa globală 

va fi [Fer97]: 

T 

K 

z 

k1 

1b 

1k 

B 

z 

k 

1 b 

2k 

Pentru sunete nazale sinteza în cascadă necesită câteva celule antirezonante, realizând 

astfel câte un antiformant. Aceste celule au o pereche de zerouri conjugate şi sunt caracterizate 

printr-o frecvenţă de rezonanţă F şi o bandă de trecere B. 

Transmitanţa unei asemenea celule este [Fer97]: 

unde 

şi 

z 

z 

2 

(6.4) 

1 2 

T a 0 a 

1z 

a 

2z 

(6.5) 

a 

a 

0 

12 

B / f 

(6.6) 

2 

es 

2 F 

f 

a a 

cos / 

(6.7) 

1 

2 2 

Alura curbei de câştig este aceeaşi ca şi în cazul anterior, dar cu vârful întors spre jos. 

În principiu ordinea conectării acestor celule este arbitrară, dar pentru asigurarea unei 

repartiţii uniforme a energiei la diferitele nivele ale cascadei, se alege ordinea F3, F1, F2 pentru 

sintetizoare cu trei formanţi. 

Schema bloc a unui sintetizor în cascadă este dată în figura 6.4. Ramura sunetelor sonore 

conţine trei rezonatori şi o celulă bipătratică (pentru sunete nazale). Cealaltă ramură, a sunetelor 

nesonore, conţine doi rezonatori şi o celulă antirezonantă. 

generator periodic 

generator periodic 

 

A 

 

A 

es 

rezonator 

F1 F2 3 

rezonator 

 

F1 

Figura 6.4. Sintetizor în cascadă [Fer97] 

B - Q 

F F z, 

n F p, 

n 

B - Q 

 

F F 

2 

z 

s 

n 

 

Parametrii de comandă sunt indicaţi în figură. Aceştia se obţin prin analiza automată sau 

pot fi extraşi manual dintr-o bază de date. Parametrii Fz,n corespund cu sunetele sonore, Fp,n - cu 

sunete nazale, iar Fz - cu sunetele fricative. 

În urma încercărilor practice se recomandă ca rapoartele Fk/Bk ce caracterizează 

selectivitatea rezonatorilor să fie menţinute fixe.

170 


Tabelul 6.1 indică domeniile de frecvenţă ale parametrilor Fk şi Bk (sunete sonore), Fz,n şi 

Fp,n (sunete nazale), respectiv F1 + , F2 - , Fz (sunete fricative), valori determinate statistic [Fer97]. 

Tabelul 6.1. Domeniile de frecvenţă ale parametrilor Fk şi Bk 

Sunete sonore 

Primul formant (F1) 

Al doilea formant (F2) 

Al treilea formant (F3) 

Rezonanţă nazală (Fp,n) 

Antirezonanţa (Fz,n) 

Sunete nesonore 

Primul formant (F1 + ) 

Al doilea formant (F2 - ) 

Antiformant (Fz) 

6.2.2.3. Sinteza în paralel 

F (Hz) B (Hz) 

100 – 1100 

500 – 2500 

1500 – 3500 

200 – 1000 

200 – 1000 

200 – 500 

1500 – 3500 

800 – 2000 

45 – 130 

5 – 190 

70 – 260 

100 

60 – 300 

60 – 200 

Structura în paralel a rezonatoarelor determină o situaţie mai delicată decât în cazul 

sintezei în cascadă, deoarece în acest caz este necesară cunoaşterea câştigului asociat fiecărui 

formant. Aceste câştiguri corespund reziduurilor polilor rezultaţi din descompunerea 

transmitanţei T(z) în fracţii simple. Calcularea şi realizarea lor trebuie să se facă cu mare 

precizie, fără a introduce zerouri în transmitanţa globală, care are expresia [Fer97]: 

T 

K 

z 

k1 

1b 

1 

k 

h 

z 

k 

1 b 

2 

k 

z 

2 

Prin procedee delicate, acest efect poate fi folosit pentru generarea sunetelor nazale. Se 

obţine o calitate superioară a semnalul generat, motiv pentru care sinteza în paralel este 

preferată, mai ales datorită progresului actual al tehnologiei. 

6.3. Metode de sinteză în domeniul timp 

În continuare se vor prezenta două dintre cele mai cunoscute metode de sinteză în 

domeniul timp, care asigură totodată o calitate înaltă semnalului sintetizat: 

- metoda TD-PSOLA, ce foloseşte principiul compunerii de segmente vocale care se 

întrepătrund, şi 

- metoda bazată pe corpus, ce foloseşte o bază de date (corpus vocal) de dimensiuni mari 

în scopul producerii unei vorbiri de calitate cât mai naturală. 

(6.8)

6.3.1. Metoda TD-PSOLA 

171 


Numele metodei constituie un acronim pentru Time Domain - Pitch Synchronous 

Overlapp and Add, adică metoda în domeniul timp ce foloseşte suprapunerea şi compunerea 

formelor de undă sincron cu frecvenţa ([Dut93], [Ver93]). 

Metoda comportă două faze principale, care sunt comune şi altor metode: faza de analiză 

şi faza de sinteză. 

În faza de analiză se împarte semnalul original în segmente de durată mică (de obicei 

având ca durată dublul perioadei fundamentale a semnalului 2T0), segmente care nu sunt 

separate, ci se suprapun. Aceste segmente se aleg sincron cu frecvenţa (numită pitch). Pentru 

aceasta, aici în faza de analiză se aleg nişte indicatori de fecvenţă numiţi pitch marks, ce vor 

indica centrul segmentului corespunzător din cadrul semnalului vocal. 

În faza de sinteză se calculează durata şi frecvenţa de bază a semnalului din cadrul 

segmentului considerat. În funcţie de aceşti parametrii, ţinând cont şi de indicatorii pitch markers 

stabiliţi în faza de analiză, segmentul vocal se rearanjează pe axa timpului, modificându-şi 

frecvenţa fundamentală, dilatându-se sau contractându-se temporal dacă cum este necesar. 

În final semnalul sintetizat rezultă prin compunerea segmentelor vocale ce se suprapun 

(Overlap and Add). Aici va trebui avut grijă la îmbinarea segmentelor, pentru a nu apărea 

discontinuităţi spectrale deranjante în vorbirea sintetizată. 

6.3.1.1. Modelare matematică 

Modelul metodei de sinteză TD-PSOLA este ilustrat în figura 6.5. 

(x1, p1) 

(X1, P1) 

(x2, p2) 

(X2, P2) 

x(n) Extragerea 

segmentelor 

. 

. 

. 

Mapare 

. 

. 

. 

Overlap 

X(n) 

. 

. 

(xn, pn) 

(Xm, Pm) 

ANALIZA 

SINTEZA 

Segmente suprapuse Segmente mapate 

Figura 6.5. Metoda de sinteză TD-PSOLA 

Faza de analiză porneşte de la semnalul original x(n), şi printr-un procedeu special de 

segmentare, se vor obţine segmentele suprapuse (adică segmente care se intersectează pe axa 

timpului): x1, x2, ... xn . Corespunzător fiecărui segment se aleg indicatorii de frecvenţă ( pitch 

marks): p1, p2, ... , pn . Indicatorii de frecvenţă se pot alege la mijlocul segmentului sau la 

valoarea maximă a intensităţii de semnal.

172 


Segmentele suprapuse xi(n) (overlapping segments) vor fi extrase prin aplicarea unei 

funcţii fereastră segmentului original [Bur97]: 

xi(n) = x(n) h(n-pi) , (6.9) 

unde: h(n) este funcţia fereastră, iar 

pi este indicatorul de frecvenţă pentru segmentul i. 

Semnalul original va fi atunci regăsit ca o sumă de segmente vocale suprapuse: 

x(n) = xi(n) (6.10) 

unde simbolul reprezintă o sumă de intervale care se suprapun (overlapping sum). 

În faza de sinteză va avea loc un proces de mapare a setului de segmente s={xi(n)} 

determinate anterior într-un alt set de segmente S={Xi(n)}. Segmentele Xi(n) se numesc 

segmente mapate sau repoziţionate, setul S fiind un subset sau supraset al lui s, fiind constituit 

din segmentele iniţiale xi(n) repoziţionate pe axa timpului. 

S este un subset al lui s dacă există elemente xi(n) din semnalul original care nu vor fi 

utilizate în compunerea semnalului sintetizat. Dacă, dimpotrivă, în faza de sinteză se vor utiliza 

dubluri ale segmentelor originale, atunci S se va constitui într-un set extins (supraset) al lui s. 

Maparea segmentelor se va face în următorul mod: 

x 

i ( n) 

X i ( n) 

A S 

Fi 

Fi 

A S 

Di 

Di 

unde: - xi(n) sunt segmentele suprapuse iniţiale, 

- Xi(n) sunt segmentele mapate sau repoziţionate, 

- 

- 

A 

i 

S 

i 

(6.11) 

F , F reprezintă frecvenţele de bază ale segmentului cu indicele i în faza de analiză, 

respectiv sinteză, iar 

D , reprezintă durata segmentului i în faza de analiză, respectiv sinteză. 

A S 

i Di 

i 

Ultima fază reprezintă sinteza propriu-zisă, în care are loc compunerea segmentelor 

mapate Xi(n) printr-un proces de suprapunere (overlapping): 

X(n) = Xi(n) , (6.12) 

i 

unde: X(n) reprezintă semnalul sintetizat de la ieşire, iar 

Xi(n) reprezintă segmentele repoziţionate în urma fazei de mapare. 

În figura 6.6 se arată modul de segmentare a unui semnal şi de repoziţionare pe axa 

timpului a segmentelor extrase. Să presupunem că avem un semnal x(t) care prezintă vârfuri de 

intensitate la perioada T0.

173 


În faza de analiză, se vor extrage două segmente x1(t) şi x2(t) de perioadă 2T0 centrate în 

vârfurile de intensitate, aşa cum se observă din figură. Cele două segmente se suprapun pe axa 

timpului de-a lungul unei perioade de semnal T0, şi corespund cu două maxime succesive de 

intensitate ale semnalului original. 

Fiecare segment va avea un indicator de frecvenţă pitch mark ales ca un punct de 

referinţă pe axa timpului al segmentului respectiv. Acesta se poate alege în orice poziţie în 

interiorul segmentului. În cazul nostru, vom alege poziţia sa la mijlocul segmentului, 

corespunzând chiar maximului de intensitate al semnalului. 

După extragerea segmentelor din semnalul iniţial, acestea vor fi ponderate prin 

intermediul unei funcţii fereastră special alese (de obicei se aleg funcţiile Blackman, Hanning 

sau Hamming). Ponderarea cu funcţia fereastră are ca scop aplatizarea formei de undă la capetele 

segmentului pentru a nu denatura semnalul original, care trebuie să se regăsească prin 

compunerea segmentelor extrase, conform relaţiei (6.10). 

Urmează faza de sinteză, în care va avea loc procesul de mapare al segmentelor. Maparea 

reprezintă o repoziţionare pe axa timpului a segmentelor extrase, în funcţie de modificările 

parametrilor prozodici, şi anume a frecvenţei şi duratei semnalului. 

În cazul în care se doreşte modificarea frecvenţei semnalului pentru a schimba tonalitatea 

(înălţimea) vocii, segmentele iniţiale trebuie deplasate pe axa timpului. Deplasarea în avans 

determină mărirea frecvenţei (T1 < T0 , unde T1 este noua perioadă ), iar întârzierea segmentului 

determină micşorarea frecvenţei (T1 > T0 ), situaţie care este ilustrată în figura 6.6. 

Dacă se doreşte modificarea duratei semnalului sintetizat pentru a schimba ritmul 

vorbirii, frecvenţa va trebui să rămână aceeaşi pentru a nu altera tonalitatea vocii. De asemenea, 

în acest caz nu trebuie modificată lungimea segmentului considerat, pentru că aceasta ar duce 

implicit la modificarea frecvenţei semnalului. Schimbarea duratei se va face doar prin adăugarea, 

respectiv omiterea unor perioade întregi ale formei de undă, cu alte cuvinte unele segmente vor fi 

dublate, iar altele omise în cadrul semnalului sintetizat. 

Maparea, adică repoziţionarea segmentelor pe axa timpului, se va face astfel: mai întâi se 

determină noua frecvenţa şi durată a semnalului. Cunoscând noua durată se determină 

segmentele care vor intra în compunerea semnalului sintetizat. Pentru aceste segmente, pe baza 

noilor frecvenţe, se calculează poziţiile indicatorilor de frecvenţă pitch marks de-a lungul axei 

timpului. Apoi eşantioanele de semnal se deplasează în poziţia indicată de fiecare dintre aceste 

referinţe. 

În final, segmentele repoziţionate vor fi îmbinate pentru a recompune semnalul sintetizat. 

Pe porţiunile comune ale segmentelor, semnalul va trebui normat. Normarea se face prin 

medierea pătratică a amplitudinilor celor două segmente: 

x1( 

n) 

x 

2 ( n) 

x( 

n) 

(6.13) 

2 2 

x ( n) 

x 

( n) 

1 

2

x(t) 

x1(t) 

x2(t) 

x1(t) 

x2(t) 

X1(t) 

X2(t) 

p1(t) 

p1(t) 

p1(t) 

T0 

T0 

T1 > T0 

Figura 6.6. Extragerea şi maparea segmentelor în sinteza TD-PSOLA 

174 

p2(t) 

p2(t) 

p2(t) 


SEMNALUL 

ORIGINAL 

SEGMENTELE 

EXTRASE 

SEGMENTELE 

PONDERATE 

SEGMENTELE 

MAPATE

6.3.1.2. Avantajele şi dezavantajele metodei TD-PSOLA 

175 


Metoda asigură o calitate superioară a sintezei rezultată în urma utilizării segmentelor de 

vorbire extrase direct din vorbirea umană reală. Modul de alegere a segmentelor centrate pe 

maximul de intensitate sonoră asigură erori minime datorate compunerii segmentelor suprapuse. 

Astfel, erorile vor putea apare doar la capetele intervalelor, unde semnalul sonor are energie 

mică [Dut93], [Edg96]. 

De asemenea, un alt avantaj major al metodei constă în posibilitatea modificării facile a 

frecvenţei şi duratei de semnal, ceea ce asigură schimbarea prozodiei semnalului vocal sintetizat 

şi implicit creşterea calităţii sintezei. 

Ca dezavantaje, trebuie totuşi menţionate zgomotele care pot apărea la capetele 

intervalelor de segment, datorită erorilor introduse de mediere. De asemenea, în interiorul 

tranziţiilor pot apărea distorsiuni cauzate de erorile de fază, unele porţiuni nesonore putând 

deveni sonore în urma compunerii segmentelor suprapuse. 

6.3.1.3. Îmbunătăţiri ale metodei 

Pentru a elimina o parte din neajunsurile metodei, au fost încercate diferite abordări sau 

îmbunătăţiri. Cele mai cunoscute sunt LP-PSOLA şi MBROLA. 

Tehnica LP-PSOLA (Linear Prediction PSOLA) este o combinaţie între alogoritmul de 

sinteză LPC şi algoritmul PSOLA. Metoda separă excitaţia de semnalul corespunzător tractului 

vocal într-un mod asemănător metodei prin predicţie liniară LPC, folosind minimizarea erorii 

e(t) a semnalului de predicţie (eroare ce se mai numeşte semnal rezidual). Ap oi algoritmul 

PSOLA se aplică doar pe acest semnal rezidual, care are proprietatea de a fi decorelat în 

interiorul fiecărui segment considerat [Edg96]. 

Avantajul care apare din această abordare constă în controlul mult mai bun asupra 

structurii spectrale a semnalului, precum şi în calitatea mult îmbunătăţită a tranziţiilor dintre 

segmente. 

Metoda MBROLA ( Multiband Resynthesis Overlap and Add), proiectată în cadrul 

Facultăţii politehnice din Mons, Belgia, are avantajul de a netezi discontinuităţile spectrale ce 

apar în TD-PSOLA. Metoda lucrează şi ea în domeniul timp, folosind o bază de date vocală 

normalizată şi interpolări la capetele intervalelor de sinteză. Metoda este implementată în cadrul 

unui sintetizor de voce care primeşte la intrare un fişier cu parametrii prozodici şi produce 

vorbirea sintetizată pe baza concatenării difonemelor din baza de date vocală [Dut93].

6.3.2. Metoda bazată pe corpus 

176 


Metoda bazată pe corpus este o metodă relativ nouă (bazele teoretice ale metodei s -au 

dezvoltat în anii 1996-1997), ce elimină unele deficienţe ale sistemelor de concatenare ce 

folosesc unităţi lexicale fixe (foneme, difoneme). Metoda îmbunătăţeşte calitatea semnalului 

sintetizat prin utilizarea unor segmente fonetice cât mai lungi, ştiut fiind faptul că sistemele care 

folosesc îmbinări frecvente ale unităţilor lexicale pierd mult din naturaleţea vorbirii [Hun96], 

[Mob00]. 

Metoda utilizează un corpus vorbit (o bază de date cu înregistrări din vorbirea naturală) 

de dimensiuni relativ mari. În timpul sintezei se vor selecta cele mai lungi unităţi (segmente) 

fonetice din acel corpus pentru generarea vorbirii. Aceasta va duce pe de o parte la reducerea 

numărului de concatenări şi implicit la creşterea calităţii vorbirii, iar pe de altă parte la reducerea 

necesităţilor de prelucrare a semnalului vocal prin utilizarea tehnicilor DSP (de prelucrare 

digitală a semnalului). 

Problemele care trebuie rezolvate aici sunt ([Mob00], [Lee01]): 

1. Măsurarea distanţelor acustice între unităţi pentru alegerea segmentelor fonetice celor 

mai potrivite. Baza de date va conţine mai multe unităţi fonetice corespunzătoare unui anumit 

segment lingvistic (de exemplu o mulţime de foneme „a”, o mulţime de silabe „ma”, etc.), iar 

dintre acestea va trebui selectată doar o singură unitate, ce se potriveşte cel mai bine contextului 

vorbirii. 

2. Construirea optimă a bazei de date vocale în raport cu domeniul lingvistic, din punct 

de vedere al vocabularului şi limbajului folosit. 

De obicei se folosesc baze de date vocale ce conţin mai multe ore de vorbire înregistrată. 

Baza de date este marcată pentru a ţine cont de caracteristicile prozodice. 

3. Acordarea trăsăturilor unităţilor ce se concatenează. Aici se folosesc două tipuri de 

trăsături: segmentale şi prozodice. 

Trăsăturile segmentale se referă la concatenarea a două segmente din context lingvistic 

apropiat. Astfel, este de urmărit să se concateneze două segmente cu trăsături spectrale cât mai 

apropiate pentru a asigura o tranziţie cât mai fină între unităţi. 

Trăsăturile prozodice se referă la concatenarea a două unităţi integrate pe aceeaşi linie 

prozodică, pentru a nu apărea salturi în intonaţia şi melodicitatea vorbirii. 

6.3.2.1. Algoritmul de selecţie a unităţilor acustice 

În vederea selectării unităţilor fonetice din baza de date vocală se va lua în considerare 

minimizarea a două tipuri de costuri: costul pentru distorsiunea unităţilor (Target Cost) şi costul 

pentru distorsiunea concatenării (Concatenation Cost).

177 


Costul pentru distorsiunea unităţilor (Target Cost) calculează distanţele acustice dintre 

unităţile candidat din baza de date vocală şi unităţile ţintă care apar în textul de sintetizat 

[Mob00]: 

TC = d( UC , UT ) (6.14) 

unde: 

- TC = Target Cost, 

- UC reprezintă unitatea candidat, 

- UT este unitatea ţintă. 

Costul pentru distorsiunea concatenării ( Concatenation Cost) calculează distanţele 

spectrale dintre cele două unităţi care se concatenează. Distanţele spectrale se calculează în 

punctul de concatenare [Mob00]: 

CC = d( UN , UN+1 ) (6.15) 

unde: 

- CC = Concatenation Cost, 

- UN şi UN+1 reprezintă două unităţi fonetice succesive din semnalul sintetizat. 

6.3.2.2. Adnotarea bazei de date vocală 

Unităţile acustice din baza de date vocală se adnotează prin vectori de trăsături 

multidimensionali, ce conţin proprietăţile segmentale şi prozodice ale semnalului vocal. 

Proprietăţile segmentale (din interiorul unităţilor fonetice) se referă la parametrii 

lingvistici şi de semnal din segmentul considerat. 

Parametrii lingvistici pot fi: 

- fonemele asociate unităţii acustice L[i], 

- contextul lingvistic al unităţii fonematice C[i]. 

Parametrii de semnal se referă la: 

- frecvenţa fundamentală F0, 

- durata D, 

- amplitudinea de semnal A(n), 

- coeficienţii spectrali X(n). 

Proprietăţile prozodice ţin cont de prozodia segmentală, care este legată de accentuarea 

silabelor din interiorul unui cuvânt, precum şi de prozodia suprasegmentală, legată de intonaţia 

şi modul de rostire al propoziţiilor. Proprietăţile prozodice sunt: 

- conturul frecvenţei fundamentale ΔF(n), 

- conturul amplitudinii de semnal ΔA(n), 

- modificarea duratei segmentului ΔD. 

Astfel, vectorul de trăsături corespunzător unităţii fonetice este de forma: 

VT = [ L[i], C[i] ; F0, A(n), D, X(n) ; ΔF(n), ΔA(n), ΔD ] (6.16) 

unde:

178 


- VT reprezintă vectorul de trăsături al unităţii fonetice, 

- L[i], C[i] reprezintă parametrii lingvistici ai unităţii, 

- F0, A(n), D, X(n) reprezintă parametrii de semnal, 

- ΔF(n), ΔA(n), ΔD reprezintă parametrii prozodici ai segmentului considerat, toţi 

parametrii având semnificaţia indicată mai sus. 

6.3.2.3. Potrivirea unităţilor candidat cu unităţile ţintă 

Paragraful curent se bazează pe lucrările [Hun96] şi [Mob00]. 

Potrivirea unităţilor candidat cu unităţile ţintă se face în timpul rulării (run-time), după 

cum urmează: 

Pentru distorsiunea unităţilor (Target Cost) se compară trăsăturile ce derivă din textul de 

sintetizat cu trăsăturile unităţilor din baza de date vocală. Nu se iau în calcul toate trăsăturile care 

apar în vectorul de trăsături ( 6.16), ci doar cele care se pot determina în timpul rulării. De 

exemplu, pentru unităţile ţintă, ce derivă din textul de intrare, nu se pot determina parametrii de 

semnal. 

Text 

[VT-ţintă] [VT-candidat] 

Figura 6.7. Potrivirea unităţii fonetice cu unităţile candidate 

Pentru distorsiunea de concatenare ( Concatenation Cost) se iau în considerare toate 

trăsăturile unităţilor candidate. Acestea sunt integrate în baza de date, fiind calculate în cadrul 

unui proces off-line. 

ma 

ma 

ma 

ma 

ma 

[VT (`ma`)] [VT (`şi`)] [VT (`na`)] 

ma 

ma 

ma 

ma 

Figura 6.8. Potrivirea unităţilor de concatenat 

şi 

şi 

şi 

şi 

na 

na 

na 

na 

Baza de date 

vocală

179 


În vederea calculării costurilor, fiecare unitate din baza de date va fi asociată cu o stare 

într-un graf. Fiecare stare are asociat un Target Cost, iar fiecare tranziţie în graf are asociat un 

Concatenation Cost. În figura 6.9, Tij reprezintă costul unităţii ( Target Cost), iar 

reprezintă costul concatenării (Concatenation Cost). 

Figura 6.9. Calculul costurilor pentru selecţia unităţilor 

i k 

C ij 

) 1 ( 

De exemplu, în cazul folosirii silabelor ca unităţi fonetice de bază, nodurile grafului 

conţin toate variantele de silabe din baza de date care sunt asociate cuvântului căutat. Astfel, 

pentru cuvântul maşină, prima coloană a grafului conţine toate variantele din baza de date pentru 

silaba ma, a doua coloană conţine variantele silabice pentru şi, iar a treia coloană – silabele nă . 

Fiecare silabă sau nod în graf are asociat un cost de unitate care exprimă calitatea şi proprietăţile 

prozodice ale unităţii (silabei), iar tr anziţiile în graf au asociate un cost de tranziţie sau 

concatenare, care exprimă calitatea îmbinării dintre două silabe. 

Selecţia optimă a unităţilor pentru sinteza textului dorit va fi echivalentă cu găsirea căii 

care minimizează costul total al parcurgerii grafului. Costul total are expresia : 

COST 

N 

 

i1 

( T C 

) , j 1 , ni; 

k 1 , ni1 

(6.17) 

ij 

( i1 

) k 

ij 

unde : 

- COST este costul total al parcurgerii grafului, 

- i este indicele de nivel al grafului, 

- N este numărul total de nivele, 

- j exprimă indicele unităţii curente alese de pe nivelul i, 

- k exprimă indicele unităţii alese de pe nivelul următor (i+1), 

- ni este numărul de noduri de pe nivelul i, 

- Tij este costul unităţii curente de pe nivelul i, 

- 

S 

T11 

T12 

21 

C13 

T13 

22 

C12 

22 

C11 

22 

C13 

21 

C11 

23 

C13 

21 

C12 

23 

C12 

i k 

C ij 

) 1 ( este costul de tranziţie dintre unitatea curentă şi unitatea următoare. 

Aşadar algoritmul de găsire a căii din graf care minimizează acest cost va duce la selecţia 

optimă a unităţilor (numită în literatură unit selection). 

23 

C11 

T21 

T22 

T23 

F

Cost 

180 


6.3.2.4. Calculul costurilor şi măsurile distanţelor dintre unităţi [Mob00] 

Există două metode pentru calculul costurilor (Target Cost Tij , respectiv Concatenation 

i k 

C ij 

) 1 ( ) din graful stărilor: metoda de căutare în spaţiul stărilor ( Weight Space Search) şi 

metoda de grupare a unităţilor în funcţie de context (Context Clustering). 

6.3.2.4.1. Metoda de căutare în spaţiul stărilor (Weight Space Search) 

Această metodă calculează spaţiul total de ponderi (costuri) din graf prin intermediul unei 

abordări de tip analiză-sinteză. Astfel, se iau diferite texte de intrare care se sintetizează prin 

toate posibilităţile de combinare a unităţilor din baza de date. Apoi textul se rosteşte propriu-zis 

de către un vorbitor uman şi apoi se calculează distanţele dintre rostirea sintetizată şi rostirea 

naturală. 

Distanţele calculate în interiorul unităţilor dau costul unităţii (Target Cost), iar distanţele 

calculate în vecinătatea punctelor de concatenare dau costurile de tranziţie (Concatenation Cost). 

Pentru calculul distanţelor se poate folosi distanţa euclidiană cepstrală, calculată pe baza 

parametrilor de semnal ai unităţilor acustice. 

i 

( c ') 

D 

i c i 

2 

(6.18) 

unde: 

- D este distanţa euclidiană cepstrală; 

- Ci, respectiv Ci’ sunt coeficienţii cepstrali ai segmentelor acustice comparate. 

Pe lângă distanţele cepstrale se pot folosi diferenţe perceptuale între semnalul sintetizat şi 

rostirea naturală. Se pot calcula şi predictorii perceptuali care să cuantifice calitatea rostirii 

sintetizate prin concatenarea a două unităţi. 

Metoda de căutare în spaţiul stărilor este o metodă care dă rezultate bune, dar are 

dezavantajul că necesită un număr mare de rostiri pentru calculul ponderilor. Metoda pe care o 

vom prezenta în paragraful următor nu necesită rostiri suplimentare pentru determinarea acestor 

ponderi, folosind distanţe bazate pe similarităţi acustice. 

6.3.2.4.2. Metoda de grupare a unităţilor în funcţie de context (Context Clustering) 

Metoda aceasta se bazează pe construirea unor arbori de decizie (decision tree clustering) 

care grupează în clase de echivalenţă toate apariţiile fonematice din baza de date. O clasă de 

echivalenţă conţine toate apariţiile unei foneme din baza de date care se referă la acelaşi context 

lexical. 

În exemplul următor, pentru fonema « a », celor trei contexte lexicale diferite le sunt 

asociate trei clase de echivalenţă, fiecare clasă conţinând costuri asociate fiecărei apariţii ale 

fonemei în contextul respectiv din baza de date : 

[a] : Clasa 1. « masă » : Ctx=[ms] ; Costuri: [T11, CC11], ..., [T1n , CC1n]; 

Clasa 1. « casă » : Ctx=[cs] ; Costuri: [T21, CC21], ..., [T2n , CC2n]; 

Clasa 2. « fată » : Ctx=[ft] ; Costuri: [T31, CC31], ..., [T3n , CC3n]; 

. . . . .

181 


În exemplul de mai sus, parametrul Ctx indică apariţia contextuală a fonemei, Tij este 

costul unităţii ( Target Cost), CCij este costul de concatenare ( Concatenation Cost), aici fiind 

luate în considerare ponderile asociate contextului stânga, respectiv dreapta al fonemei. Arborele 

de decizie asociat acestui exemplu cu trei clase de echivalenţă este dat în figura 6.10: 

Figura 6.10. Arborele de decizie pentru fonema “a” 

În interiorul clasei de echivalenţă pentru o anumită fonemă, costurile se păstrează ca nişte 

măsuri de similaritate acustică. Astfel, pentru costul unităţii Target Cost se calculează o distanţă 

spectrală a segmentului faţă de un segment de referinţă ales din interiorul clasei, iar pentru costul 

de concatenare Concatenation Cost - o distanţă spectrală calculată în punctele de concatenare, 

relativă la acelaşi segment de referinţă. 

Dacă în cadrul unui cuvânt de sintetizat, pentru o anumită fonemă nu se găseşte o clasă de 

echivalenţă corespunzătoare contextului dorit, se va folosi aceeaşi fonemă dar dintr-o altă clasă 

de echivalenţă (dintr-un alt context), iar costurile se vor interpola pe baza ponderilor existente. 

La fel se va proceda şi în cazul în care nu este disponibilă o fonemă cu caracteristicile prozodice 

de tipul dorit. 

Selecţia unităţilor de concatenat se face pe baza arborilor de decizie fonematici, folosind 

costurile de unitate şi de concatenare pentru fonemele componente. Funcţiile de cost TC (Target 

Cost) şi CC (Concatenation Cost) sunt minimizate folosind un algoritm de programare dinamică. 

Secvenţa de foneme care minimizează costul global pe toată propoziţia va fi secvenţa optimă de 

concatenat. 

T11, CC11 

Avantajul metodei Context Clustering este acela că baza de date cu unităţile acustice e 

organizată off-line, reducându-se astfel timpul de calcul al sintezei. 

a 

Ctx=[ms] Ctx=[cs] Ctx=[ft] 

T1n , CC1n 

T21, CC21 

T2n , CC2n 

T31, CC31 

T3n , CC3n

6.3.2.5. Algoritmul metodei de sinteză bazată pe corpus vocal 

182 


Paşii algoritmului metodei bazată pe corpus vocal sunt prezentaţi în cele ce urmează 

(pentru abordarea Context Clustering) : 

A. Faza de analiză : 

1. Se înregistrează baza de date vocală. 

2. Baza de date este segmentată în unităţi acustice de diferite lungimi. 

3. Baza de date se adnotează cu informaţiile contextuale, prozodice şi de semnal, 

calculându-se vectorii de trăsături ai unităţi acustice. 

4. Se construiesc arborii de decizie bazaţi pe clasele de echivalenţă. 

5. Se calculează costurile Target Cost, Concatenation Cost şi se introduc în arborii de 

decizie. 

B. Faza de sinteză : 

1. Se preia textul de la intrare şi se determină unităţile lexicale (propoziţii, cuvinte, 

silabe şi foneme). 

2. Se determină toate posibilităţile de construire a propoziţiilor pe baza unităţilor 

lexicale componente. 

3. Pentru fiecare secvenţă de unităţi lexicale se determină informaţia de context şi 

caracteristicile prozodice. 

4. Se caută în arborii de decizie secvenţa optimă de unităţi acustice corespun- 

zătoare contextului lexical. 

5. Se sintetizează rostirea prin concatenarea unităţilor acustice din baza de date. 

6.3.2.6. Avantajele şi dezavantajele metodei bazate pe corpus 

Metoda bazată pe corpus este o metodă performantă de sinteză a vorbirii, ce utilizează 

concatenarea unităţilor acustice maximale care se găsesc înregistrate într-un corpus vocal. 

Calculul vectorilor de trăsături ale unităţilor în faza de analiză ce se realizează off-line, definirea 

unor ponderi care să asigure concatenarea unităţilor optime, includerea trăsăturilor prozodice în 

calculul costurilor, reducerea sau chiar anularea nevoii de procesare a semnalului vocal, toate 

acestea reprezintă caracteristicile şi totodată avantajele cele mai importante ale metodei. 

Ca dezavantaje sunt de menţionat necesitatea înregistrării şi întreţinerii unui corpus vocal 

de dimensiuni mari, precum şi faza de analiză laborioasă necesară adnotării bazei de date cu 

caracteristici prozodice şi segmentale. Aceste aspecte pot reprezenta provocări majore pentru cei 

care vor să abordeze metoda bazată pe corpus.

6.4. Contribuţii în proiectarea metodelor de sinteză de voce 

6.4.1. Metoda de sinteză bazată pe silabe pentru limba română 

183 


Ca o dezvoltare specifică metodelor de sinteză prin concatenare, autorul a proiectat şi 

implementat o metodă de sinteză pornind de la text, metodă bazată pe concatenarea silabelor. 

Pentru implementarea metodei a fost necesară stabilirea unor reguli lingvistice în faza de analiză 

a textului şi a unor reguli de îmbinare a formelor de undă pe baza caracteristicilor prozodice. 

Din punct de vedere al clasificării sistemelor text-to-speech, metoda dezvoltată este 

mixtă. Aceasta îmbină caracteristici ale abordării bazate pe concatenarea formelor de undă şi ale 

abordării bazate pe reguli (a se vedea clasificarea făcută în secţiunea 5.2.1 ce prezintă sistemele 

text-to-speech; alte abordări se pot vedea în [Jos97], [Lew99], [Men02]). 

Sinteza de voce prin această metodă se realizează în două faze: analiza textului şi, 

respectiv, sinteza vorbirii (figura 6.11): 

Preprocesare 

Analiza sintaxei 

Determinarea 

unităţilor lingvistice 

Determinarea 

prozodiei locale 

Regăsirea unităţilor 

acustice 

Concatenarea 

unităţilor 

Sinteza 

ANALIZA DE TEXT 

Silabe 

Accente 

BD 

vocală 

SINTEZA VORBIRII 

Figura 6.11. Metoda de sinteză bazată pe concatenarea silabelor

Fiecare fază cuprinde mai multe etape procesuale, astfel: 

I. Analiza textului de sintetizat: 

1. Preprocesarea textului. 

2. Analiza de sintaxă. 

3. Determinarea unităţilor lingvistice: silabele. 

4. Determinarea prozodiei intrasegmentale: accentuarea. 

184 


II. Sinteza vorbirii: 

5. Regăsirea unităţilor acustice din baza de date corespunzătoare unităţilor lingvistice 

din textul de la intrare. 

6. Concatenarea unităţilor acustice. 

7. Sinteza propriu-zisă a vorbirii. 

În faza de analiză de text, preprocesarea este necesară pentru transcrierea fonetică a 

numerelor şi abrevierilor din interiorul textului. Analiza de sintaxă evidenţiază eventualele erori 

care apar în scrierea textului de sintetizat. Urmează apoi determinarea unităţilor lingvistice de 

bază, care în abordarea de faţă sunt silabele. În ultima etapă a analizei de text este determinată 

prozodia intrasegmentală, în corelaţie cu accentuarea cuvintelor. Pentru fiecare etapă din cadrul 

analizei de text au fost concepute seturi de reguli specifice. 

În faza de sinteză, pe baza unui algoritm de căutare în baza de date vocală sunt regăsite 

mai întâi unităţile acustice corespunzătoare unităţilor silabice din textul de la intrare. Unităţile 

acustice sunt concatenate şi apoi convertite sonor în ultima etapă a sintezei vorbirii. 

În continuare sunt prezentate pe rând cele 7 etape procesuale ale metodei de sinteză 

propusă de autor. 

6.4.2. Preprocesarea textului 

Preprocesarea textului se referă la transcrierea în formă textuală a informaţiilor din textul 

iniţial care: 

a) nu sunt scrise cu foneme, ci folosind alte caractere: cifre sau simboluri; 

b) nu formează direct unităţi lexicale, ci prescurtări ale acestora (abrevieri). 

a) Din prima categorie fac parte numerele, alcătuite din cifre, precum şi anumite simboluri 

scrise cu caractere speciale, cum ar fi : 

Simboluri pentru operaţiile aritmetice : 

‘+’ ‘plus’ 

’-’ ‘minus’ 

’x’ ‘ori’ ‘înmulţit cu’ 

’ :’ sau ’/’ ’supra’ ’împărţit la’ 

Simboluri pentru operatorii aritmetici : 

’’ ‘mai mare’ 

’

’>=’ ‘mai mare sau egal’ 

’=’ ‘egal’ 

’!=’ sau ‘’ ‘diferit’ 

b) Abrevierile sunt şi ele împărţite pe categorii: 

Unităţi de măsură: 

‘m’ ‘metru’ 

‘g’ ‘gram’ 

‘l’ ‘litru’ , 

‘Hz’ ‘herţi’ 

‘dB’ ‘decibeli’ 

Prefixe reprezentând subunităţi de măsură: 

‘n’ ‘nano’ 

‘m’ ‘mili’ 

‘c’ ‘centi’ 

‘d’ ‘deci’ 

‘da’ ‘deca’ 

‘k’ ‘kilo’ 

‘M’ ‘mega’ 

Grade ştiinţifice şi universitare: 

‘dr.’ ‘doctor’ 

‘ing.’ ‘inginer’ 

‘asist.’ ‘asistent’ 

‘sl.’ ‘şef lucrări’ 

‘conf.’ ‘conferenţiar’ 

‘prof.’ ‘profesor’ 

Grade de armată: 

‘serg.’ ‘sergent’ 

‘plut.’ ‘plutonier’ 

‘mai.’ ‘maior’ 

‘căp.’ ‘căpitan’ 

‘col.’ ‘colonel’ 

‘gen.’ ‘general’ 

Alte abrevieri: 

‘loc.’ ‘localitatea’ 

‘str.’ ‘strada’ 

‘bl.’ ‘bloc’ 

‘sc.’ ‘scara’ 

‘ap.’ ‘apartamentul’ 

‘tel.’ ‘telefon’ 

185 

Cap. 6. Metode de sinteză de voce

186 


Dintre toate aceste categorii de informaţii, cele mai importante şi cel mai des folosite 

sunt numerele. Pentru explicitarea acestora sub formă textuală, fonematică, au fost concepute 

reguli lexicale speciale. Aceste reguli ţin cont de poziţia unei anumite cifre în cadrul numărului 

pentru a o denomina printr-o anumită categorie verbală: 

Tabelul 6.2. Denominarea unei cifre în cadrul numărului 

Indice Categorie 

n=0 unităţi 

n=1 zeci 

n=2 sute 

n=3 mii 

n=4 zeci de mii 

n=5 sute de mii 

n=6 milioane 

n=7 zeci de milioane 

... 

În continuare se prezintă un extras al setului de reguli pentru transcrierea fonetică a 

numerelor: 

// Definire sufixe : 

term_1x = "sprezece"; 

term[] = {""," ","zeci şi "," sute "," mii ","zeci şi "," sute "," 

milioane "}; 

// Numărul de cifre: 

nrcif; 

// Numărul tradus in litere: 

Cuvint; 

// Definire macrouri: 

CIFRA [0-9] 

1. Reguli pentru tratarea excepţiilor pentru numere alcătuite din două cifre : 

10 { //zece 

// 1023 să nu declanşeze regula : 

if((nrcif!=2)&&(nrcif!=5)&&(nrcif!=8)) 

REJECT; 

copy(Cuvint,"zece "); 

return(NUMAR); 

} 

1{CIFRA} { /* unsprezece, doisprezece */ 

// 1234 sau 123456 să nu declanşeze regula 

if((nrcif!=2)&&(nrcif!=5)&&(nrcif!=8)) 

REJECT; 

// Se marchează excepţia: 

exc_1x=1;

Se repune {CIFRA} in stream-ul de intrare: 

nrcif--; 

unput(yytext[1]); 

} 

2. Regula pentru tratarea cifrei ‘0’ : 

0 { // cifra 0 singulară 

if((nrcif==1)&&(nrini==1)) 

{ 

copy(Cuvint,"zero"); 


} 

// Dacă nu e singulară 

// nu se mai rosteşte "zero zeci", "zero sute" 

nrcif--; 

} 

3. Reguli pentru tratarea cifrelor ‘1’, ‘2’, ‘3’, … : 

1 { //unu 

copy(Cuvint,"unu"); 

cat(Cuvint,term[nrcif]); 

// Excepţiile pentru o sută, o mie, un milion : 

if((nrcif==3)||(nrcif==6)) 

copy(Cuvint,"o suta "); 

// 1000=o mie, dar: 

// 31000= treizeci si unu mii 

if((nrcif==4)&&(nrini==4)) 

copy(Cuvint,"o mie "); 

if((nrcif==7)) 

copy(Cuvint,"un milion "); 

// Excepţie pentru două cifre: ‘unsprezece’ 

if(exc_1x) 

{ copy(Cuvint,"un"); // un 

cat(Cuvint,term_1x); // sprezece 

cat(Cuvint,term[nrcif]); // mii sau milioane 

exc_1x=0; } 

if(nrcif>0) nrcif--; 


} 

2 { //doi 

if(nrcif>=2) 

copy(Cuvint,"doua"); 

else 

copy(Cuvint,"doi"); 

// Excepţie pentru două cifre: ‘doisprezece’ 

if(exc_1x) 

{ 

cat(Cuvint,term_1x); 

exc_1x=0; 

} 

187 





} 

3 { //trei 

copy(Cuvint,"trei"); 

// Excepţie pentru două cifre: ‘treisprezece’ 

if(exc_1x) 

{ 

cat(Cuvint,term_1x); 

exc_1x=0; 

} 




} 

188 


În exemplele de mai sus, copy() şi cat() sunt fucţiile de copiere, respectiv de 

concatenare, iar nrcif este numărul de cifre din care este alcătuit numărul. 

intrare: 

În figura 6.12 se prezintă rezultatul transcrierii fonetice pentru un număr preluat de la 

= ‘9451029’ 

= ‘nouă milioane patru sute cincizeci 

şi unu mii douăzeci şi nouă’ 

Figura 6.12. Un exemplu de transcriere fonetică pentru numere

6.4.3. Analiza sintaxei 

189 


Analiza corectitudinii textului din punct de vedere al sintaxei reprezintă al doilea pas 

preliminar efectuat în vederea realizării unei sinteze de vorbire de calitate. Orice greşeală de 

sintaxă care apare în textul iniţial (generată de obicei prin omiterea unei litere din cuvânt sau de 

omiterea diacriticelor) va duce la sinteza unui cuvânt eronat, ceea ce va avea ca efect atât o 

senzaţie de notă discordantă în rostirea globală, cât şi solicitarea unui efort din partea auditorului 

de recreare mentală a cuvântului corect. Acest efort induce diminuarea atenţiei faţă de cuvintele 

care urmează, şi chiar la pierderea sensului întregii propoziţii care conţine aceste cuvinte. 

Pentru a înlătura aceste dezavantaje şi a realiza o sinteză de voce de calitate ridicată, este 

prin urmare nevoie de un analizor de verificare a corectitudinii sintactice a textului. Un astfel de 

analizor se poate proiecta prin două metode de bază: prin construirea unui vocabular complet 

pentru limba respectivă, sau prin folosirea unor reguli gramaticale sintactice, însoţite de 

specificarea unor condiţii de excepţie. 

Prima metodă este mai completă, dar are dezavantajul unui efort mare de construire a 

unui vocabular pentru acea limbă (care poate avea mai multe zeci de mii de cuvinte), vocabular 

ce trebuie să conţină şi informaţii despre construirea formei flexionate a cuvintelor (de exemplu 

rădăcină sau morfemă, terminaţii pentru declinare sau conjugare). 

A doua metodă necesită generarea unui set de reguli pentru regăsirea formei de bază 

neflexionate a cuvintelor şi verificarea corectitudinii acestora printr-un dicţionar. Metoda are 

dezavantajul unui anumit grad de necompletitudine, depinzând de numărul de excepţii introduse 

în analizor. 

Pentru limba română s-au construit câteva variante de vocabulare sau lexicoane ([Dia09], 

[Rol09]), şi un analizor de sintaxă integrat în produsul Microsoft Office Word. Toate aceste 

variante au necesitat un volum mare de muncă din partea unor echipe întregi de lingvişti şi 

programatori. 

Autorul a propus în această lucrare o metodă bazată pe reguli gramaticale, variantă cu un 

cost de proiectare mult mai redus decât în cazul realizării de vocabulare. Metoda are ca punct de 

plecare generatorul automat de analizoare LEX [Fre05], alimentat de o gramatică ce specifică 

regulile sintactice de flexionare a cuvintelor din limba română. Pe lângă aceste reguli au fost 

introduse şi un număr de excepţii care asigură un grad înalt de completitudine în ceea ce priveşte 

acoperirea formelor gramaticale din limba română. 

Metoda este prezentată în figura 6.13. La intrare se prezintă un text cursiv ce conţine 

cuvinte în limba română în diferite forme flexionate. Folosind un set de reguli sintactice de 

flexionare şi un set de excepţii, analizorul LEX generează forma de bază, neflexionată, a fiecărui 

cuvânt de la intrare şi o caută într-un dicţionar. O interfaţă grafică va pune apoi în evidenţă 

cuvintele care au o sintaxă greşită sau care nu au fost potrivite cu setul de reguli din LEX.

TEXT 

Forma 

flexionată 

Figura 6.13. Metoda de analiză de sintaxă propusă de autor 

190 


Analizorul sintactic ia în considerare următoarele categorii sau părţi de vorbire din limba 

română: 

SUBSTANTIV 

VERB 

ADJECTIV 

PǍRŢI DE VORBIRE ADVERB 

ARTICOL 

CONJUNCŢIE 

PREPOZIŢIE 

NUMERAL 

PRONUME 

INTERJECŢIE 

Părţile principale de vorbire pot fi flexionate astfel: 

SUBSTANTIV Propriu 

ADJECTIV Nominativ / Acuzativ 

ADVERB 

ARTICOL Genitiv / Dativ 

PRONUME 

VERB 

REGULI 

de 

flexionare 

EXCEPŢII 

Comun 

LEX 

Diminutiv 

Infinitiv 

Prezent 

Imperfect 

Conjunctiv 

Nominativ / Acuzativ 

Genitiv / Dativ 

Vocativ 

Forma de 

bază 

neflexionată 

Participiu 

Perfect Simplu 

Mai Mult Ca Perfect 

Gerunziu 

Viitor 

DICŢIONAR

191 


Pe lângă aceste flexionări, trebuie să se ia în considerare de asemeni şi formele de 

singular/plural, articulat/nearticulat aplicabile substantivului, adjectivului, articolului şi 

pronumelui [Con94]. 

Pentru generarea regulilor de flexionare, metoda ia în considerare terminaţiile cuvintelor 

care pot apărea în diferite forme flexionate. Setul de reguli introdus în LEX este organizat pe 10 

grupe distincte, corespunzătoare celor 10 tipuri gramaticale (părţi de vorbire) prezentate anterior. 

Fiecare grupă are un subset de reguli care în funcţie de terminaţia cuvântului construiesc forma 

neflexionată corespunzătoare şi o transferă modulului de verificare cu dicţionarul. 

6.4.3.1. Modul de funcţionare al analizorului de sintaxă 

Pentru fiecare cuvânt din textul sursă se parcurge tot setul de reguli, încercându-se 

potrivirea cu fiecare clasă corespunzătoare unei părţi de vorbire. Dacă se întâlneşte terminaţia 

specificată de o regulă, atunci acea regulă se activează, se înlocuieşte terminaţia curentă cu forma 

neflexionată precizată tot de regula respectivă, apoi se declanşează acţiunea de verificare a 

existenţei formei neflexionate în dicţionar. Dacă există, cuvântul se memorează împreună cu 

modul de flexionare specificat de acea regulă. Modul de flexionare cuprinde : cazul, genul, 

articularea, numărul persoanei – pentru substantive, iar pentru verbe – tipul de conjugare. Apoi 

cuvântul se confruntă cu următoarele reguli, generându-se în final o listă cu toate formele găsite 

posibile de analizor (figura 6.14) : 

Cuvânt neflexionat 

Cnf1 

Cnf2 

Cnfn 

Cuvânt flexionat 

Cf1 

Cf2 

Cfn 

Tip dicţionar Td1 Td2 Tdn 

Parte de vorbire Pv1 Pv2 Pvn 

Număr persoane Np1 Np2 Npn 

Gen G1 G2 Gn 

Caz C1 C2 Cn 

Timp T1 T2 Tn 

Articulare A1 A2 An 

Figura 6.14. Lista generată cu formele flexionate posibile 

În lista din figura 6.14, reprezintă categoria sintactică specificată de 

dicţionar, iar reprezintă categoria specificată de analizor. La modul esenţial 

cele două categorii trebuie să coincidă, dar există cazuri în care categoria specificată de dicţionar 

este o particularizare a unui caz mai general, specificat de regulile analizorului. 

De exemplu, fie regula : 

Ri : Term_flex.=’A’ => Term_nonflex.=’Ǎ’ ; Pv.=’SUBST’ ; Np.=’SING’ ; 

G.=’FEM’ ; C.=’NOM’ ; A.=’HOT’ 

Regula se referă la cuvinte care au terminaţia ‘A’. În acest caz se asumă cuvântul ca fiind 

substantiv, de număr singular, gen feminin, caz nominativ, articulat hotărât, având terminaţia 

formei neflexionate ‘Ǎ’. Dacă avem două cuvinte :

192 


1) cuvântul ‘FATA’: avem Pv.=’SUBST’ din analizor, iar din dicţionar Td.= 

’SUBST’, dar 

2) cuvântul ‘FRUMOASA’: avem Pv.=’SUBST’ din analizor, iar din dicţionar 

Td.= ’ADJ’. 

Pentru a verifica dacă formele găsite sunt valide, se face o confruntare pe bază de 

compatibilitate a categoriilor specificate de analizor prin reguli şi cele găsite din dicţionar. Dacă 

cele două categorii nu sunt compatibile, atunci acea formă se elimină din listă. Dacă sunt 

compatibile, atunci forma flexionată se declară validă. 

Compatibilităţile dintre categoriile sintactice analizor/dicţionar sunt următoarele: 

Tabelul 6.3. Compatibilităţile dintre categoriile sintactice analizor / dicţionar 

Categorie sintactică analizor Categorie sintactică dicţionar 

Substantiv Substantiv, Adjectiv, Adverb, 

Pronume 

Articol sau Numeral Articol, Numeral, Pronume 

Verb Verb 

6.4.3.2. Regulile specificate de analizorul de sintaxă 

Setul de reguli pentru analiza de sintaxă este organizat modular, urmărind cele 10 

categorii gramaticale prezente în dicţionar. Fiecare categorie se împarte în subcategorii (de ex. 

pentru substantive avem substantive comune, nume proprii, diminutive), iar pentru fiecare 

subcategorie se generează reguli pentru toate formele flexionate (declinări la substantive, 

conjugări la verbe), grupate după clase de terminaţii comune. La fiecare clasă se mai adaugă un 

set de excepţii (figura 6.15): 

REGULI 

SINTAXǍ 

CATEGORII 

SUBCATEGORII 

FORME 

FLEXIONATE 

TERMINAŢII 

EXCEPŢII 

Substantiv Adjectiv Verb … 

Subst. comun Diminutiv … 

Nominativ Dativ … 

Subst: ‘ea’ Subst: ‘ia’ … 

Figura 6.15. Organizarea setului de reguli pentru analiza de sintaxă

193 


Gramatica analizorului defineşte o serie de constante – folosite în definiţiile regulilor, şi o 

serie de primitive – invocate prin activarea regulilor. 

Constantele definite sunt următoarele : 

%} 

VOC [aeiouãîâyÃÎÂ] % Vocală 

CONS [bcdfghjklmnpqrstvxzºþªÞ] % Consoană 

LIT ([a-z]|[ãîâºþ]|[ÃÎÂªÞ]) % Literă 

SEP [ \t,\n\r\?\!\x00] % Separator sau sfârşit de fişier 

SEPB [ \t,\n\r\?\!] % Separator 

SEP0 [\x00] % Sfârşit de fişier 

LIN [-–] % Cratimă 

%% 

Au fost definite următoarele primitive : 

Caut( tip, i, str) 

- Căutare în dicţionar a cuvântului curent, căruia i se asociază tipul de flexionare ; 

cuvântul neflexionat se construieşte prin înlocuirea terminaţiei de lungime printr-un 

substring 

CautVerbPrez( sterm, str) 

- Căutare în dicţionar a cuvântului curent, care se consideră verb la timpul prezent. Forma 

neflexionată se obţine prin înlocuirea terminaţiei specificate de prin substringul 

. Şirul specifică terminaţiile pentru persoanele întâia, a doua şi a treia 

singular, şi întâia, a doua şi a treia plural: 

= "t1_sg|t2_sg|t3_sg|t1_pl|t2_pl|t3_pl" 

CautVerbImperf( sterm, str) 

Căutare în dicţionar a cuvântului curent considerat verb la timpul imperfect. Forma 


. Şirul specifică terminaţiile pentru persoanele întâia, a doua şi a treia singular 

şi plural, la fel ca mai sus. 

CautVerbPerfSimplu( sterm, str) 

Căutare în dicţionar a cuvântului curent considerat verb la timpul perfect simplu. Forma 


. 

CautVerbMaiMultCaPerf( sterm, str) 

Căutare în dicţionar a cuvântului curent considerat verb la timpul mai mult ca perfect. 

Forma neflexionată se obţine prin înlocuirea terminaţiei specificate de prin substringul 

.

194 


CautVbPrezN( sterm, str) 

Căutare în dicţionar a cuvântului curent considerat verb neregulat la timpul prezent. Forma 

neflexionată se obţine prin înlocuirea sintagmei specificate de prin forma neflexionată 

. Şirul specifică forma verbului pentru persoanele întâia, a doua şi a treia 

singular, şi întâia, a doua şi a treia plural : 

= "vb1_sg|vb2_sg|vb3_sg|vb1_pl|vb2_pl|vb3_pl" 

CautVbImpfN( sterm, str) 

Căutare în dicţionar a cuvântului curent considerat verb neregulat la timpul imperfect. 

Forma neflexionată se obţine prin înlocuirea terminaţiei specificate de prin forma 

neflexionată . Şirul specifică terminaţiile verbului pentru persoanele întâia, a 

doua şi a treia singular, şi întâia, a doua şi a treia plural : = 

"t1_sg|t2_sg|t3_sg|t1_pl|t2_pl|t3_pl" 

CautSAD(terminatie, str) 

Căutare în dicţionar a cuvântului curent considerat Substantiv Singular 

Articulat sau Dativ. Terminaţiile sunt independente şi sunt specificate prin : 

="term_art-term_dat". Forma neflexionată se obţine prin înlocuirea 

terminaţiei specificate de prin substringul . 

CautSPAD(terminatie, str) 

Căutare în dicţionar a cuvântului curent considerat Substantiv Plural 

Articulat sau Dativ. Terminaţiile sunt specificate prin : 

="sir_plural-term_art-term_dat". Terminaţiile formelor 

Articulat şi Dativ se adaugă terminaţiei "sir_plural". Forma neflexionată se 

obţine prin înlocuirea terminaţiei specificate de prin substringul . 

CautDat(terminatie, str) 

Căutare în dicţionar a cuvântului curent considerat Pronume Dativ cu formele 

Masculin, Feminin, Plural. Terminaţiile sunt independente şi sunt specificate prin 

şirul : ="term_masc-term_fem-term_plural". Forma neflexionată 

se obţine prin înlocuirea terminaţiei specificate de prin substringul . 

ReplaceLast(c_init, c_final) 

- Înlocuirea caracterului prin caracterul din cuvântul curent. 

Căutarea se face de la sfârşit către început. 

ReplaceSecond(c_init, c_final) 

- Înlocuirea celui de-al doilea caracter prin caracterul din 

cuvântul curent. Căutarea se face de la sfârşit către început. 

În plus, corespunzător cu primitivele Caut au fost definite o serie de primitive Caută 

care au aceeaşi semnificaţie cu primele, dar conţin încapsulate directiva REJECT, ceea ce va 

duce în mod automat la căutarea unei noi forme, indiferent dacă forma curentă a fost sau nu 

găsită în dicţionar.

195 


După această prezentare a primitivelor, în continuare se prezintă câteva reguli 

semnificative pentru categoriile gramaticale de bază, împreună cu exemplele asociate. Regulile 

conţin specificarea uneia sau mai multor terminaţii pentru formele flexionate, şi o acţiune care se 

va declanşa la validarea acelei reguli. 

SETUL DE REGULI PENTRU ANALIZA DE SINTAXǍ (extras) 

SUBSTANTIVE VOCATIV 

{LIT}+o/{SEP} {// ex: “frumoaso" 

tip=S_VOC_FEM_SG; 

// se repun literele in streamul de intrare 

// cu 'ã' la sfirsit: ‘frumoaso’ = 0; --i ) 

unput( yytext[i] ); 

} 

{LIT}+ule/{SEP} {/*VOCATIV 

domnule*/ 

Cauta(S_VOC_MAS_SG,3,""); 

} 

DIMINUTIV NEARTICULAT 

{LIT}+uţã/{SEP} {/* DIMINUTIV 

cutie-cutiuţã, maşinã-maşinuţã*/ 

ReplaceSecond('ã','a'); //mãsuţã

{LIT}+(le|lui)/{SEP} {/*peştele*/ 

CautaSAD("le-lui",""); 

} 

{LIT}+i(a|ei)/{SEP} {/*falia*/ 

CautaSAD("a-ei","e"); 

} 

{LIT}+a/{SEP} {/*fata*/ 

Caut(S_ART_SG,1,"ã"); 

if(!gasit) // vremea 

Caut(S_ART_SG,1,""); 

REJECT; 

} 

SUBSTANTIVE NEARTICULATE 

{LIT}+{CONS}ã/{SEP} {/*specificã*/ 

TipLex="sf"; 

Caut(S_SG,1,""); 

if(!gasit) // multiplã

PRONUME / ARTICOL 

197 


acel|acest|ãst|anumit|alt|atât|un|vreun)(ui|ei|or)/{SEP} 

{CautaDat("ui-ei-or",""); 

} 

(ori|fie)?cãr(ui|ei|or)/{SEP} { 

CautaDat("ãrui-ãrei-ãror","are"); 

} 

PARTICIPIU VERBAL 

{LIT}+t/{SEP} {/*purtat*/ 

Cauta(V_PART_MAS,1,""); 

} 

{LIT}+tã/{SEP} {/*purtatã*/ 

Cauta(V_PART_FEM,2,""); 

} 

VERBE GERUNZIU 

{LIT}+ând/{SEP} {// a juca - jucând 

Caut(V_GER,3,"a"); 

if(!gasit) // a merge - mergând 

Caut(V_GER,3,"e"); 

if(!gasit) // a doborâ -doborând 

Caut(V_GER,2,""); 

REJECT; 

} 

VERBE GRUPA A 

{LIT}+ez/{SEP} {/* a abona : abonez*/ 

Cauta(V_PREZ_P1_SG,2,"a"); 

} 

{LIT}+ezi/{SEP} {/* abonezi */ 

Cauta(V_PREZ_P2_SG,3,"a"); 

} 

{LIT}+eazã/{SEP} {/* aboneazã */ 

Cauta(V_PREZ_P3_SP,4,"a"); 

} 

VERBE GRUPA E 

{LIT}+{CONS}/{SEP} {/* a merge : merg */ 

Cauta(V_PREZ_P1_SG,0,"e"); 

} 

{LIT}+{CONS}i/{SEP} {/* mergi */ 

Cauta(V_PREZ_P2_SG,1,"e"); 

}

{LIT}+{CONS}e/{SEP} {/* merge */ 

Cauta(V_PREZ_P3_SG,0,""); 

} 

VERBE GRUPA I 

{LIT}+iu/{SEP} {/* a şti: ştiu */ 


} 

{LIT}+ii/{SEP} {/* ştii */ 


} 

{LIT}+ie/{SEP} {/* ştie */ 


} 

VERBE IMPERFECT GRUPA A 

{LIT}+am/{SEP} {/* IMPERFECT 

acceptam */ 

Cauta(V_IMPERF_P1_SG,1,""); 

} 

{LIT}+ai/{SEP} {/* IMPERFECT acceptai */ 


} 

{LIT}+a/{SEP} {/* IMPERFECT accepta */ 


} 

VERBE IMPERFECT GRUPA E 

{LIT}+eam/{SEP} {/* IMPERFECT 

mergeam */ 


} 

{LIT}+ea/{SEP} {/* IMPERFECT mergea */ 


} 

{LIT}+eai/{SEP} {/* IMPERFECT mergeai */ 

Caut(V_IMPERF_P2_SG,2,""); 

} 

VERBE IMPERFECT GRUPA I 

{LIT}+iam/{SEP} {/* IMPERFECT 

ştiam */ 


} 

198 


{LIT}+ia/{SEP} {/* IMPERFECT ştia */ 


} 

{LIT}+iai/{SEP} {/* IMPERFECT ştiai */ 


} 

VERBE CONJUNCTIV 

{LIT}+e/{SEP} {/* CONJUNCTIV 

a verifica - sã verifice */ 

Cauta(V_CONJ,1,"a"); 

} 

{LIT}+ã/{SEP} {/* CONJUNCTIV 

a admite - sã admitã */ 

Cauta(V_CONJ,1,"e"); 

} 

VERBE PERFECT SIMPLU 

199 


{LIT}+(ui|uşi|u|urãm|urãţi|urã)/{SEP} { 

/*putea-putu*/ 

CautVerbPerfSimplu("ui|uşi|u|urãm|urãţi|urã","ea"); 

if(!gasit) // incepe - incepu 

CautVerbPerfSimplu("ui|uşi|u|urãm|urãţi|urã","e"); 

REJECT; 

} 

VERBE MAI MULT CA PERFECT 

{LIT}+(usem|useşi|use|userãm|userãţi|userã)/{SEP} { 

// putea- putuse 

CautVerbMaiMultCaPerf("usem|useşi|use|userãm|userãţi| 

userã","ea"); 

if(!gasit) // începe - începuse 

CautVerbMaiMultCaPerf("usem|useşi|use|userãm|userãţi| 

userã","e"); 

REJECT; 

} 

NUMERAL 

(un|prim)ul/{SEP} {//NUMERAL 

TipLex="num"; 

Cauta(GENERIC,2,""); 

} 

(un|trei|şase|şapte|opt|nou|zece)a/{SEP} {//NUMERAL 

TipLex="num"; 

Cauta(GENERIC,1,""); 

}

200 


În setul de reguli prezentat, categoria gramaticală propusă de analizor (substantiv cu o 

anumită declinare, verb într-o anumită conjugare, etc.) se poate specifica în trei moduri distincte: 

a) implicit prin apelul unei primitive specifice pentru acea categorie, de exemplu : 

CautVerbMaiMultCaPerf(term, str) => 

P.v.=’VERB’; Timp=’MMCP’ 

b) primul parametru al primitivei Caut / Caută , de exemplu : 

Caut(V_CONJ, len, str) => 

P.v.=’VERB’; Timp=’CONJUNCTIV’ 

c) prin folosirea variabilei TipLex, care rescrie categoria gramaticală în modul 

specificat: 

TipLex=’sf’ => P.v.=’SUBST’; Gen=’FEM’ 

În plus, pentru categoriile gramaticale neflexionate (cum ar fi pronume, adverbe, 

conjuncţii, interjecţii, verbe la infinitiv, substantive nearticulate) s-a introdus o regulă generală 

care caută acea formă direct în dicţionar, fără a mai urmări înlocuirea terminaţiei ca în modul 

flexionat: 

{LIT}+/{SEP} {/* Se caută cuvântul întreg neflexionat */ 

Caut(GENERIC,0,""); 

} 

Desigur că aici nu au fost prezentate explicit regulile de flexionare ale limbii române 

pentru fiecare categorie gramaticală, pentru aceasta este de dorit a se consulta bibliografia 

indicată [Gra08]. 

Cu privire la setul de reguli pentru analiza sintaxei prezentat în acest capitol, se poate 

face observaţia că au fost cuprinse în acest set categoriile gramaticale de bază, nu şi cele a căror 

formă nu se schimbă faţă de categoria principală de bază. 

Astfel, pentru categoria Substantiv declinările pentru cazul Dativ şi Genitiv sunt identice, 

ambele situaţii fiind memorate ca Dativ : 

Articol : Hotărât Nehotărât 

Dativ: ‘am dat fetei caietul’ ‘am dat unei fete caietul’ 

Genitiv : ‘caietul fetei’ ‘caietul unei fete’ 

De asemeni forma la Acuzativ este identică cu forma de Nominativ a substantivului : 

Articol : Hotărât Nehotărât 

Nominativ: ‘fata se plimba ’ ‘o fată se plimba ’ 

Acuzativ : ‘mă plimbam cu fata’ ‘mă plimbam cu o fată’ 

În cazul verbului, Imperativul are aceeaşi formă cu Prezentul : 

Singular Plural 

Imperativ: ‘Vorbeşte mai încet! ’ Imperativ : ‘Vorbiţi mai tare !’ 

Prez. Pers. 3: ‘el vorbeşte încet’ Prez. Pers. 2: ‘voi vorbiţi tare’

De asemeni Viitorul se construieşte pe baza Infinitivului : 

Singular Plural 

Viitor: ‘va fi’ ; ‘va urma’ Viitor : ‘vor fi’ ; ‘vor urma’ 

Infinitiv: ‘a fi’ ; ‘a urma’ Infinitiv: ‘a fi’ ; ‘a urma’ 

201 


Tot în cazul verbului, Conjunctivul are aceeaşi formă cu Prezentul la persoana întâia 

singular şi plural, apărând diferenţe doar la persoana 3 singular şi plural : 

Conjunctiv Prezent 

Pers. 1 sg. să fac eu fac 

Pers. 2 sg. să faci tu faci 

Pers. 3 sg. să facă el face 

Pers. 1 pl. să facem noi facem 

Pers. 2 pl. să faceţi voi faceţi 

Pers. 3 pl. să facă ei fac 

6.4.3.3. Rezultate obţinute cu analizorul automat de sintaxă 

Analizorul automat de sintaxă se bazează pe un dicţionar ce conţine peste 30.000 de 

forme neflexionate ale limbii române şi pe un set de 550 de reguli de flexionare. Analizorul a 

fost testat pe o serie de texte în limba română de diferite genuri, de la literatură la documente 

tehnice, însumând peste 200.000 de cuvinte. Testele au dovedit o corectitudine de peste 98% 

cuvinte recunoscute corect, cuvintele nerecunoscute constituind excepţii care nu au fost încă 

introduse în setul de reguli. Aceste rezultate arată completitudinea setului de reguli proiectat, 

precum şi viabilitatea metodei propuse de autor. 

Pentru testarea analizorului a fost creată o aplicaţie în limbajul Visual C++, în care s-a 

integrat modulul de analiză generat prin LEX pe baza setului de reguli prezentat. În figura 6.16 

se poate observa interfaţa aplicaţiei în care cuvintele cu sintaxă incorectă sunt puse în evidenţă 

faţă de restul textului : 

Figura 6.16. Interfaţa aplicaţiei de analiză automată de sintaxă

202 


6.4.3.4. Concluzii cu privire la metoda de analiză automată a sintaxei propusă de 

autor 

În această secţiune a fost prezentată o metodă de analiză a sintaxei unui text bazată pe 

reguli. Pentru aceasta, s-a folosit un dicţionar acoperitor pentru formele neflexionate ale limbii 

române, şi s-a construit un set de reguli care să identifice formele flexionate dintr-un text. Setul 

de reguli a fost organizat pe categorii gramaticale, fiind completat cu un set consistent de 

excepţii. 

română ; 

Contribuţiile autorului prezentate în capitolul curent au fost următoarele : 

- dezvoltarea unei metode bazată pe reguli pentru analiza sintaxei unui text în limba 

- proiectarea unui set de reguli pentru flexionarea cuvintelor din limba română (setul 

cuprinde 550 de reguli de flexionare) ; 

- realizarea unei aplicaţii de test pentru validarea rezultatelor. 

Avantajele metodei prezentate sunt următoarele : 

- fiind o metodă bazată pe reguli asigură un efort de proiectare mult mai redus faţă de alte 

metode (cum ar fi cele bazate pe dicţionar de forme flexionate) ; 

- asigură identificarea categoriei gramaticale sintactice (partea de vorbire : substantiv, 

adjectiv, verb, etc.) a cuvintelor dintr-un text scris în limba română ; 

- asigură identificarea cuvintelor cu sintaxă incorectă . 

Dezvoltările posibile şi aplicaţiile metodei sunt şi ele importante : 

- determinarea părţilor de propoziţie (subiect, predicat) pe baza părţilor de vorbire 

detectate deja (substantiv, verb, etc.) va duce la determinarea înţelesului unei fraze, cu aplicaţii 

importante în dialogul om-calculator ; 

- analiza contextului în care apar părţile de vorbire detectate, alături de stabilirea modului 

corect de flexionare, vor duce la construirea unor traducătoare automate de limbaj de înaltă 

fidelitate.

6.4.4. Determinarea unităţilor lingvistice: silabele 

203 


Următoarea etapă în analiza textului de sintetizat constă în determinarea unităţilor 

lingvistice de bază, şi anume: propoziţiile, cuvintele şi silabele. Dacă extragerea propoziţiilor şi a 

cuvintelor nu ridică probleme deosebite, aceasta efectuându-se pe baza semnelor de punctuaţie şi 

a caracterelor de separaţie, nu acelaşi lucru se poate spune despre stabilirea silabelor componente 

ale unui cuvânt. Pentru a realiza acest deziderat a fost necesară proiectarea unui set de reguli 

fonetice pentru despărţirea în silabe. 

Principiul folosit la determinarea unităţilor lingvistice este ilustrat în figura 6.17. Astfel, 

analizorul lingvistic are o structură pe trei nivele, corespunzător cu trei module având roluri 

distincte în identificarea şi tratarea unităţilor fonetice. Cele trei module sunt: 

- modulul de comandă şi procesare computaţională (shell procesare) ; 

- modulul de analiză sintactică pentru determinarea propoziţiilor şi cuvintelor; 

- modulul de analiză lexicală pentru determinarea silabelor. 

Proceduri 

de calcul 

Reguli 

sintactice 

Text 

Reguli 

lexicale 

Shell 

Procesare 

Analizor 

Sintactic 

Analizor 

Lexical 

Procesare 

unităţi 

Propoziţii 

Cuvinte 

Silabe 

Figura 6.17. Analizorul lingvistic pentru despărţirea în silabe 

Shell-ul program are rolul de master, apelând modulele de nivel inferior. Astfel, acesta 

apelează analizorul sintactic pentru a-i returna unităţile sintactice. Analizorul sintactic va apela la 

rândul lui analizorul lexical pentru parcurgerea efectivă a textului şi regăsirea unităţilor lexicale 

de bază. 

Analizorul lexical extrage caracterele din text şi le grupează în unităţi fonetice primare. 

Aici intră determinarea caracterelor alfabetice, numerice, a caracterelor speciale şi semnelor de 

punctuaţie. Pe baza unor reguli de producţie lexicale, caracterele alfabetice vor fi grupate în 

silabe, caracterele numerice în cifre şi numere, iar caracterele speciale şi semnele de punctuaţie 

vor fi folosite în determinarea cuvintelor şi propoziţiilor. 

Cifre 

Separatori

204 


Analizorul sintactic preia silabele, respectiv caracterele speciale şi cifrele furnizate de 

analizorul lexical şi le grupează în cuvinte şi propoziţii. Şi aici a fost necesară stabilirea unui set 

de reguli sintactice pentru departajarea unităţilor fonetice corespunzătoare. 

Modulul de procesare preia în final unităţile fonetice găsite anterior şi, pe baza unor 

proceduri de calcul, le clasifică şi le memorează în structuri speciale. De aici vor fi preluate şi 

transformate în forme de undă de către modulul de sinteză. 

6.4.4.1. Analizorul sintactic folosit în extragerea propoziţiilor şi cuvintelor 

Analizorul sintactic foloseşte un set de reguli de producţie care specifică sintaxa textului 

de la intrare. Textul iniţial este considerat ca o listă de propoziţii, fiecare propoziţie fiind o listă 

de cuvinte, fiecare cuvânt fiind compus din mai multe silabe. Propoziţiile, respectiv cuvintele 

sunt despărţite prin separatori. Astfel, unităţile sintactice prezintă următoarea structură ierarhică: 

Text 

Propoziţie Separatori Propoziţie Separatori Propoziţie Separatori 

Spaţiu Tab Punct Tab Virgulă ? ! . . . 

Cuvânt Separatori Cuvânt Separatori Cuvânt Separatori 

Număr 

Spaţiu Tab Punct Tab Virgulă ? ! . . . 

Întreg Real 

Silabă Silabă Silabă Tab Silabă Silabă 

. . . 

Figura 6.18. Structura ierarhică a analizorului sintactic

205 


În figura 6.18, unităţile care apar pe un fond de culoare mai închisă (silabele, respectiv 

numerele întregi sau reale, precum şi separatorii) sunt de fapt ieşirile analizorului lexical, adică 

sunt unităţi care au fost determinate prin analiza lexicală a textului. Astfel, analizorul sintactic 

invocă analizorul lexical pentru a-i fi furnizat la fiecare apel unitatea lexicală următoare din text: 

o silabă, un număr sau un separator. 

Pe baza acestor unităţi lexicale, la acest nivel se formează unităţile sintactice de tip 

cuvânt, propoziţie sau text. Analizorul sintactic are posibilitatea ca după regăsirea fiecărui tip de 

unitate să apeleze o procedură de calcul pentru procesarea specifică a unităţii. 

6.4.4.1.1. Gramatica analizorului sintactic 

Folosind notaţia BNF, gramatica ce specifică regulile pentru analizorul sintactic prezintă 

următoarea formă: 

%token INTREG 

%token FLOTANT 

%token SILABA 

%token SPATIU 

%token TAB 

%token VIRGULA 

%token PCTVIRG 

%token PUNCT 

%token LINIE_NOUA 

%token LINIUTA 

%token INCEPUT_FISIER 

%token INTREBARE 

%token EXCLAMARE 

%token PARANTEZA 

%token PARANTEZA_INCHISA 

%start text 

%% 

text : propoziţie 

| separatori propoziţie 

| propoziţie separatori 

| separatori propoziţie separatori 

; 

propoziţie : lista_cuvinte 

; 

lista_cuvinte : cuvint separatori lista_cuvinte 

|cuvint 

; 

cuvint : lista_silabe 

| numar 

; 

lista_silabe : silaba lista_silabe 

|silaba 

;

silaba: SILABA 

{ ProcesareSilaba($1);} 

; 

numar: INTREG 


| FLOTANT 


; 

separatori : separator separatori 

| separator 

{ 

InitSeparatori(); 

} 

; 

206 


separator : SPATIU 

{ Spatiu=true;ProcesareSeparator(' ');} 

| TAB 

{ Tab=true;ProcesareSeparator('\t');} 

| VIRGULA 

{ Virgula=true;ProcesareSeparator(',');} 

| PCTVIRG 

{ PctVirg=true;ProcesareSeparator(';');} 

| PUNCT 

{ Punct=true;ProcesareSeparator('.');} 

| LINIE_NOUA 

{ LinieNoua=true;ProcesareSeparator('\n');} 

| LINIUTA 

{ Liniuta=true; ProcesareSeparator(' '); 

ProcesareSeparator('-');ProcesareSeparator(' '); 

} 

| INTREBARE 

{ Intrebare=true;ProcesareSeparator('?');} 

| EXCLAMARE 

{ Exclamare=true;ProcesareSeparator('!');} 

| PARANTEZA 

{ Paranteza=true;ProcesareSeparator('(');} 

| PARANTEZA_INCHISA 

{ ParantezaInchisa=true; 

ProcesareSeparator(')');} 

| INCEPUT_FISIER 

Unităţile care apar în gramatică cu majuscule, specificate la început prin cuvântul cheie token 

(SILABA, INTREG, FLOTANT, etc.), sunt unităţile lexicale returnate de analizorul lexical. 

Unităţile sintactice (care apar cu litere mici la începutul fiecărei reguli) sunt formate pe măsură 

ce analizorul lexical returnează tokenii corespunzători. Astfel, cuvintele sunt formate din silabe, 

iar propoziţiile din cuvinte, respectiv separatori. Se observă că pentru silabe, numere şi separatori 

se apelează proceduri corespunzătoare din cadrul modulului de procesare (explicat în cele ce 

urmează), iar pentru unităţile sintactice (cuvinte, propoziţii) nu sunt specificate apeluri speciale. 

Şi aceasta pentru că analizorul sintactic este încapsulat în interiorul modulului de procesare, şi nu 

ca un modul de sine stătător.

6.4.4.2. Analizorul lexical utilizat în determinarea silabelor 

207 


Analizorul lexical este apelat de către analizorul sintactic pentru regăsirea unităţilor 

fonetice de bază, şi anume: silabele, caracterele despărţitoare şi numerele. Analizorul sintactic va 

grupa aceste unităţi lexicale de bază în cuvinte şi propoziţii. Analizorul sintactic este 

implementat prin program, pe când analizorul lexical este rezultat în urma generării automate 

prin intermediul unui generator de parsere de text, numit LEX [Fre05]. 

Generatorul automat LEX construieşte un analizor lexical pornind de la o gramatică ce 

descrie regulile de producţie ale analizorului. Gramatica se scrie în limbaj standard BNF 

(Backus-Naur Form) şi specifică secvenţele de caractere care trebuie recunoscute din textul de la 

intrare, precum şi acţiunile de efectuat corespunzătoare acestor secvenţe. Secvenţele de caractere 

de recunoscut ţin cont de contextul stânga şi dreapta în care ele apar. 

Analizorul generat preia aşadar de la intrare un text pe care îl va parcurge secvenţial în 

scopul regăsirii secvenţelor specificate în gramatica BNF. În cazul nostru secvenţele se referă la 

regăsirea numerelor, caracterelor speciale şi a silabelor. Procesul realizat de către analizorul 

lexical este ilustrat în figura 6.19. 

Text 

C C C C C C C C C C C C C 

Cifră Separator Alfanumeric 

Reguli de 

producţie 

Întreg Real Sep. 1 … Sep. n Silabă 

Tratare_număr Tratare_separator Tratare_silabă 

Figura 6.19. Analizorul lexical pentru regăsirea silabelor 

Aşa cum se vede din figura 6.19, textul de la intrare este interpretat ca un şir de caractere. 

La început, caracterul curent este clasificat într-una din categoriile: cifră, caracter special sau 

separator, respectiv caracter alfanumeric. Luând în considerare şi contextul anterior precum şi 

contextul următor în care poate să apară, caracterul curent împreună cu caracterele anterior 

parcurse se grupează pentru a alcătui o unitate lexicală: un număr, un separator sau o silabă.

208 


Reguli de producţie specifice pentru fiecare categorie indică modul în care se formează 

aceste unităţi, realizând totodată şi o subclasificare a lor (de exemplu pentru numere dacă este 

întreg sau real, iar pentru separator – tipul acestuia). 

Odată identificat tipul unităţii, caracterele componente sunt memorate şi transmise 

analizorului sintactic prin intermediul unor proceduri numerice (Tratare_număr, 

Tratare_separator, Tratare_silabă). 

6.4.4.2.1. Gramatica analizorului lexical 

Gramatica analizorului lexical se prezintă în format standard BNF. Pentru o listă 

completă a formatului de specificaţie a gramaticii precum şi a capabilităţilor generatorului LEX, 

este indicată consultarea bibliografiei selectate [Fre05] şi a Anexei 1. 

Macrourile definite în LEX au următoarea structură: 

CIFRA [0-9] 

VOC ([aeiouăîây]|[aăeiou][–]|[–][aăeiou]) 

VMARE [AEIOUĂÎÂY] 

CONS [bcdfghjklmnpqrstvxzşţ] 

CMARE [BCDFGHJKLMNPQRSTVXZŞŢ] 

LIT [a-zşţăîâĂÎÂŞŢ] 

CRATIMA ([-](l|i|n|s|[mstşţ]i)) 

DIFT (oa|uă|e[-]?a|îi|Îi|âi) 

IU (iu) 

CIO (cio) 

SEP ([ t\n\r,;:.?!{}\[\]()\x1f]| 

LIN [–] 

[~@#%^&*"'`\|\/\\]|[+=]|[\-][ ]) 

Macrourile de mai sus definesc cifrele, vocalele, consoanele (scrise cu litere mari sau 

litere mici), literele (caracterele alfanumerice), cratima - ca fiind o linie ce desparte cuvântul 

propriu-zis de o terminaţie de tip pronominal (de exemplu ‘punându-l’), diftongii din limba 

română (alăturarea de două vocale care intră în componenţa unei singure silabe) şi separatorii 

(caracterele speciale care despart cuvintele sau propoziţiile). 

În cele ce urmează vor fi prezentate regulile de producţie pentru regăsirea silabelor. În 

primul rând, se ştie că fiecare regulă este urmată de o acţiune, care se realizează atunci când 

caracterele de la intrare sunt potrivite conform regulii respective. Să vedem care sunt acţiunile 

care au fost definite ca răspuns la fiecare potrivire a intrării.

6.4.4.2.2. Acţiunile de realizat la potrivirea intrării 

209 


1. Tratare_Silabă – este acţiunea care confirmă regăsirea unei silabe de la intrare. 

În urma unei astfel de potriviri, se memorează şirul de caractere identificat, se resetează flagul 

Separator pentru a indica modulului de procesare că e vorba de o silabă, şi nu un separator, şi se 

returnează analizorului sintactic tipul SILABĂ al unităţii fonetice. 

Definiţia acestei acţiuni este următoarea: 

#define Tratare_Silaba 

Memorare_Cuvint( ); 

Separator=0; 

return(SILABA); 

2. Tratare_Început – este acţiunea care tratează o excepţie de la regulile de bază. 

De multe ori, în limba română apar situaţii în care un anumit şir de litere se desparte în mod 

diferit în silabe, în funcţie de locul pe care acest şir îl ocupă în cadrul cuvântului (la început, la 

mijloc sau la sfârşit). 

De exemplu, secvenţa ‘PIER’ se comportă diferit în cuvântul: 

(a)‘PIERDE’ , unde secvenţa apare la începutul cuvântului, descompunerea fiind 

‘PIER-DE’, faţă de cuvântul: 

(b)‘COPIERE’, unde secvenţa apare la mijlocul cuvântului, cu descompunerea în silabe 

‘CO-PI-E-RE’. 

Ca urmare, trebuie definită o modalitate care să diferenţieze cele două cazuri, mai precis 

să diferenţieze cazul în care o anumită secvenţă apare la începutul cuvântului. Pentru că 

gramatica LEX-ului nu permite specificarea directă a contextului stânga, se foloseşte flagul 

Separator pentru a trata distinct cele două cazuri. 

Se observă în exemplul de mai sus că în cazul (a) secvenţa ‘PIER’ apare la începutul 

cuvântului, adică după un separator, pe când în cazul (b) secvenţa apare la mijlocul cuvântului, 

adică imediat după regăsirea unei alte silabe. Făcând această observaţie, putem face distincţia 

între cele două cazuri astfel: în primul caz Separator=1, iar în cazul al doilea Separator=0. 

Prin urmare se poate scrie funcţia de tratare a unei secvenţe în cazul în care aceasta se 

află la începutul unui cuvânt, astfel: 

#define Tratare_Inceput 

if(Separator) 

{ 

Separator=0; 


return(SILABA); 

} 

else 

REJECT; 

/* toata intrarea se revocă, 

mergându-se la potrivirea următoare */

210 


În cazul în care Separator=0 nu se acceptă potrivirea întregii secvenţe, şi ea va fi 

descompusă în silabe prin regulile următoare. 

3. Tratare_Număr – este acţiunea care specifică regăsirea unui număr alcătuit din 

mai multe cifre. Se admit numere întregi sau reale (cu virgulă). La regăsirea unui număr după o 

secvenţă de mai multe cifre, se memorează caracterele, se resetează flagul Separator şi se 

returnează analizorului sintactic tipul identificat (ÎNTREG sau FLOTANT). 

Definiţia acestei acţiuni este: 

#define Tratare_Numar(tip_numar) 


Separator=0; 

return(tip_numar); 

4. Tratare_Separator – este acţiunea care specifică potrivirea de la intrare a unui 

separator, adică a unui caracter despărţitor între cuvinte şi propoziţii. 

Definiţia acestei acţiuni este de forma: 

#define Tratare_Separator(tip_separator) 

Separator=0; 

return(tip_ separator); 

Aici nu mai este necesară memorarea caracterului separator, acesta rezultând implicit din 

tipul returnat. 

6.4.4.2.3. Regulile de producţie pentru despărţirea în silabe 

A. Formatul regulilor 

O regulă pentru despărţirea în silabe poate avea una din următoarele forme: 

{ROOT_PATTERN} { Tratare_Silaba;} (F1) 

{ROOT_PATTERN}/{PATTERN} { Tratare_Silaba;} (F2) 

{PATTERN}{ENDING_PATTERN}/{SEP} { Tratare_Silaba;} (F3) 

Regula(F1)se aplică de exemplu pentru diftongi precum /OA/ sau /IU/, respectiv grupuri 

de foneme care apar întotdeauna în aceeaşi silabă din cadrul rădăcinii unui cuvânt 

(ROOT_PATTERN), indiferent de contextul fonematic următor (contextul dreapta). 

Regula(F2)se aplică pentru silabe situate la începutul sau la mijlocul unui cuvânt, având 

ca şi context dreapta un grup de foneme sau o altă silabă.

211 


Regula(F3)se aplică pentru silabe situate la sfârşitul unui cuvânt, constituite dintr-un 

anumit tipar de silabe (PATTERN), o terminaţie ( ENDING_PATTERN) şi care sunt urmate de un 

separator (SEP). 

B. Definirea silabei 

Aşa cum se va vedea în regulile prezentate în continuare, silaba poate fi definită ca o 

succesiune de consoane urmate de o vocală : 

silabă ={CONS}*{VOC} , ca în ‘PA-SĂ-RE’ (R1) 

sau o succesiune de consoane urmată de o vocală şi apoi de încă o consoană, aceasta în 

contextul dreapta al unei noi consoane (cu alte cuvinte, în cazul a două consoane alăturate, prima 

consoană poate să migreze în silaba anterioară) : 

silabă ={CONS}*{VOC}{CONS}/{CONS} (R2) 

precum în ‘CAN-DE-LĂ’ , 

sau după aceeaşi regulă ca mai sus, dar în contextul dreapta al unui separator (adică la 

sfârşitul cuvântului) : 

silabă ={CONS}*{VOC}{CONS}/{SEP}, (R3) 

precum în ‘COR-MO-RAN’ . 

Faţă de aceste reguli de bază, intervine o serie mare de excepţii care trebuie cuprinse într- 

un set de reguli corespunzătoare. 

În continuare sunt prezentate regulile de producţie pentru regăsirea silabelor, a numerelor 

şi a separatorilor din cadrul textului de la intrare. Faţă de cele trei reguli de mai sus, care 

constituie setul de bază pentru regăsirea silabelor, s-a definit un set extins de reguli pentru 

excepţiile de la setul de bază. Pentru a se potrivi primele, aceste reguli din setul de excepţii s-au 

definit în faţă. Dacă secvenţa curentă de caractere nu se potriveşte cu nici o regulă din setul de 

excepţii, atunci se merge la setul de bază. Să vedem care sunt regulile din cele două seturi.

212 


SETUL DE REGULI PENTRU DESPǍRŢIREA ÎN SILABE (extras) 

Mai întâi s-au definit reguli pentru anumite grupuri de două vocale care apar la 

sfârşitul cuvântului. Aceste grupuri nu sunt diftongi, iar după regulile de bază ar trebui să 

fie despărţite în două silabe distincte. 

-------------------------------------------------------------- 

Grupuri de două vocale la sfârşitul cuvântului 

-------------------------------------------------------------- 

{CONS}*e{LIN}?i/{SEP} {/* grupul "ei" la sf. cuvintului */ 

Ma-ri-ei 

Tratare_Silaba; 

} 

{CONS}*ua{CRATIMA}?/{SEP} {/* grupul "ua" la sf. cuvintului */ 

o-ca-ua 


} 

{CONS}*ou/{SEP} {/* grupul "ou" la sf. cuvintului */ 

ma-crou 


} 

{CONS}*eu/{SEP} {/* grupul "eu" la sf. cuvintului */ 

şe-mi-neu 


} 

{CONS}*oi/{SEP} {/* grupul "oi" la sf. cuvintului */ 

tri-foi 


} 

În mod asemănător, s-au definit reguli pentru grupuri de mai multe litere situate 

în finalul cuvintelor, terminate cu ‘I’ moale : 

-------------------------------------------------------------- 

Grupuri lungi la sfârşitul cuvântului, terminate cu I moale 

-------------------------------------------------------------- 

(ci|{CONS}*)[ou]ri/{SEP} { 

/* grupul "ori" la sf. cuvintului -> co-cori 

grupul "uri" la sf. cuvintului -> gru-puri */ 


}

{CONS}+ili/{SEP} {/* sub-tili */ 


} 

{CONS}*e[cnsş]*[tţ]i/{SEP} {/* ci-teşti, gă-seşti, 

is-teţi, stu-denţi, repe-tenţi*/ 


} 

{CONS}*{VOC}ş[tţ]i/{SEP} {/* măşti puşti caşti */ 


} 

{CONS}+er[şţ]i/{SEP} {/* verşi, terţi */ 


} 

{CONS}*{VOC}[nr]şi/{SEP} {/* urşi, stinşi */ 


} 

213 


Un caz separat îl constituie grupul IA, care uneori se comportă ca un diftong 

(‘bă-iat’), alteori nu, fiind despărţit în silabe diferite (‘Ma-ri-a’, ‘A-dri-a-na’). 

-------------------------------------------------------------- 

Grupul IA 

-------------------------------------------------------------ia 

| 

ia{CONS}/{CONS} | 

ia{CONS}/{SEP} {/* grupul "ia" la inceput 

ex: iar-na*/ 


} 

[cfmpv]ia {/* grupul "ia" in prima silaba; 

ex: pia-tra, mia-zazi, fia-ra, via-ta... */ 

Tratare_Inceput 

} 

ia[t]?/{SEP} {/* grupul SINGULAR "ia" sau "iat" la 

sfârşitul cuvântului 

ex: ful-gu-ia ; ba-iat*/ 


} 

{CONS}*{VOC}/{CONS}[rRlL] { /* A-DRi-a-na */ 


}

214 


Un alt caz este cel al grupurilor CI, CE, CHI, CHE, GI, GE, GHI, GHE. Literele 

‘C’ şi ‘G’ alături de vocala ‘I’ au o comportare specifică, ele fiind situate întotdeauna în 

aceeaşi silabă, iar dacă în continuare apare şi vocala ‘U’, atunci grupul ‘IU’ se comportă 

ca un diftong. 

-------------------------------------------------------------- 

Grupurile CI, CE, CHI, CHE, GI, GE, GHI, GHE 

-------------------------------------------------------------- 

{CONS}*{VOC}/[cg][h] { /* ma-CHe-ta */ 


} 

chi/ui{SEP} { /* CHI-U-I */ 

Tratare_Inceput; 

} 

ghiul/{SEP} { /* ghiul */ 


} 

ghi/ul(ui)?{SEP} | 

ghi/uri(lor)?{SEP} { /* burghi-ul */ 


} 

[G]i/un[ie] | 

[G]IU/{SEP} | 

[G]I/UL{SEP} | 

[C]H*{IU} | 

[C]H*{IU}{CONS}+/{SEP} | 

[C]H*{IU}{CRATIMA}?/{SEP} 

{ /* CHIUL ; veCHIU-i; barcaGI-ul*/ 


} 

În continuare este tratat cazul grupurilor ‘ui’ , ‘uCi’ , ‘uCCi’ de la sfârşitul 

cuvântului (aici C specifică o consoană oarecare, şi nu litera ‘C’). Aceste grupuri vor face 

parte din aceeaşi silabă. 

-------------------------------------------------------------- 

Grupul UI sau U + consoane + I la sfârşitul cuvântului 

-------------------------------------------------------------- 

[tţ]i/uni{SEP} { /* ac-ti-uni */ 


} 

{CONS}?{CONS}?uni/{SEP} { /* co-muni, pruni */ 


}

{CONS}*u[ln][şţ]i/{SEP} { /* ca-runţi, des-culţi */ 


} 

{CONS}+ui/{SEP} { /* pu-tui, ca-prui */ 


} 

{CONS}*uni/{SEP} { /* cap-ca-uni */ 


} 

215 


Grupurile IU şi IE se comportă şi ele diferit, în unele cazuri ca diftongi, iar în altele – nu. 

-------------------------------------------------------------- 

Grupul IU sau IE 

-------------------------------------------------------------- 

[nstţ]i/u{CONS} { /* naţi-une, poţi-une, scati-ului */ 


} 

{CONS}?i/u{CRATIMA}{SEP}{ /* scati-u-i */ 


} 

{CONS}{IU} | 

({IU}|IE) | 

({IU}|IE){CONS}/{CONS} { /* iu-bi-re; IUR-TA ; ie-le; ier-na*/ 


} 

{CONS}+{IU}/{SEP} { /* sca-tiu */ 


} 

({IU}|IE){CONS}+/{SEP} { /* te-IUL */ 


} 

ie[rtţ]i/{SEP} | 

[cdgt]eri/{SEP} { /* ieri; ca-deri, pu-teri, petreceri */ 


} 

PIER/{CONS} { /* PIER-DE */ 


} 

PIE/LE | 

PIE/{CONS}R { /* PIE-TRE; */ 


}

216 


Şi alte grupe de două vocale trebuiesc analizate separat, neavând o comportare 

regulată. Astfel grupurile ‘IO’ şi ‘EA’ se comportă doar uneori ca diftongi (‘cio -ban’, 

‘tea-tru’), alteori nu (‘pi -o-let’, ‘re-al’). Cazurile când apare despărţirea în silabe sunt 

tratate de regulile din setul de bază, aici fiind specificate doar cazurile când cele două 

vocale apar în aceeaşi silabă. 

-------------------------------------------------------------- 

Grupuri de vocale – excepţii la diftongi 

-------------------------------------------------------------- 

(cioa|chioa) { /* pu-cioa-sa, o-chioa-sa */ 


} 

{CIO} | 

{CIO}{CONS}+/{SEP} | 

{CIO}{CONS}/{CONS} { /* CIO-ban, ul-CIOR, CION-dani */ 


} 

{CONS}+ea{LIN}?i/{SEP}| 

{CONS}+ea{CRATIMA}?/{SEP} { /* pu-teai*/ 


} 

Acum sunt specificate regulile pentru diftongi, adică grupurile de vocale care apar 

împreună în aceeaşi silabă. 

-------------------------------------------------------------- 

Diftongi 

-------------------------------------------------------------- 

{CONS}*{DIFT}{CONS}+/{SEP} { /* miel; ciung */ 


} 

{CONS}*{DIFT}{CONS}/{CONS} { /* gean-ta */ 


} 

Urmează în sfârşit regulile din setul de bază pentru definirea silabelor. Astfel, 

toate regulile de dinainte se pot constitui în excepţii de la această regulă simplă.

217 


Silaba normală 

-------------------------------------------------------------- 

{CONS}*{VOC} { /* Silaba normala */ 

CRA-ter ; PA-SĂ-RE 


} 

{CONS}*{VOC}{CONS}/{CONS} { /* Silaba normala */ 

CAN-DE-LĂ 


} 

{CONS}*{VOC}{CONS}/{SEP} { /* Silaba normala */ 

COR-MO-RAN 


} 

Numerele sunt specificate în felul următor (sunt recunoscute două tipuri de numere: 

întregi, respectiv reale) : 

-------------------------------------------------------------- 

Numere 

-------------------------------------------------------------- 

{CIFRA}+ { 

Separator=0; 

Tratare_număr(INTREG); 

} 

{CIFRA}+[.,]{CIFRA}+ { 

Separator=0; 

Tratare_număr(FLOTANT); 

} 

Separatorii sunt acele caractere speciale care despart două cuvinte sau două 

propoziţii din text. Caracterele speciale de acelaşi tip se pot grupa, pentru a rezulta astfel 

un singur separator. 

-------------------------------------------------------------- 

Separatori 

-------------------------------------------------------------- 

[ ]+ {Separator=1; return(SPATIU);} 

[\t]+ {Separator=1; return(TAB);} 

[,]+ {Separator=1; return(VIRGULA);} 

[;] {Separator=1; return(PCTVIRG);} 

[:] {Separator=1; return(DOUAPUNCTE);} 

[.] {Separator=1; return(PUNCT);} 

[?] {Separator=1; return(INTREBARE);} 

[!] {Separator=1; return(EXCLAMARE);}

218 


6.4.4.2.4. Rezultate obţinute cu analizorul lexical pentru determinarea silabelor 

Analizorul lexical pentru determinarea silabelor cuprinde un set de peste 180 de reguli 

pentru descompunerea cuvintelor în silabe. Performanţa obţinută a fost de 98% cuvinte 

despărţite corect, rată calculată pe un set de 50000 de cuvinte extrase din texte de diferite 

genuri (literatură, economie, politică, ştiinţă şi tehnică, filozofie, religie, etc.). Performanţa este 

mai bună decât cea găsită la alţi cercetători români care au folosit reguli lexicale ([Tom09] – 

90%), ceea ce evidenţiază avantajul folosirii seturilor bazate pe expresii regulate, ca în 

abordarea autorului. Aceste reguli au permis specificarea de pattern-uri (tipare) variabile 

pentru silabe, precum şi a contextelor stânga şi dreapta în care ele apar, rezultând o modalitate 

de definire mult mai versatilă a silabelor şi configuraţiilor contextuale. 



se poate observa interfaţa aplicaţiei, precum şi un exemplu de despărţire automată în silabe : 

Figura 6.20. Despărţirea automată în silabe

6.4.5. Determinarea aspectelor prozodice: accentele 

219 


După etapa de separare a unităţilor lingvistice ( silabele) din text, urmează etapa de 

determinare a aspectelor prozodice. În această fază a proiectării au fost determinate aspectele 

prozodice intrasegmentale, şi anume accentele din interiorul cuvintelor. Ca dezvoltări ulterioare, 

se va urmări determinarea aspectelor suprasegmentale, de tipul intonaţiei la nivel propoziţional. 

La fel ca în cazul silabelor, şi aici a fost necesară proiectarea unui analizor şi a unui set de 

reguli lexicale pentru determinarea accentelor. 

6.4.5.1. Analizorul lexical utilizat în determinarea accentelor 

Schema de principiu a analizorului lexical folosit pentru determinarea accentelor este 

ilustrată în figura 6.21. 

Analizor 

sintactic 

F1 F2 ... Fn S 

CUVÂNT 

Figura 6.21. Analizorul lexical pentru determinarea accentelor 

Parserul de text sau analizorul sintactic returnează cuvântul curent din stream-ul de 

intrare, cuvânt alcătuit dintr-o serie de foneme F1, F2, …, Fk şi terminat cu un separator S. 

Cuvântul este introdus la intrarea analizorului lexical care, pe baza unor reguli lexicale, va 

determina silaba accentuată din cuvânt. 

În limba română, silaba accentuată poate fi una din ultimele trei silabe ale cuvântului (SN 

= ultima silabă, SN_1 = penultima silabă, respectiv SN_2, SN_3 = silabele anterioare). 

Setul de reguli se constituie din : 

Reguli 

lexicale 

Analizor 

lexical 

(a) o regulă de bază, şi anume aceea că penultima silabă SN_1 este cea accentuată (regula 

generală pentru limba română) : 

{LIT}+/{SEP} { return(SN_1);} 

ACCENTE 

SN_3 

SN_2 

SN_1 

(b) un set consistent de excepţii organizat pe grupuri de cuvinte ce au aceeaşi terminaţie. 

În cazul analizorului pentru detectarea accentului, fiecare regulă returnează modulului de 

procesare indicele silabei accentuate din cuvânt. 

SN

220 


Analizorul lexical pentru determinarea accentelor a fost proiectat tot pe baza facilităţilor 

oferite de către generatorul automat LEX. Astfel regulile analizorului sunt furnizate 

generatorului LEX în format BNF (vezi [Fre05] şi Anexa 1) , stream-ul de intrare fiind chiar 

cuvântul curent extras din text de către analizorul sintactic. 

6.4.5.2. Gramatica analizorului lexical pentru determinarea accentelor din limba 

română 

În continuare se prezintă gramatica furnizată generatorului LEX în vederea determinării 

accentelor. Chiar dacă această versiune poate fi îmbunătăţită, rezultatele experimentale indică o 

rată mare a determinărilor corecte. 

Regulile din setul de excepţii sunt tratate la început. Toate cuvintele care nu vor fi 

recunoscute prin acest set de reguli vor fi tratate prin regula de bază: penultima silabă este cea 

accentuată. 

Macrourile definite sunt asemănătoare cu cele expuse la analizorul lexical pentru 

despărţirea în silabe: 

VOC [aeiouăîâyĂÎÂ] 

VMARE [AEIOUĂÎÂY] 

CONS [bcdfghjklmnpqrstvxzşţŞŢ] 

CMARE [BCDFGHJKLMNPQRSTVXZŞŢ] 

LIT ([a-z]|[ăîâşţ]|[ĂÎÂŞŢ]) 

DIFT (oa|ie|iu|uă|Oa|Ie|Iu|OA|IE|IU|ea|ii| 

SEP [ ] 

LIN [-] 

îi|âi|Ea|Ii|Îi|EA|II|ÎI|ÂI|UĂ) 

CRATIMA ([-](l|i|n|o|s|[mstşţ]i)) 

Spre deosebire de cazul analizorului pentru despărţirea în silabe, aici regulile de 

producţie nu sunt urmate de acţiuni specifice pentru fiecare tip de token returnat. Acţiunile se 

constituie doar din returnarea unei constante care să indice silaba accentuată din cuvânt : 

SN = ultima silabă, 

SN_1 = penultima silabă, 

SN_2 = antepenultima silabă, respectiv 

SN_3 = silaba de rang N-3.

221 


SETUL DE REGULI PENTRU DETERMINAREA ACCENTELOR (extras) 

Primul caz considerat este cel al verbelor terminate cu vocala ‚A’, respectiv verbe la 

imperfect. Aici am prezentat un subset al acestei clase, pasul următor fiind integrarea unui 

dicţionar de verbe pentru limba română. În acest caz considerat, ultima silabă (SN) este cea 

accentuată. 

------------------------------------------------------------ 

Verbe 

------------------------------------------------------------ 

(r[eă]z[ei]m|a?lunec|înrăm|urc|cobor)a/{SEP} | 

(picur|lu|calcul|sec|furiş|hotăr|judec)a/{SEP} | 

(mir|scri|pict|desen|juc|disloc|(de)?conect)a/{SEP} | 

(planific|fur|căr|mut|ascult|m[îâ]nc|tăi|conjug)a/{SEP} | 

((a|re|de)nunţ|blam|boicot|(bine)?cuv[îâ]nt|creştin)a/{SEP} | 

(promulg|premedit|preocup|prepar|împresur|înregiment)a/{SEP} 

{ 

/* verbe ce se termină în 'a' */ 

return(SN); 

} 

(stud|răsfo|cop|tă|chinu|răsfo|preţu|miru|(păl|plăs)?mu)ia/{SEP} | 

(fornă|[pţ]iu|concil|îndo|trebălu|c[îâ]rmu|alin|dăru|îmbă?)ia/{SEP} 

{ 

/* verbe la imperfect ce se termină în 'a' */ 

return(SN); 

} 

De asemeni, unele plurale de substantive constituie excepţii de la regula de bază. Acestea 

sunt cele terminate cu ‘II’, respectiv substantive articulate şi nearticulate terminate cu ‘LE’. 

------------------------------------------------------------ 

Plurale de substantive – terminate în II, ELE, ILE 

------------------------------------------------------------ 

(scat|geamg|coliv|cop|pust|prost|pălăr|cut|terap)ii/{SEP} | 

(tehnolog|farmac|bater)ii/{SEP} { 

/* scatii, copii */ 

return(SN); 

} 

(bre|a|cas|s|be|sal)tele/{SEP} {/* bretele, atele, castele */ 

return(SN_1); 

} 

(po|ron|aca|mo)dele/{SEP} {/* podele, acadele */ 

return(SN_1); 

} 

{LIT}+(d|l|m|n|t)ele/{SEP} {/* peretele,stelele,ramele,numele */ 

return(SN_2); 

}

222 


Urmează categoria de cuvinte (substantive articulate sau verbe la imperfect) ce au 

terminaţia ‚EA’. 

------------------------------------------------------------ 

Cuvinte terminate în EA 

------------------------------------------------------------ 

{LIT}+cerea?/{SEP} {/* facere(a), petrecere */ 

return(SN_2); 

} 

{LIT}+(e|a)rea/{SEP} {/* mâncarea, studierea, puterea */ 

return(SN_1); 

} 

{LIT}+[nr]tea/{SEP} {/* cartea, mintea, puntea */ 

return(SN_1); 

} 

{LIT}+ea/{SEP} {/* şosea,andrea; putea, plăcea */ 

return(SN); 

} 

Alte excepţii sunt substantivele terminate în ‘RI’ sau ‘RII’. Acestea sunt 

substantive la plural, ce pot fi articulate sau nearticulate. 

------------------------------------------------------------ 

Cuvinte terminate în RI sau RII 

------------------------------------------------------------ 

{LIT}+[bdlmnrt]ări/{SEP} {/* mutări */ 

return(SN); 

} 

(nastu|marto|mătu)rii/{SEP} {/* nasturii, martorii */ 

return(SN_2); 

} 

(o|re|pre)feri?/{SEP} {/* oferi,preferi */ 

return(SN); 

} 

(mărtu|dato|căsăto|pălă|bucu|scamato|prefăcăto)rii/{SEP} 

{/* mărturii, bucurii*/ 

return(SN); 

} 

Urmează o serie de cuvinte terminate cu T, TI, Ţ, ŢI, S, ŞI (substantive, adjective, verbe 

la timpul prezent sau participiul trecut).

------------------------------------------------------------ 

223 


Cuvinte terminate în T, TI, Ţ, ŢI, S, ŞI 

------------------------------------------------------------ 

{LIT}+eşi/{SEP} {/* răzeşi, culeşi */ 

return(SN); 

} 

{LIT}+a[cr][tţ]i?/{SEP} {/* compact, compacţi, împarţi */ 

return(SN); 

} 

{LIT}+[âî][ştţ]i?/{SEP} {/* coborâţi */ 

return(SN); 

} 

{LIT}+u[ln][şţ]i/{SEP} {/* ajunşi, cărunţi, desculţi */ 

return(SN); 

} 

Urmează două grupe de cuvinte ce conţin vocalele I, respectiv O sau U în ultima silabă. 

------------------------------------------------------------ 

Cuvinte cu vocala I în ultima silabă 

------------------------------------------------------------ 

{LIT}+i[lnsştţv]i?/{SEP} {/* fitil, furiş, ciulit, pitit */ 

return(SN); 

} 

{LIT}+[dlptţv]iri/{SEP} {/* priviri, subţiri, dospiri */ 

return(SN); 

} 

{LIT}+([cgz]|ch)i/{SEP} {/* colaci, alegi, genunchi */ 

return(SN); 

} 

------------------------------------------------------------ 

Cuvinte cu vocala O sau U în ultima silabă 

------------------------------------------------------------ 

{LIT}+{VOC}u/{SEP} {/* tablou, maieu, saleu */ 

return(SN); 

} 

(pic|can|mar|vec|Nis)tori?/{SEP} {/* pictor,cantor,vector */ 

return(SN_1); 

} 

{LIT}+o[fnsşţ]i?/{SEP} {/* frumos, frumoşi */ 

return(SN); 

}

------------------------------------------------------------ 

224 


Cuvinte terminate în RA, RE, REA, RĂ, RI 

------------------------------------------------------------ 

{LIT}+[jm]ur[ăe]/{SEP} {/* tremură, latură */ 

/* ramură, scândură */ 

return(SN_2); 

} 

(fal|co|mo|car)duri/{SEP} { /* falduri*/ 

return(SN_1); 

} 

{LIT}*(duri)/{SEP} { /* călduri */ 

return(SN); 

} 

{LIT}+[dirt]eri/{SEP} { /* căderi, păreri, puteri */ 

return(SN); 

} 

O categorie aparte o reprezintă cuvintele compuse, ce conţin o terminaţie pronomială 

separată de cuvântul principal printr-o liniuţă de despărţire (sau cratimă). 

------------------------------------------------------------ 

Cuvinte cu cratimă 

------------------------------------------------------------ 

{LIT}+[dg]eţi{CRATIMA}/{SEP} { /* întindeţi-i, atingeţi-i */ 

ExceptieCratima=1; 

return(SN_2); 

} 

{LIT}+[dg]eţi{NETESE}/{SEP} { /* întindeţi-le */ 


return(SN_3); 

} 

{LIT}+ţi{CRATIMA}/{SEP} { /* muieţi-s, vindecaţi-i */ 


return(SN_1); 

} 

În fine, regula de bază stabileşte accentul pe penultima silabă: 

------------------------------------------------------------ 

Regula de bază 

------------------------------------------------------------ 

{LIT}+/{SEP} { /* orice alt cuvânt */ 

return(SN_1); 

}

225 


6.4.5.3. Rezultate obţinute cu analizorul lexical pentru determinarea accentelor 

Analizorul lexical pentru determinarea accentelor cuprinde un set de 250 de reguli pentru 

detectarea silabei accentuate din interiorul cuvintelor. S-a obţinut o rată de detectare corectă a 

silabei acentuate de 94%, rată calculată pe acelaşi set de 50000 de cuvinte ca şi în cazul 

despărţirii în silabe. 

Din câte cunoaştem, în ţară nu există la ora actuală rezultate publicate despre construirea 

unor analizoare bazate exclusiv pe reguli pentru determinarea accentuării, ci doar lexicoane ce 

indică accentul cuvintelor, lexicoane ce au fost construite manual [Giu06] sau semiautomat 

[Dia09]. Avantajul metodei bazată pe reguli proiectată de autor rezidă în primul rând în 

eficientizarea lucrului şi reducerea semnificativă a costului şi timpului alocat procesului de 

proiectare. 

Ca şi dezvoltare de viitor, rata de detectare corectă a accentuării va putea fi îmbunătăţită 

semnificativ prin folosirea unui dicţionar morfologic al limbii române. Astfel, gradul de 

completitudine al unor reguli stabilite pentru cuvinte cu aceeaşi terminaţie poate fi mărit prin 

luarea în considerare a tuturor cuvintelor cu terminaţia respectivă din dicţionar. Aceasta va duce 

la creşterea ratei de detecţie corectă a analizorului, chiar fără a introduce noi reguli de 

accentuare. 



se poate observa un exemplu de detectare automată a silabei accentuate din interiorul cuvintelor: 

Figura 6.22. Detectarea automată a accentelor

6.4.6. Proiectarea bazei de date vocale 

226 


Găsirea unor modalităţi de proiectare a bazelor de date vocale optime pentru sinteza de 

voce reprezintă un subiect de cercetare important pentru specialiştii din domeniu. O bază de date 

vocală bine proiectată are un impact de prim ordin asupra calităţii vocii sintetizate, indiferent de 

tipul unităţilor fonetice folosite ([Bod07-2], [Tod09]). 

Dacă la metodele bazate pe corpus baza de date este de dimensiuni mari, cuprinzând zeci 

de minute de vorbire înregistrată, din care vor fi segmentate unităţile fonetice, în cazul metodelor 

bazate pe silabe baza de date cuprinde un număr mai redus de unităţi, în funcţie de gradul de 

completitudine ales. 

Baza de date utilizată în cadrul metodei de sinteză propusă de autor cuprinde un subset al 

silabelor limbii române. După înregistrare, silabele trebuie să urmeze un proces de normalizare 

pentru alinierea parametrilor de tonalitate şi intensitate a rostirii. Silabele vor trebui să fie 

înregistrate în diferite contexte şi moduri de pronunţie, astfel încât să includă şi prozodia aferentă 

textului care va fi sintetizat. 

Baza de date vocală conţine silabe compuse din două, trei sau patru litere, notate cu S2, 

S3, respectiv S4. 

Silabele de tip S2, adică silabele compuse din două foneme sunt în general de forma: 

- {CV} (C=consoană, V=vocală), cum sunt de exemplu: ‚ba’, ‚be’, ‚co’, ‚cu’, 

- {VC}, cum ar fi ‚ar’, ‚es’ etc., adică cele care apar de obicei la începutul unor cuvinte în 

limba română, 

- {VV}, structura de tip diftong: ‘oa’, ‘iu’, ‘ie’. 

Silabele de tip S3, compuse din trei foneme, pot fi de tipul: 

- {CCV} , de exemplu: ‚bra’, ‚cre’, ‚tri’, ‚ghe’; 

- {CVC} , cum ar fi: ‚mar’, ‚ver’, 

- {CVV} , de exemplu: ‚cea’, ‚cei’, ‚soa’. 

Silabele de tip S4, compuse din patru foneme, pot fi de mai multe tipuri, ca de exemplu: 

- {CCVC} , de exemplu: ‚braţ’, ‚prin’, ‚ghem’; 

- {CCCV} , de exemplu: ‚stră’, 

- {CCVV} , de exemplu: ‚prea’, 

- {CVCC} , cum ar fi: ‚vers’, 

- {VVCV} , de exemplu: ‚iúţi’ (ultima vocală este de obicei un ‘i’ moale), 

- {CVCV} , cum ar fi: ‚véri’ (de obicei această configuraţie apare la sfârşitul cuvintelor), 

- {CVVC} , de exemplu: ‚coar’ . 

În baza de date nu au fost înregistrate toate silabele limbii române. Conform cu [Din04], se 

menţionează că numărul total al silabelor limbii române (număr rezultat din despărţirea în silabe 

a tuturor cuvintelor existente în dicţionar) este de 6496. Aşa cum se va prezenta în capitolul 

destinat implementării sistemului de sinteză vocală, în baza de date au fost înregistrate (în 

diferite contexte şi moduri de pronunţie) doar aproximativ 600 de silabe. 

Strategia urmărită a fost de a înregistra în fiecare categorie S2, S3 şi S4 un număr cât mai mare 

de silabe, în ordinea frecvenţei de apariţie în limba română. Pentru aceasta, dat fiind faptul că a 

fost proiectată o metodă automată de despărţire a cuvintelor în silabe, s-a avut în vedere 

realizarea unei statistici a silabelor limbii române în scopul utilizării ei în procesul de construire 

a setului de silabe de referinţă şi a bazei de date acustice.

6.4.6.1. O statistică a silabelor limbii române 

227 

450000 

400000 

350000 

300000 

250000 

200000 

150000 

100000 

50000 

0 


Această statistică urmăreşte detectarea frecvenţelor de apariţie ale silabelor din limba 

română. Statistica a fost realizată folosind texte extrase din domenii precum: beletristică de 

diverse genuri, religie, economie, politică, ştiinţă şi tehnică, ziaristică. Textele au însumat un 

număr de aproximativ 342000 de cuvinte, adică peste 600 de pagini în format A4. Au fost 

contabilizate doar silabele de tip S2, S3 şi S4, adică având două, trei sau patru foneme 

componente. S-au obţinut următoarele valori: 

- pentru tipul S2 : 202 silabe distincte, 



în total 2814 silabe. 

Această statistică reflectă şi faptul că limba vorbită foloseşte mai puţine cuvinte decât 

cele existente în dicţionar, şi implicit mai puţine silabe. Configuraţia silabelor S2, S3 şi S4 este 

ilustrată în figura 6.23. Ca şi frecvenţă de apariţie, silabele S2 au apărut în schimb cel mai 

frecvent. În figura 6.24 sunt ilustrate frecvenţele de apariţie ale silabelor S2, S3 şi S4. 

1600 

1400 

1200 

1000 

800 

600 

400 

200 

0 

S2 S3 S4 

Figura 6.23. Configuraţia silabelor S2, S3 şi 

S4 din corpusul divers de 342000 de cuvinte 

S2 S3 S4 

Figura 6.24. Frecvenţele de apariţie ale silabelor 

S2, S3 şi S4 

Frecvenţele de apariţie ale primelor 10 silabe din fiecare tip sunt redate în graficul 

următor: 

25000 

20000 

15000 

10000 

5000 

0 

1 2 3 4 5 6 7 8 9 10 

Figura 6.25. Frecvenţele de apariţie ale primelor 10 silabe S2, S3 şi S4 

S4 

S3 

S2

228 


În figurile următoare sunt prezentate, pentru fiecare tip S2, S3 şi S4, primele 10 silabe în 

ordinea frecvenţei de apariţie (dată în procente) : 

6 

5 

4 

3 

2 

1 

0 

3 

2.5 

2 

1.5 

1 

0.5 

0 

5 

4.5 

4 

3.5 

3 

2.5 

2 

1.5 

1 

0.5 

0 

de te în re le ca şi se ce ta 

Figura 6.26. Primele 10 cele mai frecvente silabe de tip S2 

lor lui rea con mai tre din tru tul pre 


prin sunt când ceas fost nici foar mult timp meni 


Astfel obţinându-se cele trei seturi de silabe S2, S3 şi S4 (în anexele 2, 3 şi 4 sunt 

prezentate extrasele cele mai semnificative din fiecare set), s-a putut trece la construirea bazei de 

date acustice care să conţină silabele cel mai frecvent întâlnite în limba română vorbită.

6.4.6.2. Caracteristicile silabelor înregistrate în baza de date acustică 

229 


În realizarea bazei de date cu silabe s-a ţinut cont de integrarea prozodiei locale sub- 

segmentale, din interiorul cuvintelor. Astfel, prozodia a fost inclusă prin înregistrarea silabelor 

accentuate şi neaccentuate, pentru fiecare categorie S2, S3 şi S4. De asemeni, ţinând cont că o 

silabă se rosteşte distinct în funcţie de locul pe care aceasta îl ocupă în cadrul cuvântului, dacă 

este situată la începutul, mijlocul sau sfârşitul unui cuvânt, s-a urmărit înregistrarea silabelor în 

aceste diferite contexte în care ele pot să apară. În primă instanţă s-a făcut diferenţierea între 

silabe finale, pe de o parte, şi silabe mediane şi iniţiale (integrate tot în categoria de silabe 

mediane), pe de altă parte. În exemplul următor se pot vedea câteva situaţii care au fost luate în 

considerare: 

Categoria S2 

Context Accent Ex. 

median 

final 

accentuat ca - pó - ta 

neaccentuat po - cál 

accentuat şo - cá 

neaccentuat ró - ca 

Categoria S4 

Categoria S3 


median 

final 


median 

final 

accentuat prín - de 

neaccentuat prin - ţé - să 

accentuat com - pléx 

neaccentuat dú - plex 

accentuat prí - ma 

neaccentuat com - pri - mát 

accentuat dor - meá 

neaccentuat só- ră - mea 

În acest mod, deşi implementarea curentă nu şi-a propus să modifice prozodia la nivelul 

propoziţiei prin intonaţie, elementele de prozodie locală prezentate asigură o rostire suficient de 

clară şi naturală a textului. Dacă în faza următoare de dezvoltare se va aborda şi prozodia 

suprasegmentală, modificarea intonaţiei este posibilă prin utilizarea tehnicii PSOLA, prezentată 

în secţiunea 6.3.1. 

Deoarece intonaţia vorbirii se poate modifica prin schimbarea parametrilor de durată şi 

amplitudine corespunzători perioadelor de semnal [Bod09], metoda proiectată de autor de 

detectare automată a perioadelor de semnal ce corespund frecvenţei fundamentale (capitolul 4.6) 

se dovedeşte a fi foarte utilă.

6.4.6.3. Organizarea bazei de date acustice 

230 


Silabele au fost introduse în baza de date respectând caracteristicile prezentate mai sus. 

Organizarea bazei de date este sub formă arborescentă ( figura 6.29). Nodurile arborelui 

reprezintă caracteristicile silabelor, iar nodurile frunză corespund silabelor propriu-zise. 

S2 

Med Fin 

A N A N 

bá zú ba zu bea zoa 

Figura 6.29. Organizarea arborescentă a bazei de date vocale 

Structura ierarhică a bazei de date cuprinde aşadar patru nivele, şi anume: 

R 

S3 

Med Fin 

A N A N 

cei zeu 

1. Nivelul Categorie : Silabe de două, trei sau patru foneme (S2, S3, S4); 

2. Nivelul Context : Segment median (Med) sau final (Fin), relativ la poziţia din cadrul 

cuvântului; 

3. Nivelul Accent : Silabe accentuate (A) sau neaccentuate (N) în interiorul cuvântului ; 

4. Nivelul Silabă : Unităţile acustice înregistrate în format WAVE. 

Această structură ierarhică [Categorie] -> [Context] -> [Accent] -> [Silabǎ] conferă şi 

avantajul reducerii substanţiale a timpului de căutare în baza de date, în faza de potrivire a 

unităţilor fonetice din text cu unităţile acustice înregistrate. 

De asemeni, trebuie spus că pe lângă silabele din categoriile amintite S2, S3 şi S4, s-au 

înregistrat şi fonemele singulare, în scopul utilizării acestora în construirea silabelor care nu se 

regăsesc în baza de date acustică. 

S4 

Med Fin 

N A N A 

chea prea beau zeau

6.4.7. Regăsirea unităţilor acustice şi sinteza de voce 

231 


În această etapă se urmăreşte mai întâi regăsirea unităţilor acustice din baza de date 

necesare pentru sinteză. Aceasta se realizează pe baza unităţilor lingvistice (silabele) determinate 

prin analiza textului de la intrare. Se va ţine seama şi de caracteristicile silabelor, care au fost 

prezentate în paragrafele 6.4.6.2 şi 6.4.6.3. În continuare, se notează aceste caracteristici astfel: 

- categoria silabică : SN , unde N indică lungimea silabei (numărul de foneme); 

- contextul silabei : printr-un indice (M pentru median şi F pentru final) asociat silabei 

respective. De exemplu : 

maM , reM - silabe în context median ; 

maF , reF - silabe în context final; 

- accentuarea: printr-un indice superior (A pentru silabă accentuată şi N pentru silabă 

neaccentuată) care se ataşează silabei respective. De exemplu : 

ma A , re A - silabe accentuate ; 

ma N , re N - silabe neaccentuate. 

Pot exista următoarele situaţii: 

a) Silaba dorită este regăsită identic în baza de date vocală, din punct de vedere fonetic 

(al fonemelor componente), din punct de vedere contextual (median sau final) şi din punct de 

vedere prozodic (al accentuării). În acest caz silaba se reţine ca atare pentru a fi înglobată în 

cuvântul de sintetizat. 

b) Silaba este regăsită fonetic, dar nu prozodic sau contextual. Se preferă, în acest caz, 

construirea acesteia din subunităţi ( foneme separate şi silabe mai scurte) care să respecte în 

primul rând prozodia cerută (silabă accentuată sau neaccentuată) , şi apoi, dacă este posibil, 

contextul specificat. 

c) Silaba nu este regăsită fonetic în baza de date. Şi în acest caz silaba va fi compusă pe 

baza subunităţilor componente, găsite în baza de date. 

Tabelul 6.4 ilustrează aceste situaţii prin câteva exemple: 

Tabelul 6.4. Exemple de generare a unităţilor acustice pornind de la unităţile textuale 

Regăsire 

fonetică 

Regăsire 

context 

Regăsire 

prozodie 

Unitate textuală 

Unitate acustică 

în baza de date 

Generare 

Da Da Da cáp A M cáp A M cáp A M 

Da Da Nu mír A M mir N M , mí A M mí A M + r 

Da Nu Da dín A M dín A F , dí A M dí A M + n 

Da Nu Nu şór A F şór N M , şó A F şó A F + r 

Nu x x pórt A M pó A M pó A M + r + t

232 


Căutarea în baza de date se face după lungimea silabei, contextul median sau final şi 

accentuare. Algoritmul de căutare este următorul: 

Search_DB (Syllable Syl, Length N, Context Ctx, Accent Acc) 

{ 

/*P1*/ if ( N==1) then { 

OutStream ( WAVE_DB( Syl) ) ; 

segment_retrieved = true; 

return; } 

/*P2*/ if ( Exist_DB(Syl, N, Ctx, Acc) ) 

then { 

OutStream ( WAVE_DB( Syl) ) ; 

segment_retrieved = true; 

return; } 

/*P3*/ SplitSet = MakeSplitSet (Syl, N -1, Ctx, Acc); 

/*P4*/ foreach (s in SplitSet) 

if (Ctx==FINAL) then 

Add (SplitSet, s, len(s), MEDIAN, Acc); 

/*P5*/ foreach (s in SplitSet) 

If (not segment_retrieved ) 

Search_DB (s, len(s), ctx(s), Acc); 

} 

Algoritmul verifică la pasul întâi dacă silaba este alcătuită dintr-o singură fonemă; în caz 

afirmativ, silaba există în baza de date şi se extrage în stream-ul acustic de ieşire, unde se va 

concatena cu silabele găsite anterior. 

În pasul doi, se caută silaba în baza de date, ţinând cont de lungime, context şi 

accentuare. Dacă este găsită, atunci se returnează în stream-ul de ieşire pentru concatenare. 

În pasul al treilea se ajunge dacă silaba nu e regăsită în contextul sau accentuarea dorite. 

Se calculează setul de diviziune al silabei curente astfel: se divide silaba într-o succesiune de 

segmente alcătuite din fonemele sale, astfel încât să existe cel puţin un segment de lungime mai 

mică cu o unitate decât lungimea silabei. De exemplu, silaba cráp se divide în cM + ráp A F sau 

crá A M + pF . 

În pasul patru, dacă în setul de diviziune obţinut la pasul anterior există segmente în 

context final, se duplică segmentele respective şi în context median. Urmând exemplul din 

paragraful precedent, silaba ráp A F se duplică în contextul complementar, în setul iniţial 

adăugându-se astfel silaba ráp A M . Acest pas al algoritmului indică folosirea unei silabe mediane 

în locul uneia finale, evitând fragmentarea acesteia din urmă în silabe de rang inferior. Situaţia 

inversă (înlocuirea unei silabe mediane printr-o silabă finală), de cele mai multe ori, nu produce 

rezultate bune în percepţia auditivă a semnalului sintetizat. 

În pasul al cincilea se aplică recursiv algoritmul pentru fiecare segment din setul de 

diviziune al silabei iniţiale. 

Exemplul următor ilustrează construirea seturilor de diviziune pentru cuvântul 

monosilabic cráp.

cráp A F 

Figura 6.30. Construirea seturilor de diviziune pentru silaba cráp 

233 


În exemplul de mai sus s-au construit trei seturi de diviziune, pornindu-se de la o silabă 

tetrafonematică. Fiecare element din set este asociat cu încercarea de regăsire în baza de date a 

unuia sau mai multor segmente fonetice de lungime egală cu ordinul setului (ordinul a fost scris 

în paranteză, de exemplu SplitSet1(3) are ordinul trei). Astfel, corespunzător cu primul set se 

caută în baza de date segmentele crá A M , ráp A F , ráp A M , pentru setul doi se caută crM , rá A M , áp A F , 

áp A M , iar pentru cel de-al treilea set se caută doar segmente unifonematice, care, datorită 

includerii în baza de date a tuturor fonemelor din limba română, vor fi găsite întotdeauna. 

Pentru generarea acustică a silabei iniţiale se parcurg în ordine cele trei seturi, începând 

cu primul, care conţine silabele (segmentele) cele mai lungi. Dacă segmentul respectiv este găsit 

în baza de date, căutarea se opreşte, iar dacă nu, căutarea continuă cu următorul segment, şamd. 

Dacă nu se găseşte nici un segment din setul curent, se merge la următorul set. În cel mai 

nefavorabil caz, se ajunge la ultimul set, care are un singur element format din fonemele 

singulare ale silabei iniţiale. Cu observaţia din aliniatul precedent, aici căutarea se încheie. 

În baza de date acustică silabele au fost înregistrate folosind notaţia explicitată în 

următorul tabel : 

Tabelul 6.5. Notaţii ale silabelor folosite în baza de date acustică 

Descriere Notaţie în 

text 

silabă conţinând 

litera ţ 


litera ş 


literele â, î 

SplitSet1(3) 

crá A M + p 

c + ráp A F 

c + ráp A M 

Notaţie în 

baza de 

date 

SplitSet2(2) 

crM + áp A F 

crM + áp A M 

crM + á A M + p 

c + rá A M + p 

c + r + áp A F 

c + r + áp A M 

Silabă în text Silabă în baza 

de date 

SplitSet3(1) 

c + r + á A M + p 

Exemplu 

ţ t~ ţi t~i ţi - ne 

ş s~ şa s~a şa - siu 

â, î i~ mân, în mi~n, i~n mân - ca - re 

în - ce - pe


litera ă 


litera i moale 

234 


ă a~ pă pa~ pă - mânt 

i i^ ui ui^ ui - te 

silabă accentuată sil sil_ sá sa_ sá - ni- e 

silabă finală sil *sil sa, crá *sa, *cra_ ca - sa 

De exemplu, fie sintagma : 

lu - crá 

„Evidenţierea unui cadru general pentru specificarea algoritmilor” 

Dacă în baza de date acustică se găsesc silabele / segmentele (cu notaţiile din tabelul 6.5): 

S3 *rea pen_ tru 

S2 vi de t~i *ui^ ca_ ru ge ne ra_ pe ci fi go ri_ mi lo 

S1 e n e_ u_ d l s a t r 

Rezultatul identificării silabelor / segmentelor în baza de date, folosind notaţiile din 

tabelul 6.5, este următorul : 

< e vi de n t~i e_ *rea u_ n *ui^ ca_ d ru ge ne ra_ l pen_ tru s 

pe ci fi ca_ *rea a l go ri_ t mi lo r > 

Aplicaţia prin care s-a implementat algoritmul căutării în baza de date generează acelaşi 

rezultat, cu observaţia că afişările segmentelor pot fi inversate datorită recursivităţii : 

Figura 6.31. Rezultatul căutării silabelor în baza de date

235 


Unităţile acustice găsite în baza vocală prin algoritmul expus mai sus se vor concatena 

pentru a genera semnalul de ieşire. Unităţile se concatenează ţinând cont de pauza dintre cuvinte, 

care se va ajusta în funcţie de ritmul cerut vorbirii. 

Exemplu : 

desc. unităţi 

unui cadru u_ n *ui^ [brk] ca_ d ru 

u_ n *ui^ 

ca_ d ru 

Figura 6.32. Exemplu de concatenare a unităţilor acustice 

Ultima fază este cea de sinteză propriu-zisă, în care formele de undă corespunzătoare 

textului de la intrare vor fi redate sonor prin intermediul plăcii audio a calculatorului. 

< Evidenţierea unui cadru general > 

< pentru specificarea algoritmilor > 

Figura 6.33. Rezultatul final al sintezei: generarea formei de undă pentru sintagma: 

< Evidenţierea unui cadru general pentru specificarea algoritmilor >

236 


6.4.8. Concluzii cu privire la metoda de sinteză a vorbirii prin concatenare de 

silabe, proiectată şi realizată de autor 

Ca o aplicaţie specifică metodelor de sinteză prin concatenare, autorul a proiectat şi 

implementat o metodă de sinteză pornind de la text, metodă bazată pe concatenarea silabelor. 

Pentru dezvoltarea metodei a fost necesară stabilirea unor reguli lingvistice în faza de analiză a 

textului şi a unor reguli de îmbinare a formelor de undă pe baza caracteristicilor prozodice, în 

faza de sinteză. 

Sinteza vorbirii prin această metodă se realizează în două faze: 

I. Analiza textului, şi respectiv 

II. Sinteza vorbirii. 

Fiecare fază cuprinde mai multe etape procesuale, astfel: 

I. Analiza textului de sintetizat : 

a. Preprocesarea textului. 

b. Analiza de sintaxă. 

c. Determinarea unităţilor lingvistice: silabele. 

d. Determinarea prozodiei intrasegmentale: accentuarea. 

II. Sinteza vorbirii : 

a. Proiectarea bazei de date vocale (etapă premergătoare). 

b. Regăsirea unităţilor acustice din baza de date corespunzătoare unităţilor lingvistice 


c. Concatenarea unităţilor acustice. 

d. Sinteza propriu-zisă a vorbirii. 

1. Preprocesarea textului se referă la transcrierea în formă textuală a informaţiilor din 

textul iniţial care: 

a) nu sunt reprezentate literal, ci prin caractere speciale, cifre sau simboluri; 

b) nu formează direct unităţi lexicale, ci prescurtări ale acestora (abrevieri). 

Dintre toate aceste categorii de informaţii, cele mai importante şi cel mai des folosite 

sunt numerele. Pentru explicitarea acestora sub formă textuală, fonematică, au fost concepute 

reguli lexicale speciale. Aceste reguli ţin cont de poziţia cifrei în cadrul unui număr pentru a o 

denomina printr-o categorie verbală. 

2. Analiza corectitudinii textului din punct de vedere al sintaxei reprezintă al doilea pas 

preliminar pentru realizarea unei sinteze de vorbire de calitate. 

Autorul a propus în această lucrare o metodă de analiză de sintaxă bazată pe reguli 

gramaticale, variantă cu un cost de proiectare mult mai redus decât în cazul realizării de 

vocabulare sau lexicoane. 

Metoda are ca punct de plecare generatorul automat de analizoare LEX, pentru care a fost 

proiectată o gramatică specificând modurile de flexionare a cuvintelor din limba română. Pentru 

aceasta, s-a folosit un dicţionar al formelor neflexionate ale limbii române, şi s-a construit un set 

de reguli care să identifice formele flexionate dintr-un text.

237 


Setul de reguli a fost organizat pe categorii gramaticale, fiind completat cu un set 

consistent de excepţii, ce asigură un înalt grad de completitudine în ceea ce priveşte acoperirea 

formelor gramaticale din limba română. 

3. Următoarea etapă în cadrul analizei textului de sintetizat constă în determinarea 

unităţilor lingvistice de bază, şi anume: propoziţiile, cuvintele şi silabele. Dacă extragerea 

propoziţiilor şi a cuvintelor nu ridică probleme deosebite, nu acelaşi lucru se poate spune despre 

stabilirea silabelor componente ale unui cuvânt. Pentru a realiza acest deziderat a fost necesară 

proiectarea unui set de reguli fonetice pentru despărţirea în silabe. 

Analizorul folosit la determinarea unităţilor lingvistice are o structură pe trei nivele, ce 

corespund cu trei module având roluri distincte în identificarea şi tratarea unităţilor fonetice. 

Cele trei module sunt: 

a) modulul de analiză sintactică pentru extragerea propoziţiilor şi cuvintelor; 

b) modulul de analiză lexicală pentru determinarea silabelor; 

c) modulul de procesare. 

a) Modulul de analiză sintactică sau analizorul sintactic foloseşte un set de reguli de 

producţie care specifică sintaxa textului de la intrare. Textul iniţial este considerat ca o listă de 

propoziţii, fiecare propoziţie fiind o listă de cuvinte, fiecare cuvânt fiind compus din mai multe 

silabe. Propoziţiile, respectiv cuvintele sunt extrase din text pe baza semnelor de punctuaţie şi 

separatorilor, care la rândul lor sunt furnizate de către modulul de analiză lexicală. 

b) Modulul de analiză lexicală sau analizorul lexical extrage caracterele din text şi le 

grupează în unităţi fonetice primare. Aici intră determinarea caracterelor alfabetice, numerice, a 

caracterelor speciale şi semnelor de punctuaţie. Pe baza unor reguli de producţie lexicale, 

caracterele alfabetice vor fi grupate în silabe, caracterele numerice în cifre şi numere, iar 

caracterele speciale şi semnele de punctuaţie vor fi folosite în determinarea cuvintelor şi 

propoziţiilor. 

Analizorul lexical este rezultat în urma generării automate prin intermediul generatorului 

de parsere de text LEX [Fre05]. Generatorul automat LEX construieşte un analizor lexical 

pornind de la o gramatică ce descrie regulile de producţie ale analizorului. Gramatica se scrie în 

limbaj standard BNF ( Backus-Naur Form) şi specifică secvenţele de caractere care trebuie 

recunoscute din textul de la intrare, precum şi acţiunile de efectuat corespunzătoare acestor 

secvenţe. 

c) Modulul de procesare grupează algoritmii de prelucrare a unităţilor sintactice ce sunt 

furnizate de către modulul de analiză sintactică şi a unităţilor lexicale ce rezultă din modulul de 

analiză lexicală. 

4. După etapa de separare a unităţilor lingvistice de tipul silabelor din text, urmează etapa 

de determinare a aspectelor prozodice. În această fază a proiectării au fost determinate aspectele 

prozodice intrasegmentale, şi anume accentele din interiorul cuvintelor. 

Analog abordării pentru detectarea silabelor, şi în această fază a fost necesară proiectarea 

unui analizor şi, respectiv, a unui set de reguli lexicale pentru determinarea accentelor. 

Analizorul lexical pentru determinarea accentelor a fost realizat tot pe baza facilităţilor 

oferite de către generatorul automat LEX. Astfel regulile analizorului sunt furnizate 

generatorului LEX în format BNF, stream-ul de intrare fiind chiar cuvântul curent extras din text

238 


de către analizorul sintactic. Cuvântul este introdus la intrarea analizorului lexical care, pe baza 

unor reguli specifice, va determina silaba accentuată din cuvânt. 

Ca o dezvoltare de viitor, ţinând cont că determinarea accentelor este în legătură cu 

aspectele prozodice intrasegmentale, se are în vedere şi determinarea aspectelor prozodice 

suprasegmentale, de tipul intonaţiei propoziţionale. Pentru aceasta se vor folosi modelele de 

intonaţie [Bod09-1] şi tehnica PSOLA, prezentată de asemeni în lucrare. 

5. Baza de date vocală utilizată în cadrul metodei de sinteză propusă de autor cuprinde 

un subset al silabelor limbii române. S-a propus o anumită strategie în realizarea bazei de date, 

astfel încât silabele să fie înregistrate în diferite contexte şi moduri de pronunţie, pentru a include 

prozodia aferentă textului de sintetizat. 

În baza de date au fost înregistrate silabe compuse din două, trei şi patru litere, notate cu 

S2, S3, respectiv S4, în total aproximativ 600 de silabe (a se vedea capitolul 7, care prezintă 

detalii de implemetare). 

În primul rând s-a urmărit includerea în fiecare categorie S2, S3 şi S4 a unui număr cât 

mai mare de silabe în ordinea frecvenţei de apariţie în limba română. Pentru aceasta s-a avut în 

vedere realizarea unei statistici a silabelor limbii române din care să rezulte frecvenţele de 

apariţie ale acestora. 

Statistica a fost realizată folosind texte extrase din domenii precum: beletristică de 

diverse genuri, religie, economie, politică, ştiinţă şi tehnică, ziaristică. Textele au însumat un 

număr de aproximativ 342000 de cuvinte, adică peste 600 de pagini în format A4. Statistica 

prezintă următoarele rezultate : 

a) configuraţia procentuală a categoriilor silabice S2, S3 şi S4; 

b) frecvenţa de apariţie a categoriilor silabice S2, S3 şi S4; 

c) frecvenţele de apariţie ale silabelor din fiecare categorie. 

Astfel, baza de date a fost construită respectând rezultatele acestei statistici. 

În realizarea bazei de date s-a ţinut cont şi de integrarea prozodiei locale, din interiorul 

cuvintelor. Astfel, prozodia a fost inclusă prin înregistrarea silabelor accentuate şi neaccentuate, 

pentru fiecare categorie S2, S3 şi S4. De asemeni, ţinând cont că o silabă se rosteşte distinct în 

funcţie de locul pe care aceasta îl ocupă în cadrul cuvântului, dacă este situată la începutul, 

mijlocul sau sfârşitul unui cuvânt, s-a urmărit înregistrarea silabelor în aceste diferite contexte în 

care ele pot să apară. 

În faza curentă de proiectare s-a făcut diferenţierea între silabe finale, pe de o parte, şi 

silabe mediane şi iniţiale, pe de altă parte. 

Structura ierarhică a bazei de date cuprinde patru nivele, şi anume: 

1) Nivelul Categorie : Silabe de două, trei sau patru foneme (S2, S3, S4); 

2) Nivelul Context : Segment median sau final, relativ la poziţia din cadrul cuvântului; 

3) Nivelul Accent : Silabe accentuate sau neaccentuate în interiorul cuvântului; 

4) Nivelul Silabă : Unităţile acustice înregistrate în format WAVE. 

Această structură ierarhică de tipul Categorie → Context → Accent → Silabǎ conferă şi 

avantajul reducerii substanţiale a timpului de căutare în baza de date, în faza de regăsire a 

unităţilor acustice.

239 


6. Regăsirea unităţilor acustice din baza de date se face pe baza unităţilor lingvistice 

determinate prin analiza textului de la intrare. 

În această etapă s-a proiectat un algoritm de regăsire a unităţilor din baza de date în 

funcţie de cele trei caracteristici ale silabei: lungime, context şi accentuare. Dacă o anumită 

silabă nu este găsită, aceasta se va descompune în unităţi subiacente care vor fi apoi căutate 

recursiv în baza de date vocală. Algoritmul proiectat construieşte seturile de diviziune pentru 

fiecare silabă şi realizează o potrivire optimă cu unităţile din baza de date vocală, asigurându-se 

astfel o redare sonoră cât mai fidelă a unităţii lingvistice din text. 

7. Unităţile acustice găsite în baza vocală prin algoritmul expus mai sus se vor concatena 

pentru a genera semnalul de ieşire. Unităţile se concatenează ţinând cont de pauza dintre cuvinte, 

care se va ajusta în funcţie de ritmul cerut vorbirii. 

8. Ultima etapă este cea de sinteză propriu-zisă, în care formele de undă corespunzătoare 

textului de la intrare vor fi redate sonor prin intermediul plăcii audio a calculatorului. 

Rezultate obţinute cu metoda de sinteză dezvoltată de autor 

I. În faza de analiză a textului: 

a) Analizorul automat de sintaxă realizat în cadrul metodei se bazează pe un dicţionar ce 

conţine peste 30000 de forme neflexionate ale limbii române şi pe un set de 550 de reguli de 

flexionare. Analizorul a fost testat pe o serie de texte în limba română de diferite genuri, de la 

literatură la documente tehnice, însumând peste 200000 de cuvinte. Testele au dovedit o 

corectitudine de peste 98% cuvinte recunoscute corect, cuvintele nerecunoscute constituind 

excepţii care nu au fost încă introduse în setul de reguli. Aceste rezultate arată completitudinea 

setului de reguli proiectat, precum şi viabilitatea metodei propuse. 

b) Analizorul lexical pentru determinarea silabelor cuprinde un set de peste 180 de reguli 

pentru descompunerea cuvintelor în silabe. Performanţa obţinută a fost de 98% cuvinte despărţite 

corect, rată calculată pe un set de 50000 de cuvinte extrase din texte de diferite genuri (literatură, 

economie, politică, ştiinţă şi tehnică, filozofie, religie). Performanţa este mai bună decât cea 

găsită la alţi cercetători români care au folosit reguli lexicale ([Tom09] – 90%). 

c) Analizorul lexical pentru determinarea accentelor cuprinde un set de 250 de reguli 

pentru detectarea silabei accentuate din interiorul cuvintelor. S-a obţinut o rată de detectare 

corectă a silabei acentuate de 94%, rată calculată pe acelaşi set de 50000 de cuvinte ca şi în cazul 

despărţirii în silabe. 

Din câte cunoaştem, în ţară nu există la ora actuală rezultate publicate despre construirea 

unor analizoare bazate exclusiv pe reguli pentru determinarea accentuării, ci doar lexicoane ce 

indică accentul cuvintelor, lexicoane ce au fost construite manual [Giu06] sau semiautomat 

[Dia09]. 

II. În faza de sinteză a vorbirii, metoda generează rezultate bune, datorită utilizării 

unităţilor acustice de lungime medie şi mare, de tipul silabelor. Concatenarea directă a unităţilor, 

fără o altă procesare a semnalului, face ca vorbirea sintetizată să păstreze naturaleţea şi aspectele 

prozodice caracteristice vocii care a înregistrat iniţial unităţile acustice.

240 


Avantajele metodei de sinteză a vorbirii pe bază de silabe dezvoltată de autor 

Metoda de sinteză bazată pe concatenarea silabelor prezentată în acest capitol are 

următoarele avantaje: 

a) Prezintă o abordare unitară în toate fazele de proiectare, fiind bazată pe reguli în cele 

mai importante etape ale sale. 

b) Foloseşte reguli organizate într-o gramatică de tip LEX, rezultând astfel separarea 

modulului de analiză lingvistică faţă de fluxul de prelucrare a datelor. 

c) Asigură o capacitate mărită de extensibilitate şi adaptabilitate datorită faptului că 

regulile sunt accesibile şi se pot edita de către utilizator. 

d) Asigură reducerea semnificativă a costului şi timpului alocat procesului de proiectare, 

datorită utilizării regulilor (cel mult de ordinul sutelor), faţă de metodele ce utilizează dicţionare 

sau lexicoane (conţinând definiţii de ordinul zecilor sau sutelor de mii). 

e) Prezintă un grad mai mare de versatilitate, datorită utilizării gramaticilor regulate 

specifice LEX, faţă de alte metode ce folosesc reprezentări interne ale regulilor sau chiar 

formatul XML. Utilizarea seturilor bazate pe expresii regulate permite specificarea de tipare 

pentru unităţile lingvistice şi contextele în care ele apar, rezultând astfel şi un grad mai mare de 

corectitudine în analiza finală a textului. 

f) Necesită un efort mai mic de construire şi întreţinere a bazei de date vocale decât în 

cazul metodei bazate pe corpus. Astfel, în cazul metodei bazate pe silabe, numărul unităţilor 

acustice este cu cel puţin două ordine de mărime mai mic decât în cazul metodei bazate pe 

corpus. 

g) Păstrează eficienţa şi calitatea metodelor de sinteză prin concatenare, în raport cu 

metodele parametrice de sinteză. Astfel, în cazul concatenării, semnalul sintetizat păstrează 

calitatea unităţilor înregistrate în baza de date vocală, pe când în cazul metodele parametrice, 

semnalul de ieşire este aproximat. 

h) Prezintă o calitate mai înaltă a sintezei faţă de metodele bazate pe foneme sau 

difoneme, din cauza unui număr mai redus de puncte de concatenare, la nivelul silabei. 

Aplicaţii şi dezvoltări de viitor 

Pentru mărirea performanţelor metodei de sinteză prezentate, se au în vedere următoarele 

dezvoltări de viitor: 

- mărirea gradului de completitudine a seturilor de reguli pentru silabisire şi accentuare, 

prin adăugarea de noi reguli; 

- îmbunătăţirea ratei de detectare corectă a accentuării prin folosirea unui dicţionar 

morfologic al limbii române. Astfel, gradul de completitudine al unor reguli stabilite pentru 

cuvinte cu aceeaşi terminaţie poate fi mărit prin preluarea cuvintelor din dicţionar. Aceasta va 

duce la creşterea ratei de detecţie corectă a analizorului, chiar fără a introduce noi reguli de 

accentuare; 

- în faza de analiză a sintaxei, determinarea părţilor de propoziţie (subiect, predicat) pe 

baza părţilor de vorbire detectate deja (substantiv, verb, etc.) va duce la determinarea semanticii 

frazei, cu aplicaţii importante în dialogul om-calculator;

241 


- analiza contextului în care apar părţile de vorbire detectate prin analizorul de sintaxă 

proiectat, precum şi stabilirea modului corect de flexionare, sunt aspecte importante care se vor 

putea aplica la construirea unor traducătoare automate de limbaj de înaltă fidelitate. 

- mărirea numărului de unităţi stocate în baza de date vocală, de la 600 în prezent la 2- 

3000, în conformitate cu statistica prezentată a silabelor din limba română, fapt ce va avea ca 

rezultat îmbunătăţirea semnificativă a calităţii semnalului sintetizat; 

- luarea în considerare a implementării prozodiei suprasegmentale, de tipul intonaţiei, 

prin intermediul tehnicii TD_PSOLA, crescându-se astfel naturaleţea vorbirii sintetizate. Aici, 

metoda proiectată de autor de detectare automată a perioadelor fundamentale din semnal (metodă 

prezentată în secţiunea 4.6) va fi foarte utilă în momentul aplicării PSOLA. 

Contribuţiile autorului 

Contribuţiile autorului prezentate în capitolul curent au fost următoarele: 

- dezvoltarea unei metode complete de sinteză de vorbire pornind de la text pentru limba 

română, metodă bazată pe concatenarea de silabe; 

- dezvoltarea unei metode bazată pe reguli pentru preprocesarea textului; 

- dezvoltarea unei metode bazată pe reguli pentru analiza sintaxei unui text în limba 

română şi a unui set de reguli pentru flexionarea cuvintelor din limba română; 

- realizarea unui analizor sintactic pentru extragerea propoziţiilor şi a cuvintelor ; 

- realizarea unui analizor lexical şi a unui set de reguli pentru despărţirea în silabe a 

cuvintelor din limba română; 

- realizarea unui analizor lexical şi a unui set de reguli pentru determinarea silabei 

accentuate din cadrul cuvintelor; 

- realizarea unei statistici a silabelor limbii române pentru determinarea frecvenţelor de 

apariţie ale silabelor din limba română; 

- realizarea unei baze de date acustice de silabe, în care unităţile au fost înregistrate în 

diferite contexte şi moduri de pronunţie, incluzând aspectele prozodice intrasegmentale; 

- proiectarea unui algoritm de regăsire în baza de date a unităţilor acustice în funcţie de 

caracteristicile acestora: lungime, context şi accentuare; 

- realizarea unei aplicaţii de test pentru validarea rezultatelor.

7. Realizarea sistemului de sinteză de voce în limba română 

LIGHTVOX 

Ca şi contribuţie în domeniul proiectării şi realizării unui sistem interactiv vocal, autorul 

a urmărit proiectarea şi implementarea unui sistem de sinteză vocală adaptat special limbii 

române, ce foloseşte ca şi unităţi fonetice silabele, numit LIGHTVOX. Sistemul a fost conceput 

ca un sistem text-to-speech, în care sinteza vorbirii se realizează pornind de la un text în limba 

română, utilizând metoda de sinteză bazată pe silabe prezentată în capitolul precedent. 

7.1. Organizarea pe module a sistemului 

Sistemul LIGHTVOX este organizat pe cinci module componente, aşa cum se indică în 

figura 7.1. Sistemul cuprinde următoarele module: 

- modulul de analiză lingvistică; 

- modulul de analiză prozodică; 

- modulul de gestiune a bazei de date vocale; 

- modulul de potrivire a unităţilor fonetice; 

- modulul de sinteză propriu-zisă a rostirii. 

ANALIZĂ 

LINGVISTICĂ 

GESTIUNEA BAZEI 

DE DATE VOCALE 

ANALIZĂ 

PROZODICĂ 

Figura 7.1. Sistemul de sinteză în limba română LIGHTVOX. 

Modulele componente 

Modulul de analiză lingvistică realizează analiza textului de la intrare urmărind extragerea 

unităţilor lingvistice de bază, şi anume silabele. Ideea folosirii silabelor în sinteză se bazează pe 

faptul că limba română are un specific articulator în care o mare pondere o au vocalele deschise, 

ceea ce conferă vorbirii un ritm în care sunt uşor de evidenţiat silabele. Rezultă astfel 

posibilitatea generării unei sinteze de vorbire de mare naturaleţe. 

Folosirea silabelor pentru sinteză mai aduce însă şi alte avantaje, precum: 

- întreţinerea facilă a bazei de date vocale datorită numărului relativ restrâns de silabe 

din limba română; 

- erori mici de concatenare datorită numărului redus de puncte de îmbinare în interiorul 

unui cuvânt. 

242 

POTRIVIRE 

UNITĂŢI 

SINTEZA 

ROSTIRII

Cap. 7. Proiectarea sistemului de sinteză de voce în limba română 

Modulul de analiză prozodică urmăreşte detectarea elementelor de prozodie segmentală pe 

baza textului de la intrare. Într-o primă fază s-au determinat locurile de accentuare a vorbirii în 

cadrul cuvintelor, pe baza unui set de reguli de accentuare proiectat specific pentru limba 

română. 

Modulul de gestiune a bazei de date vocale efectuează toate operaţiunile legate de baza de 

unităţi acustice. Baza de date vocală cuprinde un subset al silabelor limbii române obţinut din 

înregistrări ale rostirii unui vorbitor uman. Baza de date este organizată în funcţie de tipul 

silabelor (accentuate/neaccentuate), poziţia lor în cadrul cuvântului, precum şi după numărul de 

foneme componente (două, trei sau patru). 

Modulul de potrivire a unităţilor fonetice cu unităţile acustice asigură potrivirea dintre silabele 

extrase din textul de sintetizat şi silabele existente în baza de date vocală în format acustic, ca 

forme de undă. Potrivirea va trebui realizată într-un mod optim, ţinând cont de faptul că nu toate 

silabele se regăsesc în baza de date. 

Modulul de sinteză a rostirii realizează mai întâi concatenarea formelor de undă furnizate de 

modulul anterior. Vorbirea propriu-zisă se obţine prin apelul unor funcţii API ce asigură 

comanda plăcii audio a calculatorului. 

7.2. Structura funcţională a sistemului 

Sistemul este prezentat în detaliu în figura 7.2, pe blocuri funcţionale. Se observă 

structura completă de tip text-to-speech în care se porneşte de la un text şi se realizează sinteza 

completă a vorbirii, LIGHTVOX fiind astfel un sistem de sinteză de nivel înalt. Din punct de 

vedere al tipului de abordare, este un sistem de sinteză în domeniul timp, folosind concatenarea 

directă a unităţilor acustice neparametrizate. Metoda de sinteză (prezentată în secţiunea 6.4) este 

mixtă, din punct de vedere al clasificării sistemelor text-to-speech, îmbinând caracteristici ale 

abordării bazate pe concatenarea formelor de undă şi ale abordării bazate pe reguli. 

Aşa cum se observă din figura 7.2, sistemul efectuează mai întâi o preprocesare şi o 

analiză sintactică a textului iniţial pentru a-l aduce la o formă ortografică corectă. Apoi are loc 

determinarea unităţilor lingvistice de bază (în cazul de faţă silabele) şi a informaţiilor prozodice 

segmentale (accentul cuvintelor). Pe baza acestor elemente sunt regăsite unităţile acustice din 

baza de date vocală care corespund cel mai bine unităţilor lingvistice detectate. Segmentele 

acustice sunt concatenate şi apoi are loc sinteza propriu-zisă a vorbirii. 

Tot în figura 7.2 se prezintă şi etapele fazei de construcţie a bazei de date vocale. Astfel, 

semnalul vocal este mai întâi normalizat şi descompus în secvenţe de regiuni cu proprietăţi 

distincte. Secvenţele de regiuni sunt puse în corespondenţă cu fonemele limbii române, urmând 

apoi extragerea din semnalul vocal a grupurilor de foneme care alcătuiesc unităţile acustice, în 

cadrul unui proces semiautomat. Unităţile acustice se memorează în final în structura ierarhică a 

bazei de date. 

243

Figura 7.2. Sistemul de sinteză a vocii în limba română LIGHTVOX 

244


7.3. Metodologia de proiectare a sistemului de sinteză LIGHTVOX 

Realizarea sistemului LIGHTVOX a urmărit două direcţii de lucru (figura 7.3): 

1. Construirea bazei de date acustice (proces off-line), incluzând următoarele etape: 

înregistrarea eşantioanelor de voce, normalizarea semnalului, segmentarea semnalului în 

regiuni, segmentarea fonematică, separarea unităţilor acustice şi construirea bazei de 

date; 

2. Conversia text-voce (proces on-line), cuprinzând etapele: preprocesarea textului, 

corectarea ortografică, detecţia unităţilor lingvistice, determinarea prozodiei locale, 

regăsirea unităţilor acustice, îmbinarea unităţilor şi sinteza de voce. 

ÎNREGISTRAREA 

SEMNALULUI 

VOCAL 

PROCESAREA 

TEXTULUI 

Figura 7.3. Etapele principale ale realizării sistemului LIGHTVOX 

7.3.1. Construirea bazei de date acustice 

Prima fază abordată în realizarea sistemului de sinteză de voce LIGHTVOX a fost 

construirea bazei de date acustice. În funcţie de metoda abordată, baza de date acustică poate 

cuprinde fie formele de undă (codificate sau nu), fie secvenţele parametrice cor espunzând 

unităţilor fonetice. În cazul sistemului LIGHTVOX, baza de date cuprinde formele de undă 

asociate silabelor limbii române. 

ANALIZA 

SEMNALULUI 

A. Construirea bazei de date acustice 

DETECŢIA 

UNITĂŢILOR 

B. Conversia text - voce 

Etapele procesului de realizare a bazei de date vocale au fost următoarele : 

1) crearea listei de silabe ; 

2) crearea listei de cuvinte care să conţină silabele dorite ; 

3) înregistrarea digitală a rostirii ; 

4) normalizarea înregistrării ; 

5) crearea corpusului paralel text-voce; 

6) segmentarea semnalului vocal în regiuni fonematice ; 

7) detecţia şi separarea silabelor din semnal; 

8) salvarea unităţilor acustice în baza de date. 

245 

SEGMENTAREA 

VORBIRII 

DETERMINAREA 

PROZODIEI 

CONSTRUIREA 

BAZEI DE DATE 

CONCATENAREA 

UNITĂŢILOR ŞI 

SINTEZA DE VOCE

1) Crearea listei de silabe 


Structura bazei de date acustice a fost deja prezentată în secţiunea 6.4.6. 

Astfel, s-a stabilit ca baza de date să cuprindă silabe alcătuite din două, trei sau patru 

litere (notate cu S2, S3, S4), dar şi foneme singulare (S1). S -a urmărit includerea în fiecare 

categorie S2, S3 şi S4 a unui număr cât mai mare de silabe în ordinea frecvenţei de apariţie în 

limba română, realizându-se în acest scop o statistică a silabelor (vezi paragraful 6.4.6.1). 

Pentru a alcătui lista iniţială de silabe, s-a pornit de la mulţimea fonemelor limbii române. 

S-au luat în considerare în total 27 de foneme : 

F = [aăbcdef gh i îjklmnoprs ştţuvxz ] 

Mulţimea F nu cuprinde fonemele /q/, /w/, /y/, acestea fiind înlocuite prin fonemele /c/, 

/v/, /i/. 

F este alcătuită din reuniunea a două submulţimi C şi V : 

C = [ bcdf ghjklmnprs ş t ţ vxz] - submulţimea consoanelor (card C = 20) 

V = [aăeiîo u] - submulţimea vocalelor (card V = 7) 

Pentru silabele din categoria S2, avem următoarele configuraţii posibile: 

a) [CV] 

b) [VV] 

c) [VC] 

unde C reprezintă o consoană, iar V – o vocală. 

a) Pentru silabele de tipul [CV] s-au generat toate combinaţiile de două elemente care 

rezultă din compunerea mulţimilor C şi V : 

L1 = { [ba] [ca] [da] ..... [za] , 

[bă] [că] [dă] ..... [ză] , 

……. 

[bu] [cu] [du] ..... [zu] } 

Din această listă s-au eliminat combinaţiile care nu există în limba română, precum: [kă], 

[kî], etc. 

b) Pentru silabele de tipul [VV] şi [VC] s-a parcurs tabelul silabelor S2 (generat pe baza 

statisticii de la 6.4.6.1 şi prezentat în anexa 2), preluându-se toate configuraţiile de această 

formă. S-au obţinut listele: 

L2 = { [ai] [au] ..... [ua] [ui] } 

L3 = { [ab] [ac] ..... [uz] } 

Lista completă pentru categoria S2 este: 

LS2 = L1 U L2 U L3 . 

Pentru categoriile silabice S3 şi S4, listele LS3 şi LS4 s-au obţinut pe baza tabelelor din 

anexele 3 şi 4. 

246


Din considerente ce au ţinut de condiţiile existente pentru înregistrarea audio, listele LS3 

şi LS4 au fost reduse la câteva zeci de elemente (a se vedea tabelul 7.2, ce prezintă numărul 

unităţilor acustice stocate în baza de date). 

În lista LS1 (adică fonemele singulare) au fost incluse toate fonemele din mulţimea F . 

2) Crearea corpusului de cuvinte 

Odată obţinute listele cu silabe ( LS1 … LS4), s-a trecut la construirea corpusului de 

cuvinte, în vederea înregistrării şi apoi a separării unităţilor acustice. 

Pentru a se genera o vorbire sintetică de calitate, s-a avut în vedere ca silabele înregistrate 

să includă şi anumite elemente de prozodie. 

În primul rând, silabele trebuiau să respecte accentuaţia din interiorul cuvintelor. Ca 

urmare, au fost luate în considerare atât silabele accentuate (ACC), cât şi cele neaccentuate 

(NA), pentru fiecare categorie S2, S3 şi S4. 

De asemeni, ţinând cont că o silabă se rosteşte distinct în funcţie de locul pe care aceasta 

îl ocupă în cadrul cuvântului, dacă este situată la începutul, mijlocul sau sfârşitul unui cuvânt, s-a 

urmărit introducerea în listă a silabelor în aceste contexte diferite în care ele pot să apară. Astfel, 

s-a făcut diferenţierea între silabe finale (FIN), pe de o parte, şi silabe iniţiale şi mediane (MED), 

pe de altă parte. 

Corpusul de cuvinte folosit pentru extragerea unităţilor acustice a fost alcătuit atât din 

propoziţii şi cuvinte normale care conţineau silabele dorite, precum şi din cuvinte artificiale 

folosite pentru a evidenţia mai bine un anumit grup de foneme. 

Generarea seturilor de cuvinte a ţinut cont de tipul silabelor: accentuate (ACC), respectiv 

neaccentuate (NA), cât şi de contextul acestora: silabe mediane (MED) sau finale (FIN). 

Cuvintele artificiale includ silabele în contextele necesare, folosindu-se silabe auxiliare 

predefinite (de exemplu silaba /ta/). 

De exemplu pentru categoria S2 a fost generat următorul set de cuvinte : 

MED 

FIN 

NA ACC NA ACC ... 

ta - ba - tá 

ta - ca - tá 

… 

ta - za - tá 

tá - ta - ba 

tá - ta - ca 

… 

tá - ta - za 

ta - bá - ta 

ta - cá - ta 

… 

ta - zá - ta 

ta - ta - bá 

ta - ta - cá 

… 

ta - ta - zá 

247 

ta - be - tá 

ta - ce - tá 

… 

ta - ze - tá 

tá - ta - be 

tá - ta - ce 

… 

tá - ta - ze 

ta - bé - ta 

ta - cé - ta 

… 

ta - zé - ta 

ta - ta - bé 

ta - ta - cé 

… 

ta - ta - zé 

Din acest set au fost excluse combinaţiile care generează contexte improbabile pentru 

limba română (în majoritate silabe accentuate în context final). Alte silabe de acest gen au rămas 

în set chiar dacă în dicţionar nu există cuvinte care să le conţină în contextul respectiv. 

… 

…


Aceste unităţi silabice pot genera silabe care nu au fost cuprinse în baza de date vocală, 

dar care apar în componenţa unor cuvinte din dicţionar. Câteva exemple sunt date în tabelul 

următor: 

Tabelul 7.1. Unităţi silabice din afara dicţionarului care generează silabe din dicţionar 

Silabă Context Accent Notaţie 

248 

Cuvânt în 

dicţionar 

Silabă 

generată 

Cuvânt în 

dicţionar 

ce FIN ACC cé A F - cél A F acél 

de FIN ACC dé A F - dél A F modél 

ţe FIN ACC ţé A F - ţél A F oţél 

… 

zo FIN ACC zó A F - zót A F azót 

… 

3) Înregistrarea digitală a rostirii 

După constituirea seturilor de cuvinte, s-a trecut la rostirea efectivă a acestora, în scopul 

înregistrării corpusului vocal. A fost ales un vorbitor masculin, urmărindu-se rostirea corpusul 

textual într-un ritm constant, cu o aceeaşi tonalitate a vocii. 

Construirea bazei de date a început efectiv odată cu procesul de înregistrare a rostirii 

vorbitorului uman, rostire care a inclus unităţile fonetice silabice în diferite contexte şi moduri de 

pronunţie. După cum am văzut, în baza de date nu au fost înregistrate toate silabele limbii 

române, ci doar un subset al acestora, silabele care n-au fost incluse fiind apoi generate pe baza 

celor existente. 

Procesul de înregistrare a semnalului vocal a presupus folosirea unei aparaturi speciale 

constituită dintr-un microfon, o placă digitizoare de semnal acustic, şi un program software 

specializat pentru lucrul cu fişiere audio. Autorul a folosit un microfon dinamic semiprofesional, 

o placă audio Creative SoundBlaster şi programul de digitizare audio Cool Edit Pro v2.0. 

Parametrii de înregistrare au fost următorii: înregistrare de tip uni-canal, frecvenţa de 

eşantionare: 16 kHz, dimensiunea eşantioanelor: 16 biţi, codificare: PCM, formatul fişierului 

audio: WAVE. 

4) Normalizarea înregistrării 

În urma înregistrării, eşantioanele audio au urmat o fază de normalizare, adică de aducere 

a lor la o formă unitară în tot cuprinsul bazei vocale. Normalizarea presupune prelucrarea 

digitală a semnalului vocal înregistrat, proces care poate fi făcut manual sau semiautomat, prin 

intermediul unui program software specializat, sau automat, în cazul în care se proiectează 

algoritmi speciali de normalizare. Autorul a folosit o procedură semiautomată, disponibilă prin 

intermediul aplicaţiei Cool Edit Pro v2.0.


În urma normalizării, corpusul vocal conţine toate înregistrările de aceeaşi amplitudine 

(rostirile prezentând aceeaşi tărie sonoră), precum şi frecvenţă fundamentală constantă 

(corespunzând unor rostiri de aceeaşi tonalitate, acelaşi ritm şi intonaţie constantă). În primul 

rând, aceste cerinţe legate de amplitudine şi frecvenţă fundamentală se referă la segmentele 

vocale care prezintă aceste caracteristici, cu alte cuvinte la segmentele corespunzătoare vocalelor 

fonetice. 

5) Crearea corpusului paralel text-voce 

În vederea prelucrării semnalului şi descompunerii acestuia în unităţi acustice, 

înregistrările au fost salvate în fişiere audio în format WAVE. Fiecare fişier audio conţine una 

sau mai multe secvenţe de cuvinte din corpusul vorbit, depinzând de capacitatea vorbitorului de a 

păstra un ritm şi o tonalitate constante pe parcursul înregistrării. 

Pentru a realiza segmentarea automată a semnalului în regiuni fonematice a fost necesară 

utilizarea a două corpusuri în paralel, şi anume: corpusul vorbit, înregistrat în fişiere audio, şi 

respectiv corpusul textual corespondent. Astfel, odată cu salvarea fiecărui fişier audio, a fost 

stocat şi fişierul text asociat conţinutului său. 

VOCE 

TEXT 

Figura 7.4. Crearea corpusului paralel text-voce 

6) Segmentarea semnalului vocal în regiuni fonematice 

Această etapă urmăreşte descompunerea semnalului vocal în regiuni corespunzătoare 

secvenţelor fonematice (şiruri de foneme). Această operaţie va d uce în final la separarea 

unităţilor silabice din semnalul vocal înregistrat. 

Paşii care au fost realizaţi sunt ilustraţi în figura 7.5. 

ANALIZA 

SEMNALULUI 

VOCAL 

Parametri 

de semnal 

FIS1.WAV 

FIS1.TXT 

SEGMENTARE 

S/U/V 

Regiuni de 

semnal 

FIS2.WAV 

FIS2.TXT 

COMPACTARE 

REGIUNI 

Regiuni 

compacte 

Figura 7.5. Paşii realizaţi pentru segmentarea semnalului în regiuni fonematice 

a) Analiza semnalului vocal presupune determinarea parametrilor semnalului utili în faza 

de segmentare. Conform paragrafului 4.2.1 (analiza în domeniul timp a semnalului vocal), au 

249 

FIS3.WAV 

FIS3.TXT 

CLASIFICARE 

REGIUNI 

Clase de 

regiuni 

….. 

SEGMENTARE 

FONEMATICǍ 

Regiuni 

fonematice


fost determinaţi următorii parametri: amplitudinea semnalului, energia şi numărul de treceri prin 

zero. De asemeni, a fost calculată frecvenţa fundamentală a semnalului (vezi paragraful 4.6.1). 

b) Segmentarea SUV, descrisă în paragraful 4.4.2, are ca scop detectarea categoriilor 

fundamentale de semnal: linişte (Silence), sonor (Voiced), nesonor (Unvoiced), la care se adaugă 

şi categoria tranziţie. 

c) Compactarea regiunilor (vezi paragraful 4.4.3) urmăreşte asocierea regiunilor vecine 

de dimensiuni mici, având ca rezultat scăderea numărului total de regiuni, cu efect pozitiv asupra 

timpului de procesare. 

d) Clasificarea regiunilor (proces prezentat în capitolul 4.4) împarte cele patru categorii 

de semnal de la punctul b) în 10 clase distincte, clase care pot fi asociate cu reprezentarea sonoră 

a fonemelor limbii române. 

e) Segmentarea fonematică (capitolul 4.8) asociază simbolurile fonetice cu regiunile din 

semnal. Pentru aceasta, se foloseşte corpusul paralel text-voce de la punctul 5). Pe baza unor 

reguli speciale de asociere, se face o corespondenţă între grupurile fonetice prezente la intrarea 

de text cu secvenţele de regiuni detectate din semnalul vocal. 

TEXT 

SEMNAL 

secvenţă fonetică 1 ; secvenţă fonetică 2 ; secvenţă fonetică 3 . . . 

[Regiune 1] [Regiune 2] [Regiune 3] - - - [Regiune n] - - - 

Figura 7.6. Asocierea dintre grupurile fonematice şi secvenţele de regiuni 

7) Detecţia şi separarea silabelor din semnal 

După punerea în corespondenţă a secvenţelor fonematice cu regiunile din semnal, 

urmează faza de separare a silabelor utile din corpusul vocal. Pentru aceasta, s-a folosit o 

procedură semiautomată care selectează secvenţele dorite prin deplasarea capetelor intervalului 

de selecţie pe graniţele regiunilor fonematice. Regiunea selectată poate fi ajustată prin deplasarea 

manuală a marginilor ce au fost detectate în mod automat. Apoi regiunea corespunzătoare silabei 

dorite se salvează într-un fişier al bazei de date. 

T A T I T A T A D E T A 

Figura 7.7. Detecţia şi separarea silabelor din semnal 

250

8) Salvarea unităţilor acustice în baza de date 


După detecţia silabelor dorite din semnalul vocal, acestea se salvează ca fişiere distincte 

în structura ierarhică a bazei de date. Aşa cum s-a prezentat în secţiunea 6.4.6, baza de date 

vocală este organizată în funcţie de parametrii unităţilor acustice, astfel: 

a) după lungimea unităţilor: silabe alcătuite din două, trei sau patru litere, precum şi 

foneme singulare ; 

b) după poziţia silabei în interiorul cuvântului: silabe iniţiale/mediane sau finale ; 

c) după accentuare: silabe accentuate sau neaccentuate. 

Ca urmare, baza de date vocală prezintă o structură arborescentă, în care unităţile acustice 

sunt stocate sub formă de fişiere. 

Pentru a implementa criteriul a), au fost create directoarele: S1, S2, S3 şi S4, în fiecare 

director fiind memorate doar unităţi de lungime corespunzătoare. 

Pentru a implementa criteriul b), în fiecare director a fost creat un subdirector Final, în 

care au fost memorate unităţile de tip silabă finală, în timp ce silabele acustice iniţiale/mediane 

au fost salvate în directorul părinte. 

Criteriul c) a fost rezolvat prin utilizarea unor convenţii de notaţie a numelui fişierelor; 

astfel silabele accentuate prezintă sufixul ‘_’ în numele fişierelor ce le conţine. De exemplu, 

pentru silaba neaccentuată sa avem fişierul sa.wav, iar pentru silaba accentuată sá a fost 

înregistrat fişierul sa_.wav (convenţiile de notaţie au fost prezentate în tabelul 6.5). 

Rezultă următoarea structură a colecţiei de fişiere din baza de date vocală : 

fF 

Rădăcină 

S1 S2 S3 S4 

Final Final Final Final 

f A F 

f f A 

ffF ff A F 

ff ff A 

fffF fff A 

Figura 7.8. Structura colecţiei de fişiere din baza de date vocală 

În figura de mai sus, notând U = unitatea acustică (U = f pentru foneme singulare, U = ff 

pentru silabe de două litere, U = fff pentru silabe de trei litere, U = ffff pentru silabe de patru 

litere), avem : 

- U = unitatea acustică neaccentuată în poziţie mediană ; 

- U A = unitatea acustică accentuată în poziţie mediană ; 

- UF = unitatea acustică neaccentuată în poziţie finală ; 

- U A F = unitatea acustică accentuată în poziţie finală. 

251 

F 

fff fff A 

ffffF ffff 

A F 

ffff ffff 

A


În figura 7.9, se poate observa un extras din directorul S2 ce conţine unităţi acustice 

silabice de două litere, unde pentru numele fişierelor s-au folosit convenţiile din tabelul 6.5. 

Figura 7.9. Extras din directorul S2 cu unităţi acustice silabice de două litere 

În final, în baza de date au fost înregistrate aproximativ 600 de unităţi acustice, foneme şi 

silabe, considerând atât silabele de segment median şi final, cât şi silabele accentuate şi 

neaccentuate: 

Tabelul 7.2. Unităţile acustice înregistrate în baza de date 

Silabe Segment median Segment final Total 

S2 (două foneme) 283 103 386 

S3 (trei foneme) 84 55 139 

S4 (patru foneme) 10 27 37 

S1 (foneme 

singulare) 

31 5 36 

252

7.3.2. Conversia text-voce 


Conversia text-voce reprezintă a doua fază, ce decurge on-line, în funcţionarea sistemului 

LIGHTVOX şi cuprinde toate etapele ce trebuie parcurse pentru ca dintr-un text iniţial să se 

genereze vorbirea sintetică asociată. 

Etapele componente ale acestei faze sunt următoarele : 

a) preprocesarea textului, 

b) corectarea ortografică, 

c) detecţia unităţilor lingvistice, 

d) determinarea prozodiei locale, 

e) regăsirea unităţilor acustice, 

f) îmbinarea unităţilor, 

g) sinteza de voce. 

Toate aceste etape au fost descrise pe larg în cadrul prezentării metodei de sinteză bazată 

pe silabe din secţiunea 6.4. 

a) Preprocesarea textului a fost descrisă în paragraful 6.4.2. Pe baza unor reguli de 

conversie fonetică, abrevierile şi numerele din textul iniţial au fost transcrise fonetic în vederea 

sintezei. 

b) Corectarea ortografică este a doua etapă necesară pentru o sinteză corectă a textului. 

Pentru implementarea acestei etape, a fost proiectat un analizor gramatical şi un set de reguli de 

analiză a sintaxei, obţinându-se o rată de recunoaştere a erorilor de 98% (paragraful 6.4.3). 

La intrarea analizorului se prezintă textul iniţial, ce conţine cuvinte în limba română în 

diferite forme flexionate. Pe baza setului de reguli proiectat, analizorul generează forma de bază, 

neflexionată, a fiecărui cuvânt de la intrare şi o caută într-un dicţionar. O interfaţă grafică va 

pune apoi în evidenţă cuvintele care au o sintaxă greşită sau care nu au fost potrivite cu setul de 

reguli din analizor. 

c) Etapa următoare o reprezintă determinarea unităţilor de bază din textul corectat 

ortografic. Aceste unităţi de bază sunt: propoziţiile, cuvintele şi silabele fiecărui cuvânt. 

Propoziţiile şi cuvintele se determină pe baza unui analizor sintactic, iar silabele printr-un 

analizor lexical (a se vedea paragraful 6.4.4). Analizorul lexical pentru determinarea silabelor 

cuprinde un set de peste 180 de reguli pentru descompunerea cuvintelor în silabe, performanţa 

obţinută fiind de 98% cuvinte despărţite corect. 

d) Determinarea prozodiei locale urmează după etapa extragerii unităţilor lingvistice din 

text. Prozodia locală se referă aici la determinarea accentelor din cadrul cuvintelor. Utilizarea în 

sinteză atât a unităţilor accentuate cât şi a unităţilor neaccentuate a dus la obţinerea unei rostiri 

de calitate mult mai naturală. Determinarea accentelor, prezentată în paragraful 6.4.5, s-a realizat 

tot prin intermediul unui analizor lexical şi a unui set de reguli fonetice. Analizorul lexical 

cuprinde un set de 250 de reguli pentru detectarea silabei accentuate din interiorul cuvintelor, 

obţinându-se o rată de detectare corectă a accentului de 94%. 

e) După determinarea unităţilor lingvistice din text împreună cu elementele de prozodie, 

urmează etapa de regăsire a unităţilor acustice din baza de date vocală. Regăsirea se face în 

253


funcţie de caracteristicile unităţii lingvistice: lungime, context şi accentuare (a se vedea 

paragraful 6.4.7). Pot exista următoarele situaţii: 

- Unitatea este regăsită identic în baza de date vocală, din punct de vedere fonetic, 

contextual şi prozodic. În acest caz unitatea se reţine ca atare pentru a fi înglobată în textul 

sintetizat. 

- Unitatea este regăsită fonetic, dar nu prozodic sau contextual. Se preferă, în acest caz, 

construirea acesteia din subunităţi sau foneme separate, care să respecte în primul rând prozodia 

cerută (unitate accentuată sau neaccentuată), şi apoi, dacă este posibil, contextul specificat. 

- Unitatea nu este regăsită fonetic în baza de date. Şi în acest caz ea va fi construită pe 

baza subunităţilor componente, găsite în baza de date. 

f) Îmbinarea unităţilor: unităţile acustice găsite în baza vocală prin algoritmul expus mai 

sus se vor concatena pentru a genera semnalul de ieşire. Concatenarea se face ţinând cont de 

pauza dintre cuvinte, pauză care se va ajusta în funcţie de ritmul necesar pentru vorbire. 

g) Ultima fază este cea de sinteză propriu-zisă, în care formele de undă corespunzătoare 

textului de la intrare (generate în etapa precedentă) vor fi redate sonor prin intermediul plăcii 

audio a calculatorului. 

7.4. Algoritmul de implementare al conversiei text-voce 

În acest paragraf este prezentat algoritmul de implementare al procesului on-line al 

sistemului: conversia text-voce. Algoritmul porneşte de la un text sursă trecut prin fazele de 

preprocesare şi corectare ortografică, realizând următoarele acţiuni: analiza lingvistică în scopul 

determinării silabelor, analiza prozodică pentru determinarea accentelor, potrivirea unităţilor şi 

sinteza de voce. Algoritmul general este prezentat în diagrama 1. 

La început, parserul de text apelează analizorul lexical (denumit Silabe_Lex) pentru 

determinarea silabelor, respectiv a separatorilor. Cele două tipuri de unităţi lexicale sunt 

procesate de către subrutinele Procesare_Silabă, respectiv Procesare_Separator. Silabele 

urmate de un separator sunt grupate pentru a forma un cuvânt. 

Cuvântul curent este prelucrat mai departe în subrutina Procesare_Cuvânt, mai multe 

cuvinte formând o propoziţie. După fiecare cuvânt regăsit de la intrare, se apelează analizorul 

lexical pentru determinarea accentelor, adică a silabei accentuate din cuvânt. 

Apoi subrutina Potrivire_unităţi realizează funcţia de punere în corespondenţă între 

unităţile regăsite din textul de la intrare şi unităţile acustice memorate în baza de date. Potrivirea 

se face la nivelul silabelor pentru fiecare cuvânt din propoziţie. În urma acestei operaţiuni rezultă 

un fişier de tip wave care este sintetizat prin intermediul subrutinei Rostire. 

Algoritmul de parcurgere a intrării este ilustrat în diagrama 2. Se iniţializează mai întâi 

stream-ul de intrare – textul care trebuie sintetizat (funcţia Init_Stream). Apoi se apelează 

analizorul lexical yylex( ) pentru despărţirea în silabe. Analizorul returnează fie o silabă, fie un 

separator, fie caracterul sfârşit de fişier, dacă s-a ajuns la sfârşitul stream-ului de intrare. Silaba 

se tratează în procedura Procesare_Silabă, iar separatorul în procedura Procesare_Separator, 

ambele figurate în diagrama 3. 

254


Procedura Procesare_Silabă adaugă silaba la cuvântul curent ( Adaugă_Silabă), şi apoi 

construieşte structura în memorie a cuvântului prin Construieşte_Cuvânt. Tot aici se face şi 

eliminarea cratimei din cuvânt, în vederea rostirii (căutarea în baza de date se face după o silabă 

care nu trebuie să conţină cratimă). 

Subrutina Procesare_Separator este apelată atunci când analizorul întâlneşte un separator 

în stream-ul de intrare. Aceasta înseamnă că s-a terminat de citit un cuvânt şi, dacă separatorul 

este terminator de propoziţie, s-a încheiat şi propoziţia curentă. Cuvântul este prelucrat şi 

analizat din punct de vedere al prozodiei (accentelor) în procedura Procesare_Cuvânt. Apoi se 

adaugă cuvântul împreună cu structura de silabe şi accente în propoziţia curentă din memorie 

(procedura Adaugă_Cuvânt). Urmează adăugarea în structură a separatorului, care va indica în 

momentul rostirii pauza dintre cuvinte, respectiv de la sfârşitul propoziţiei. 

Se testează în continuare dacă separatorul este un terminator de propoziţie. În caz 

afirmativ, se apelează procedura Potriveşte_Unităţi, care are rolul de a căuta şi identifica 

unităţile acustice din baza de date din care se va construi forma de undă corespunzătoare 

cuvintelor din propoziţie. Apoi se rosteşte propoziţia în subrutina Rosteşte_Propoziţie. 

Potrivirea silabelor din cuvânt cu unităţile acustice se face în funcţie de accentuarea 

silabei (dacă silaba este accentuată sau nu) şi după locul silabei în cadrul cuvântului (dacă silaba 

este în mijlocul sau la finalul cuvântului). Căutarea în baza de date ţine cont şi de numărul de 

litere componente ale silabei. Dacă silaba nu este regăsită ca atare în baza de date, atunci forma 

de undă se construieşte pe baza fonemelor şi silabelor cu un număr mai mic de litere ce intră în 

componenţa silabei iniţiale. Aşa cum am amintit anterior, pot exista următoarele situaţii: 

1. Silaba dorită este regăsită identic în baza de date vocală, atât din punct de vedere 

fonetic, cât şi din punct de vedere prozodic. În acest caz silaba se reţine ca atare pentru a fi 

înglobată în cuvântul de sintetizat. 

2. Silaba este regăsită fonetic, dar nu şi prozodic. Se preferă în acest caz constituirea 

acesteia din silabe şi foneme mai scurte, care să respecte prozodia cerută (silabă accentuată sau 

neaccentuată). 

3. Silaba nu este regăsită fonetic în baza de date. Şi în acest caz silaba va fi compusă pe 

baza fonemelor separate extrase din baza de date. 

Formele de undă corespunzătoare silabelor sunt concatenate, iar rostirea propoziţiei se va 

realiza prin apelul funcţiei API Windows PlaySound( ). 

Procesarea unui cuvânt din punct de vedere al prozodiei (accentelor) se face în procedura 

Procesare_Cuvânt, ilustrată în diagrama 4. Aici se verifică mai întâi terminaţia cuvântului pentru 

a se determina dacă este vorba despre un substantiv care a fost declinat (‚băiatul’, ‚băieţilor’, 

etc.). În acest caz se elimină terminaţia (prin diminuarea numărului de litere componente ale 

cuvântului cu lungimea terminaţiei) şi se apelează analizorul lexical pentru determinarea silabei 

accentuate yyCuvântLex( ). La ieşirea din analizor, subrutina Pune_Accent restaurează numărul 

de litere şi actualizează poziţia accentului (în Actualizează_Accent). 

255

Baza de 

date 

vocală 


Parser 

Silabe 

Lex 

Separator Silabă 

Procesare 

Separator 

Procesare 

Cuvânt 

Propoziţie 

Cuvânt 

Potrivire 

unităţi 

Wave 

Rostire 

Diagrama 1. LIGHTVOX - Algoritmul de implementare 

256 

Procesare 

Silabă 

Accente 

Lex 

Accente

DA 

NU 

Parse Input 

Init Stream 

LexVal = yyLex ( ) 

LexVal = EOF 

LexVal = SILABA 

DA 

LexVal = 

SEPARATOR 

DA 

Procesare Separator 

Close Stream 

End 

NU 

Diagrama 2. Algoritmul pentru parcurgerea intrării 


257 

NU 

Procesare Silabă 

1 

2

1 

Procesare Separator 

Procesare Cuvânt 

Adaugă Cuvânt 

Adaugă Separator 

Separator_Propoziţie 

DA 

Potriveşte Unităţi 

Rosteşte Propoziţie 

End 

NU 

3 


Prop 

Cuv 

Sil Sil Sil 

Diagrama 3. Algoritmul de procesare a unităţilor lexicale 

258 

2 

Procesare Silabă 

Adaugă Silabă 

Construieşte Cuvânt 

End 

Cuv 

Sil Sil Sil 

Sep Cuv Sep 

Sil Sil Sil

3 

Procesare Cuvânt 

Verifică Terminaţie 

Accent = yyCuvântLex( ) 

Pune Accent 

(Accent) 

End 

4 

5 

5 

Pune Accent 

Term = 

ul/ilor/elor/ile/ului/elui 

Număr_Litere = 

Număr_Litere + len(Term) 

End 

DA 

Actualizează Accent 

(Accent) 

Diagrama 4. Procesarea cuvintelor şi determinarea accentelor 


259 

NU 

4 

Verifică Terminaţie 

Term = 

ul/ilor/elor/ile/ului/elui 

Număr_Litere = 

Număr_Litere – len(Term) 

End 

DA 

NU


7.5. Rezultate experimentale şi dezvoltări de viitor 

În cadrul Facultăţii de Electronică, Telecomunicaţii şi Tehnologia Informaţiei din Cluj- 

Napoca, autorul a realizat un prototip al sistemului de sinteză vocală LIGHTVOX. 

Implementarea prototipului s-a făcut baza structurii cu cinci componente prezentate în paragraful 

7.1: modulul de analiză lingvistică, modulul de analiză prozodică, modulul de gestiune a bazei de 

date vocale, modulul de potrivire a unităţilor fonetice şi modulul de sinteză propriu-zisă a 

rostirii. Etapele realizării sistemului au fost prezentate în paragrafele 7.3.1 şi 7.3.2. 

Mai întâi a fost construită baza de date acustică necesară pentru sinteză. În baza de date 

au fost înregistrate aproximativ 600 de unităţi acustice, foneme şi silabe, considerând atât 

silabele de segment median şi final, cât şi silabele accentuate şi neaccentuate: 386 de silabe 

alcătuite din două foneme, 139 de silabe tri-fonematice, 37 de silabe tetra-fonematice şi 36 de 

foneme singulare. 

Pentru conversia text-voce a fost realizată o interfaţă grafică prin care utilizatorul poate 

încărca un document text în fereastra aplicaţiei, pe care apoi îl poate audia prin intermediul vocii 

generate de sintetizator. 

Interfaţa aplicaţiei şi interacţiunea cu utilizatorul 

Interfaţa aplicaţiei este prezentată în figura 7.10: 

1 2 3 4 

Figura 7.10. Interfaţa aplicaţiei LIGHTVOX 

260


Se observă că interfaţa utilizator este simplă, uşor de utilizat chiar şi de către persoane cu 

disabilităţi vizuale; ea permite efectuarea următoarelor operaţii: 

1. Operaţii efectuate asupra textului sursă : 

a) deschiderea unui fişier text în fereastra aplicaţiei (fişierul poate fi în format ASCII sau 

RTF): meniul File/Open, respectiv ALT+FO de la tastatură ; 

b) editarea textului direct în fereastra aplicaţiei : scriere/ştergere/selectare ; 

c) import/export de text dinspre/spre alte aplicaţii, prin intermediul Clipboard-ului: 

operaţiile COPY/CUT/PASTE (comenzile CTRL+C, CTRL+X, CTRL+V); 

c) salvarea textului pe hard-disk în cele două formate ASCII şi RTF: meniul File/Save, 

respectiv ALT+FS de la tastatură ; 

2. Analiza lexicală a textului : 

a) despărţirea în silabe : toolbar button 1 sau comanda ALT+OS ; 

b) determinarea accentuaţiei : apăsarea succesivă a butonului 1 

sau comanda ALT+OA; 

3. Sinteza vocală a textului : 

a) sinteza întregului text din fereastra aplicaţiei: butonul 2 sau tasta F1. Sinteza textului 

poate fi oprită prin tasta ESC şi repornită din locul rămas (prin comanda F1) ; 

b) sinteza propoziţiei curente (propoziţia indicată de cursor): butonul 3 sau tasta F2; 

c) sinteza cuvântului curent (indicat de poziţia cursorului) : butonul 4 sau tasta F3. 

Aplicaţiile sistemului de sinteză vocală LIGHTVOX 

a. Sistemul se poate utiliza direct de către persoane cu disabilităţi vizuale sau 

nevăzători pentru citirea automată a textelor, prin utilizarea de comenzi simple de la tastatură ; 

b. Extinderea sistemului se poate face uşor şi pentru alte aplicaţii pentru nevăzători, 

precum: scrierea de texte asistată vocal de către calculator, aplicaţii de poştă electronică, citirea 

paginilor WEB, aplicaţii de tip bibliotecă electronică pentru nevăzători (în care, printr-un meniu 

interactiv vocal, nevăzătorul să-şi poată selecta un autor, o carte în format electronic, şi un 

capitol din acea carte, pe care sistemul îl va putea citi prin vocea sintetizată), etc. 

Rezultate şi observaţii experimentale 

În privinţa rezultatelor şi observaţiilor experimentale, s-a constatat o audiţie 

satisfăcătoare a textului sintetizat, care respectă prozodia segmentală (accentuarea cuvintelor) din 

limba română. Ceea ce se observă este fluenţa rostirii şi un grad ridicat de naturaleţe. Ca şi 

îmbunătăţiri viitoare, este clar că folosirea unor condiţii profesioniste de înregistrare a 

semnalului vocal şi utilizarea unei voci cu calităţi acustice superioare pot duce la creşterea 

semnificativă a calităţii rostirii sintetizate. 

Desigur că, pentru crearea unei noi baze de date vocale, de mare însemnătate va fi 

îmbunătăţirea algoritmilor de segmentare a semnalului vocal. Aceşti algoritmi, pe baza unei 

adnotări a corpusului textual folosit pentru crearea bazei de date vocale, vor fi capabili să extragă 

în mod automat unităţile fonetice silabice din semnalul vorbit. 

261


De asemenea, generarea unui dicţionar pentru excepţiile de despărţire în silabe şi 

accentuare a cuvintelor şi utilizarea acestui dicţionar în paralel cu analizoarele lexicale proiectate 

ar duce la scăderea ratei erorilor de procesare de limbaj şi implicit la creşterea calităţii rostirii. 

Tot pentru creşterea naturaleţii în rostire, se va putea avea în vedere luarea în considerare 

a unor reguli de prozodie suprasegmentală, la nivelul propoziţiilor, care să genereze o intonaţie 

corectă a frazei în momentul sintezei. 

7.6. Concluzii privind proiectarea şi realizarea sistemului de sinteză 

vocală 

În acest capitol s-au prezentat contribuţiile autorului în domeniul proiectării şi realizării 

sistemelor de sinteză vocală. S-a prezentat aici metodologia de proiectare a unui sistem de 

sinteză de voce pentru limba română, precum şi aspectele originale ce se referă la realizarea 

sistemului LIGHTVOX. 

Sistemul a fost conceput ca un sistem text-to-speech, în care sinteza vorbirii se realizează 

pornind de la un text în limba română, utilizând o metodă de sinteză bazată pe concatenarea 

silabelor. 

Metoda de sinteză proiectată de autor îmbină caracteristici ale abordării bazate pe 

concatenarea formelor de undă şi ale abordării bazate pe reguli. Au fost folosite reguli în faza de 

construire a bazei de unităţi acustice, apoi în faza de analiză a textului şi în faza de sinteză, la 

îmbinarea formelor de undă. 

Metodologia de proiectare a sistemului LIGHTVOX a urmărit două direcţii de lucru: 

1. Construirea bazei de date acustice (proces off-line), incluzând următoarele etape: 

înregistrarea eşantioanelor de voce, normalizarea semnalului, segmentarea semnalului în regiuni, 

segmentarea fonematică, separarea unităţilor acustice şi construirea bazei de date. 

2. Conversia text-voce (proces on-line), cuprinzând etapele: preprocesarea textului, 

corectarea ortografică, detecţia unităţilor lingvistice, determinarea prozodiei locale, regăsirea 

unităţilor acustice, îmbinarea unităţilor şi sinteza de voce. 

1. Construirea bazei de date acustice 

Baza de date acustică conţine un subset al silabelor limbii române. În vederea construirii 

bazei de date au fost realizate următoarele acţiuni: 

1) Crearea listei de silabe 

Lista cu silabele ce alcătuiesc baza de date vocală s-a realizat folosind o statistică a 

silabelor limbii române (paragraful 6.4.6.1), prin selectarea unui subset din totalul silabelor, în 

ordinea frecvenţei de apariţie în limba română vorbită. 

2) Crearea listei de cuvinte care să conţină silabele dorite 

Corpusul de cuvinte folosit pentru extragerea unităţilor acustice a fost alcătuit atât din 

propoziţii şi cuvinte normale care conţineau silabele dorite, precum şi din cuvinte artificiale 

folosite pentru a evidenţia mai bine un anumit grup de foneme. 

Generarea seturilor de cuvinte a ţinut cont de tipul silabelor: accentuate, respectiv 

neaccentuate, cât şi de contextul acestora: silabe mediane sau finale în cadrul cuvântului. 

262


3) Înregistrarea digitală a rostirii 

Pentru înregistrarea corpusului vocal a fost ales un vorbitor masculin, urmărindu-se 

rostirea corpusul textual într-un ritm constant, cu o aceeaşi tonalitate a vocii. Procesul de 

înregistrare a semnalului vocal a presupus folosirea unei aparaturi speciale constituită dintr-un 

microfon, o placă digitizoare de semnal acustic, şi un program software specializat pentru lucrul 

cu fişiere audio. 

4) Normalizarea înregistrării 

Normalizarea semnalului reprezintă prelucrarea digitală a semnalului vocal pentru a-l 

aduce la o formă unitară în tot cuprinsul bazei vocale. 

Autorul a folosit o procedură semiautomată, disponibilă prin intermediul aplicaţiei Cool 

Edit Pro. În urma normalizării, corpusul vocal conţine toate înregistrările de aceeaşi amplitudine 

(rostirile prezentând aceeaşi tărie sonoră), precum şi frecvenţă fundamentală constantă 

(corespunzând unor rostiri de aceeaşi tonalitate, acelaşi ritm şi intonaţie constantă). 

5) Crearea corpusului paralel text-voce 

Pentru a realiza segmentarea automată a semnalului vocal, a fost necesară utilizarea a 

două corpusuri în paralel, şi anume: corpusul vorbit, înregistrat în fişiere audio, şi respectiv 

corpusul textual corespondent. Astfel, odată cu salvarea fiecărui fişier audio, a fost stocat şi 

fişierul text asociat conţinutului său. 

6) Segmentarea semnalului vocal în regiuni fonematice 

Operaţia de segmentare a semnalului vocal în regiuni fonematice urmăreşte 

descompunerea semnalului în regiuni corespunzătoare secvenţelor de foneme. 

Paşii implementaţi în această etapă au fost: 

a) analiza semnalului vocal, în scopul determinării parametrilor semnalului, utili în faza 

de segmentare; 

b) segmentarea în regiuni a semnalului vocal, ce are ca scop detectarea categoriilor 

fundamentale de semnal: linişte, sonor, nesonor, la care se adaugă şi categoria tranziţie; 

c) compactarea regiunilor, urmărind asocierea regiunilor vecine de dimensiuni mici, 

având ca rezultat scăderea numărului total de regiuni; 

d) clasificarea regiunilor: împarte regiunile din semnal în 10 clase distincte, clase care 

pot fi asociate cu reprezentarea sonoră a fonemelor limbii române; 

e) segmentarea fonematică, ce asociază simbolurile fonetice cu regiunile din semnal. Pe 

baza unor reguli speciale de asociere, se face o corespondenţă între grupurile fonetice prezente la 

intrarea de text cu secvenţele de regiuni detectate din semnalul vocal. 

7) Separarea silabelor utile din semnal 

Separarea silabelor din semnalul vocal s-a realizat printr-o procedură semiautomată care 

selectează secvenţele fonetice dorite prin deplasarea capetelor intervalului de selecţie pe 

graniţele regiunilor fonematice detectate anterior. 

8) Salvarea unităţilor acustice în baza de date 

După detecţia silabelor dorite din semnalul vocal, acestea se salvează ca fişiere distincte 

în structura ierarhică a bazei de date. Ierarhizarea s-a făcut în funcţie de parametrii unităţilor 

acustice: 

263


a) lungime: silabe alcătuite din două, trei sau patru litere, precum şi foneme singulare; 

b) poziţia silabei în interiorul cuvântului: silabe iniţiale/mediane sau finale; 

c) accentuare: silabe accentuate sau neaccentuate. 

În final, în baza de date au fost înregistrate aproximativ 600 de unităţi acustice, foneme şi 

silabe, considerând atât silabele de segment median şi final, cât şi silabele accentuate şi 

neaccentuate, astfel: 386 de silabe de două litere, 139 de silabe de trei litere, 37 de silabe 

alcătuite din patru litere şi 36 de foneme singulare. 

2. Conversia text-voce 

Conversia text-voce reprezintă a doua fază, ce decurge on-line, în funcţionarea sistemului 

LIGHTVOX şi cuprinde toate etapele ce trebuie parcurse pentru ca dintr-un text iniţial să se 

genereze vorbirea sintetică asociată. 

Etapele componente ale acestei faze sunt următoarele: 

a) preprocesarea textului, 

b) corectarea ortografică, 

c) detecţia unităţilor lingvistice, 

d) determinarea prozodiei locale, 

e) regăsirea unităţilor acustice, 

f) îmbinarea unităţilor, 

g) sinteza de voce. 

Aceste etape au fost pe larg prezentate în cadrul metodei de sinteză bazată pe silabe, în 

secţiunea 6.4. 

Mai întâi a fost implementat un analizor lexical de preprocesare a textului, pentru 

exapandarea abrevierilor şi transcrierea fonetică a numerelor din text. 

Apoi s-a implementat analizorul şi setul de reguli corespondent pentru corectarea 

ortografică a textului. 

A fost apoi creat analizorul lexical pentru despărţirea în silabe, apoi cel pentru regăsirea 

accentelor (silabele accentuate din compunerea cuvintelor). Ambele au necesitat găsirea unor 

reguli de despărţire în silabe şi de accentuare a cuvintelor pentru limba română. 

Odată găsite unităţile lexicale de bază (silabele), a fost proiectat un analizor sintactic care 

să preia aceste unităţi lexicale şi să construiască structura de cuvinte şi propoziţii a textului de la 

intrare. 

A urmat implementarea unui algoritm de potrivire a unităţilor fonetice extrase din text cu 

unităţile acustice înregistrate în baza de date. Deoarece unităţile din baza vocală constituie un 

subset al silabelor existente în limba română, a trebuit proiectat un algoritm de selecţie optimală 

a unităţilor, care să asigure o rostire optimă din punct de vedere acustic şi perceptual. 

Îmbinarea unităţilor regăsite din baza de date şi sinteza vocală propriu-zisă nu au ridicat 

dificultăţi deosebite, aceste module fiind proiectate cu ajutorul funcţiilor API Windows. 

264


Implementarea prototipului sistemului de sinteză LIGHTVOX s-a făcut pe o structură 

modulară având cinci componente: 

- modulul de analiză lingvistică, având sarcina de a face analiza textului de la intrare în 

scopul extragerii unităţilor fonetice de bază - silabele; 

- modulul de analiză prozodică, ce urmăreşte detectarea elementelor de prozodie 

segmentală, respectiv a accentelor din cadrul cuvintelor; 

- modulul de gestiune a bazei de date vocale, care efectuează toate operaţiunile legate de 

baza de date ce conţine unităţile acustice; 

- modulul de potrivire a unităţilor fonetice, ce asigură punerea în corespondenţă între 

silabele extrase din textul de sintetizat şi silabele existente în baza de date vocală; 

- modulul de sinteză propriu-zisă a rostirii, care realizează concatenarea formelor de 

undă şi produce sinteza propriu-zisă. 

Acest prototip al sistemului LIGHTVOX a fost implementat în limbajul Visual C++ şi 

testat pe un calculator Pentium, rezultatele experimentale fiind prezentate în paragraful 7.5. 

Ca şi contribuţii ale autorului în domeniul proiectării sistemelor de sinteză vocală, 

contribuţii prezentate în acest capitol, se pot menţiona: 

- structurarea unei metodologii de proiectare a unui sistem de sinteză de voce, 

metodologie orientată pe două direcţii principale: crearea bazei de date şi conversia text-voce; 

- crearea unei baze de date vocale pentru sistemul de sinteză, alcătuită din aproximativ 

600 de silabe ale limbii române; 

LIGHTVOX. 

- crearea unui prototip al sistemului de sinteză de voce pentru limba română, numit 

265

8. Concluzii finale 

Cercetările efectuate în cadrul tezei au avut ca scop final dezvoltarea unei metode de 

sinteză a vorbirii adaptată specific limbii române precum şi a unei metodologii de lucru în 

vederea construirii unui sistem de sinteză vocală automată. 

Pentru aceasta, au fost studiate mai întâi modul de producere şi de percepţie a sunetului, 

proprietăţile fizice-acustice ale sunetului precum şi cele rezultate ca urmare a modelării sunetului 

ca un semnal. Au fost studiate modalităţile de procesare ale sunetului şi a fost dezvoltată o 

aplicaţie specială prin intermediul căreia au fost efectuate mai multe experimente în scopul 

îmbunătăţirii calităţii semnalului vorbit. S-au studiat diferite modalităţi de analiză a semnalului 

vocal, pentru extragerea şi modelarea parametrilor caracteristici. A fost creată o metodă proprie 

de segmentare a semnalului vocal capabilă să detecteze clase de regiuni cu proprietăţi specifice 

din semnalul vorbit, şi să le pună în corespondenţă cu tipurile de foneme din limba română. 

Această facilitate a fost utilizată pentru extragerea unităţilor acustice din semnalul vocal, unităţi 

ce vor fi folosite în procesul de sinteză. 

Mai departe, au fost studiate metodele cele mai performante de sinteză a vorbirii 

existente în momentul actual, ajungându-se la concluzia că metodele de sinteză bazate pe 

concatenarea unităţilor acustice de mărime medie/mică au raportul calitate/costuri cel mai 

avantajos. A fost aleasă astfel spre dezvoltare o metodă de sinteză bazată pe concatenarea 

silabelor. 

S-au definit în continuare paşii principali care trebuie urmaţi pentru ca, pornind de la un 

text de sintetizat, să se ajungă la generarea semnalului vocal corespondent. Mai întâi textul 

trebuie prelucrat în scopul transcrierii literale a numerelor şi abrevierilor. Apoi, textul va trebui 

să treacă printr-o fază de corectare ortografică, pentru a ne asigura că în faza de sinteză nu se vor 

produce distorsiuni ale rostirii datorită erorilor de sintaxă. Din textul corectat, se vor detecta apoi 

unităţile lingvistice de tipul silabelor împreună cu informaţia de accent, care va asigura prozodia 

segmentală a rostirii generate. Pentru fiecare din aceste etape amintite, şi anume: preprocesare, 

analiză de sintaxă, despărţirea în silabe, detectarea accentuării, s-au construit analizoare lexicale 

şi seturi de reguli speciale cu care s-au obţinut performanţe ridicate în analiza lingvistică a 

textului de sintetizat. 

A fost necesară proiectarea unei baze de date vocale care să furnizeze unităţile acustice 

necesare sintezei. Includerea unităţilor silabice în baza de date a ţinut cont de o statistică a 

silabelor din limba română, statistică ce a fost realizată utilizând analizorul propriu pentru 

despărţirea cuvintelor în silabe. 

În final, metoda de sinteză a fost implementată şi testată într-un sistem de sinteză vocală 

numit LIGHTVOX. Au fost definiţi paşii necesari în realizarea sistemului, care a decurs pe două 

direcţii principale: construirea bazei de date şi conversia text-voce. Rezultatele practice obţinute 

cu acest sistem de sinteză vocală au dovedit viabilitatea metodei propuse, a metodologiei de 

lucru, justificând eforturile depuse de autor pe durata a şase ani de studii şi cercetări în domeniul 

procesării automate a limbajului şi prelucrării semnalului vocal. 

266

8.1. Principalele aspecte expuse în cadrul tezei 

267 

Cap. 8. Concluzii finale 

1. La început a fost prezentată problematica sintezei de voce la modul general, 

oportunitatea temei alese, ţinând cont în primul rând de stadiul actual al cercetării în domeniul 

prelucrării vorbirii şi sintezei de voce. 

2. A fost apoi expusă modalitatea producerii şi percepţiei vorbirii umane, fiind prezentat 

modelul producerii vorbirii. S-a făcut o clasificare a sunetelor produse de vocea umană şi s-au 

prezentat proprietăţile acustice ale sunetului. 

3. S-a făcut o introducere în domeniul analizei şi prelucrării semnalului vocal, arătânduse 

mai întâi care sunt parametrii de bază ai semnalului vocal. Au fost prezentate principalele 

metode de procesare a semnalului vocal, metode de codare, metode şi standarde de compresie a 


4. Au fost prezentate contribuţiile autorului în domeniul procesării semnalului vocal, 

aplicaţia de prelucrare digitală a semnalului vocal SPEA (Sound Processing and Enhancement 

Application), precum şi experimentele realizate asupra unor eşantioane reale de semnal audio şi 

vocal prin intermediul acestei aplicaţii. 

5. Au fost prezentate modurile de analiză a semnalului vocal în scopul determinării 

parametrilor de bază ai acestuia: modul de analiză în domeniul timp şi modul de analiză în 

domeniul frecvenţă. La fiecare mod s-au arătat metodele specifice de determinare a parametrilor 


6. Tot în cadrul domeniului analizei de semnal, s-au prezentat principiile segmentării 

semnalului vocal, cerinţele pe care trebuie să le îndeplinească algoritmii de segmentare, 

modalităţile şi etapele de detectare automată a segmentelor semnalului vocal. A fost extrasă din 

literatura de specialitate o metodă generică pentru segmentarea în domeniul timp, capabilă să 

detecteze diferite categorii de segmente, având proprietăţi specifice, din semnalul vocal. 

7. Au fost prezentate contribuţiile aduse de autor în procesul segmentării automate a 

semnalului vocal, respectiv metoda proprie de segmentare în domeniul timp. S-au evidenţiat 

etapele algoritmului de segmentare precum şi rezultatele obţinute: detectarea a patru categorii 

fundamentale de semnal şi a zece clase de regiuni. 

8. Au fost prezentate principiile procesului de segmentare fonematică, de asociere a 

segmentelor semnalului vocal cu secvenţele de foneme corespunzând semanticii (reprezentării 

textuale) a semnalului vorbit. Au fost expuse trei metode principale de segmentare fonematică, 

extrase din literatura de specialitate. 

9. Au fost prezentate contribuţiile autorului în problematica segmentării fonematice a 

semnalului vocal, respectiv metoda de segmentare fonematică bazată pe reguli de asociere 

foneme-regiuni. S-au explicat paşii metodei, setul de reguli folosit, s-au prezentat rezultatele şi 

avantajele metodei. Au fost relevate aplicaţiile metodei de segmentare fonematică în procesul de 

construire a bazelor de date vocale. 

10. Un alt capitol a fost dedicat prezentării domeniului sintezei vorbirii; a fost expus 

modelul general al sintezei vorbirii, sistemul de sinteză de tip text-to-speech, precum şi metodele 

de bază folosite în sinteza text-to-speech. Au fost descrise etapele procesului sintezei vocale 

pornind de la text.

268 


11. A urmat expunerea metodelor existente de sinteză a vorbirii, atât în domeniul 

frecvenţă cât şi în domeniul timp. Dintre metodele de sinteză în domeniul frecvenţă au fost 

expuse metoda formantică şi metoda LPC (Linear Predictive Coding), iar în cadrul metodelor de 

sinteză în domeniul timp au fost detaliate metoda TD-PSOLA (Time Domain Pitch Synchronous 

Overlapp and Add) şi metoda de sinteză bazată pe corpus. 

12. Ca şi contribuţie în domeniul proiectării metodelor de sinteză vocală, s-a prezentat 

metoda autorului de sinteză de voce bazată pe silabe pentru limba română. Metoda cuprinde 

următoarele etape: preprocesarea textului, analiza de sintaxă, determinarea unităţilor lingvistice 

de tipul silabelor, determinarea prozodiei intra-segmentale (accentuaţia), regăsirea unităţilor 

acustice din baza de date vocală, concatenarea unităţilor acustice şi sinteza propriu-zisă a rostirii. 

Pentru primele patru etape au fost proiectate analizoare lexicale bazate pe reguli. Mai 

întâi a fost descris setul de reguli pentru preprocesarea textului sursă. A fost descrisă apoi 

metoda de analiză de sintaxă şi s-a prezentat setul de reguli utilizat pentru analiza formelor 

flexionate din limba română. În următoarea etapă, a fost prezentat analizorul sintactic pentru 

extragerea propoziţiilor şi a cuvintelor din textul sursă, analizorul lexical pentru despărţirea 

cuvintelor în silabe, precum şi setul de reguli utilizat în detectarea silabelor. S-a expus apoi 

modul de determinare a aspectelor prozodice intrasegmentale: accentuarea cuvintelor. Aici a fost 

prezentat analizorul lexical utilizat în determinarea accentelor şi setul de reguli asociat. 

13. În continuare s-a descris structura şi modul de organizare a bazei de date vocale. Baza 

de date este alcătuită dintr-un subset al silabelor limbii române, subset alcătuit pe baza 

frecvenţelor de apariţie ale silabelor în limba română vorbită. Pentru a determina aceste 

frecvenţe de apariţie, a fost realizată o statistică utilizând un corpus de texte conţinând peste 

300000 de cuvinte. 

14. S-a prezentat apoi modalitatea de regăsire a unităţilor acustice din baza de date 

vocală. Căutarea în baza de date se face după lungimea silabei, contextul median sau final în 

cadrul cuvântului şi accentuare. 

15. A fost expus în continuare modul de concatenare a unităţilor acustice pentru a forma 

semnalul de ieşire, precum şi modul de realizare a sintezei de voce. 

16. În ultimul capitol s-a prezentat sistemul de sinteză de voce în limba română 

LIGHTVOX, care implementează metoda de sinteză pe bază de silabe dezvoltată de autor. S-a 

descris organizarea pe module a sistemului, etapele de proiectare, precum şi paşii care au fost 

realizaţi la fiecare etapă. S-a detaliat modul de construire a bazei de date vocale şi s-a prezentat 

algoritmul de implementare al procesului de conversie text-voce. În final, s-au expus rezultatele 

obţinute cu sistemul de sinteză vocală, aplicaţiile şi dezvoltările de viitor.

8.2. Contribuţiile şi realizările tezei de doctorat 

269 


În primul rând este de menţionat caracterul interdisciplinar al tezei, cercetările 

efectuate acoperind următoarele domenii: 

1. Fonetică şi lingvistică, în ceea ce priveşte studiul alcătuirii fonetice şi sintactice a 

cuvintelor şi propoziţiilor din limba română, precum şi studiul formelor flexionate specifice 

limbii. 

2. Prelucrarea limbajului natural şi inteligenţă artificială, în ceea ce priveşte crearea unor 

metode automate bazate pe reguli pentru analiza textului, respectiv pentru separarea unităţilor 

acustice din semnalul vocal. 

3. Procesarea vorbirii, cu cele patru ramuri ale sale : 

a) prelucrarea semnalului vocal, în ceea ce priveşte realizarea unor metode de 

îmbunătăţire a calităţii semnalului vocal; 

b) analiza semnalului vocal, în ceea ce priveşte detectarea unor regiuni cu proprietăţi 

distincte, semnificative din punct de vedere al rostirii, din semnalul vocal; 

c) recunoaşterea vorbirii, în ceea ce priveşte proiectarea unor metode de detectare 

automată a secvenţelor fonematice dintr-un semnal vocal cunoscut; 

d) sinteza de voce, ca domeniu şi obiectiv în care se încadrează cercetările şi metodele 

specifice dezvoltate de autor în cadrul tezei. 

Principalele realizări şi contribuţii ale tezei în cadrul domeniilor amintite se referă la : 

1. Realizarea unui studiu asupra modului de producere şi percepţie a sunetului; studiul 

include prezentarea caracteristicilor fizice şi acustice ale sunetului, precum şi modelarea 

producerii vorbirii. 

2. Realizarea unui studiu sintetic asupra metodelor de procesare, codare şi compresie a 

semnalului vocal. Studiul cuprinde prezentarea unor metode de codare a semnalului vocal, 

precum: tehnica modulării impulsurilor în cod, codarea liniară, codarea logaritmică, codarea 

entropică, codarea predictivă, modulaţia diferenţială a impulsurilor de cod, codificarea adaptivă 

ADPCM, modulaţia delta; metode şi standarde de compresie a semnalului vocal: compresia prin 

transformări, tehnica predicţiei liniare LPC, predicţia liniară cu cod excitat CELP. 

3. Dezvoltarea unei aplicaţii de prelucrare digitală a semnalului vocal numită SPEA 

(Sound Processing and Enhancement Application). Aplicaţia prezintă următoarele facilităţi: 

încărcarea semnalului vocal înregistrat în fişiere wave având diferite codificări, vizualizarea 

formei de undă şi a eşantioanelor de semnal pe diferite scale de mărime, determinarea 

parametrilor semnalului vocal (amplitudine, energie, număr de treceri prin zero, frecvenţa 

fundamentală - în domeniul timp; spectrul de amplitudini, spectrul de faze, formanţii - pentru 

domeniul frecvenţă), posibilitatea de modificare interactivă a componentelor din spectrele de 

amplitudini şi faze în scopul îmbunătăţirii calităţii acustice a semnalului vocal. 

4. Efectuarea unor experimente asupra unor eşantioane reale de semnal audio şi vocal, în 

scopul determinării parametrilor cu influenţă directă asupra calităţii acustice a semnalului. 

Experimentele au inclus: analiza spectrală a vocalelor pentru vorbitorul masculin şi cel feminin, 

analiza spectrală a consoanelor, analiza spectrală a sunetelor emise multitonal, analiza

270 


perceptuală a sunetelor emise în fază diferită, modul de influenţă al alegerii ferestrei asupra 

rezultatului analizei spectrale, modul de influenţă al frecvenţei de eşantionare asupra calităţii 

vocii, experimente de modulare a semnalului, influenţa mediului de înregistrare asupra calităţii 

sunetului, experimente privind timbrul sunetului şi percepţia auditivă, analiza spectrală a 

sunetelor radiofonice, influenţa armonicilor spectrale superioare asupra calităţii acustice a 

vorbirii, analiza comportării sunetelor vocalice şi calculul duratelor segmentelor de atac, median 

şi final al vocalelor, analiza rostirii silabelor şi calculul comparativ al frecvenţelor şi duratelor 

silabelor accentuate faţă de silabele normale. 

5. Realizarea unui studiu sintetic asupra metodelor de analiză în domeniul timp şi în 

domeniul frecvenţă a semnalului vocal. Studiul include prezentarea unor metode precum: metode 

de analiză în domeniul timp: metoda autocorelaţiei, metoda funcţiei diferenţă de amplitudine 

medie, metoda cu limitare centrală; metode de analiză în domeniul frecvenţă: analiza prin banc 

de filtre digitale, analiza Fourier, analiza prin predicţie liniară, analiza cepstrală, analiza 

perceptuală. 

6. Realizarea unui studiu asupra modalităţilor de segmentare şi clasificare a semnalului 

vocal. Studiul a inclus detalierea unei metode generice pentru segmentarea semnalului vocal în 

domeniul timp (metoda Childers) şi a trei metode de segmentare fonematică: segmentarea cu 

modele Markov ascunse HMM, metoda bazată pe rafinarea frontierelor de regiuni, segmentarea 

bazată pe probabilităţi generalizate GLR. 

7. Dezvoltarea unei metode proprii de segmentare a semnalului vocal în regiuni. Metoda 

este capabilă să detecteze 4 categorii fundamentale de semnal (linişte, sonor, nesonor şi tranziţie) 

şi 10 clase de regiuni (linişte, linişte nesonoră, vocală sonoră, salt, tranzitorie, tranzitorie densă, 

neregulată, consoană nesonoră, discontinuitate R, discontinuitate G). Algoritmul metodei 

cuprinde următoarele faze : detecţia categoriilor de semnal SUV, detecţia regiunilor, detecţia de 

subregiuni şi compactarea regiunilor. 

Avantajul algoritmului faţă de alte abordări este rapiditatea derivată din efectuarea 

calculelor în domeniul timp şi detectarea categoriilor de bază dintr-o singură parcurgere a 

eşantioanelor de semnal. 

În cadrul dezvoltării acestei metode s-au realizat: 

un algoritm de determinare a punctelor de zero, minim şi maxim din semnalul vocal în 

domeniul timp; 

o metodă de detecţie a segmentelor SUV ( Silence/Voiced /Unvoiced) şi clasificare în 

tipuri de regiuni a semnalului vocal, metodă ce cuprinde : 

4 detectori pentru categoriile de bază (linişte, sonoră, nesonoră, tranziţie) ; 

8 clasificatori pentru clasele de regiuni propriu-zise (linişte, consoană ne-sonoră, vocală 

sonoră, linişte-nesonoră, de tip salt, neregulată, tranzitorie, tranzitorie densă); 

2 detectori pentru determinarea subregiunilor (discontinuitate de tip R şi discontinuitate 

de tip G); 

un algoritm de compactare a regiunilor pentru gruparea regiunilor similare şi reducerea 

numărului de regiuni. 

un tabel de corespondenţe între fonemele limbii române şi clasele de regiuni.

271 


8. Dezvoltarea unei metode pentru determinarea perioadelor din forma de undă a 

semnalului vocal. Detectarea perioadelor din forma de undă, corespunzând frecvenţei 

fundamentale a semnalului, este importantă atât pentru analiza sincronă cu frecvenţa, cât şi 

pentru modificarea proprietăţilor acustico-prozodice ale semnalului vocal (de exemplu 

modificarea tonalităţii, intonaţiei şi ritmului vorbirii). Algoritmul metodei este deosebit de exact, 

lucrând exclusiv în domeniul timp al analizei. Spre deosebire de alte metode de calcul în 

domeniul frecvenţă, el nu necesită ferestruire şi nici calcule complexe, fiind foarte rapid. 

4 algoritmi : 

Metoda comportă patru paşi succesivi: 

a) determinarea punctului de plecare (punctul pivot); 

b) determinarea unei estimări a perioadei de semnal; 

c) detecţia punctelor de maxim şi de hiatus pentru fiecare perioadă; 

d) marcarea intervalelor de perioadă prin detectarea punctelor de capăt. 

Fiecare etapă a necesitat elaborarea a câte unui algoritm distinct. Au fost proiectaţi astfel 

- un algoritm în domeniul timp pentru determinarea punctului pivot, primul maxim de 

perioadă în funcţie de care se calculează toate celelalte puncte de maxim ; 

- un algoritm în domeniul timp pentru determinarea unei estimări a perioadei de semnal în 

jurul punctului pivot ; 

- un algoritm în domeniul timp pentru determinarea maximelor de perioadă, pornind de la 

punctul pivot către stânga, respectiv către dreapta, în segmentul considerat ; algoritmul 

este de asemenea capabil să detecteze punctele de hiatus care apar în segmentul vocal, şi 

le clasifică în hiatus de perioadă, respectiv hiatus de amplitudine ; 

- un algoritm în domeniul timp pentru determinarea punctelor de capăt ale intervalelor de 

perioadă, puncte ce sunt strâns legate de maximele de perioadă. 

9. Dezvoltarea unor metode proprii pentru segmentarea fonematică a semnalului vocal. 

Metodele de segmentare fonematică sunt foarte utile în procesul de creare a bazei de date 

acustice, când avem de-a face cu un corpus de dimensiuni mari care trebuie segmentat şi adnotat. 

Au fost proiectate trei metode distincte, ce pot fi utilizate individual sau coroborat. Prima metodă 

detectează grupurile de foneme din semnalul vocal pe baza textului cunoscut de la intrare, 

folosind segmentarea prealabilă în regiuni. A doua metodă realizează împărţirea regiunilor în 

subregiuni fonematice, calculând tranziţiile dintre cadrele fiecărei regiuni. A treia metodă 

detectează separat fonemele din regiunile multifonematice şi funcţionează pe bază de model. 

Avantajul metodelor dezvoltate de autor derivă din modul de abordare sincron cu frecvenţa, ceea 

ce le dă o notă de precizie în plus faţă de alte abordări. 

În cadrul dezvoltării acestor metode s-au proiectat şi implementat: 

a) pentru metoda de segmentare în grupuri de foneme a semnalului vocal pe baza 

textului cunoscut de la intrare: 

- un set de reguli care impun constrângeri de formă şi durată pentru grupurile 

fonematice (în faza curentă de dezvoltare setul cuprinde 60 de reguli); 

- un algoritm de asociere între grupurile fonematice şi secvenţele de regiuni;

272 


b) pentru metoda ce realizează împărţirea regiunilor în subregiuni fonematice folosind 

tranziţiile dintre cadrele fiecărei regiuni: 

- un mod de calcul a distanţei minime pătratice dintre două cadre de semnal, distanţă ce 

se aplică vectorilor de caracteristici bazaţi pe coeficienţi Fourier ; 

- un algoritm de detectare a frontierelor de subregiuni pe baza tranziţiilor bruşte dintre 

cadre; 

c) pentru metoda ce separă fonemele din regiunile multifonematice pe bază de model : 

- o metodă de modelare semiautomată a fonemelor; 

- un algoritm de comparare a vectorilor regiunii ţintă cu modelul; 

- un algoritm de regăsire a modelului fonematic şi de etichetare a regiunilor; 

- un algoritm de grupare a fonemelor şi segmentare în subregiuni. 

10. Realizarea unui studiu asupra modalităţilor de sinteză a vorbirii pornind de la un text. 

Studiul cuprinde: prezentarea modelului general al sintezei vorbirii, a sistemului de sinteză textto-speech, 

metodele de bază în sinteza text-to-speech: metoda bazată pe concatenarea formelor 

de undă, metoda bazată pe analiză-sinteză, metoda bazată pe reguli; descrierea etapelor sintezei 

de voce pornind de la text. 

11. Realizarea unui studiu asupra metodelor existente de sinteză de voce. A fost realizată 

o clasificare a metodelor de sinteză de voce: (a) în funcţie de nivelul abordării: metode care 

abordează sinteza de nivel jos, respectiv sinteza de nivel înalt; (b) în funcţie de domeniul de 

analiză abordat: metode de sinteză în domeniul timp şi metode de sinteză în domeniul frecvenţă. 

Dintre metodele de sinteză în domeniul frecvenţă au fost detaliate metoda formantică şi metoda 

LPC, iar în cadrul metodelor de sinteză în domeniul timp au fost detaliate metoda PSOLA şi 

metoda de sinteză bazată pe corpus. 

12. Dezvoltarea unei metode de sinteză vocală pe bază de silabe pentru limba română. 

Pentru dezvoltarea metodei a fost necesară stabilirea unor reguli lingvistice în faza de analiză a 

textului şi a unor reguli de îmbinare a formelor de undă în faza de sinteză. Metoda îmbină 

caracteristici ale abordării bazate pe concatenarea formelor de undă şi ale abordării bazate pe 

reguli. 

Sinteza vorbirii prin această metodă se realizează în două faze: analiza textului, şi 

respectiv sinteza vorbirii. Fiecare fază cuprinde mai multe etape procesuale, astfel: 

I. Analiza textului de sintetizat : 

1. Preprocesarea textului. 

2. Analiza de sintaxă. 

3. Determinarea unităţilor lingvistice: silabele. 

4. Determinarea prozodiei intrasegmentale: accentuarea. 

II. Sinteza vorbirii : 

5. Regăsirea unităţilor acustice din baza de date corespunzătoare unităţilor lingvistice 


6. Concatenarea unităţilor acustice. 

7. Sinteza propriu-zisă a vorbirii.

În cadrul dezvoltării acestei metode de sinteză s-au realizat: 

273 


1) Proiectarea şi implementarea unui analizor lexical şi a unui set de reguli pentru 

preprocesarea textului. Analizorul conţine reguli pentru transcrierea fonetică a numerelor şi 

abrevierilor comune din limba română. 

2) Dezvoltarea unei metode bazată pe reguli pentru analiza sintaxei unui text în limba 

română şi a unui set de reguli pentru flexionarea cuvintelor din limba română. Analizorul 

automat de sintaxă realizat în cadrul metodei se bazează pe un dicţionar ce conţine peste 30000 

de forme neflexionate ale limbii române şi pe un set de 550 de reguli de flexionare, set de reguli 

proiectat de autor. Analizorul a fost testat pe o serie de texte de diferite genuri în limba română 

însumând peste 200000 de cuvinte. Testele au dovedit o corectitudine de peste 98% în 

recunoaşterea sintaxei. 

3) Proiectarea şi implementarea unui analizor sintactic pentru extragerea propoziţiilor şi a 

cuvintelor. Analizorul sintactic foloseşte un set de reguli care specifică structura sintactică a 

textului de la intrare. Textul iniţial este considerat ca o listă de propoziţii, fiecare propoziţie fiind 

o listă de cuvinte, fiecare cuvânt fiind compus din mai multe silabe. Propoziţiile, respectiv 

cuvintele sunt extrase din text pe baza semnelor de punctuaţie şi separatorilor. 


despărţirea în silabe a cuvintelor din limba română. Analizorul lexical cuprinde un set de peste 

180 de reguli pentru descompunerea cuvintelor în silabe. Performanţa obţinută a fost de 98% 

cuvinte despărţite corect, rată calculată pe un set de 50000 de cuvinte extrase din texte de diferite 

genuri (literatură, economie, politică, ştiinţă şi tehnică, filozofie, religie). Performanţa este mai 

bună decât cea găsită la alţi cercetători români care au folosit reguli lexicale. 


determinarea accentuaţiei din cadrul cuvintelor. Analizorul lexical cuprinde un set de 250 de 

reguli pentru detectarea silabei accentuate din interiorul cuvintelor. S-a obţinut o rată de 

detectare corectă a accentelor de 94%, rată calculată pe acelaşi set de 50000 de cuvinte ca şi în 

cazul despărţirii în silabe. 

6) Elaborarea unei statistici a silabelor limbii române pentru determinarea frecvenţelor de 

apariţie ale silabelor din limba română. Statistica a fost realizată folosind texte extrase din 

domenii precum: beletristică de diverse genuri, religie, economie, politică, ştiinţă şi tehnică, 

ziaristică. Textele au însumat un număr de aproximativ 342000 de cuvinte, adică peste 600 de 

pagini în format A4. Statistica prezintă următoarele rezultate: 

- configuraţia procentuală a categoriilor silabice S2, S3 şi S4 (S2 reprezintă categoria 

silabelor alcătuite din două foneme, S3 categoria silabelor tri-fonematice, S4 categoria silabelor 

tetra-fonematice) ; 

- frecvenţa de apariţie a categoriilor silabice S2, S3 şi S4; 

- frecvenţele de apariţie ale silabelor din fiecare categorie. 

7) Proiectarea structurii bazei de date acustice de silabe, în care unităţile acustice sunt 

integrate în diferite contexte segmentale şi accentuări. 

Structura ierarhică a bazei de date cuprinde patru nivele, şi anume:

274 


- nivelul Categorie : silabe de două, trei sau patru foneme (S2, S3, S4); 

- nivelul Context : segment median sau final, relativ la poziţia din cadrul cuvântului; 

- nivelul Accent : silabe accentuate sau neaccentuate în interiorul cuvântului; 

- nivelul Silabă : unităţile acustice înregistrate în format WAVE. 

8) Proiectarea şi implementarea unui algoritm de regăsire în baza de date a unităţilor 

acustice în funcţie de caracteristicile acestora: lungime, context şi accentuare. Algoritmul 

construieşte seturile de diviziune pentru fiecare silabă şi realizează o potrivire optimă cu unităţile 

din baza de date vocală, asigurându-se astfel o redare sonoră cât mai fidelă a unităţii lingvistice 

din text. 

13. Proiectarea şi implementarea unui sistem de sinteză vocală adaptat special limbii 

române, ce foloseşte ca şi unităţi fonetice silabele, numit LIGHTVOX. Sistemul a fost conceput 

ca un sistem text-to-speech, în care sinteza vorbirii se realizează pornind de la un text în limba 

română. Sistemul utilizează metoda de sinteză pe bază de silabe dezvoltată de autor. 

A fost propusă o metodologie de proiectare a sistemului de sinteză de voce, urmărind 

două direcţii principale: construirea bazei de date acustice şi conversia text-voce. Construirea 

bazei de date a inclus următoarele etape: înregistrarea eşantioanelor de voce, normalizarea 

semnalului, segmentarea semnalului în regiuni, segmentarea fonematică, separarea unităţilor 

acustice şi construirea bazei de date. Conversia text-voce include etapele: preprocesarea textului, 

corectarea ortografică, detecţia unităţilor lingvistice, determinarea prozodiei locale, regăsirea 

unităţilor acustice, îmbinarea unităţilor şi sinteza de voce. 

Implementarea prototipului sistemului LIGHTVOX s-a făcut pe o structură modulară 

având cinci componente: 

- modulul de analiză lingvistică, având sarcina de a face analiza textului de la intrare în 

scopul extragerii unităţilor fonetice de bază - silabele; 

- modulul de analiză prozodică, ce urmăreşte detectarea elementelor de prozodie 

segmentală, respectiv a accentelor din cadrul cuvintelor; 

- modulul de gestiune a bazei de date vocale, care efectuează toate operaţiunile legate de 

baza de date ce conţine unităţile acustice; 

- modulul de potrivire a unităţilor fonetice, ce asigură punerea în cores-pondenţă între 

silabele extrase din textul de sintetizat şi silabele existente în baza de date vocală; 

- modulul de sinteză propriu-zisă a rostirii, care realizează concatenarea formelor de undă 

şi produce sinteza propriu-zisă. 

Acest prototip al sistemului LIGHTVOX a fost implementat în limbajul Visual C++ şi 

testat pe un calculator Pentium, rezultatele experimentale arătând o calitate bună a sintezei 

rostirii, având un grad ridicat de fluenţă şi naturaleţe. 

14. Generarea bazei de date vocale pentru sistemul de sinteză, alcătuită dintr-un subset al 

silabelor limbii române. Silabele au fost înregistrate în diferite contexte şi moduri de pronunţie, 

incluzând aspectele prozodice intrasegmentale (accentuaţia). În baza de date au fost înregistrate 

aproximativ 600 de unităţi acustice, foneme şi silabe, considerând atât silabele de segment 

median şi final, cât şi silabele accentuate şi neaccentuate: 386 de silabe alcătuite din două 

foneme, 139 de silabe tri-fonematice, 37 de silabe tetra-fonematice şi 36 de foneme singulare.

275 


În concluzie, se poate spune că cercetările făcute de autor pe parcursul tezei s-au 

concretizat în: dezvoltarea unei metode de analiză automată a semnalului vocal, dezvoltarea unei 

metode de sinteză a vorbirii adaptată specific limbii române, stabilirea unei metodologii de lucru 

în scopul construirii unui sistem de sinteză vocală automată, precum şi în implementarea unui 

prototip al unui sistem de sinteză de voce pentru limba română. 

Utilizând ca unităţi lingvistice silabele, metoda de sinteză proiectată se integrează în 

categoria metodelor de calitate superioară, bazate pe concatenare. Metoda este adaptată specific 

limbii române, şi propune ca noutate o abordare bazată pe reguli. Astfel, metodologia de 

proiectare dezvoltată oferă posibilitatea construirii unui sistem de sinteză vocală utilizând atât 

procedee specifice prelucrării de semnal, cât şi metode specifice inteligenţei artificiale şi 

lingvisticii computaţionale, metode bazate pe reguli şi seturi de cunoştinţe. 

Au fost concepute reguli specifice de procesare în cele mai importante etape de proiectare 

a unui sistem de sinteză vocală: în etapa de analiză şi procesare a textului, pentru detecţia 

unităţilor lingvistice din text şi în etapa de construire a bazei de date vocale, pentru extragerea 

unităţilor acustice din semnalul vocal. 

Prototipul sistemului de sinteză vocală realizat demonstrează viabilitatea metodei 

proiectate de autor, oferă posibilitatea dezvoltării unor aplicaţii de mare importanţă în domeniul 

comunicării om-maşină, dar şi de mare utilitate pentru persoane cu nevoi speciale. 

Rezultatele obţinute au fost prezentate în cadrul unor conferinţe interne şi internaţionale, 

au fost publicate în reviste şi cărţi de specialitate. Au fost publicate un număr de 20 de articole şi 

o carte în domeniul tezei. 

Considerăm astfel că cercetările efectuate în cadrul doctoratului îndeplinesc obiectivele 

propuse iniţial, justificând eforturile depuse de autor pe o durată de 6 ani. De asemeni, având în 

vedere rezultatele obţinute, punctele de noutate şi perspectivele de aplicabilitate practică, 

considerăm că aceste cercetări contribuie la dezvoltarea domeniului analizei şi procesării vorbirii 

pe plan intern şi internaţional.

Bibliografie 

[And88] André-Obrecht R., A new statistical approach for the automatic segmentation of 

continuous speech signals, IEEE Transactions Acoustics, Speech and Signal Processing No. 36, 

January 1988, pp. 29–40 

[Ata79] Atal B.S., Schroeder M. R., Predictive coding of speech signals and subjective error 

criteria, IEEE Transactions on Acoustic Speech Signal Processing, ASSP-27(3), June 1979 

[Ave04] Avendaño C., Deng L., Hermansky H., Gold B., The Analysis and Representation of 

Speech, Springer Handbook of Auditory Research, Springer Publisher New York, Volume 18, 

ISBN 978-0-387-00590-4, ISSN 0947-2657, 2004, pp. 63-100 

[Bal02] Bâlcu R., Prelucrarea numerică a semnalelor, Ed. Risoprint, 2002 

[Ben76] Benade, A. H., Fundamentals of Musical Acoustics, Oxford University Press, 1976 

[Bla07] Black A.W., Zen H., Tokuda K., Statistical Parametric Speech Synthesis, IEEE 

International Conference on Acoustics, Speech and Signal Processing, ICASSP‘07, Vol. 4, April 

2007, pp. 1229-1232 

[Blo00] Bloothooft G., The landscape of future education in speech communication sciences, 

Analysis of European education in phonetics, spoken language engineering, speech and language 

theory, Vol. 1-2, 2000 

[Bod00] Bodo A. Zs., Experimente privind proiectarea şi implementarea unor module de sinteză 

text-vorbire, Disertaţie master, UTCN, 2000 

[Bod02] Bodo A. Zs., Stadiul actual în domeniul sintezei vorbirii, Referat nr. 1 de doctorat, 

UTCN, susţinut la data de 30.10.2002 

[Bod05-1] Bodo A. Zs., Experiments for prosody modification using the Nonlinear Springing 

Method, published in the volume „Trends in Speech Technology”, coordinated by Burileanu C. 

and Teodorescu H.-N., edited by the Publishing House of the Romanian Academy, composed of 

the Proceedings of the 3 rd IEEE Conference on Speech Technology and Human Computer 

Dialogue, SpeD 2005, organized by the Romanian Academy, the University “Politehnica” of 

Bucharest and the Technical University of Cluj-Napoca, Cluj-Napoca, Romania, May 13-14 

2005, pp. 177-181 

[Bod05-2] Bodo A. Zs., Realizări privind sinteza vorbirii pentru limba română, Referat nr. 3 de 

doctorat, UTCN, susţinut la data de 28.10.2005 

[Bod07-1] Bodo A. Zs., Buza O., Toderean G., Acoustic Database for Romanian TTS Synthesis. 

Design and Realisation Results (I), Acta Technica Napocensis, UTCN, Vol. 48, 2007, pp. 24-31 

[Bod07-2] Bodo A. Zs., Buza O., Toderean G., Realisation Results of a Speech Synthesis 

Development Environment, Acta Technica Napocensis, UTCN, Vol 48, 2007, pp. 32-37 

[Bod09-1] Bodo A. Zs., Buza O., Toderean G., TTS Experiments: Romanian Prosody, Acta 

Technica Napocensis, UTCN, Vol 50, 2009, pp. 31-36 

[Bod09-2] Bodo A. Zs., Buza O., Toderean G., Experiments with the prediction and generation 

of Romanian intonation, published in the volume „From Speech Processing to Spoken Language 

Technology”, coordinated by Burileanu C. and Teodorescu H.-N., edited by the Publishing 

House of the Romanian Academy, composed of the Proceedings of the 5 th IEEE Conference on 

276

277 

Bibliografie 

Speech Technology and Human Computer Dialogue, SpeD 2009, organized by the University 

“Politehnica” of Bucharest, the Romanian Academy, the Maritime University of Constanta, the 

Research Institute for Artificial Intelligence, in cooperation with EURASIP and IEEE, 

Constanta, Romania, June 18-21, 2009, pp.103-114 

[Bod09-3] Bodo A. Zs., Buza O., Toderean G., TTS Framework Building Results, the 5 th IEEE 

Conference on Speech Technology and Human Computer Dialogue SpeD 2009, organized by the 

University “Politehnica” of Bucharest, the Romanian Academy, the Maritime University of 

Constanta, the Research Institute for Artificial Intelligence, in cooperation with EURASIP and 

IEEE, Constanta, Romania, June 18-21, 2009, accepted to be published 

[Bra83] Brandt, A.V., Detecting and estimating parameters jumps using ladder algorithms and 

likelihood ratio test, Proceedings of the IEEE International Conference on Acoustics, Speech and 

Signal Processing, ICASSP 1983, November 1983, pp. 1017–1020 

[Bur02] Burileanu D., Basic Research and Implementation Decisions for a Text-to-Speech 

Synthesis System in Romanian, International Journal of Speech Technology 2002, pp. 211-225 

[Bur96] Burileanu C., Oancea E., Sinteza pornind de la text pentru vocabularul limbii române - 

prezent şi perspective, Limbaj şi Tehnologie, Editura Academiei Române, Bucureşti, 1996 

[Bur97] Burileanu C. et al., Text-to-Speech Synthesis for Romanian Language, Recent 

Advances in Romanian LanguageTechnology, Editura Academiei Române, Bucureşti, 1997 

[Buz06-1] Buza O., Toderean G., Bodo A.Z., Syllable Detection for Romanian Text-to-Speech 

Synthesis, Proceedings of the 6 th International Conference on Communications, COMM’06, 

organized by the Military Technical Academy, the University “Politehnica” of Bucharest, and 

the IEEE Romanian Section in Bucharest, Romania, 8-10 June 2006, pp.135-138 

[Buz06-2] Buza O., Toderean G., Nica A., Căruntu A., Voice Signal Processing for Speech 

Synthesis, Proceedings of the IEEE-TTTC International Conference on Automation, Quality and 

Testing Robotics, AQTR 2006 (Theta 15), Cluj-Napoca, Romania, Vol. II, May 25-28 2006, pp. 

360-364 

[Buz07-1] Buza O., Toderean G., A Romanian Syllable-Based Text-to-Speech Synthesis, 

Proceedings of the 6 th WSEAS International Conference on Artificial Intelligence, Knowledge 

Engineering and Data Bases (AIKED ’07), Corfu Island, Greece, 16-19 February 2007, CD 

[Buz07-2] Buza O., Toderean G., Nica A., Bodo Zs., Original Method for Romanian Text-to- 

Speech Synthesis Based on Syllable Concatenation, published in the volume “Advances in 

Spoken Language Technology”, coordinated by Burileanu C. and Teodorescu H.-N., edited by 

the Publishing House of the Romanian Academy, composed of the Proceedings of the 4 th 


Romanian Academy, the University “Politehnica” of Bucharest, and the Technical University of 

Iassy, Iassy, Romania, May 10-12 2007, pp. 109-118 

[Buz07-3] Buza O., Toderean G., About Construction of a Syllable-Based TTS System, WSEAS 

TRANSACTIONS on COMMUNICATIONS, Issue 5, Volume 6, May 2007, ISSN 1109-2742, 

2007 

[Buz08-1] Buza O., Toderean G., Domokos J., Bodo A. Zs., Voice Synthesis Application based 

on Syllable Concatenation, Proceedings of the IEEE International Conference on Automation,

278 

Bibliografie 

Quality and Testing, Robotics AQTR 2008 - THETA 16 th edition, Cluj-Napoca, Romania, ISBN 

978-1-4244-2576-1,Vol. II, May 22-25, 2008 

[Buz08-2] Buza O., Toderean G., Metode de Sinteză din Text a Vorbirii pentru Limba Română, 

Lucrările celei de-a II-a Conferinţe Internaţionale de Telecomunicaţii, Electronică şi Informatică 

ICTEI 2008, Chişinău, Republica Moldova, Vol.1, 15-18 Mai 2008, pp. 209-214 

[Buz09-1] Buza O., Toderean G., Domokos J., Bodo A. Z., Building a Text to Speech System for 

Romanian through Concatenation, The 5 th IEEE Conference on Speech Technology and Human 

Computer Dialogue SpeD 2009, organized by the University “Politehnica” of Bucharest, the 

Romanian Academy, the Research Institute for Artificial Intelligence, in cooperation with 

EURASIP and IEEE, Constanta, Romania, June 18-21, 2009, accepted to be published 

[Buz09-2] Buza O., Toderean G., Domokos J., Bodo A. Zs., Construction of a Syllable-Based 

Text-To-Speech System for Romanian, MEMORIILE SECŢIILOR ŞTIINŢIFICE / MEMOIRS 

OF THE SCIENTIFIC SECTIONS, Romanian Academy Iassy Branch, Publishing House of the 

Romanian Academy, ISSN 1224-1407, ISBN 978-973-27-1551-2, Series IV, Tome XXXII, 2009 

[Car06] Căruntu A., Nica A., Toderean G., Puşchiţă E., Buza O., An Improved Method for 

Automatic Classification of Speech, Proceedings of the IEEE-TTTC International Conference on 

Automation, Quality and Testing Robotics, AQTR 2006 (Theta 15), Cluj-Napoca, Romania, Vol. 

I, May 25-28 2006 

[Chi94] Childers D. G., Hu H. T., Speech Synthesis by glottal excited linear prediction, Journal 

of the Acoustical Society of America, 1994 

[Chi00] Childers D. G., Speech Processing and Synthesis Toolboxes, John Wiley & Sons, Inc., 

New York NY, 2000 

[Cio09] Ciobanu A., Negrescu C., Burileanu D., Stanomir D., Time-Frequency Processing of 

Partials for High-Quality Speech Synthesis, published in the volume „From Speech Processing 

to Spoken Language Technology”, coordinated by Burileanu C. and Teodorescu H.-N., edited by 

the Publishing House of the Romanian Academy, composed of the Proceedings of the 5 th IEEE 

Conference on Speech Technology and Human Computer Dialogue, SpeD 2009, organized by 

the University “Politehnica” of Bucharest, the Romanian Academy, the Maritime University of 


IEEE, Constanta, Romania, June 18-21, 2009, pp. 67-75 

[Con94] Constantinescu-Dobridor G., Sintaxa limbii române, Editura Ştiinţifică, Bucureşti, 1994 

[Das01] Dascălu-Jinga L., Melodia vorbirii în limba română, Academia Română, Univers 

Enciclopedic, Bucureşti, 2001 

[Dia09] Diaconescu Ş. et al., General System for Normal and Phonetic Inflection, published in 

the volume „From Speech Processing to Spoken Language Technology”, coordinated by 

Burileanu C. and Teodorescu H.-N., edited by the Publishing House of the Romanian Academy, 

composed of the Proceedings of the 5 th IEEE Conference on Speech Technology and Human 

Computer Dialogue, SpeD 2009, organized by the University “Politehnica” of Bucharest, the 

Romanian Academy, the Maritime University of Constanta, the Research Institute for Artificial 

Intelligence, in cooperation with EURASIP and IEEE, Constanta, Romania, June 18-21, 2009, 

pp.149-160

279 

Bibliografie 

[Din04] Dinu L. P., Despărţirea automată în silabe a cuvintelor din limba română. Aplicaţii în 

construcţia bazei de date a silabelor limbii române, Raport de cercetare, cod AT217/2004, 

http://thor.info.uaic.ro/~fliacob/An1/2007-2008/Utilitati/U11/Despre entropie/Analiza silabelor 

din limba romana.pdf, 2004 

[Dom08] Domokos J., Toderean G., Buza O., Statistical Language Modeling on Susane Corpus, 

The 7 th International Conference - COMMUNICATIONS 2008, organized by the Military 

Technical Academy, the University “Politehnica” of Bucharest, the “Electronica 2000” 

Foundation, and the IEEE Romanian Section in Bucharest, Romania, June 5-7, 2008, pp.69-72 

[Dom09] Domokos J., Toderean G., Buza O., Text Conditioning and Statistical Language 

Modeling for Romanian Language, published in the volume „From Speech Processing to Spoken 

Language Technology”, coordinated by Burileanu C. and Teodorescu H. N., edited by the 

Publishing House of the Romanian Academy, composed of the Proceedings of the 5 th IEEE 




IEEE, Constanta, Romania, June 18-21, 2009, pp.161-168 

[Dut93-1] Dutoit T., High Quality Text-To-Speech Synthesis of the French Language, Faculté 

Polytechnique de Mons, TCTS Lab, Teză de doctorat, 1993 

[Dut93-2] Dutoit T., Leich H., MBR-PSOLA: Text-to-speech synthesis based on an MBE resynthesis 

of the segments database, Speech Communication, Vol. 13 , Issue 3-4, ISSN: 0167- 

6393, pp. 435 – 440, December 1993 

[Dut04] Dutoit T., High-quality text-to-speech synthesis: an overview, http://tcts. 

fpms.ac.be/synthesis/introtts.html, 2004 

[Edg96] Edgington M., Lowry A., LP_PSOLA: Residual-Based Speech Modification Algorithms 

for Text-to-Speech Synthesis, The 4 th International Conference on Spoken Language Processing 

ICSLP’96, 1996 

[Esp86] Espy-Wilson C., A Phonetically Based Semivowel Recognition System, Proceedings of 

the IEEE ICASSP, Tokyo, Japan, pp. 2775-2778, April 1986 

[Fan60] Fant, G., Acoustic theory of speech production, 'sGravenhage, Mouton, 1960 

[Feh93] Feher, K., Comunicaţii digitale avansate, Editura Tehnică Bucureşti, 1993 

[Fer97] Ferencz A., Contribuţii la dezvoltarea sintezei text-vorbire pentru limba română, Teză 

de doctorat, UTCN Cluj-Napoca, 1997 

[Fre05] Free Software Foundation, Flex - a scanner generator, http://www.gnu.org 

/software/flex/manual, October 2005 

[Fur01] Furui S., Digital Speech Processing, Synthesis, and Recognition, CRC Publisher, Second 

edition, 2001 

[Gal02] Gâlmeanu T., Bazele procesării şi transmiterii semnalelor, Ed. UTCN, 2002 

[Gav00] Gavat I., et al., Elemente de analiză, sinteză şi recunoaşterea vorbirii, Ed. Printech, 

Bucureşti, 2000 

[Giu03] Giurgiu M., Compresia datelor audio în aplicaţii multimedia, Ed. Risoprint, Cluj- 

Napoca, 2003

280 

Bibliografie 

[Giu06] Giurgiu M., Peev L., Sinteza din text a semnalului vocal, Vol. I. Modelare Acustică şi 

Fonologică, Ed. Risoprint, Cluj-Napoca, 2006 

[Gla86] Glass, J. R., Zue V., Signal Representation for Acoustic Segmentation, Proceedings of 

First Australian Conference on Speech Science and Technology, pp. 124-129, November 1986 

[Gor83] Gordos G., Takacs Gy., Digitális beszédfeldolgozás (Prelucrarea digitală a vorbirii) , 

Editura Tehnică, Budapesta, 1983 

[Gra08] * * * Gramatica limbii române, ediţie revizuită în 2 volume, elaborată sub egida 

Institutului de Lingvistică "Iorgu Iordan - Al. Rosetti" din Bucureşti al Academiei Române, 

Editura Academiei Române, 2008 

[Har90] T’ Hart, Collier, Cohen, A Perceptual Study Of Intonation, Cambridge University Press, 

1990 

[Har01] Harma A., Linear predictive coding with modified filter structures, IEEE Transactioons 

on Speech Audio Processing, 9(8), November 2001, pp.769–777 

[Her90] Hermansky, H., Perceptual linear predictive (PLP) analysis for speech, The Journal of 

The Acoustical Society of America, Vol. 87, April 1990, pp.1738-1752 

[Hir98] Hirst D., di Cristo A., Intonation Systems, a Survey of Twenty Languages, Cambridge 

University Press, 1998 

[Hol01] Holmes J., Holmes W., Speech Synthesis and Recognition, 2nd Edition, Taylor & 

Francis, London, 2001 

[Hor00] Horne M., Prosody: Theory And Experiment, Kluwer Academic Publishers, 2000 

[Hu93] Hu H.T., An improved source model for a linear prediction speech synthesizer, 

Publisher: University of Florida Gainesville, FL, USA, 1993 

[Hua01] Huang, Acero, Spoken Language Processing, Prentice Hall Ptr., 2001 

[Hun96] Hunt A., Black A., Unit selection in a concatenative speech synthesis system using a 

large speech database, Proceedings of ICASSP ’96, Atlanta, GA, May 1996, pp. 373–376 

[Int00] * * * International Journal Of Speech Technology IJST, Vol. 3, No. 3/4, Kluver 

Academic Publishers, 2000 

[Jar05] Jarifi, S., Pastor, D., Rosec, O., Brandt’s GLR method & refined HMM segmentation for 

TTS synthesis application, Proceedings of the 13 th European Signal Processing Conference 

EUSIPCO 2005, September 2005 

[Jar06] Jarifi, S., Pastor, D., Rosec, O., Cooperation between global and local methods for the 

automatic segmentation of speech synthesis corpora, Proceedings of the 9 th International 

Conference on Spoken Language Processing ICSLP 2006, September 2006 

[Jar07] Jarifi, S., Segmentation automatique de corpus de parole continue dédiés à la synthèse 

vocale, Ph.D. thesis, École Nationale Supérieure Des Télécommunications de Bretagne and 

University of Rennes, 2007 

[Jar08] Jarifi S., Pastor D., Rosec O., A fusion approach for automatic speech segmentation of 

large corpora with application to speech synthesis, Speech Communication, ISSN 0167-6393, 

Vol. 50, Issue 1, January 2008, pp. 67-80 

[Jit09] Jitca D., Apopei V., A Prozodic Control Module for a Romanian TtS System, based on 

Melodic Contour Dictionaries, published in the volume „From Speech Processing to Spoken

281 

Bibliografie 

Language Technology”, coordinated by Burileanu C. and Teodorescu H.-N., edited by the 

Publishing House of the Romanian Academy, composed of the Proceedings of the 5 th IEEE 




IEEE, Constanta, Romania, June 18-21, 2009, pp. 77-85 

[Jos97] Josifovski L., Mihajlov D., Gorgevik D., Speech Synthesizer Based on Time Domain 

Syllable Concatenation, Proceedings SPECOM’97, Cluj-Napoca, 1997, pp. 165-170. 

[Jur00] Juravski D., Speech and Language Processing: An Introduction to Natural Language 

Processing, Computational Linguistics, and Speech Recognition, Prentice Hall, San Francisco, 

2000 

[Kel02] Keller E., Bailly G., Monaghan A., Terken J., Huckvale M., Improvements in Speech 

Synthesis, Wiley Publisher, 2002 

[Kel94] Keller E., Fundamentals of Speech Synthesis and Speech Recognition, Wiley Publisher, 

1994 

[Kle95] Kleijn W.B., Paliwal K.K., Speech Coding and Synthesis, Elseviever, Netherlands, 1995 

[Kop97] Kopecek I., Speech Synthesis of Czech Language in Time Domain and Applications for 

Visually Impaired, Proceedings of 2nd SQEL Workshop, Pilsen, 1997, pp. 141- 145. 

[Kov97] Kovács C., Generarea bazei de date de difoneme pentru limba română utilizând o 

tehnică de delimitare şi decupare semiautomată, Disertaţie, UTCN, 1997 

[Kri97] Krivnova O., Zinovieva N, et al, TTS Synthesis for Russian Language, Web Journal of 

Formal, Computational and Cognitive Linguistics, Issue 1, 1997. 

[Lee01] Lee M. (Bell Labs, Lucent Technologies), Perceptual Cost Functions for Unit Searching 

in Large Corpus-Based Concatenative Text-To-Speech, Eurospeech, 2001, pp. 2227-2230 

[Lew99] Lewis E., Tatham M., Word And Syllable Concatenation in Text-To-Speech Synthesis, 

Proceedings of the 6 th European Conference on Speech Communications and Technology, 

ESCA’99, September 1999, pp. 615—618 

[Lup04] Lupu E., Pop P., Prelucrarea numerică a semnalului vocal, Vol.1, Ed. Risoprint, Cluj- 

Napoca, 2004 

[Mat01] Mateescu A., Semnale şi sisteme- Aplicaţii în filtrarea semnalelor, Ed. Teora, Bucureşti, 

2001 

[Mat03] Matousek, J., Tihelka, D., Psutka, J., Automatic segmentation for czech concatenative 

speech synthesis using statistical approach with boundary-specific correction, Proceedings of 

the 8 th European Conference on Speech Communication and Technology, Eurospeech ‘03, 

September 2003, pp. 301–304 

[Men02] Meng, H. et. al., CU VOCAL: Corpus-based Syllable Concatenation for Chinese 

Speech Synthesis across Domains and Dialects, Proceedings of ICSLP’02, 2002. 

[Mob00] Mobius B., Corpus-based speech synthesis: methods and challenges, Arbeitspapiere 

des Instituts fur Maschinelle Sprachverarbeitung, Vol. 6, No. 4, 2000, pp. 87-116 

[Moi08] Moise A., Dan A., An Automated System for the Vocal Synthesis of Text Files in 

Romanian, Buletinul Universităţii Petrol-Gaze din Ploieşti, Vol LX, No. 3, 2008

282 

Bibliografie 

[Nag05] Nageshwara M. Rao, Thomas S., Nagarajan T., Murthy H.A., Text-to-speech synthesis 

using syllable like units, in National Conference on Communication, IIT Kharagpur, India, Jan 

2005, pp. 227-280. 

[Nav05] Nave R., The Place Theory of Pitch Perception, http://hyperphysics.phy - 

astr.gsu.edu/hbase/sound/souref.html, 2005 

[Nay07] Naylor P.A., Kounoudes A., Gudnason J., Brookes M., Estimation of Glottal Closure 

Instants in Voiced Speech Using the DYPSA Algorithm, IEEE Transactions on Audio, Speech, 

and Language Processing, Volume 15, Issue 1, Jan. 2007, pp. 34 - 43 

[Nic06-1] Nica A., Căruntu A., Toderean G., Buza O., Analysis and Synthesis of Vowels Using 

Matlab, Proceedings of the IEEE-TTTC International Conference on Automation, Quality and 

Testing Robotics, AQTR 2006 (Theta 15), Cluj-Napoca, Romania, Vol. II, ISBN 1-4244-0360- 

X, May 25-28, 2006, pp. 371-374 

[Nic06-2] Nica A., Căruntu A., Toderean G., Buza O., Features Extraction from Romanian 

Vowels Using Matlab, Buletinul Ştiintific al Universităţii “Politehnica” din Timişoara, Seria 

Electronică şi Telecomunicaţii (Transactions on Electronics and Communications), Tom 51(65), 

Fascicola 2, 2006, pp. 81-84 

[Ode95] Odell, J.J., The use of context in large vocabulary speech recognition, Ph.D. thesis, The 

University of Cambridge, 1995 

[Ola00] Olaszy, Németh, et al., Profivox – A Hungarian Text-To-Speech System for Telecommunications 

Applications, International Journal of Speech Technology (Ijst), Vol. 3, No. 3/4, 

Kluver Academic Publishers, 2000 

[Pic93] Picone, J.W., Signal modeling techniques in speech recognition, Proceedings IEEE, Vol. 

81, September 1993, pp. 1215-1246 

[Pop00] Pop G.P., Toderean G., Lupu E., Sofware for speech analysis, Proceedings of the 

Symposium on Electronics and Telecommunications, ETc’2000, Timisoara, Romania, 

November 23-24, 2000, in Buletinul Ştiinţific al Universităţii ”Politehnica” Timişoara, 

Timişoara, Romania, vol. II, 2000, pp. 109-112 

[Pop01] Popescu V., Semnale, circuite şi sisteme – Teoria semnalelor, Casa Cărţii de Ştiinţă, 

Bucureşti, 2001 

[Pop07] Popescu V., Caelen J., Burileanu C., Generic Architecture for Natural Language 

Generation in Spoken Human-Computer Dialogue, published in the volume “Advances in 

Spoken Language Technology”, coordinated by Burileanu C. and Teodorescu H.-N., edited by 




Iasi, Iasi, Romania, May 10-12, 2007, pp. 57-72 

[Rad07] Radu M., Toma S., Popescu F., Aspects Regarding Synthetic Speech Quality 

Evaluations for Military Systems, published in the volume “Advances in Spoken Language 

Technology”, coordinated by Burileanu C. and Teodorescu H.-N., edited by the Publishing 

House of the Romanian Academy, composed of the Proceedings of the 4 th Conference on Speech 

Technology and Human Computer Dialogue SpeD 2007, organized by the Romanian Academy, 

the University “Politehnica” of Bucharest, and the Technical University of Iasi, Iasi, Romania, 

May 10-12, 2007, pp. 99-108

283 

Bibliografie 

[Rol09] Rolingva, Dicţionarul morfologic al limbii române, http://rolingva.ro/aplicatii_ 

dictionar.php, 2009 

[Sag96] Sagisaka Y., Campbell N., Higuchi N., Computing Prosody. Computational Models For 

Processing Spontaneous Speech, Springer, 1996 

[Sag99] Sagisaka Y., Rules, measures, and corpora for speech synthesis, Journal of the 

Acoustical Society of America, Vol. 105, Issue 2, February 1999, pp. 1029-1038 

[Sak03] Sakai S., Glass J., Fundamental Frequency Modeling for Corpus-Based Speech 

Synthesis Based on a Statistical Learning Technique, Spoken Language System Publications, 

2003 

[Sam04] Samsudin, Nur-Hana and Kong, Tang Enya, A Simple Malay Speech Synthesizer Using 

Syllable Concatenation Approach, MMU International Symposium on Information and 

Communications Technologies (M2USIC 2004), October 2004 

[Sch04] Schroeder M. R., Quast H., Strube H.W., Computer Speech: Recognition, Compression, 

Synthesis, Springer Series in Information Sciences, Springer Publisher, ISBN-10: 3540212671, 

2 nd edition, 2004 

[Sha00] O´Shaughnessy D., Speech Communications. Human and Machine, IEEE Press, 2000 

[Shr01] Shriver S., Toth A., A unified design for human-machine voice interaction, Conference 

on Human Factors in Computing Systems, Seattle, 2001 

[Spr98] Sproat R., Multilingual Text-To-Speech Synthesis, Kluwer Academic Publishers, 1998 

[Ste97] Steven W. Smith, The Scientist and Engineer's Guide to Digital Signal Processing, 

California Technical Publishing, 1997 

[Sto84] Stolojanu, G. et al., Prelucrarea numerică a semnalului vocal, Ed. Militară, Bucureşti, 

1984 

[Sun77] Sundberg, J., The Acoustics of the Singing Voice, Scientific American, March 1977 

[Sur07] Surmei M., Burileanu D., Negrescu C., Pîrvu R., Ungurean C., Dervis A., Text-to- 

Speech Engines as Telecom Service Enablers, published in the volume “Advances in Spoken 

Language Technology”, coordinated by Burileanu C. and Teodorescu H.-N., edited by the 

Publishing House of the Romanian Academy, composed of the Proceedings of the 4 th 



Iasi, Iasi, Romania, May 10-12 2007, pp. 89-98 

[Tat05] Tatham M., Morton K., Developments in Speech Synthesis, Wiley Publisher, ISBN 978- 

0470855386, 2005 

[Tay09] Taylor P., Text-to-Speech Synthesis, Cambridge University Press, ISBN 0521899273, 1 st 

edition, 2009 

[Teo09] Teodorescu H.N., Feraru M., Zbancioc M., Assessing the Quality of Voice Synthesizers, 

published in the volume „From Speech Processing to Spoken Language Technology”, 

coordinated by Burileanu C. and Teodorescu H.-N., edited by the Publishing House of the 

Romanian Academy, composed of the Proceedings of the 5 th IEEE Conference on Speech 

Technology and Human Computer Dialogue, SpeD 2009, organized by the University 

“Politehnica” of Bucharest, the Romanian Academy, the Maritime University of Constanta, the

284 

Bibliografie 


Constanta, Romania, June 18-21, 2009, pp. 53-64 

[Tod05] Toderean G., Căruntu A., Metode de recunoaştere a vorbirii, Editura Risoprint Cluj- 

Napoca, 2005 

[Tod08] Toderean G., Buza O., Căruntu A., Metode de Recunoaştere a Vorbirii pentru Limba 

Română, Lucrările celei de-a II-a Conferinţe Internaţionale de Telecomunicaţii, Electronică şi 

Informatică ICTEI 2008, Chişinău, Rep. Moldova, 15-18 Mai 2008, pp. 205-208 

[Tod09] Toderean G., Buza O., Bodo A. Zs., Metode de Sinteză a Vorbirii, Editura Risoprint 

Cluj-Napoca, ISBN 978-973-53-0114-9, 2009 

[Tok06] Tokuda K., Hidden Markov model-based speech synthesis as a tool for constructing 

comunicative spoken dialog systems, Journal of the Acoustical Society of America, Vol. 120, 

Issue 5, ISBN-13: 978-3540212676, November 2006, pp. 3006-3006 

[Tom09] Toma S., Oancea E., Munteanu D., Automatic Rule-Based Syllabication for Romanian, 

published in the volume „From Speech Processing to Spoken Language Technology”, 

coordinated by Burileanu C. and Teodorescu H.-N., edited by the Publishing House of the 

Romanian Academy, composed of the Proceedings of the 5 th IEEE Conference on Speech 

Technology and Human Computer Dialogue, SpeD 2009, organized by the University 

“Politehnica” of Bucharest, the Romanian Academy, the Maritime University of Constanta, the 


Constanta, Romania, June 18-21, 2009, pp. 87-94 

[Ver90] Verhelst W., An Implementation of the PSOLA/KDG Waveform Synthesis Technique, 

IPO raport 733, 1990 

[Ver93] Verhelst W., Roelands M., An overlap-add technique based on waveform similiarity for 

high-quality time-scale modifications of speech, Proceedings of the International Conference on 

Acoustics, Speech, and Signal Processing, 1993 

[Vla97] Vlaicu A., Dobrotă V., Tehnologii Multimedia - Sisteme, reţele şi aplicaţii, Editura 

UTCN, Cluj-Napoca, 1997 

[Wan04] Wang L., Zhao Y., Chu M., Zhou J., Cao Z., Refining segmental boundaries for TTS 

Database using fine contextual-dependent boundary models, Proceedings of the IEEE 

International Conference on Acoustics, Speech and Signal Processing ICASSP‘04, Vol. I, May 

2004, pp. 641–644 

[Web02] Andrew R. Webb, Statistical Pattern Recognition, Second Edition, ISBN 0-470-84513- 

9 (Cloth), 0-470-84514-7 (Paper), John Wiley and Sons Ltd., 2002 

[Wie49] Wiener N., Extrapolation, Interpolation and Smoothing of Stationary Time Series with 

Engineering Applications, Technology Press and John Wiley & Sons, Inc., New York, 1949. 

[You02] Young S., Evermann G., Hain T., Kershaw D., Moore G., Odell J., The HTK Book for 

HTK v3.2.1., 2002

Anexa 1. Notaţia Backus-Naur Form şi gramatica LEX 

Gramatica folosită în cadrul proiectării analizoarelor generate de LEX utilizează 

următoarele simboluri şi secvenţe speciale de caractere (notaţie Backus-Naur Form): 

1. Un grup de caractere între paranteze drepte [ ] - specifică orice caracter cuprins în grup 

Exemplu: [abc] - specifică regăsirea de la intrare a unui caracter ce poate fi doar ‘a’, ‘b’ sau 

‘c’ 

2. Un grup de caractere între paranteze simple ( ) - specifică grupul ca atare 

Exemplu: (abc) - specifică regăsirea de la intrare a grupului ‘abc’ , adică a celor trei 

caractere, unul după altul 

3. Un grup de caractere între acolade { } - specifică un macro 

Exemplu: {CONS} - specifică expandarea macro-ului CONS, adică definiţia pentru o 

consoană 

4. Caracterul | semnifică alegerea între două opţiuni : 

Exemplu: (ab|cd) - specifică regăsirea de la intrare a două caractere ce pot fi ‘ab’ sau ‘cd’ 

5. Caracterul \ permite specificarea caracterelor speciale 

6. Caracterul * înseamnă zero sau mai multe apariţii ale unei litere sau grup de litere 

Exemplu: {VOC}* - specifică regăsirea la intrare a zero, una, două sau mai multe vocale 

7. Caracterul + înseamnă una sau mai multe apariţii ale unei litere sau grup de litere 

Exemplu: {VOC}+ - specifică regăsirea la intrare a una, două sau mai multe vocale 

8. Caracterul ? înseamnă zero sau cel mult o apariţie a unei litere sau grup de litere 

Exemplu: a? - specifică regăsirea la intrare a literei ‘a’, cel mult o singură apariţie 

9. Caracterul / semnifică contextul dreapta al expresiei curente 

Exemplu: {CONS}+/{SEP} specifică regăsirea unui grup de consoane urmat de un 

separator 

10. Macro-ul REJECT revocă intrarea curentă, determinând analizorul să meargă la potrivirea 

următoare. 

Datorită faptului că gramatica specifică mai multe reguli pentru regăsirea caracterelor de la 

intrare, potrivirea se face în felul următor: se parcurge setul de reguli şi se caută potrivirea cea 

mai lungă de la intrare (se urmăreşte potrivirea unui număr maxim de caractere). Dacă există 

două sau mai multe reguli care se pot aplica pentru acelaşi set de caractere, se alege prima regulă 

în ordinea de apariţie. 

285

Anexa 2. Silabele din setul S2 după frecvenţa de apariţie 

Nr. 

Crt. 

Silabă 

Număr 

apariţii 

Procent 

1 de 21289 5.308845 

2 te 18624 4.644273 

3 în 16678 4.158999 

4 re 16111 4.017606 

5 le 12698 3.166505 

6 ca 10845 2.704421 

7 şi 10119 2.523378 

8 se 9084 2.26528 

9 ce 9033 2.252562 

10 ta 8476 2.113663 

11 cã 8387 2.091469 

12 ri 7669 1.912421 

13 ne 7588 1.892222 

14 tã 7358 1.834867 

15 cu 7245 1.806688 

16 sã 6477 1.615172 

17 nu 6186 1.542605 

18 pe 6006 1.497718 

19 ţi 5779 1.441111 

20 la 5739 1.431136 

21 ti 5640 1.406449 

22 na 5387 1.343358 

23 ni 5336 1.33064 

24 ma 4976 1.240867 

25 li 4812 1.19997 

26 ra 4753 1.185257 

27 fi 4498 1.121668 

28 me 4482 1.117678 

29 ci 4305 1.073539 

30 to 4126 1.028902 

31 tu 3981 0.992743 

32 in 3978 0.991995 

33 mi 3957 0.986758 

34 di 3805 0.948854 

35 pu 3709 0.924915 

36 rã 3568 0.889753 

37 va 3334 0.831401 

38 co 3213 0.801227 

39 si 3211 0.800728 

40 da 3110 0.775542 

41 un 2999 0.747862 

286 

Nr. 

Crt. 

Silabă 

Număr 

apariţii 

Procent 

42 du 2974 0.741627 

43 pã 2883 0.718935 

44 su 2629 0.655595 

45 vi 2560 0.638388 

46 bi 2496 0.622428 

47 nã 2476 0.617441 

48 lu 2415 0.602229 

49 mã 2362 0.589013 

50 ve 2267 0.565323 

51 po 2212 0.551607 

52 es 2209 0.550859 

53 al 2187 0.545373 

54 pa 2158 0.538141 

55 bu 2122 0.529164 

56 sa 1997 0.497993 

57 fa 1982 0.494252 

58 zi 1957 0.488018 

59 lã 1778 0.44338 

60 lo 1752 0.436897 

61 ie 1696 0.422932 

62 zã 1664 0.414952 

63 vã 1664 0.414952 

64 ge 1537 0.383282 

65 oa 1531 0.381786 

66 fe 1524 0.38004 

67 ţã 1499 0.373806 

68 do 1488 0.371063 

69 so 1483 0.369816 

70 ei 1468 0.366076 

71 ţa 1424 0.355103 

72 no 1417 0.353358 

73 mo 1402 0.349617 

74 au 1399 0.348869 

75 bã 1375 0.342884 

76 ar 1349 0.336401 

77 gã 1348 0.336151 

78 ia 1337 0.333408 

79 fã 1332 0.332161 

80 za 1302 0.32468 

81 ţe 1295 0.322935 

82 gu 1266 0.315703


Nr. 

Crt. 

Silabă 

Număr 

apariţii 

Procent 

83 mu 1194 0.297748 

84 ze 1192 0.297249 

85 ga 1179 0.294008 

86 gi 1171 0.292013 

87 ex 1159 0.28902 

88 ba 1153 0.287524 

89 ru 1143 0.28503 

90 pi 1066 0.265829 

91 ea 1041 0.259595 

92 dã 1030 0.256851 

93 vo 1001 0.24962 

94 ur 988 0.246378 

95 ro 917 0.228673 

96 îm 893 0.222688 

97 şa 815 0.203237 

98 im 757 0.188773 

99 or 715 0.1783 

100 el 705 0.175806 

101 ac 703 0.175307 

102 as 690 0.172066 

103 ju 656 0.163587 

104 be 636 0.1586 

105 am 632 0.157602 

106 fu 613 0.152864 

107 en 606 0.151118 

108 an 582 0.145134 

109 fo 570 0.142141 

110 pî 511 0.127428 

111 îi 494 0.123189 

112 mî 483 0.120446 

113 ul 473 0.117952 

114 bo 421 0.104985 

115 îl 400 0.099748 

116 at 391 0.097504 

117 şe 390 0.097254 

118 uã 385 0.096008 

119 ai 377 0.094013 

120 zu 354 0.088277 

121 cî 346 0.086282 

122 eu 323 0.080547 

123 ţu 319 0.079549 

287 

Nr. 

Crt. 

Silabă 

Număr 

apariţii 

Procent 

124 go 313 0.078053 

125 ob 308 0.076806 

126 ui 294 0.073315 

127 şu 282 0.070322 

128 it 273 0.068078 

129 iu 268 0.066831 

130 jo 266 0.066333 

131 ho 263 0.065584 

132 aş 261 0.065086 

133 rî 260 0.064836 

134 ua 260 0.064836 

135 hi 253 0.063091 

136 zo 240 0.059849 

137 ja 228 0.056856 

138 je 211 0.052617 

139 xi 176 0.043889 

140 is 172 0.042892 

141 tî 156 0.038902 

142 io 154 0.038403 

143 ad 153 0.038154 

144 xe 149 0.037156 

145 ha 142 0.035411 

146 on 133 0.033166 

147 ii 132 0.032917 

148 os 129 0.032169 

149 ab 126 0.031421 

150 om 124 0.030922 

151 um 122 0.030423 

152 iz 119 0.029675 

153 of 112 0.027929 

154 ji 110 0.027431 

155 şã 108 0.026932 

156 vî 99 0.024688 

157 şo 97 0.024198 

158 vu 93 0.0232 

159 xa 86 0.021454 

160 ut 74 0.01846 

161 er 71 0.017712 

162 jã 69 0.017213 

163 us 66 0.016465 

164 zî 64 0.015966


Nr. 

Crt. 

Silabă 

Număr 

apariţii 

Procent 

165 gî 55 0.013721 

166 hu 41 0.010228 

167 op 41 0.010228 

168 uş 40 0.009979 

169 ãs 32 0.007983 

170 et 30 0.007484 

171 oc 26 0.006486 

172 ţî 24 0.005987 

173 he 24 0.005987 

174 ki 24 0.005987 

175 ud 22 0.005488 

176 ot 17 0.004241 

177 ou 17 0.004241 

178 em 16 0.003991 

179 oi 14 0.003492 

180 id 14 0.003492 

181 il 14 0.003492 

182 eş 13 0.003243 

183 hã 13 0.003243 

288 

Nr. 

Crt. 

Silabă 

Număr 

apariţii 

Procent 

184 ez 11 0.002744 

185 bî 10 0.002495 

186 od 10 0.002495 

187 iv 9 0.002245 

188 ir 8 0.001996 

189 ţo 8 0.001996 

190 fî 7 0.001746 

191 ol 7 0.001746 

192 uz 5 0.001247 

193 ic 5 0.001247 

194 lî 5 0.001247 

195 ev 4 0.000998 

196 ah 4 0.000998 

197 oh 4 0.000998 

198 dî 3 0.000748 

199 if 2 0.000499 

200 af 2 0.000499 

201 oz 1 0.000249 

202 ih 1 0.000249

Anexa 3. Silabe din setul S3 după frecvenţa de apariţie (extras) 

Nr. 

Crt. 

Silabă 

Număr 

apariţii 

Procent 

1 lor 4813 2.665035 

2 lui 4567 2.528821 

3 rea 4187 2.318409 

4 con 3953 2.188839 

5 mai 3911 2.165583 

6 tre 3517 1.947419 

7 din 3427 1.897585 

8 tru 2833 1.568677 

9 tul 2807 1.554281 

10 pre 2675 1.48119 

11 pro 2447 1.354943 

12 pen 2415 1.337224 

13 tea 2256 1.249183 

14 rii 1958 1.084176 

15 pri 1845 1.021606 

16 ţii 1647 0.91197 

17 men 1528 0.846078 

18 rul 1517 0.839987 

19 toa 1515 0.83888 

20 sau 1511 0.836665 

21 cum 1451 0.803442 

22 ces 1360 0.753054 

23 ter 1275 0.705988 

24 des 1273 0.70488 

25 mul 1258 0.696575 

26 nea 1232 0.682178 

27 tor 1147 0.635112 

28 cît 1135 0.628468 

29 por 1119 0.619608 

30 dar 1092 0.604658 

31 par 1085 0.600782 

32 nii 976 0.540427 

33 cul 956 0.529352 

34 bli 912 0.504989 

35 vor 911 0.504435 

36 poa 910 0.503882 

37 tri 879 0.486716 

38 for 863 0.477857 

39 per 850 0.470659 

40 nul 814 0.450725 

41 cre 811 0.449064 

289 

Nr. 

Crt. 

Silabă 

Număr 

apariţii 

Procent 

42 sta 788 0.436328 

43 tra 780 0.431898 

44 cea 778 0.430791 

45 ori 769 0.425808 

46 lul 726 0.401998 

47 fel 720 0.398676 

48 com 711 0.393692 

49 iar 695 0.384833 

50 chi 664 0.367667 

51 cat 663 0.367114 

52 tot 661 0.366006 

53 ten 625 0.346072 

54 trã 623 0.344965 

55 nor 623 0.344965 

56 cla 620 0.343304 

57 tat 617 0.341643 

58 dis 605 0.334998 

59 dea 589 0.326139 

60 pul 585 0.323924 

61 cel 581 0.321709 

62 res 576 0.31894 

63 pli 569 0.315064 

64 mea 560 0.310081 

65 nei 555 0.307312 

66 cãr 549 0.30399 

67 pra 548 0.303436 

68 cut 548 0.303436 

69 mãr 543 0.300668 

70 ver 542 0.300114 

71 mar 522 0.28904 

72 pla 519 0.287379 

73 rat 516 0.285717 

74 noi 510 0.282395 

75 gra 510 0.282395 

76 cer 497 0.275197 

77 cei 495 0.274089 

78 nui 491 0.271875 

79 sul 488 0.270213 

80 rãs 480 0.265784 

81 ast 480 0.265784 

82 îşi 472 0.261354


Nr. 

Crt. 

Silabă 

Număr 

apariţii 

Procent 

83 vîn 472 0.261354 

84 mîn 454 0.251387 

85 pun 443 0.245296 

86 gîn 440 0.243635 

87 ple 437 0.241974 

88 zul 434 0.240313 

89 şti 428 0.23699 

90 min 427 0.236437 

91 spe 420 0.232561 

92 bil 413 0.228685 

93 sub 408 0.225916 

94 sim 407 0.225362 

95 ciu 404 0.223701 

96 vin 401 0.22204 

97 pot 397 0.219825 

98 cep 395 0.218718 

99 vea 394 0.218164 

100 ser 387 0.214288 

101 sea 386 0.213734 

102 spu 386 0.213734 

103 cii 385 0.213181 

104 nit 381 0.210966 

105 dul 378 0.209305 

106 sin 371 0.205429 

107 mun 368 0.203767 

108 ţin 365 0.202106 

109 sis 363 0.200999 

110 lea 362 0.200445 

111 tei 361 0.199891 

112 poi 360 0.199338 

113 dat 359 0.198784 

114 tît 354 0.196015 

115 tin 353 0.195462 

116 tro 351 0.194354 

117 zen 351 0.194354 

118 tem 347 0.192139 

119 vei 342 0.189371 

120 fun 336 0.186049 

121 tiv 333 0.184387 

122 cri 332 0.183834 

123 soa 332 0.183834 

290 

Nr. 

Crt. 

Silabă 

Număr 

apariţii 

Procent 

124 nat 332 0.183834 

125 loa 331 0.18328 

126 les 329 0.182173 

127 sen 329 0.182173 

128 ind 323 0.17885 

129 tic 323 0.17885 

130 tim 322 0.178297 

131 dum 321 0.177743 

132 zut 320 0.177189 

133 den 319 0.176635 

134 dus 316 0.174974 

135 cru 315 0.174421 

136 ţei 314 0.173867 

137 fec 311 0.172206 

138 tan 309 0.171098 

139 rit 308 0.170545 

140 pec 304 0.16833 

141 put 303 0.167776 

142 sti 300 0.166115 

143 niş 300 0.166115 

144 plã 299 0.165561 

145 nos 293 0.162239 

146 plu 293 0.162239 

147 rin 290 0.160578 

148 cio 289 0.160024 

149 loc 289 0.160024 

150 cli 288 0.15947 

151 pãr 288 0.15947 

152 sem 288 0.15947 

153 trî 286 0.158363 

154 vre 284 0.157255 

155 rau 284 0.157255 

156 che 277 0.153379 

157 car 276 0.152826 

158 jun 276 0.152826 

159 mer 276 0.152826 

160 cîn 271 0.150057 

161 nal 271 0.150057 

162 cam 271 0.150057 

163 vom 270 0.149503 

164 mic 269 0.14895


Nr. 

Crt. 

Silabă 

Număr 

apariţii 

Procent 

165 fap 268 0.148396 

166 pia 268 0.148396 

167 gre 264 0.146181 

168 cen 262 0.145074 

169 stã 257 0.142305 

170 cur 256 0.141751 

171 xem 256 0.141751 

172 nic 252 0.139536 

173 via 250 0.138429 

174 flu 248 0.137322 

175 pus 245 0.13566 

176 ang 239 0.132338 

177 mod 237 0.131231 

178 sus 237 0.131231 

179 mii 235 0.130123 

180 zis 235 0.130123 

181 can 227 0.125694 

182 ris 227 0.125694 

183 pie 227 0.125694 

184 alt 227 0.125694 

185 ziu 226 0.12514 

186 tai 226 0.12514 

187 gru 225 0.124586 

188 nis 224 0.124032 

189 pes 224 0.124032 

190 mit 222 0.122925 

191 tîm 221 0.122371 

192 man 220 0.121818 

193 mij 220 0.121818 

194 cin 219 0.121264 

195 zat 218 0.12071 

196 jul 217 0.120156 

197 fac 216 0.119603 

198 doi 210 0.11628 

199 ran 206 0.114065 

200 ves 205 0.113512 

201 zeu 204 0.112958 

202 zin 203 0.112404 

203 vul 200 0.110743 

204 fir 199 0.110189 

205 fru 199 0.110189 

291 

Nr. 

Crt. 

Silabă 

Număr 

apariţii 

Procent 

206 nou 199 0.110189 

207 cor 197 0.109082 

208 sãu 197 0.109082 

209 gen 197 0.109082 

210 dez 197 0.109082 

211 ici 196 0.108528 

212 fla 195 0.107975 

213 ven 194 0.107421 

214 spi 193 0.106867 

215 fle 193 0.106867 

216 flã 193 0.106867 

217 tit 189 0.104652 

218 şit 188 0.104099 

219 tar 187 0.103545 

220 clu 187 0.103545 

221 ren 186 0.102991 

222 mis 185 0.102437 

223 toc 185 0.102437 

224 gur 184 0.101884 

225 dom 183 0.10133 

226 ani 182 0.100776 

227 sit 181 0.100223 

228 mei 181 0.100223 

229 rîn 181 0.100223 

230 sec 178 0.098561 

231 roa 173 0.095793 

232 van 173 0.095793 

233 lec 171 0.094685 

234 run 171 0.094685 

235 biş 170 0.094132 

236 cos 169 0.093578 

237 diu 169 0.093578 

238 vîr 167 0.092471 

239 lii 167 0.092471 

240 ral 167 0.092471


Nr. Crt. Silabă 

Număr 

apariţii 

Procent 

1 prin 1697 4.86944 

2 sunt 1123 3.222382 

3 cînd 1026 2.944046 

4 ceas 809 2.321377 

5 fost 788 2.261119 

6 nici 712 2.043042 

7 foar 508 1.457676 

8 mult 493 1.414634 

9 timp 454 1.302726 

10 meni 452 1.296987 

11 trac 451 1.294118 

12 cest 433 1.242468 

13 tori 423 1.213773 

14 ment 410 1.176471 

15 spre 402 1.153515 

16 noas 350 1.004304 

17 turi 347 0.995696 

18 creş 344 0.987088 

19 fran 313 0.898135 

20 spus 298 0.855093 

21 doar 289 0.829268 

22 tãţi 273 0.783357 

23 port 257 0.737446 

24 crea 252 0.723099 

25 pier 233 0.66858 

26 trei 231 0.662841 

27 prea 224 0.642755 

28 trea 211 0.605452 

29 scri 208 0.596844 

30 mari 199 0.571019 

31 toţi 164 0.470588 

32 laşi 163 0.467719 

33 strã 161 0.46198 

34 stra 161 0.46198 

35 curi 155 0.444763 

36 tînd 154 0.441894 

37 puns 153 0.439024 

38 juns 148 0.424677 

39 zînd 144 0.413199 

40 rînd 142 0.407461 

292 


Număr 

apariţii 

Procent 

41 sfîr 141 0.404591 

42 zeci 141 0.404591 

43 chii 140 0.401722 

44 drul 139 0.398852 

45 ploa 135 0.387374 

46 gînd 132 0.378766 

47 stan 130 0.373027 

48 puri 129 0.370158 

49 cioa 129 0.370158 

50 tuşi 129 0.370158 

51 diat 122 0.350072 

52 greu 120 0.344333 

53 eaşi 118 0.338594 

54 deşi 118 0.338594 

55 prac 117 0.335725 

56 stru 115 0.329986 

57 stea 109 0.312769 

58 stri 108 0.3099 

59 poar 107 0.30703 

60 trat 106 0.304161 

61 mînt 103 0.295552 

62 teau 103 0.295552 

63 iesc 102 0.292683 

64 sesc 102 0.292683 

65 mici 101 0.289813 

66 frun 100 0.286944 

67 taţi 100 0.286944 

68 rect 99 0.284075 

69 floa 98 0.281205 

70 seam 97 0.278336 

71 teas 94 0.269727 

72 vînd 93 0.266858 

73 deci 91 0.261119 

74 resc 91 0.261119 

75 rent 90 0.25825 

76 stat 90 0.25825 

77 reas 89 0.25538 

78 fapt 88 0.252511 

79 plan 87 0.249641 

80 neas 87 0.249641



Număr 

apariţii 

Procent 

81 nînd 87 0.249641 

82 caţi 86 0.246772 

83 dent 85 0.243902 

84 furi 85 0.243902 

85 sãri 84 0.241033 

86 eşti 84 0.241033 

87 tran 83 0.238164 

88 duri 83 0.238164 

89 tici 83 0.238164 

90 spun 82 0.235294 

91 ting 81 0.232425 

92 tant 78 0.223816 

93 deri 78 0.223816 

94 tãri 78 0.223816 

95 vrea 77 0.220947 

96 vreo 76 0.218077 

97 hris 76 0.218077 

98 vrei 76 0.218077 

99 zuri 75 0.215208 

100 vînt 73 0.209469 

101 toar 73 0.209469 

102 bani 73 0.209469 

103 tesc 73 0.209469 

104 lori 72 0.2066 

105 cãri 71 0.20373 

106 suri 71 0.20373 

107 luri 70 0.200861 

108 grup 70 0.200861 

109 cret 69 0.197991 

110 veau 68 0.195122 

111 teţi 68 0.195122 

112 ceau 68 0.195122 

113 guri 67 0.192253 

114 nesc 67 0.192253 

115 tras 66 0.189383 

116 neau 66 0.189383 

117 vind 66 0.189383 

118 reac 66 0.189383 

119 sfin 66 0.189383 

120 voas 65 0.186514 

293 


Număr 

apariţii 

Procent 

121 bãri 65 0.186514 

122 sfîn 64 0.183644 

123 trîn 64 0.183644 

124 poţi 63 0.180775 

125 scoa 63 0.180775 

126 cear 63 0.180775 

127 rãşi 63 0.180775 

128 chis 63 0.180775 

129 nent 62 0.177905 

130 chin 62 0.177905 

131 plin 62 0.177905 

132 trem 61 0.175036 

133 stîn 61 0.175036 

134 ochi 60 0.172166 

135 tãzi 60 0.172166 

136 cres 59 0.169297 

137 raţi 59 0.169297 

138 plîn 58 0.166428 

139 vezi 57 0.163558 

140 cãci 56 0.160689 

141 pres 56 0.160689 

142 zãri 56 0.160689 

143 cred 55 0.157819 

144 cîţi 55 0.157819 

145 ches 55 0.157819 

146 stin 54 0.15495 

147 preţ 54 0.15495 

148 ştii 54 0.15495 

149 nuri 53 0.15208 

150 deau 53 0.15208 

151 cani 53 0.15208 

152 legi 52 0.149211 

153 gini 51 0.146341 

154 veţi 51 0.146341 

155 scop 51 0.146341 

156 puşi 51 0.146341 

157 teri 51 0.146341 

158 neri 51 0.146341 

159 trul 50 0.143472 

160 plet 49 0.140603



Număr 

apariţii 

Procent 

161 drum 48 0.137733 

162 nind 47 0.134864 

163 drãz 47 0.134864 

164 blon 47 0.134864 

165 scur 47 0.134864 

166 naţi 47 0.134864 

167 fect 47 0.134864 

168 lung 46 0.131994 

169 chea 46 0.131994 

170 xact 45 0.129125 

171 buri 45 0.129125 

172 vrut 45 0.129125 

173 clar 44 0.126255 

174 veas 44 0.126255 

175 reau 44 0.126255 

176 blic 44 0.126255 

177 pros 44 0.126255 

178 mani 44 0.126255 

179 plat 43 0.123386 

180 bili 43 0.123386 

181 tent 43 0.123386 

182 peri 43 0.123386 

183 scor 43 0.123386 

184 sînt 43 0.123386 

185 tins 42 0.120516 

186 luni 42 0.120516 

187 feri 42 0.120516 

188 treg 42 0.120516 

189 scos 42 0.120516 

190 lalt 42 0.120516 

191 ţãri 42 0.120516 

192 sens 42 0.120516 

193 beas 41 0.117647 

194 cris 41 0.117647 

195 saţi 41 0.117647 

196 brii 40 0.114778 

197 soni 40 0.114778 

198 suşi 40 0.114778 

199 şcoa 40 0.114778 

200 zind 40 0.114778 

294 


Număr 

apariţii 

Procent 

201 prit 40 0.114778 

202 blîn 39 0.111908 

203 besc 39 0.111908 

204 ceri 38 0.109039 

205 siţi 37 0.106169 

206 semn 37 0.106169 

207 geau 37 0.106169 

208 mãri 37 0.106169 

209 rind 36 0.1033 

210 stre 35 0.10043 

211 ciul 35 0.10043 

212 muri 35 0.10043 

213 faci 35 0.10043 

214 clan 35 0.10043 

215 ghea 34 0.097561 

216 trun 34 0.097561 

217 mers 34 0.097561 

218 tini 34 0.097561 

219 lari 34 0.097561 

220 deţi 34 0.097561 

221 desc 34 0.097561 

222 cuţi 34 0.097561 

223 trec 34 0.097561 

224 grea 33 0.094692 

225 nalt 33 0.094692 

226 miţi 33 0.094692 

227 riţi 33 0.094692 

228 tors 33 0.094692 

229 tind 33 0.094692 

230 trol 33 0.094692 

231 buni 32 0.091822 

232 meas 32 0.091822 

233 chip 32 0.091822 

234 stau 32 0.091822 

235 tris 32 0.091822 

236 zaţi 32 0.091822 

237 spui 32 0.091822 

238 cesc 31 0.088953 

239 daţi 31 0.088953 

240 teni 31 0.088953

Anexa 5. Activitatea ştiinţifică a autorului 

Lucrări ştiinţifice comunicate sau publicate 

Lucrări publicate în domeniul tezei 

1. A. Nica, A. Căruntu, G. Toderean, O. Buza, Features Extraction from Romanian Vowels 

Using Matlab, Buletinul Ştiinţific al Universităţii “Politehnica” din Timişoara, Seria 

Electronica şi Telecomunicaţii, Transactions on Electronics and Comunications, Tom 

51(65), Fascicola 2, 2006, pp. 81-84 

2. O. Buza, G. Toderean, Syllable Detection for Romanian Text-to-Speech Synthesis, 

Proceedings of the 6th International Conference on Communications, Bucharest, 

Romania, ISBN 978-973-718-479-5, June 2006, pp.135-138 

3. O. Buza, G. Toderean, A. Nica, A. Căruntu, Voice Signal Processing For Speech 

Synthesis, 2006 IEEE-TTTC International Conference on Automation, Quality and 

Testing Robotics, AQTR 2006 (Theta 15), May 25 -28 2006, Cluj-Napoca, Romania, 

Proceedings, Tome II, ISBN: 1-4244-0360-X , 2006, pp. 360-364 

4. A. Căruntu, A. Nica, G. Toderean, E. Puşchiţă, O. Buza, An Improved Method for 

Automatic Classification of Speech, IEEE-TTTC International Conference on 

Automation, Quality and Testing Robotics, AQTR ‘06 (Theta 15), May 25-28 2006, Cluj- 

Napoca, Romania, Proceedings, Tome I, 2006 

5. A. Nica, A. Căruntu, G. Toderean, O. Buza, Analysis and Synthesis of Vowels Using 

Matlab, 2006 Proceedings of the IEEE-TTTC International Conference on Automation, 

Quality and Testing Robotics, AQTR 2006 (Theta 15), Cluj-Napoca, Romania, Tome II, 

ISBN 1-4244-0360-X, May 25-28, 2006, pp. 371-374 

6. A. Z. Bodo, O. Buza, G. Toderean, Acoustic Database for Romanian TTS Synthesis. 

Design and Realisation Results (I) , “Acta Tehnica Napocensis Electronics and 

Telecommunications”, Cluj-Napoca, Volume 48, Number 2/2007, pp.24-31 

7. A. Z. Bodo, O. Buza, G. Toderean, Realisation Results of a Speech Synthesis 

Development Environment, “Acta Tehnica Napocensis Electronics and 

Telecommunications”, Cluj-Napoca, Volume 48, Number 2/2007, pp.32-37 

8. O. Buza, G. Toderean, A Romanian Syllable-Based Text-to-Speech Synthesis, Proc. of 

the 6th WSEAS Internat. Conf. on Artificial Intelligence, Knowledge Engineering and 

Data Bases (AIKED ’07), Corfu Island, Greece, 16-19 February, 2007, CD 

9. O. Buza, G. Toderean, About Construction of a Syllable-Based TTS System, WSEAS 

TRANSACTIONS on COMMUNICATIONS, Issue 5, Volume 6, May 2007, ISSN 

1109-2742, 2007 

295

296 


10. O. Buza, G. Toderean, A. Nica, Zs. Bodo, Original Method for Romanian Text-to- 

Speech Synthesis Based on Syllable Concatenation, published in the volume “Advances 

in Spoken Language Technology”, coordinated by Corneliu Burileanu and Horia-Nicolai 

Teodorescu, ed. by The Publishing House of the Romanian Academy, composed of the 

Proceedings of the 4th Conference on Speech Technology and Human Computer 

Dialogue “SpeD 2007”, organized by the Romanian Academy, the University 

“Politehnica” of Bucharest, and the Technical University of Iasi, Iasi, Romania, May 10- 

12, 2007, pp. 109-118 

11. G. Toderean, O. Buza, A. Căruntu, Metode de Recunoaştere a Vorbirii pentru Limba 

Română, A II-a Conferinţă Internaţională "Telecomunicaţii, Electronică şi Informatică" 

ICTEI 2008, Chişinău, Republica Moldova, 15-18 Mai 2008, pp. 205-208 

12. O. Buza, G. Toderean, Metode de Sinteză din Text a Vorbirii pentru Limba Română, A 

II-a Conferinţă Internaţională "Telecomunicaţii, Electronică şi Informatică" ICTEI 2008, 

Chişinău, Republica Moldova, 15-18 Mai 2008, pp. 209-214 

13. O. Buza, G. Toderean, J. Domokos, A. Zs. Bodo, Voice Synthesis Application based on 

Syllable Concatenation, IEEE International Conference on Automation, 

Quality and Testing, Robotics AQTR ‘08 - THETA 16 th edition, Cluj-Napoca, Romania, 

May 22-25, 2008 

14. J. Domokos, G. Toderean, O. Buza, Statistical Language Modeling on Susane Corpus, 

The 7 th International Conference COMMUNICATIONS 2008, organized by the Military 

Technical Academy, University Politehnica of Bucharest, Electronica 2000 Foundation, 

and the IEEE Romanian Section in Bucharest, Romania, June 5-7, 2008, pp.69-72 

15. O. Buza, G. Toderean, J. Domokos, A. Zs. Bodo, Construction of a Syllable-Based Text- 

To-Speech System for Romanian, MEMORIILE SECŢIILOR ŞTIINŢIFICE / MEMOIRS 

OF THE SCIENTIFIC SECTIONS, Romanian Academy Iassy Branch, Publishing House 

of the Romanian Academy, ISSN 1224-1407, ISBN 978-973-27-1551-2, Series IV, Tome 

XXXII, 2009 

16. O. Buza, G. Toderean, J. Domokos, A. Zs. Bodo, Building a Text to Speech System for 

Romanian through Concatenation, The 5 th IEEE Conference on Speech Technology and 

Human Computer Dialogue SpeD 2009, organized by the University “Politehnica” of 

Bucharest, the Romanian Academy, the Research Institute for Artificial Intelligence, in 

cooperation with EURASIP and IEEE, Constanta, Romania, June 18-21, 2009, accepted 

to be published 

17. A. Zs. Bodo, O. Buza, G. Toderean, TTS Experiments: Romanian Prosody, Acta 

Technica Napocensis, UTCN, Volume 50, 2009, pp. 31-36 

18. A. Zs. Bodo, O. Buza, G. Toderean, Experiments with the prediction and generation of 

Romanian intonation, published in the volume „From Speech Processing to Spoken 

Language Technology”, coordinated by Burileanu C. and Teodorescu H.-N., edited by 


IEEE Conference on Speech Technology and Human Computer Dialogue, SpeD 2009, 

organized by the University “Politehnica” of Bucharest, the Romanian Academy, the

297 


Maritime University of Constanta, the Research Institute for Artificial Intelligence, in 

coop. with EURASIP and IEEE, Constanta, Romania, June 18-21, 2009, pp.103-114 

19. A. Zs. Bodo, O. Buza, G. Toderean, TTS Framework Building Results, the 5 th IEEE 

Conference on Speech Technology and Human Computer Dialogue SpeD 2009, 

organized by the University “Politehnica” of Bucharest, the Romanian Academy, the 

Maritime University of Constanta, the Research Institute for Artificial Intelligence, in 

cooperation with EURASIP and IEEE, Constanta, Romania, June 18-21, 2009, accepted 

to be published 

20. J. Domokos, G. Toderean, O. Buza, Text Conditioning and Statistical Language 

Modeling for Romanian Language, published in the volume „From Speech Processing to 

Spoken Language Technology”, coordinated by Burileanu C. and Teodorescu H. N., 

edited by the Publishing House of the Romanian Academy, composed of the Proceedings 

of the 5 th IEEE Conference on Speech Technology and Human Computer Dialogue, 

SpeD 2009, organized by the University “Politehnica” of Bucharest, the Romanian 

Academy, the Maritime University of Constanta, the Research Institute for Artificial 

Intelligence, in cooperation with EURASIP and IEEE, Constanta, Romania, June 18-21, 

2009, pp.161-168 

Carte publicată în domeniul tezei 

1. G. Toderean, O. Buza, A. Zs. Bodo, Metode de Sinteză a Vorbirii, Editura Risoprint, 

ISBN 978-973-53-0114-9, Cluj-Napoca 2009 

Lucrări publicate în afara domeniului tezei 

1. O. Buza, O nouă variantă a metodei Hyper în recunoaşterea de forme, Simpozionul 

Ştiinţific al Universităţii Tehnice Cluj, Cluj-Napoca, Mai 1993 

2. O. Buza, M. Vaida, Multimedia Devices Used in Biomedical Applications, Simpozionul 

de Electronică Profesională REP '95, Bucureşti, Noiembrie 1995 

3. M. Vaida, O Buza, s.a. (cooperare ), Aplicaţii ale informaticii in imagistica medicală, 

Editura Tipocolor, Cluj-Napoca, 1995 

4. O. Buza, M. Vaida, Video Inspection in Industrial and Medical Applications International 

Conference on Automation and Quality Control, Cluj-Napoca, Mai 1998 

5. M. Vaida, A. Suciu, O. Buza, T. Moldovan, Image Pattern Recognition Application in 

Microscopic Medical Image Analysis using Multimedia Boards, International Conference 

on Information Technology Interfaces ITI '99, Zagreb, Croatia, Mai 1999 

6. M. Vaida, O. Buza, P. Pop, L. Miclea, Medical Image Processing for Developing 

Multimedia Atlases Q&A-R 2000 Theta 12, International Conference on Quality Control, 

Automation and Robotics, Cluj-Napoca, Romania, 19-20 May 2000

298 


7. O. Buza, M. Vaida, R. Ciupa, Developing Multimedia Interactive Internet-Intranet 

Documents using Medical Image Processing, Second European Symposium on 

Biomedical Engineering, University of Patras, Greece, 5-8 October 2000, pp. 5-10 

8. M. Vaida, C.D.Olinici, O. Buza, Web Design facilities for Medical Image Processing 

dedicated software, Revista “Clujul Medical”, Vol. LXXIII, Nr. 3, 2000, pp. 478-485 

2001 

9. M. Vaida, C.D.Olinici, O. Buza, Image Processing Software Development for Distributed 

Education The forth edition of the International Symposium "The Role of Academic 

Education and Research in the Development of Information Society", "Politehnica" 

University of Bucharest, 18-19 May 2000 

10. M. Vaida, O. Buza, Interactive Internet-Intranet Documents with Image Processing 

Facilities, rev. “Acta Tehnica Napocensis Electronics and Telecommunications”, Cluj- 

Napoca, Vol. 42, No.2, 2001 

11. O. Buza, M. Vaida, K. Pusztai, Streaming Audio-Video Content Over Internet With a 

Multimedia Presentation Generator, the 4 th IASTED International Conference on Web- 

Based Education, WBE2005, February 21-23, 2005, Grindelwald, Switzerland, ISBN: 0- 

88986-482-9, ISSN: 1482-7905, 2005, pp. 1-6 

12. O. Buza, K. Pusztai, M. Vaida, Multimedia Presentations Generator for Streaming 

Audio-Video Content Over Internet, Acta Tehnica Napocensis Electronics and 

Telecommunications, Cluj-Napoca, Vol. 46, No.1, 2005, pp. 8-15 

13. P. Mitrea, O. Buza, D. Mitrea, Multimedia Technology Involved in E-Learning Platform 

Generators, International Symposium on System Theory, Automation, Robotics, 

Computers, Informatics, Electronics and Instrumentation SINTES 20-22 October 2005, 

Craiova, Romania, ISBN 978-973-742-839-4, 978-973-742-841-7, 2005, pp. 635-638 

14. G. Toderean, A. Căruntu, O. Buza, A. Nica, Sisteme cu Microprocesoare – Îndrumător 

de laborator, Ed. Risoprint Cluj-Napoca, ISBN 978-973-751-466-0, 2007 

15. P. Mitrea, O. Buza, D. Mitrea, MLG- MultiMedia On-Line Lesson Generator, 

International Conference “Assistive Technology From Adapted Equipment To Inclusive 

Environment” AAATE 2009, published in the volume: Assistive Technology Research 

Series, Vol. 25, IOS Press Amsterdam, ISSN 1383-813X, 2009, pp. 607-612.

Programe de cercetare 

299 


În perioada 1993-2008, autorul a participat ca proiectant, respectiv conducător de proiect, 

la realizarea a 8 proiecte de cercetare, după cum urmează : 

1993-1995: “Sistem computerizat pentru analiza microbiologică, fizică, biochimică a 

resurselor alimentare şi produselor industrializate” 

Sistemul este capabil sa detecteze gradul de infestare a produselor cu microorganisme de tip comun; 

este bazat pe viziune artificială şi recunoaşterea formelor. 

1995-1996: “Sistem pentru analiză citometrică automată” 

Proiectul este folosit în investigarea automată a imaginilor în morfopatologie, bazat pe viziune 

artificială şi procesarea imaginilor. 

1996: “Studiu privind realizarea unui sistem de supraveghere automată utilizând 

metode specifice analizei de imagini” 

Pe baza acestui studiu s-a realizat un sistem capabil să detecteze mişcările dintr-o arie fixă; 

sistemul captează semnal video din mai multe surse şi realizează analiza automată a acestuia. 

1997-1998: “Sistem multimedia destinat analizei medicale inteligente în vederea 

realizării de atlase medicale” 

Sistemul este proiectat pentru asistarea cadrelor medicale atât în prelucrarea informaţiilor din 

imaginile medicale, cât şi în obţinerea de atlase multimedia. 

2001-2002: “Sistem pentru detecţia tumorilor ovariene din imagini medicale” 

A fost realizat un sistem semi-automat pentru asistarea medicului morfopatolog în depistarea 

tumorilor ovariene pe baza testului Papa-Nicolau. 

2002-2003: “Generator de prezentări audio-video sincronizate” 

În cadrul acestei teme de cercetare a fost proiectată o aplicaţie multimedia care răspunde 

cerinţelor pieţii internaţionale în domeniul prezentării informaţiei şi distribuţiei de date audio şi 

video prin protocol TCP/IP. 

2003-2005: „Sistem integrat pentru învăţământul la distanţă” 

A fost realizat un sistem pentru generarea de lecţii interactive multimedia pentru învăţământul la 

distanţă. 

2006-2008: „Sistem interactiv pe bază de voce destinat persoanelor nevăzătoare 

În cadrul acestui proiect s-a construit o bibliotecă electronică specială pentru deficienţi de 

vedere, care oferă posibilitatea rostirii automate a textului prin intermediul unui sistem de sinteză 

vocală. Sinteza textului s-a realizat prin metoda concatenării de unităţi lexicale, ce favorizează o 

rostire apropiată de cea naturală.

Anexa 6. Lucrări ştiinţifice ale autorului prezentate în extenso 

1. O. Buza, G. Toderean, J. Domokos, A. Zs. Bodo, Construction of a Syllable-Based Text- 

To-Speech System for Romanian, MEMORIILE SECŢIILOR ŞTIINŢIFICE / MEMOIRS OF 

THE SCIENTIFIC SECTIONS, Romanian Academy Iassy Branch, Publishing House of the 

Romanian Academy, ISSN 1224-1407, ISBN 978-973-27-1551-2, Series IV, Tome XXXII, 2009 

300

CONSTRUCTION OF A SYLLABLE-BASED TEXT-TO-SPEECH SYSTEM 

FOR ROMANIAN 

OVIDIU BUZA, GAVRIL TODEREAN, JOSZEF DOMOKOS and ARPAD ZSOLT BODO 

We present in this article our experience in building a text-to-speech system for Romanian through 

concatenation method. Main stages of this work were following: voice signal analysis; voice signal 

segmentation; vocal database construction; text analysis: pre-processing, unit detection, prosody retrieval; unit 

matching; unit concatenation and speech synthesis. In our approach we consider word syllables as basic units 

and stress indicating intrasegmental prosody. A special characteristic of current approach is rule-based 

processing of both speech signal analyse and text analyse stages. 

Keywords: text-to-speech, syllable approach, rule-based processing. 

1. INTRODUCTION 

In the last decades many methods have been developed for generating acoustical 

parameters requested for a high quality voice synthesis. Researches proved that among methods 

with best results are those methods which store the real acoustic waveform uttered by a human 

speaker. These methods achieve voice synthesis through concatenation of acoustic units, so they 

are called concatenation methods ([9],[14]). 

The authors have worked on this line of attaining a voice synthesis complying with quality 

parameters of natural, human speech. Our researches led into projecting a voice synthesis method 

specifically adapted to Romanian language, and also into a working approach for constructing an 

automated speech synthesis system. 

Using syllables as basic units, the projected method is integrated into high quality methods 

category, based on concatenation. We propose here an original approach based on rules that apply 

in the most important stages of projecting a speech synthesis system: construction of the vocal 

database and text processing stage. 

In building our text-to-speech system, we have followed two directions (figure 1) : 

A. Vocal database construction flow (off -line process), including: voice signal analysis, 

speech segmentation and vocal database construction; 

B. Text to voice processing flow (on -line process), including: text pre-processing, unit 

detection, prosody prediction, unit matching, unit concatenation and voice synthesis. 

301

O. Buza, G. Toderean, J. Domokos, A. Zs. Bodo, Construction of a Syllable-Based Text-To-Speech System for Romanian 

Figure 1. Main stages in building LIGHTVOX text-to-speech system 

In the first flow, in voice signal analysis stage, we have extracted main parameters of pre- 

recorded speech, working in time domain of analysis. These parameters, such as: amplitude, 

energy, zero-crosses, were used in the second stage for speech segmentation. In this second stage, 

we have designed an algorithm for automated speech segmentation in ten different classes of 

regions, that we have put into correspondence with main phonetic categories of Romanian 

language. After phonetic segmentation of speech signal, we have used a semi-automated algorithm 

for detecting and storing waveform syllables from uttered words into vocal database. Processing 

has been applied onto a paralel text/voice corpus: voice corpus provides speech signal on which 

apply signal analysis and segmentation methods, and text corpus provides phonetical transcription 

of voice corpus. 

SIGNAL 

ANALYSIS 

TEXT 

PROCESSING 

In the second flow, in text processing stage, special phonetic rules have been developed for 

text pre-processing, syllables units detection and intrasegmental prosody (i.e. stress) prediction. 

Next, unit matching was done by selecting acoustic units from vocal database according to the 

linguistic units detected from the input text. And finally, acoustic units are concatenated to form 

the output speech signal that is synthesized by the mean of a digital audio card. 

2. VOICE SIGNAL ANALYSIS 

SPEECH 

SEGMENTATION 

A. VOCAL DATABASE CONSTRUCTION FLOW 

UNIT DETECTION 

AND PROSODY 

PREDICTION 

B. TEXT TO VOICE CONVERTION FLOW 

Voice signal analysis is the first stage in vocal database construction flow. Voice signal 

analysis means the detection of signal parameters from speech samples recorded by the human 

speaker. These parameteres will be further used in signal segmentation stage. Analysis can be done 

in time or frequency domain. Time domain analysis, as our approach is, leads to the detection of 

signal characteristics directly from waveform samples. 

We have extracted following parameters: maximum and median amplitude, signal energy, 

number of zero-crosses and fundamental frequency. 

302 

VOCAL 

DATABASE 

CONSTRUCTION 

UNIT MATCHING, 

CONCATENATION 

AND SYNTHESIS


Signal Amplitude gives information about presence or absence of speech, about voiced and 

unvoiced features of the signal on analyzed segment. In the case of a voiced segment of speech, as 

a vowel utterance, the amplitude is higher, beside the case of an unvoiced speech segment, where 

amplitude is lower. 

Mean amplitude for N samples has the following form ([7]): 

1 

M ( n) 

x( 

m) 

| w( 

n m 

) 

(1) 

 

| 

N m 

where: x(m) represents the current sample of speech signal, and 

w(n-m) is the considered windowing function. 

Signal Energy is used for getting the characteristics of transported power of speech signal. 

For a null-mean signal, short term mean energy is defined as [8]: 

1 

2 

E( 

n) 

x( 

n) 

w 

( n m 

)] 

(2) 

 

[ 

N m 

Voiced segments (like vowels) have a higher mean energy, while the unvoiced segments 

(like fricative consonants) have a lower mean energy. For the majority speech segments, energy is 

concentrated in 300-3000 Hz band. 

Number of zero-crosses is used for determining frequency characteristics inside a segment. 

The number of zero-crossings is calculated as follows ([7]): 

1 

[ N 

n0 

NTZ 

1sgn( 

s( 

n 1 

) T ) sgn( 

s( 

nT ))] 

2 

(3) 

where sgn(n) represents the sign function: 

 

1, 

n 0 

sgn( n ) 

. (4) 

 

1, 

n 0 

303


Number of zero-crosses is a characteristic used in determining voiced/unvoiced feature of 

speech segments. Inside voiced segments number of zero-crosses is lower, while inside unvoiced 

segments this parameter has much higher values. 

Fundamental Frequency is an important parameter used in voice synthesis that 

corresponds with the signal periodicity. This parameter must be computed on short segments of 

time, because of speech signal variability. Fundamental frequency is calculated only for voiced 

segments where the signal is almost periodical, while unvoiced segments are nonperiodical signals 

and they have not fundamental frequency. 

For computing this parameter we have developed a time-domain method based on local 

maximum and minimum values of signal amplitude, as one can find in [9]. 

3. SPEECH SEGMENTATION 

Finding an optimal approach for speech signal segmentation is an imperative in building 

acoustic database of a voice synthesis system. This section presents a segmentation method that 

have been designed and implemented by the authors, method which is capable to detect S/U/V 

(Silence- Unvoiced- Voiced) components of speech signal, to divide these components in regions 

with specific characteristics, and to associate regions with a known phonetic input sequence 

(figure 2): 

Speech signal 

S/U/V Segmentation 

Compaction 

Region 

Classification 

Phonetic 

Segmentation 

Figure 2. Speech signal segmentation 

304


3.1. S/U/V SEGMENTATION 

Our segmentation method uses time domain analysis of speech signal. After low-pass 

filtering of signal, zero-crossing waveform points ( Zi) are detected. Then minimum ( mi) and 

maximum (Mi) values between two adjacent zero points are computed. 

Separation between silence and speech segments is realized by using a threshold value Ts 

on signal amplitude. In silence segments, all mi and Mi points must be lower than this threshold: 

| 

M i | T 

s 

 

| 

mi 

| T 

s 

, i = s… s+n, (5) 

where s is the segment sample index and n is the number of samples in that segment. 

For speech segments, distance Di between two adjacent zero points is computed. 

Decision of voiced segment is assumed if distance is greater than a threshold distance V: 

Di V , i = s,… , s+n (6) 

Z1 

Figure 3. A voiced segment of speech 

For the zero points between A and B from figure 3 to be included in the voiced segment, a 

look-ahead technique has been applied. A number of maximum Nk zero points between Zi and Zi+k 

can be inserted in voiced region if Di-1>V and Di+k >V : 

D 

 

D 

i 

 

D 

i 

j 

1 

k 

V 

V 

V 

A 

B 

305 

Zn 

, j = i..k; k


threshold U: 

A segment is assumed unvoiced if distance between two adjacent zeros is smaller than a 

Di U , i = s,… , s+n (8) 

Transient segments are also defined and they consist of regions for which conditions (6), 

(7) and (8) are not accomplished. In these rel ations, V and U thresholds have been chosen 

according to statistical median frequency for vowels and fricative consonants. 

3.2. COMPACTING REGIONS 

After first appliance of above algorithm, a large set of regions will be created. Since voiced 

regions are well determined, the unvoiced are broken by intercalated silence regions. This situation 

appears because unvoiced consonants have low amplitude so they can break in many 

silence/unvoiced subregions. 

Transient segments can also appear inside the unvoiced segment because of signal 

bouncing above zero line. 

Figure 4 shows such an example, in which numbered regions are unvoiced, simple-line and 

unnumbered are silence regions, and double-line are transient regions. 

All these regions will be packed together in the second pass of the algorithm, so the result 

will be a single unvoiced region – as one can see in figure no. 5. 

After segmentation, voiced and unvoiced segments are coupled according to the syllable 

chain that is used in vocal database construction process. Appropriate acoustic units will be 

detected, labeled and stored in vocal database. 

Figure 4. Determining regions for an unvoiced segment of speech 

Figure 5. Compacting regions of above segment 

306


3.3 REGIONS CLASSIFICATION 

The SUV segmentation process presented above divides the signal in four basic categories: 

Silence, Voiced, Unvoiced and Transition. Each category will be further classified in distinct types 

of regions, totally 10 classes: silence, unvoiced-silence, voiced, voiced glide, voiced plosive, 

voiced jump, transition, irregular (rugged), high density and unvoiced consonant (figure 6). The 

aim of this classification is to associate Romanian phonemes with signal regions having some 

particular traits. 

CLASS 

Figure 6. The four categories and ten classes of regions 

These ten classes of regions are shortly presented as follows: 

1. Silence Region (S) 

Represents a region without speech, where signal amplitude is very low. 

2. Unvoiced Silence (US) 

This region is a combination of silence S and unvoiced consonant C region. Detecting of 

this region as separate class was necessary because of fricative consonants that can be 

uttered at low amplitude, and so they could be found in these US regions. 

3. Voiced Region (V) 

The voiced region contains all vowels from Romanian: /A/, /E/, /I/, /O/, /U/, /Ǎ/, /Î/, glide 

/L/, nasals /M/, /N/, and some voiced plosive consonants as /P/, /B/, /D/. 

4. Voiced Glide (VG) 

This is a region corresponding to a voiced discontinuity and is associated with a minimum 

of energy. This situation may occur when a glide consonant like /R/ splits a sequence of 

vowels. 

CATEGORY 

5. Voiced Plosive (VP) 

Region 

S V T U 

S US V VG VP VJ T IR HD C 

307


Also a region of voiced discontinuity corresponding to intermediate frequencies associated 

with plosive consonants like /C/ or /G/, occurring when these consonants are splitting a 

sequence of vowels. 

6. Voiced Jump (VJ) 

Is a region similar with voiced region V, but it has no periodicity. It is due to the balance of 

vocal signal only above or underlying median zero line. This region has no vowel or other 

phoneme correspondence in speech signal, but a transition or co-articulation. 

7. Irregular Region (IR) 

This is a region in which one can find plosive consonants like /C/, /G/ or /P/. Usually it 

comes after a silence region, it has a short duration and a frequency band intermediate 

between vowels and fricative consonants. 

8. High Density transition (HD) 

Is a transition region with high frequency values, which could indicate emergency of 

fricative consonants. Signal is not integrated in C or US classes because of positive or 

negative balance relative to median zero value. 

9. Transition (T) 

This is an intermediate region between voiced and unvoiced and which has no the 

characteristics of IR or HD classes. 

10. Unvoiced Consonant (C) 

For Romanian language, this class contains fricative consonants /S/, /Ş/, /Ţ/, /F/, /Z/, /J/, 

/H/, and non-fricatives /Ce/, /Ci/, /Ge/, /Gi/ . 

For detecting these classes, median amplitude MA(n), number of zero-cross points NTZ, 

signal energy E(n) have been used as section 2 describes in (1)-(4), and also short-term Fourier 

coefficients for detection of VP and HD special cases. 

3.4. PHONETIC SEGMENTATION 

Phonetic segmentation is the process of associating phonetic symbols with the speech 

signal. This process is very usefull when we want to develop an acoustic database from a large 

speech corpus. Phonetic segmentation gives the capability of detecting and separating phonetic 

units from speech, units that will be used in achieving the output acoustic chain sequence through 

concatenation. 

308


State of the art on this field exposes some different methods for automated or semi- 

automated phonetic segmentation of speech signal: iterative methods with training stages (as 

HMM segmentation or region frontiers refinement), methods based on association rules, statistical 

methods (like segmentation based on generalized likelihoods GLR), a.o. 

Phonetic sgmentation method proposed by the authors is a method based on association 

rules, which realises a correspondence between phonetic groups taken from an input stream and 

distinct types of regions detected from the speech signal. Segmentation algorithm parses the input 

text and tries to find the best match for each phonetic group with one or more regions of speech 

signal. 

Input text is first written into a special phonetic transcription, using a simple look-after 

table, which includes phoneme and word transitions. Transcripted text is splitted into a sequence 

of phonetic groups. Special association rules will establish a correspondence with specific regions 

detected from speech signal. 

For associating phonetic groups with sequences of regions, as further in our approach, we 

have used LEX parser generator. We have written a set of association rules, each rule specifying a 

phonetic pattern for associating a particular group with a sequence of regions, and also specifying 

a condition to be verified in order to make that association. Each condition outlines: type of region, 

minimal and maximal duration, type of association: unique region or sequence of regions. 

Figure 7 presents association between a phonetic group i 

i i 

G F F ,..., F 

309 

i 

, where Fk i are 

1 , 2 

phonetic symbols, and a sequence of regions i 

i 

i 

SR REG REG ,..., REG 

correspondence rule Ri : Gi COND_REGi . 

Text 

Rules 

Signal 

… 

… 

… 

REG1 i 

F1 i 

N 

, by the meaning of a 

1 , 2 

F2 i … Fk i … … 

R1: G1 Cond_Reg1 

Ri: Gi Cond_Regi 

Rn: Gn Cond_Regn 

REG2 i 

Figure 7. Association between phonetic groups and signal regions 

Gi 

… 

REGN i 

… 

N 

k


Here are two samples of rules for associating with regions: 

(a) a generic fricative consonant and 

(b) a specific group of consonants: 

{CONS} { /* FRICATIVE CONSONANT */ 

CheckRule(i); // check processing rule for current group for 

// going only forward 

SetLen(L_CONS1,L_CONS2); // set minimum and maximum duration 

CheckRegion(R_CONS); // check next region to be an unvoiced 

// consonant 

TestReject(); //if above conditions are not complied, 

} 

TR { /* GROUP OF TWO CONSONANTS: /TR/ */ 

//rejects the rule and go to the next matching 

CheckRule(j); // check processing rule 

SetLen(L_TR1,L_TR2); // set minimum and maximum duration 

CheckSumReg(R_ANY && !R_VOC); // check a sequence of regions 

310 

// of any type but not voiced 

TestReject(); // if above conditions are not complied, 

} 

//rejects the rule and go to the next matching 

In figure 8 one can see the result of applying our method of association phonemes-regions 

on a sample male utterance: 

Figure 8. Phonetic segmentation for the expression:


4. BUILDING THE VOCAL DATABASE 

Phonetic segmentation method described in previous section has been designed for 

segmentation and labelling of speech corpora, having as main objective the construction of vocal 

database of our speech synthesis system. In our approach, realisation of vocal database implies 

separation of acoustic segments that correspond with phonetic syllables of Romanian language 

and storing these segments into a hierarchical structure. Vocal database includes in this moment 

only a subset of Romanian language syllables. We have not considerred in this implementation 

diphones. 

The speech corpus used for extracting acoustic units was built from common Romanian 

sentences, from separate words containing syllables, and also from artificial words constructed for 

the emphasis of one specific syllable. After recording, speech signal was normalized in pitch and 

amplitude. Then phonetic segmentation was applied and acoustic syllables were stored in database. 

The vocal database has a tree data structure; each node in the tree corresponds with a 

syllable characteristic, and a leaf represents appropriate syllable. 

Units are stored in database following this classification (figure 9): 

- after length of syllables : we have two, three or four characters syllables (denoted S2, S3 

and S4) and also singular phonemes (S1); 

- after position inside the word: initial or median (M) and final syllables (F); 

- after accentuation: stressed or accentuated (A) or normal (N) syllables. 

S2 syllables, that are two-character syllables, have following general form: 

- {CV} (C=consonant, V=vowel), for example: ‚ba’, ‚be’, ‚co’, ‚cu’, etc, but we have also 

recorded syllable forms like: 

- {VC}, as ‚ar’, ‚es’, etc., forms that usually appear at the beginning of Romanian words. 

S3 syllables, composed from three phonemes, can be of following types: 

- {CCV} , for example: ‚bra’, ‚cre’, ‚tri’, ‚ghe’; 

- {CVC} , like: ‚mar’, ‚ver’; 

- {CVV} , for example: ‚cea’, ‚cei’, ‚soa’. 

S4 four-character syllables have different forms from {CCVV} , {CVCV} to {CVVV}. 

311

Level 3 


Level 2 

Level 1 

5. TEXT ANALYSIS 

Figure 9. Database hierarchical structure 

Text analysis is the first on-line process of text-to-voice conversion flow. This stage begins 

with the detection of linguistic units from the input text that has to be synthesized. Linguistic units 

are sentences, words and segmental units, that in our approach are the syllables. 

Detection of sentences and words is done based on punctuation and literal separators. For 

detection of syllables we had to design a set of linguistic rules for splitting words into syllables, 

inspired from Romanian syntax rules ([3]). 

The principle used in detecting linguistic units is illustrated in figure no. 10. Here we can 

see the structure of text analyzer that corresponds to four modules designed for detection of units, 

prosody information and unit processing. 

These modules are: 

- a lexical analysis module for detection of basic units; 

- a phonetic analysis module for generating prosody information; 

- a high level analysis module for detection of high-level units; 

- the processing shell for unit processing. 

S2 S3 S4 

Med Fin Med Fin Med Fin 

312 

R 

N A 

A N A N A N A N A N 

bá zú ba zu bea zoa chea sunt beau zeau


Figure 10. Text analysis for syllable detection 

Lexical analyzer extracts text characters and clusters them into basic units. We refer to the 

detection of alphabetical characters, numerical characters, special characters and punctuation 

marks. Using special lexical rules (that have been presented in [9] - [13]), alphabetical characters 

are clustered as syllables, digits are clustered as numbers and special characters and punctuation 

marks are used in determining of word and sentence boundaries. 

Phonetic analyzer gets the syllables between two breaking characters and detects stress 

position, i.e. the accentuated syllable from corresponding word. 

Then, high-level analyzer takes the syllables, special characters and numbers provided by 

the lexical analyzer, and also prosodic information, and constructs high-level units: words and 

sentences. Also basic sentence verification is done here. 

Processing shell finally takes linguistic units provided from the previous levels and, based on 

some computing subroutines, classifies and stores them in appropriate structures. From these 

structures, synthesis module will construct the acoustic waves and will synthesize the text. 

5.1. SYLLABLE DETECTION 

Lexical analyzer is called by the higher level modules for detection of basic lexical units: 

syllables, breaking characters and numbers. The lexical analyzer is made by using LEX scanner 

generator [4]. LEX generates a lexical scanner starting from an input grammar that describes the 

parsing rules. Grammar is written in BNF standard form and specifies character sequences that can 

be recognized from the input. These sequences refer to syllables, special characters, separators and 

numbers. 

Text 

Syntactical 

Rules 

Lexical 

Analysis 

Lexical 

Rules 

High Level 

Sentences 

Analysis Words 

Shell 

Syllables 

Numbers 

Separators 

313 

Phonetic 

Analysis 

Phonetic 

Rules 

Stress 

position


Hereby, input text is interpreted as a character string. At the beginning, current character is 

classified in following categories: digit, alphanumeric character, and special character. Taking into 

account left and right context, current character and the characters already parsed are grouped to 

form a lexical unit: a syllable, a number or a separator. Specific production rules for each category 

indicate the mode each lexical unit is formed and classified, and also realize a subclassification of 

units (integer or real numbers, type of separators: word or sentence separator, etc). 

A syllable-detection rule may have following general forms: 

{PATTERN} { Proceed_Syllable;} (F1) 

{ROOT_PATTERN}/{PATTERN} { Proceed_Syllable;} (F2) 

{PATTERN}{TERMINATION}/{SEP} { Proceed_Syllable;} (F3) 

Rule (F1) is applied for diphthongs like /OA/ or /IU/ that always occur in same syllable 

inside the root of a word, regardless of subsequent (right) context. Rule (F2) applies for middle - 

word syllables with a right context of specific phonems or other syllables, since rule (F3) applies 

for ending-word syllables (having a right context of a word separator). 

Regarding rule matching process inside lexical analyzer, two types of rule sets were made: 

a basic set consisting of three general rules, and a large set of exception rules which states the 

exceptions from the basic set. 

The basic set shows the general decomposition rules for Romanian. 

First rule is that a syllable consists of a sequence of consonants followed by a vowel: 

syllable ={CONS}*{VOC} (R1) 

Second rule statues that a syllable can be finished by a consonant if the beginning of the 

next syllable is also a consonant: 

syllable={CONS}*{VOC}{CONS}/{CONS} (R2) 

Third rule says that one or more consonants can be placed at the final part of a syllable if 

this is the last syllable of a word : 

syllable={CONS}*{VOC}{CONS}*/{SEP} (R3) 

314


The exception set is made up from the rules that are exceptions from the three rules of 

above. These exceptions are situated in the front of basic rules. If no rule from the exception set is 

matched, then the syllable is treated by the basic rules. At this time, the exception set is made up 

by more then 180 rules. Rules are grouped in subsets that refer to resembling character sequences. 

All these rules were completely explained in [9]. 

5.2. SYLLABLE ACCENTUATION 

The principle for determining syllable accentuation resembles with that of lexical analyzer 

for detecting syllables already exposed. After the text parser returns from input stream current 

word consisting of phonemes F1, F2, …, Fk and delimited by a separator, phonetic analyzer reads 

this word and detects syllable accentuation based on phonetic rules. Rules have been also written 

in BNF form and set into LEX input. 

In Romanian, stressed syllable can be one of last four syllables of the word: Sn, Sn-1, Sn-2 or 

Sn-3, ( Sn is the last syllable). Most often, stress is placed at next to last position. 

and 

The rules set for determining accentuation consists of: 

a) One general rule meaning Sn-1 syllable is stressed: 

{LIT}+/{SEP} { return(SN-1);} (G1) 

b) A consistent set of exceptions, organized in classes of words having the same 

termination. Each rule from exceptions set presents following form: 

{PATTERN}{TERMINATION}/{SEP} { return(SN-x);} (E1) 

where x can be one of 0, 1, 2, 3. 

At this time, the exception set is made up by more then 250 rules. All these rules were 

presented and completely explained in [9]. 

6. UNIT MATCHING, CONCATENATION AND SYNTHESIS 

Matching process is done according to the three–layer classification of units: number of 

characters in the syllable, accentuation and the place of syllable inside the word. 

If one syllable is not found in vocal database, this will be constructed from other syllables 

and separate phonemes that are also recorded. Following situations may appear: 

315


(a) Syllable is matched in appropriate accentuated form. In this case acoustic unit will be 

directly used for concatenation. 

(b) Syllable is matched but not the accentuation. In this case, unit is reconstructed from 

other syllables and phonemes which abide by the necessary accentuation. 

(c) Syllable is not matched at all, so it will be constructed from separate phonemes. 

After matching, units are simply concatenated to result the acoustic chain that will be 

synthesized. In this stage of development, our system works with intrasegmental prosody i.e. 

accentuation inside words, and doesn’t support sentence-level prosody like intonation. The rhythm 

of speech can be adjusted by intercalating different periods of silence between syllables, words and 

sentences. 

7. IMPLEMENTATION 

The purpose of our work was to build a speech synthesis system based on concatenation of 

syllables. The system includes a syllable database in which we have recorded near 400 two- 

character syllables, 150 most frequent three-character syllables and 50 four-character syllables. 

Syllables that are not included in database are synthesized from existing syllables and separate 

phonemes that are also recorded. 

The speech synthesis system first invokes text analyzer for syllable detection, then phonetic 

analyzer for determining the accentuation. Appropriate units (stressed or unstressed) are matched 

from vocal database, and speech synthesis is accomplished by syllable concatenation. 

8. CONCLUSIONS AND RESULTS 

We have presented in this article a complete method for building a syllable-based text-to- 

speech system. Our approach is based on rules that apply in the most important stages of 

projecting a speech synthesis system: construction of the vocal database, by extracting acoustic 

units from speech, and text processing stage, by extracting linguistic units using phonetic and 

lexical rules. 

First, speech signal was segmented in basic categories and ten different classes of regions. 

Then, a rule-based segmentation method was invoked onto a speech corpus in order to associate 

input phonemes with regions. We have used this segmentation method to separate phonetic units 

from speech corpora and create the vocal database. 

Special efforts have been done to accomplish the text processing stage. Here we have 

designed two sets of rules: one set of rules for detecting word syllables and a second set for 

316


determining the accentuation inside each word. Although these sets are not complete, they cover 

yet a good majority of cases. The lexical analyzer is based on rules that assure more than 98% 

correct syllables detection, since accentuation analyzer provides about 93% correct detection rate 

(computed on near 50000 words collection consisting of various Romanian texts from literature, 

religion, science and technical fields). 

The advantages of detecting syllables through a rules-driven analyzer are: separation 

between syllables detection and system code, facile readability and accessibility of rules. Other 

authors ([ 1]) have used LEX only for pre-processing stage of text analysis, and not for units 

detection process itself. Some methods support only a restricted domain ([6]), since our method 

supports all Romanian vocabulary. The rules-driven method also needs fewer resources than 

dictionary-based methods (like [5]). 

About speech synthesis outcome, the results are encouraging, and after a post-recording 

stage of syllable normalization we have obtained a good, near-natural quality of speech synthesis. 

Even diphones have not been considered in our method, the speech outcome is not affected. For 

the future implementations, we have in mind the completion of syllable and accentuation rules sets 

and also the completion of syllables database according to a self-generated statistics of Romanian 

syllables, aspects that will improve the system performance. 

REFERENCES 

1. BURILEANU, D., et al., A Parser-Based Text Preprocessor for Romanian Language TTS 

Synthesis, Proceedings of EUROSPEECH'99, Budapest, Hungary, vol. 5, pp. 2063-2066, Sep. 

1999. 

2. BURILEANU, C., et al., Text-to-Speech Synthesis for Romanian Language: Present and 

Future Trends, in the volume “Recent Advances in Romanian Language Technology” (D. 

Tufiş, P. Andersen – Eds.), Publishing House of the Romanian Academy, Bucharest, pp. 189- 

206, 1997. 

3. CIOMPEC, G., et al., Limba română contemporană. Fonetică, fonologie, morfologie, Editura 

Didactică şi Pedagogică, Bucharest, 1985. 

4. FREE SOFTWARE FOUNDATION, Flex - a scanner generator, http://www.gnu.org/ 

software/flex/manual, October 2005. 

5. HUNT, A., BLACK, A., Unit selection in a concatenative speech synthesis system using a 

large speech database, IEEE International Conference on Acoustics, Speech and Signal 

Processing ICASSP ’96 Proceedings, Atlanta, GA, pp. 373–376, May 1996. 

317


6. LEWIS, E., TATHAM, M., Word and Syllable Concatenation in Text-To-Speech Synthesis, 

Sixth European Conference on Speech Communications and Technology, pp. 615—618, 

ESCA, September 1999. 

7. PICONE, J.W., Signal modeling techniques in speech recognition, Proceedings IEEE vol. 81, 

pp. 1215-1246, September 1993. 

8. LUPU E., POP P., Prelucrarea numerică a semnalului vocal, vol.1, Ed. Risoprint, 2004. 

9. BUZA, O., Vocal interactive systems, doctoral paper, Electronics and Telecommunications 

Faculty, Technical University of Cluj-Napoca, 2005. 

10. BUZA, O., TODEREAN, G., Syllable detection for Romanian text-to-speech synthesis, Sixth 

International Conference on Communications COMM’06 Bucharest, pp. 135-138, June 2006. 

11. BUZA, O., TODEREAN, G., A Romanian Syllable-Based Text-to-Speech Synthesis, Proc. of 

the 6th WSEAS Internat. Conf. on Artificial Intelligence, Knowledge Engineering and Data 

Bases (AIKED ’07), CD Proceedings, Corfu Island, Greece, 16-19 February, 2007. 

12. BUZA, O., TODEREAN, G., About Construction of a Syllable-Based TTS System, WSEAS 

Transactions on Communications, Issue 5, Volume 6, May 2007, ISSN 1109-2742, 2007. 

13. BUZA, O., TODEREAN, G., NICA, A., BODO, Z., Original Method for Romanian Text-to- 

Speech Synthesis Based on Syllable Concatenation, published in the volume “Advances in 

Spoken Language Technology”, coordinated by Corneliu Burileanu and Horia-Nicolai 

Teodorescu, ed. by The Publishing House of the Romanian Academy, composed of the Proc. of 

the 4th Conference on Speech Technology and Human Computer Dialogue “SpeD 2007”, 

organized by the Romanian Academy, the University “Politehnica” of Bucharest, and the 

Technical University of Iasi, Iasi, Romania, pp. 109-118, 10-12 May, 2007. 

14. BUZA, O., TODEREAN, G., Metode de Sinteză din Text a Vorbirii pentru Limba Română, 

The Second International Conference "Telecommunications, Electronics and Computer 

Science" ICTEI 2008, Chişinău, Republica Moldova, pp. 209-214, 15-18 May, 2008. 

318 

Technical University of Cluj-Napoca 

Baritiu 26-28, Cluj-Napoca, Romania 

E-mail address: Ovidiu.Buza@com.utcluj.ro

319 

Anexa 6. Lucrări ştiinţifice ale autorului prezentate în extenso 

2. O. Buza, G. Toderean, About Construction of a Syllable-Based TTS System, WSEAS 

TRANSACTIONS on COMMUNICATIONS, Issue 5, Volume 6, May 2007, ISSN 1109- 

2742, 2007 

WSEAS TRANSACTIONS 

on COMMUNICATIONS 

Issue 5, Volume 6, May 2007 

ISSN 1109-2742 http://www.wseas.org 

Estimation of a Partial Transmitter Contribution to the Total Electromagnetic Field 

Exposure in a Multi-Transmitter Environment 

D. Stratakis, A. Miaoudakis, N. Farsaris, T. Xenos, V. Zacharopoulos 

Reflection and Transmission Characteristics of Layered Bianisotropic Metamaterials 683 

Ruyen Ro, Sean Wu 

Optimal Statistical Energy Balancing Protocols for Wireless Sensor Networks 689 

B. Hegyi, J. Levendovszky 

Efficient and Transparent Service Discovery Mechanisms in Wireless Ad Hoc 

Networks 

Vladimir Atanasovski, Liljana Gavrilovska 

Optical Label Switching Method based on Optical CDM Code Processing 701 

Wang-Hsai Yang, Chih-Chao Wen 

About Construction of a Syllable-Based TTS System 707 

Ovidiu Buza, Gavril Toderean 

Wavelet-Based Image Compression using a New Partial Search LBG Algorithm 715 

Somphob Soongsathitanon 

675 

695

About Construction of a Syllable-Based TTS System 

OVIDIU BUZA, GAVRIL TODEREAN 

Department of Telecommunications 

Technical University of Cluj-Napoca 

26 – 28 G. Baritiu Str., 400027, Cluj-Napoca 

ROMANIA 

Ovidiu.Buza@cs.utcluj.ro Gavril.Toderean@com.utcluj.ro http://bavaria.utcluj.ro/~toderean 

Abstract: - This article presents several steps that we have accomplished in order to construct a syllablebased 

TTS system for Romanian. These steps are: projecting a text analysis method capable to separate 

syllables from input text and detect accentuation, building a vocal database from speech recordings, 

projecting a unit matching algorithm and a synthesizer method. Our approach uses rule-driven text analysis 

and automated wave segmentation for database generation. 

Key-Words: - syllable-based TTS system, rule-driven text analyzer, automatic wave signal segmentation 

1 Introduction 

Concatenation of waveforms represents a method 

more and more used in our days because of high 

level of naturalness in produced speech. Corpusbased 

methods are among best approaches, but 

they need great efforts for database maintaining. 

Syllable-based methods can be an alternative, 

as they need a limited units database. Using of 

syllables in synthesis also leads to a good level of 

speech naturalness and low concatenation error 

rate because of small number of concatenation 

points inside the synthesized text. 

This article presents an original approach for 

constructing a syllable-based TTS system for 

Romanian. The syllable approach is very 

appropriate in our case, because Romanian spoken 

language contains a big number of opened vowels 

that gives a constant rhythm of speech and similar 

manner of accentuating words. 

Text 

Text 

Analysis 

Basic 

units 

Prosody 

data 

Fig.1. Main functionalities of our Text-to-Speech system 

320 

Also, Romanian language contains a relative 

small number of syllables, so we have obtained a 

reduced size of vocal database. 

Our text-to-speech system consists of ([7]): 

- a text analysis module that brings input text and 

produces basic units, that in our approach are 

syllables, and prosody data, which mean the 

information about how words are accentuated; 

- a unit matching module that generates acoustic 

units sequence according to the linguistic units 

detected from the input and prosody data; 

- a speech synthesis module that generates speech 

based on the acoustic units sequences. 

The particular aspects of our work are: 

- using of linguistic and phonetic rules based of 

which we have done text analysis and obtained 

appropriate units and prosody data; 

- automatic generation of database from recorded 

sequences. 

Unit 

Matching 

Synthesis

WSEAS TRANSACTIONS ON COMMUNICATIONS Ovidiu Buza, Gavril Toderean 

First of all we have built a linguistic analyzer 

module that is capable to split the input text into 

syllables. Next step was to determine accentuation 

by mean of a phonetic analyzer. Then we have 

automatically produced a database with PCM 

coded syllables of Romanian language. Synthesis 

was done by concatenating acoustic units from 

database and giving appropriate commands to the 

computer’ sound blaster for voice generation. 

2 Text Analysis 

First stage in text analysis is the detection of 

linguistic units: sentences, words and segmental 

units that in our approach are the word syllables. 

Detection of sentences and words is done 

based on punctuation and literal separators. For 

Text 

Sub 

Routines 

Sintactical 

Rules 

Lexical 

Analysis 

Lexical 

Rules 

Processing shell accomplishes the unit 

processing task and controls the subsequent 

modules. The shell calls high-level analyser for 

returning main syntactic units. High-level 

analyser calls the lexical analyser for input text 

parsing and detection of basic units. Then 

phonetic analysis module is called for generating 

stress information. 

Lexical analyser extracts text characters and 

clusters them into basic units. We refer to the 

detection of alphabetical characters, numerical 

Processing 

Shell 

Fig, 2. Text analyser for syllable detection 

321 

detection of syllables we had to design a set of 

linguistic rules for splitting words into syllables, 

inspired from Romanian syntax rules ([2], [3]). 

The principle used in detecting linguistic units 

is illustrated in figure no. 2. Here we can see the 

structure of text analyser that corresponds to four 

modules designed for detection of units, prosody 

information and unit processing. 

These modules are: 

- lexical analysis module for detection of basic 

units; 

- phonetic analysis module for generating prosody 

information; 

- high level analysis module for detection of highlevel 

units; 

- processing shell for unit processing. 

Unit 

processing 

High Level 

Sentences 

Analysis Words 

Syllables 

Numbers 

Separators 

Phonetic 

Analysis 

Phonetic 

Rules 

Stress 

position 

characters, special characters and punctuation 

marks. Using special lexical rules (that have been 

presented in [8]), alphabetical characters are 

clustered as syllables, digits are clustered as 

numbers and special characters and punctuation 

marks are used in determining of word and 

sentence boundaries. 

Phonetic analyser gets the syllables between 

two breaking characters and detects stress 

position, i.e. the accentuated syllable from 

corresponding word.


Then, high-level analyser takes the syllables, 

special characters and numbers provided by the 

lexical analyser, and also prosodic information, 

and constructs high-level units: words and 

sentences. Also basic sentence verification is done 

here. 

Processing shell finally takes linguistic units 

provided from the previous levels and, based on 

some computing subroutines, classifies and stores 

them in appropriate structures. From here synthesis 

module will construct the acoustic waves and will 

synthesize the text. 

3 Lexical Analysis for Syllable 

Detection 

Lexical analyzer is called by the higher level 

modules for detection of basic lexical units: 

syllables, breaking characters and numbers. The 

lexical analyzer is made by using LEX scanner 

generator [4]. LEX generates a lexical scanner 

starting from an input grammar that describes the 

parsing rules. Grammar is written in BNF standard 

form and specifies character sequences that can be 

recognized from the input. These sequences refer 

to syllables, special characters, separators and 

numbers. Also BNF grammar specifies the actions 

to be taken in the response of input matching, 

actions that will be accomplished by the processing 

shell subroutines. 

The whole process realized by the lexical 

analyzer is illustrated in figure no. 3. As we can 

see, input text is interpreted as a character string. 

At the beginning, current character is classified in 

following categories: digit, special character or 

separator, and alphanumeric character. Taking into 

account left and right context, current character 

and the characters already parsed are grouped to 

form a lexical unit: a syllable, a number or a 

separator. Specific production rules for each 

category indicate the mode each lexical unit is 

formed and classified, and also realize a 

subclasification of units (for numbers if they are 

integer or real numbers, and for separators – the 

type: word or sentence separator, affirmative, 

interrogative, imperative or special separator). 

Once the unit type and subtype is identified, 

corresponding character sequence is stored and 

transmitted to the high-level analyzer by mean of 

specific actions, as they will be described in next 

paragraph ( Process syllable, Process number, 

Process separator). 

322 

Text 

C C C C C C C C C C 

Digit Separator Alphabetic 

Rules 

Rules 

Rules 

Integer Real Sep 1 … Sep n Syllable 

Process number Process separator Process syllable 

Fig.3. Lexical analyser for syllable detection 

3.1 Specific actions of lexical analyser 

Specific actions inform high-level module about 

matching of syllables, numbers and breaking 

characters. Inside lexical parser three types of input 

response actions are defined as follows: 

A. Process syllable – this is the action to be 

taken when a syllable is matched in specific 

location of one word. 

Special attention is taken when a syllable is 

matched at the beginning of a word. In Romanian, 

different word decomposition rules apply when a 

character sequence occurs at the beginning or in 

the middle or the final part of a word. 

B. Process number – is the action to be taken 

when a number is matched from the input. The 

number is identified as INTEGER or REAL type. 

In future stage, numbers will be translated in 

orthographic alphabetical form. 

C. Process separator - is the action 

corresponding to a breaking character matching 

from the input. Breaking characters and 

punctuation marks are used for detecting word and 

sentence boundaries. 

3.2 Syllable rules matching 

Regarding syllable rules matching process inside 

lexical analyser, two types of rule sets were made: 

a basic set consisting of three general rules, and a 

large set of exception rules which statues the 

exceptions from the basic set.


(A) The basic set shows the general 

decomposition rules for Romanian. First rule is 

that a syllable consists of a sequence of consonants 

followed by a vowel: 

syllable ={CONS}*{VOC} (R1) 

Second rule statues that a syllable can be 

finished by a consonant if the beginning of the next 

syllable is also a consonant: 

syllable={CONS}*{VOC}{CONS}/{CONS}(R2) 

Third rule says that one or more consonants can 

be placed at the final part of a syllable if this is the 

last syllable of a word : 

syllable={CONS}*{VOC}{CONS}*/{SEP}(R3) 

(B) The exception set is made up from the rules 

that are exceptions from the three rules of above. 

These exceptions are situated in the front of basic 

rules. If no rule from the exception set is matched, 

then the syllable is treated by the basic rules. At 

this time, the exception set is made up by more 

then 100 rules. Rules are grouped in subsets that 

refer to resembling character sequences. All these 

rules are explained in [7], [8]. 

4 Syllable Accentuation 

The principle for determining syllable accentuation 

is shown in the following diagram: 

WORD 

Text 

Parser 

F1 F2 ... Fk S 

Phonetic 

Rules 

Phonetic 

Analyzer 

STRESS 

Fig.4. The principle of detecting syllable 

accentuation 

Sn-3 

Sn-2 

Sn-1 

The parser returns current word from input 

stream. The word consists of series of phonemes 

F1, F2, …, Fk and is delimited by a separator S. 

Sn 

323 

Phonetic analyser reads this word and detects 

syllable accentuation based on phonetic rules. 

In Romanian, stressed syllable can be one of 

last four syllables of the word: Sn, Sn-1, Sn-2 or Sn-3, ( 

Sn is the last syllable). Most often, stress is placed 

at last but one position. 

The rules set consists of this general rule (Sn-1 

syllable is stressed): 

{LIT}+/{SEP} { return(SN_1);} 

and a consistent set of exceptions, organized in 

classes of words having the same termination. In 

[7] one can find the complete set of rules. 

5 High Level Analysis 

High-level analyser takes low-level information: 

syllables, special characters and numbers from the 

lexical analysis module and constructs high-level 

structures: words and sentences. 

High-level analysis module takes a regular 

production rules set which specifies the syntax of 

input text. Input text is considered to be a set of 

sentences, each sentence – a set of words and each 

word is composed by one, two or more syllables. 

Sentences, and words respectively, are bounded by 

separators. 

Hierarchical structure of high-level units is 

presented in figure no.5. In this diagram, greyed 

units (syllables, numbers and separators) are the 

outcome of lexical analyser. Thereby, high-level 

or syntactical analyser module invokes lexical 

analyser for providing next lexical unit from input 

text: a syllable, a number or a separator. 

Based on the lexical units, at this level are 

formed syntactical units as words, sentences and 

text. High-level analyser also has the capability to 

call, for each syntactical unit separated from text, a 

specific subroutine from processing shell module. 

In our implementation, words and sentences are 

processed by calling two subroutines from 

processing shell: Process_Word and 

Process_Sentence. 

Based on corresponding terminators, at this 

level, sentences are classified as regular, 

imperative or interrogative. Such a classification is 

very important for modifying speech prosody (in 

future developments).


Text 

Sentence Separator Sentence Separator Sentence Separator 

Fig.5. Hierarchical structure of high-level analysis 

6 Wave Signal Segmentation 

For the construction of vocal database, an 

appropriate method for wave signal segmentation 

is a request. In our approach, segmentation was 

done through an automated procedure which can 

detect silence/speech and voiced/unvoiced signal. 

The automated procedure uses time domain 

analysis of signal. After a low-pass filtering of 

the signal, zero-cross (Z i) wave samples were 

detected. Minimum (m i) and maximum (M i) 

points between two zeros were also computed. 

Separation between silence and speech is done 

using an amplitude threshold Ts . In silence 

segments all MIN and MAX points have to be 

smaller than Ts: 

| 

M i | T 

s 

 

| 

mi 

| T 

s 

. ! Tab ? ; 

Word Separator Word Separator Word Separator 

Number 

Alphabetic 

, i = s… s+n (1) 

In (1) s is the segment sample index and n is 

the number of samples in that segment. 

For speech segments distance between two 

adjacent zero-cross points (D i = d(Zi,Zi+1)) is 

computed. Decision of voiced segment is assumed 

if distance is greater than a threshold distance V: 

Space Tab . , ? ! 

Integer Real 

Syllable Syllable Syllable 

324 

Di V , i = s,… , s+n (2) 

Z1 

A 

B 

Fig.6. A voiced segment of speech 

For the zero points between A and B from 

figure 6 to be included in the voiced segment, a 

look-ahead technique has been applied. A number 

of maximum Nk zero points between Zi and Zi+k 

can be inserted in voiced region if Di-1>V and 

Di+k >V : 

D 

 

D 

i 

 

D 

i 

j 

1 

k 

V 

V 

V 

Zn 

, j = i..k; k


A segment is assumed unvoiced if distance Di 

between two adjacent zeros is smaller than a 

threshold U: 

Di U , i = s,… , s+n (4) 

Transient segments are also defined and they 

consist of regions for which conditions (2), (3) 

and (4) are not accomplished. 

After first appliance of above algorithm, a 

large set of regions will be created. Since voiced 

regions are well determined, the unvoiced are 

broken by intercalated silence regions. This 

situation appears because unvoiced consonants 

325 

have low amplitude so they can break in many 

silence/unvoiced subregions. 

Transient segments can also appear inside the 

unvoiced segment because of signal bouncing 

above zero line. 

Figure 7 shows such an example, in which 

numbered regions are unvoiced, simple-line and 

unnumbered are silence regions, and double-line 

are transient regions. 

All these regions will be packed together in the 

second pass of the algorithm, so the result will be 

a single unvoiced region – as one can see in figure 

no. 8. 

Fig.7. Determining regions for an unvoiced segment of speech 

After segmentation, voiced and unvoiced 

segments are coupled according to the syllable 

chain that is used in vocal database construction 

process. Acoustic units are labelled and stored in 

database. Each region boundary can be viewed 

with a special application and, if necessary, can be 

adjusted. 

7 Vocal Database Construction 

Vocal database includes a subset of Romanian 

language syllables. Acoustic units were separated 

from male speech and normalized in pitch and 

amplitude. 

Vocal database with recorded syllables has a 

tree data structure. Each node in the tree 

corresponds with a syllable characteristic, and a 

leaf represents appropriate syllable. 

Fig.8. Compacting regions of above segment 

Units have been inserted in database following 

this classification: 

- after length of syllables : we have two, three or 

four character syllables (denoted S2, S3 and S4) 

and also singular phonemes; 

- after position inside the word: initial or median 

(Med) and final syllables (Fin); 

- after accentuation: stressed or accentuated (A) or 

normal (N) syllables. 

This classification offers the advantage of 

reducing time for matching process between 

phonetic and acoustic units. 

Organization of vocal database is shown in 

figure no. 9. Level one nodes indicate length of 

syllables, level two nodes indicate median or final 

syllables, and level three accentuated or normal 

syllables.


Level 1 

Level 2 

Level 3 

8 Unit Matching Process 

The matching process is done according to the 

three–layer classification of units: number of 

characters in the syllable, accentuation and the 

place of syllable inside the word. 

If one syllable is not founded in vocal 

database, this will be constructed from other 

syllables and separate phonemes that are also 

recorded. Following situations may appear: 

(a) Syllable is matched in appropriate 

accentuated form. In this case acoustic unit will be 

directly used for concatenation. 

(b) Syllable is matched but not the 

accentuation. In this case, unit is reconstructed 

from other syllables and phonemes which abide 

by the necessary accentuation. 

(c) Syllable is not matched, so it will be 

constructed from existing syllables and phonemes. 

9 Implementation 

The purpose of our work was to build a speech 

synthesis system based on concatenation of 

syllables. The system includes a syllable database 

in which we have recorded 386 two-character 

syllables: 283 middle-word syllables and 103 

ending-word syllables, 139 most frequent threecharacter 

syllables and 37 four-character syllables. 

S2 S3 S4 

Med Fin Med Fin Med Fin 

Fig.9. The tree data structure of vocal database 

R 

N A 

A N A N A N A N A N 

bá zú ba zu bea zoa chea sunt beau zeau 

326 

Syllables that are not included in database are 

synthesized from existing syllables and separate 

phonemes that are also recorded. 

The speech synthesis system first invokes text 

analyzer for syllable detection, then phonetic 

analyser for determining the accentuation. 

Appropriate unit (stressed or unstressed) is 

matched from vocal database, and speech 

synthesis is accomplished by syllable 

concatenation. 

10 Conclusions and Results 

We have presented in this article a complete 

method for construction of a syllable-based TTS 

system. Special efforts have been done to 

accomplish the text processing stage. After 

serious researches in linguistic field, we have 

designed one set of rules for detecting word 

syllables and a second set for determining which 

syllable is accentuated in each word. Even these 

sets are not complete, they cover yet a good 

majority of cases. The lexical analyzer is entirely 

based on rules that assure more than 85% correct 

syllable detection at this moment, since 

accentuation analyser provides about 75% correct 

detection rate.


Text 

Lexical analysis 

Syllable 

detection 

Basic units: 

Syllables 

Phonetic 

analysis 

Accentuation 

Prosodic info: 

Stress 

Unit 

Concatenation 

and Synthesis 

Unit 

Matching 

Vocal 

Database 

Fig.10. The principle of our syllable-based 

speech synthesis system 

The advantages of detecting syllables through 

a rules-driven analyser are: separation between 

syllables detection and system code (different 

from [9], where syllables detection algorithm is 

integrated in source code); from here we have 

easy readability and accessibility of rules. Other 

authors [1] have used LEX only for preprocessing 

stage of text analysis, and not for units 

detection process itself. Some methods support 

only a restricted domain [6], since our method 

supports all Romanian vocabulary. The rulesdriven 

method also needs less resources than 

dictionary-based methods (like [5]). 

Our automated segmentation method assures 

less errors in concatenation points: waves begin 

and stop at zero-points and contain integer 

numbers of periods. 

About speech synthesis outcome, first results 

are encouraging, and after a post-recording stage 

of syllable normalization we have obtained a good 

quality of speech synthesis. In future 

implementations, F0 adaptive correction in 

concatenation points will improve this 

performance. 

327 

References: 

[1] Burileanu D., et al., A Parser-Based Text 

Preprocessor for Romanian Language TTS 

Synthesis, Proceedings of EUROSPEECH'99, 

Budapest, Hungary, vol. 5, pp. 2063-2066, Sep. 

1999. 

[2] Constantinescu-Dobridor G., Sintaxa limbii 

române, Editura Ştiinţifică, Bucureşti, 1994 

[3] Ciompec G. et al., Limba română 

contemporană. Fonetică, fonologie, morfologie, 

Editura Didactică şi Pedagogică, Bucureşti, 1985. 

[4] Free Software Foundation, Flex - a scanner 

generator, http://www.gnu.org/software/flex 

/manual, October 2005. 

[5] Hunt A., Black A., Unit selection in a 

concatenative speech synthesis system using a 

large speech database, Proc. ICASSP ’96, Atlanta, 

GA, May 1996, pp. 373–376. 

[6] Lewis E., Tatham M., Word And Syllable 

Concatenation In Text-To-Speech Synthesis, Sixth 

European Conference on Speech Communications 

and Technology, pages 615—618, ESCA, 

September 1999. 

[7] Buza O., Vocal interractive systems, doctoral 

paper, Electronics and Tele-communications 

Faculty, Technical University of Cluj-Napoca, 

2005 

[8] Buza O., Toderean G., Syllable detection for 

Romanian text-to-speech synthesis, Sixth 

International Conference on Communications 

COMM’06 Bucarest, June 2006, pp. 135-138. 

[9] Burileanu C. et al., Text-to-Speech Synthesis 

for Romanian Language: Present and Future 

Trends, http://www.racai.ro/books/awde/ 

burileanu.htm

Teza doctorat (pdf) - Universitatea Tehnică

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?