15.06.2013 Views

Teza doctorat (pdf) - Universitatea Tehnică

Teza doctorat (pdf) - Universitatea Tehnică

Teza doctorat (pdf) - Universitatea Tehnică

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

4.7. Segmentarea fonematică<br />

119<br />

Cap. 4. Analiza semnalului vocal<br />

În ultimii ani, sinteza vorbirii realizată prin concatenare a devenit din ce în ce mai<br />

populară pentru înalta calitate a vocii sintetice pe care o oferă. Prin selectarea şi concatenarea<br />

unităţilor de vorbire stocate într-o bază de date, astfel de sintetizatoare pot selecta o secvenţă de<br />

unităţi ce corespunde foarte precis contextului de la intrare. Prin acest proces, modificarea<br />

semnalului este minimă, păstrându-se astfel caracterul natural al discursului original.<br />

Cu toate acestea, calitatea semnalului de vorbire obţinut la ieşire este extrem de<br />

dependentă de corpusul din baza de date şi de prelucrările operate pe acest corpus. Rezultă de<br />

aici importanţa etichetării şi adnotării corecte a corpusului existent, proces în care transcrierea<br />

fonetică şi segmentarea fonematică sunt sarcini de primă importanţă.<br />

Segmentarea fonematică reprezintă procesul de asociere a unor simboluri fonematice<br />

prezente în textul de la intrare cu semnalul vorbit. În urma segmentării, din semnalul vorbit se<br />

vor extrage unităţile acustice, care vor fi înregistrate apoi în baza de date.<br />

Dacă transcrierea fonetică a textului nu implică dificultăţi deosebite, cea mai grea sarcină<br />

în procesul de prelucrare a corpusului şi de creare a bazei de date vocale este cea de segmentare.<br />

Acest lucru se datorează faptului că metodele de segmentare automată nu sunt suficient de fiabile<br />

la ora actuală, şi astfel verificarea manuală a segmentării rămâne obligatorie, proces extrem de<br />

costisitor atât în termeni de timp cât şi în costuri de dezvoltare.<br />

Această nevoie de intervenţie manuală este considerată ca un factor de limitare pentru<br />

construirea de noi corpusuri utilizate în sinteză. Având în vedere creşterea cererii înspre<br />

diversificarea vocilor de sinteză, se impune îmbunătăţirea preciziei şi gradului de automatizare a<br />

segmentării şi adnotării corpusurilor utilizate în aplicaţii de tip text-to-speech.<br />

Pe plan internaţional au fost dezvoltate mai multe metode în vederea segmentării<br />

automate sau semiautomate a semnalului vocal: metode iterative bazate pe antrenare, metode<br />

bazate pe reguli de asociere, metode bazate pe calcule statistice, etc. Prezentăm în continuare pe<br />

scurt trei dintre acestea, pe care le considerăm generice pentru rezolvarea acestui tip de<br />

problemă.<br />

Cele trei metode sunt: segmentarea cu modele Markov ascunse (Hidden Markov Models -<br />

HMM), rafinarea frontierelor de regiuni, segmentarea bazată pe probabilităţi generalizate<br />

(Generalized Likelihood Ratio - GLR).<br />

4.7.1. Segmentarea fonematică folosind modele Markov ascunse<br />

Această abordare este considerată o abordare standard pentru segmentarea semnalului<br />

vocal. Algoritmul constă din doi paşi. Primul pas este o fază de antrenare care are ca scop<br />

estimarea modelelor acustice. În al doilea pas se utilizează aceste modele, generându-se<br />

clasificări ale segmentelor vocale prin intermediul algoritmului Viterbi, făcându-se o aliniere<br />

între modelele asociate secvenţei cunoscute de foneme şi semnalul vorbit.<br />

Faza de antrenare e importantă pentru că acurateţea segmentării prin modele Markov<br />

HMM depinde de calitatea estimării modelelor. Există câteva metode pentru determinarea<br />

acestor modele.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!