Teza doctorat (pdf) - Universitatea Tehnică

Teza doctorat (pdf) - Universitatea Tehnică Teza doctorat (pdf) - Universitatea Tehnică

users.utcluj.ro
from users.utcluj.ro More from this publisher
15.06.2013 Views

170 Cap. 6. Metode de sinteză de voce Tabelul 6.1 indică domeniile de frecvenţă ale parametrilor Fk şi Bk (sunete sonore), Fz,n şi Fp,n (sunete nazale), respectiv F1 + , F2 - , Fz (sunete fricative), valori determinate statistic [Fer97]. Tabelul 6.1. Domeniile de frecvenţă ale parametrilor Fk şi Bk Sunete sonore Primul formant (F1) Al doilea formant (F2) Al treilea formant (F3) Rezonanţă nazală (Fp,n) Antirezonanţa (Fz,n) Sunete nesonore Primul formant (F1 + ) Al doilea formant (F2 - ) Antiformant (Fz) 6.2.2.3. Sinteza în paralel F (Hz) B (Hz) 100 – 1100 500 – 2500 1500 – 3500 200 – 1000 200 – 1000 200 – 500 1500 – 3500 800 – 2000 45 – 130 5 – 190 70 – 260 100 60 – 300 60 – 200 Structura în paralel a rezonatoarelor determină o situaţie mai delicată decât în cazul sintezei în cascadă, deoarece în acest caz este necesară cunoaşterea câştigului asociat fiecărui formant. Aceste câştiguri corespund reziduurilor polilor rezultaţi din descompunerea transmitanţei T(z) în fracţii simple. Calcularea şi realizarea lor trebuie să se facă cu mare precizie, fără a introduce zerouri în transmitanţa globală, care are expresia [Fer97]: T K z k1 1b 1 k h z k 1 b 2 k z 2 Prin procedee delicate, acest efect poate fi folosit pentru generarea sunetelor nazale. Se obţine o calitate superioară a semnalul generat, motiv pentru care sinteza în paralel este preferată, mai ales datorită progresului actual al tehnologiei. 6.3. Metode de sinteză în domeniul timp În continuare se vor prezenta două dintre cele mai cunoscute metode de sinteză în domeniul timp, care asigură totodată o calitate înaltă semnalului sintetizat: - metoda TD-PSOLA, ce foloseşte principiul compunerii de segmente vocale care se întrepătrund, şi - metoda bazată pe corpus, ce foloseşte o bază de date (corpus vocal) de dimensiuni mari în scopul producerii unei vorbiri de calitate cât mai naturală. (6.8)

6.3.1. Metoda TD-PSOLA 171 Cap. 6. Metode de sinteză de voce Numele metodei constituie un acronim pentru Time Domain - Pitch Synchronous Overlapp and Add, adică metoda în domeniul timp ce foloseşte suprapunerea şi compunerea formelor de undă sincron cu frecvenţa ([Dut93], [Ver93]). Metoda comportă două faze principale, care sunt comune şi altor metode: faza de analiză şi faza de sinteză. În faza de analiză se împarte semnalul original în segmente de durată mică (de obicei având ca durată dublul perioadei fundamentale a semnalului 2T0), segmente care nu sunt separate, ci se suprapun. Aceste segmente se aleg sincron cu frecvenţa (numită pitch). Pentru aceasta, aici în faza de analiză se aleg nişte indicatori de fecvenţă numiţi pitch marks, ce vor indica centrul segmentului corespunzător din cadrul semnalului vocal. În faza de sinteză se calculează durata şi frecvenţa de bază a semnalului din cadrul segmentului considerat. În funcţie de aceşti parametrii, ţinând cont şi de indicatorii pitch markers stabiliţi în faza de analiză, segmentul vocal se rearanjează pe axa timpului, modificându-şi frecvenţa fundamentală, dilatându-se sau contractându-se temporal dacă cum este necesar. În final semnalul sintetizat rezultă prin compunerea segmentelor vocale ce se suprapun (Overlap and Add). Aici va trebui avut grijă la îmbinarea segmentelor, pentru a nu apărea discontinuităţi spectrale deranjante în vorbirea sintetizată. 6.3.1.1. Modelare matematică Modelul metodei de sinteză TD-PSOLA este ilustrat în figura 6.5. (x1, p1) (X1, P1) (x2, p2) (X2, P2) x(n) Extragerea segmentelor . . . Mapare . . . Overlap X(n) . . (xn, pn) (Xm, Pm) ANALIZA SINTEZA Segmente suprapuse Segmente mapate Figura 6.5. Metoda de sinteză TD-PSOLA Faza de analiză porneşte de la semnalul original x(n), şi printr-un procedeu special de segmentare, se vor obţine segmentele suprapuse (adică segmente care se intersectează pe axa timpului): x1, x2, ... xn . Corespunzător fiecărui segment se aleg indicatorii de frecvenţă ( pitch marks): p1, p2, ... , pn . Indicatorii de frecvenţă se pot alege la mijlocul segmentului sau la valoarea maximă a intensităţii de semnal.

6.3.1. Metoda TD-PSOLA<br />

171<br />

Cap. 6. Metode de sinteză de voce<br />

Numele metodei constituie un acronim pentru Time Domain - Pitch Synchronous<br />

Overlapp and Add, adică metoda în domeniul timp ce foloseşte suprapunerea şi compunerea<br />

formelor de undă sincron cu frecvenţa ([Dut93], [Ver93]).<br />

Metoda comportă două faze principale, care sunt comune şi altor metode: faza de analiză<br />

şi faza de sinteză.<br />

În faza de analiză se împarte semnalul original în segmente de durată mică (de obicei<br />

având ca durată dublul perioadei fundamentale a semnalului 2T0), segmente care nu sunt<br />

separate, ci se suprapun. Aceste segmente se aleg sincron cu frecvenţa (numită pitch). Pentru<br />

aceasta, aici în faza de analiză se aleg nişte indicatori de fecvenţă numiţi pitch marks, ce vor<br />

indica centrul segmentului corespunzător din cadrul semnalului vocal.<br />

În faza de sinteză se calculează durata şi frecvenţa de bază a semnalului din cadrul<br />

segmentului considerat. În funcţie de aceşti parametrii, ţinând cont şi de indicatorii pitch markers<br />

stabiliţi în faza de analiză, segmentul vocal se rearanjează pe axa timpului, modificându-şi<br />

frecvenţa fundamentală, dilatându-se sau contractându-se temporal dacă cum este necesar.<br />

În final semnalul sintetizat rezultă prin compunerea segmentelor vocale ce se suprapun<br />

(Overlap and Add). Aici va trebui avut grijă la îmbinarea segmentelor, pentru a nu apărea<br />

discontinuităţi spectrale deranjante în vorbirea sintetizată.<br />

6.3.1.1. Modelare matematică<br />

Modelul metodei de sinteză TD-PSOLA este ilustrat în figura 6.5.<br />

(x1, p1)<br />

(X1, P1)<br />

(x2, p2)<br />

(X2, P2)<br />

x(n) Extragerea<br />

segmentelor<br />

.<br />

.<br />

.<br />

Mapare<br />

.<br />

.<br />

.<br />

Overlap<br />

X(n)<br />

.<br />

.<br />

(xn, pn)<br />

(Xm, Pm)<br />

ANALIZA<br />

SINTEZA<br />

Segmente suprapuse Segmente mapate<br />

Figura 6.5. Metoda de sinteză TD-PSOLA<br />

Faza de analiză porneşte de la semnalul original x(n), şi printr-un procedeu special de<br />

segmentare, se vor obţine segmentele suprapuse (adică segmente care se intersectează pe axa<br />

timpului): x1, x2, ... xn . Corespunzător fiecărui segment se aleg indicatorii de frecvenţă ( pitch<br />

marks): p1, p2, ... , pn . Indicatorii de frecvenţă se pot alege la mijlocul segmentului sau la<br />

valoarea maximă a intensităţii de semnal.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!