20.06.2013 Views

Java e Shkencës 2012 - Universiteti i Prishtinës

Java e Shkencës 2012 - Universiteti i Prishtinës

Java e Shkencës 2012 - Universiteti i Prishtinës

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

KONFERENCA VJETORE E SHKENCËS ‘JAVA E SHKENCËS <strong>2012</strong><br />

janë bashktingëllore dhe 7 janë zanore. Në grupin e bashkëtingëlloreve, 9 janë<br />

dysimbolëshe-bigrame (dh, gj, ll, nj, rr, sh, th, xh, zh). Për t’i ikur leximit të gabuar të tyre,<br />

ato duhet të gjenerojnë tingull të veçantë. Një gjë e tillë duhet të parashihet në algoritmin<br />

(dhe më pas aplikacionet) për sintezën e të folurit. Vetia e gjuhës shqipe, e leximit të çdo<br />

shkronje në një mënyrë unike (të vetme), pa marrë parasysh pozitën se ku ndodhet paraqet<br />

një element të rëndësishëm lehtësues gjatë sintezës së të folurit artificial.<br />

Fjalori i gjuhës shqipe përmbanë më tepër se 40 000 fjalëve. Duke pasur parasysh<br />

edhe trajtat e fjalëve bazë, gjatë shkruarjes së teksteve numri i tyre kalon një milion<br />

variacione fjalësh. Për këtë arsye, incizimi i fajllave akustik të të gjitha fjalëve dhe trajtave të<br />

tyre dhe pastaj bashkimi i tyre në fjali, është praktikisht një gjë e pamundur.<br />

Mirëpo, sikur edhe te gjuhët e tjera, jo të gjitha fjalët përdoren me shpeshtësi (frekuencë) të<br />

njejtë. Një numër relativisht i vogël<br />

i fjalëve përbëjnë pjesën më të<br />

madhe të teksteve dhe të të folurit të<br />

përditshëm. Në bazë të një statistike<br />

[1], janë fituar rezultatet e fjalëve që<br />

përdoren më shpeshë në gjuhën<br />

shqipe (shih figurën 1).<br />

Figura 1. Frekuenca e 40 fjalëve<br />

më të përdorura të gjuhës shqipe<br />

Kjo statistikë ka një rëndësi<br />

të veçantë gjatë dizajnimit të<br />

sistemit TTS (Text-To-Speech) për<br />

gjuhën shqipe. Rëndësia kryesore<br />

qëndron në faktin që këto fjalë<br />

mund të incizohen si segmente të<br />

veçanta akustike dhe më pas të përdoren për gjenerim të fjalive të ndryshme. Në këtë mënyrë<br />

zvogëlohet nevoja për bashkimin e segmenteve më të shkurtëra akustike, gjë që do ta<br />

dëmtonte cilësinë e fjalëve të gjeneruara. Natyrisht, rritja e cilësisë për fjalët më të shpeshta<br />

ka ndikim të madh në cilësinë e gjithmbarshme të tekstit, sepse pesha e tyre në tekst është e<br />

madhe. Nëse numri i këtyre fjalëve rritet, atëherë rritet edhe cilësia e konvertimit të tekstit të<br />

shkruar në të folur. Mirëpo, numri shumë i madh i fjalëve bënë që baza e të dhënave me<br />

segmente akustike të rritet, me ç’rast edhe shpejtësia e aplikacionit ulet. Në bazë të testimeve<br />

të para, mund të themi se numri prej disa qindra fjalëve më të përdorura është një madhësi<br />

optimale për dizajnimin e sistemit për konvertim [1].<br />

Fjalët tjera që nuk përfshihen në këtë grup (në grupin e fjalëve më të përdorura) formohen<br />

me bashkimin e segmenteve më të vogla akustike: dyshkronjësheve dhe shkronjave të<br />

veçanta.<br />

Numri i përgjithshëm i dyshkronjësheve është 1296. Nga ky grup mund të përjashtohen disa<br />

nga dyshkronjëshet që nuk përdoren, kështu që numri real i dyshkronjësheve është pak më<br />

tepër se njëmijë. Si segmente akustike duhet të ruhen edhe 36 shkronjat e alfabetit.<br />

Këto tri grupe segmentesh akustike (fjalët, dyshkronjëshet dhe shkronjat),<br />

përkatësisht fajllat akustik përkatës e paraqesin bazën me të dhëna e cila mund të<br />

shfrytëzohet për konvertimin e teksteve të shkruara në të folur.<br />

~ 345 ~

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!