Java e Shkencës 2012 - Universiteti i Prishtinës

Java e Shkencës 2012 - Universiteti i Prishtinës Java e Shkencës 2012 - Universiteti i Prishtinës

masht.gov.net
from masht.gov.net More from this publisher
20.06.2013 Views

KONFERENCA VJETORE E SHKENCËS ‘JAVA E SHKENCËS 2012 Agni DIKA, nebi CAKA, Adnan MAXHUNI, Avni REXHEPI, Kadri SYLEJMANI, Haxhi LAJQI 1 : PRINCIPET BAZIKE PËR SINTETIZIMIN E TË FOLURIT PËRMES KOMPJUTERIT TË TEKSTEVE TË SHKRUARA NË GJUHËN SHQIPE 1 Fakulteti i Inxhinierisë Elektrike dhe Kompjuterike, Universiteti i Prishtinës Abstrakti Me sintezimin e të folurit nënkuptohet procesi i gjenerimit artificial të të folurit nga tekstet e shkruara. Përpjekjet për gjenerimin artificial të të folurit janë shumë të hershme, gjë që ndërlidhet me mundësitë e përdorimit të tij për qëllime të ndryshme. Gjenerimi në fjalë ka një rëndësi të veçantë për njerëzit e hendikepuar në të pamur, për përdorim në lojrat e ndryshme për fëmijë, në gjenerimin e numrave në mesazhet e ndryshme telefonike, si dhe në shumë raste tjera të jetës së përditshme. Procesi i konvertimit të tekstit të shkruar në të folur, në punime të ndryshme shkurt njihet si TTS (nga Text-To-Speech). Ky punim ka për qëllim prezentimin e principeve bazë mbi të cilët do të mbështetet algoritmi për gjenerimin e të folurit nga tekstet e shkruara në gjuhën shqipe 262 . Aktualisht, për disa gjuhë të mëdha botërore ekzistojnë zgjidhje për konvertimin e teksteve në të folur. Kurse për gjuhën shqipe ekzistojnë punime përmes të cilave janë prezentuar ide për zgjidhje të këtij problemi, pa dhënë një zgjidhje finale. Përdorimi i platformave ekzistuese në internet për gjuhë të tjera, në bazë të hulumtimeve tona, nuk japin rezultate të kënaqshme edhe për gjuhën shqipe. Një përafrim më i dukshëm vërehet nëse si gjuhë bazë merret gjuha italiane. Derisa kuptueshmëria e fjalëve plotësonë një lloj pragu minimal, natyraliteti është shumë larg të të folurit shqip. Konvertimi i numrave është diç më i natyrshëm. Edhe versioni i cili ofrohet në kuadër të Google Translate, është me qartësi të kufizuar dhe jonatyror. Kjo është si rezultat i asaj se gjuhët i kanë specifikat e tyre dhe përputhet me konstatimin që haset në punime të ndryshme se për secilën gjuhë (apo së paku për secilën familje gjuhësh) duhet gjetur zgjidhje të veçantë. Shumica e zgjidhjeve për gjuhë të ndryshme bazohen në metodën e bashkimit të segmenteve akustike (zanore), të ruajtura paraprakisht në një bazë të dhënash. Si segmente akustike mund të merren fjalët, rrokjet, grupe shkronjash, shkronja, etj. Pastaj, përmes 262 Ky punim ndërlidhet me projektin shkencor “Konvertimi automatik në të folur i teksteve të shkruara në gjuhën shqipe”, që financohet nga Ministria e Arsimit, Shkencës dhe Tekonologjisë së Kosovës. ~ 343 ~

KUMTESA softuerit përkatës, në bazë të tekstit të shkruar, bashkohen segmentet akustike në një fajll akustik të vetëm, gjë që rezulton në gjenerimin e të folurit për tekstin e dhënë. Problemi kryesor këtu qëndron te bashkimi i këtyre “copëzave” akustike, sepse me bashkimin e thjeshtë të tyre paraqiten diskontinuitete të natyrave të ndryshme, të cilat e bëjnë të folurit jonatyror. 1. Hyrje Gjenerimi artificial i të folurit, në radhë të parë ndërlidhet me personat e hendikepuar, qoftë me ata që nuk shohin, por edhe me personat që kanë pengesa në të folur. Por, gjenerimi në fjalë mund të shfrytëzohet edhe gjatë gjenerimit të mesazheve të ndryshme, ose edhe në lojra fëmijësh. Cilësia e konvertimit të tekstit në të folur matet me dy parametra kryesor: kuptueshmërinë dhe natyralitetin. Kuptueshmëria ka të bëjë me qartësinë e të folurit që dëgjohet, ndërsa natyraliteti - me ngjashmërinë e të folurit të gjeneruar artificialisht me të folurit e zakonshëm [3]. Për shumë gjuhë të mëdha botërore ekzistojnë zgjidhje që sigurojnë gjenerimin e të folurit nga tekstet e shkruara në ato gjuhë. Por, për gjuhën shqipe ende nuk ekziston një zgjidhje komplete. Në bazë të studimeve të ndryshme, për shkak të specifikave që kanë gjuhët e ndryshme, është konkluduar se për çdo gjuhë duhet të dizajnohet një algoritëm i veçantë për sintetizim të të folurit. Nga literatura dhe punimet e publikuara shihet se, për sintezën e të folurit nga teksti i shkruar përdoren tri metoda kryesore: sinteza formant, sinteza përmes vargëzimit dhe sinteza atrikuluese. Secila nga teknologjitë ka përparësitë dhe të metat e veta [3]. Metoda më e përdorur deri më tani, nga shumica e autorëve, është metoda e sintezës përmes vargëzimit (agl. concatenative synthesis). Përdorimi i metodës së vargëzimit konsiston në ruajtjen e segmenteve të caktuara të tekstit si segmente akustike. Nga këto segmente (copëza) akustike, përmes bashkimit me ndihmën e një algoritmi të veçantë, gjenerohen fjalët, fjalitë dhe teksti në përgjithësi. Segmentet që duhet të incizohen paraprakisht dhe të ruhen si fajlla akustik elementarë në një bazë me të dhëna, mund të jenë të ndryshme, si: fjalë, rrokje, grupe shkronjash, etj. E gjithë përpjekja për arritjen e cilësisë së kënaqshme të gjenerimit përqëndrohet në bashkimin e segmenteve akustike, ashtu që të folurit e gjeneruar të jetë sa më natyral. Konvertimi i numrave të shkruar në numra që shqiptohën është një tjetër sfidë gjatë gjenerimit të të folurit nga teksti i shkruar dhe duhet të jetë pjesë integrale e algoritmit të përgjithshëm, ngase numrat gati gjithmonë paraqiten si pjesë e teksteve të shkruara. 2. Gjuha shqipe dhe sinteza e të folurit nga tekstet e shkruara Gjatë dizajnimit të sistemit për konvertim të tekstit të shkruar në të folur duhet pasur parasysh karakteristikat e gjuhës për të cilën do të punojë sistemi. Specifikat e gjuhës përkatëse kanë rëndësi dhe kërkojnë përgjigje konkrete që mund të dallojnë nga gjuhët tjera. Gjuha shqipe bënë pjesë në familjen e gjuhëve indoeuropiane. Në pemën e kësaj familjeje, gjuha shqipe paraqitet me një degë të veçantë, e që në disa elemente rrjedhin edhe nga vet trungu i familjes [2]. Alfabeti i gjuhës shqipe përbëhet nga 36 shkronja të bazuara në alfabetin latin. Këto shkronja u përkasin 36 fonemave të gjuhës së folur shqipe. Prej tyre 29 ~ 344 ~

KUMTESA<br />

softuerit përkatës, në bazë të tekstit të shkruar, bashkohen segmentet akustike në një fajll<br />

akustik të vetëm, gjë që rezulton në gjenerimin e të folurit për tekstin e dhënë. Problemi<br />

kryesor këtu qëndron te bashkimi i këtyre “copëzave” akustike, sepse me bashkimin e<br />

thjeshtë të tyre paraqiten diskontinuitete të natyrave të ndryshme, të cilat e bëjnë të folurit<br />

jonatyror.<br />

1. Hyrje<br />

Gjenerimi artificial i të folurit, në radhë të parë ndërlidhet me personat e<br />

hendikepuar, qoftë me ata që nuk shohin, por edhe me personat që kanë pengesa në të folur.<br />

Por, gjenerimi në fjalë mund të shfrytëzohet edhe gjatë gjenerimit të mesazheve të ndryshme,<br />

ose edhe në lojra fëmijësh.<br />

Cilësia e konvertimit të tekstit në të folur matet me dy parametra kryesor:<br />

kuptueshmërinë dhe natyralitetin. Kuptueshmëria ka të bëjë me qartësinë e të folurit që<br />

dëgjohet, ndërsa natyraliteti - me ngjashmërinë e të folurit të gjeneruar artificialisht me të<br />

folurit e zakonshëm [3].<br />

Për shumë gjuhë të mëdha botërore ekzistojnë zgjidhje që sigurojnë gjenerimin e të<br />

folurit nga tekstet e shkruara në ato gjuhë. Por, për gjuhën shqipe ende nuk ekziston një<br />

zgjidhje komplete.<br />

Në bazë të studimeve të ndryshme, për shkak të specifikave që kanë gjuhët e ndryshme,<br />

është konkluduar se për çdo gjuhë duhet të dizajnohet një algoritëm i veçantë për sintetizim<br />

të të folurit.<br />

Nga literatura dhe punimet e publikuara shihet se, për sintezën e të folurit nga teksti i<br />

shkruar përdoren tri metoda kryesore: sinteza formant, sinteza përmes vargëzimit dhe sinteza<br />

atrikuluese. Secila nga teknologjitë ka përparësitë dhe të metat e veta [3]. Metoda më e<br />

përdorur deri më tani, nga shumica e autorëve, është metoda e sintezës përmes vargëzimit<br />

(agl. concatenative synthesis).<br />

Përdorimi i metodës së vargëzimit konsiston në ruajtjen e segmenteve të caktuara të tekstit si<br />

segmente akustike. Nga këto segmente (copëza) akustike, përmes bashkimit me ndihmën e<br />

një algoritmi të veçantë, gjenerohen fjalët, fjalitë dhe teksti në përgjithësi. Segmentet që<br />

duhet të incizohen paraprakisht dhe të ruhen si fajlla akustik elementarë në një bazë me të<br />

dhëna, mund të jenë të ndryshme, si: fjalë, rrokje, grupe shkronjash, etj.<br />

E gjithë përpjekja për arritjen e cilësisë së kënaqshme të gjenerimit përqëndrohet në<br />

bashkimin e segmenteve akustike, ashtu që të folurit e gjeneruar të jetë sa më natyral.<br />

Konvertimi i numrave të shkruar në numra që shqiptohën është një tjetër sfidë gjatë<br />

gjenerimit të të folurit nga teksti i shkruar dhe duhet të jetë pjesë integrale e algoritmit të<br />

përgjithshëm, ngase numrat gati gjithmonë paraqiten si pjesë e teksteve të shkruara.<br />

2. Gjuha shqipe dhe sinteza e të folurit nga tekstet e shkruara<br />

Gjatë dizajnimit të sistemit për konvertim të tekstit të shkruar në të folur duhet pasur<br />

parasysh karakteristikat e gjuhës për të cilën do të punojë sistemi. Specifikat e gjuhës<br />

përkatëse kanë rëndësi dhe kërkojnë përgjigje konkrete që mund të dallojnë nga gjuhët tjera.<br />

Gjuha shqipe bënë pjesë në familjen e gjuhëve indoeuropiane. Në pemën e kësaj familjeje,<br />

gjuha shqipe paraqitet me një degë të veçantë, e që në disa elemente rrjedhin edhe nga vet<br />

trungu i familjes [2]. Alfabeti i gjuhës shqipe përbëhet nga 36 shkronja të bazuara në<br />

alfabetin latin. Këto shkronja u përkasin 36 fonemave të gjuhës së folur shqipe. Prej tyre 29<br />

~ 344 ~

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!