12.07.2015 Views

Lemuoklis – morfologinei analizei

Lemuoklis – morfologinei analizei

Lemuoklis – morfologinei analizei

SHOW MORE
SHOW LESS
  • No tags were found...

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

250 KOMPIUTERINËS PROGRAMOSvksm nesngr tiesiog.nuos bûs.l IIIasmvadsntrmp sntrmpsaveávrd ávrd GDabar plaèiau apraðysim þymëjimø sistemà,Lemuoklio naudojamà þodþiø ir jø formøgramatinëms reikðmëms nusakyti.GRAMATINËS INFORMACIJOS ÞYMËJIMASÞodþio kalbos dalá <strong>Lemuoklis</strong> nusako kalbosdaliø bei veiksmaþodþio formø pavadinimøsantrumpomis: daiktavardis – dktv, tikrinisdaiktavardis – tikr dktv, bûdvardis – bdvr,skaitvardis – sktv, ávardis – ávrd, veiksmaþodis– vksm, bendratis – bndr, dalyvis – dlv,padalyvis – padlv, pusdalyvis – psdlv, bûdinys– bûdn, prieveiksmis – prvks, prielinksnis– prln, jungtukas – jngt, dalelytë – dll,jaustukas – jstk, iðtiktukas – iðtk.Þodþiø formø gramatines reikðmes <strong>Lemuoklis</strong>apibûdina ðiomis gramatiniø kategorijø irpoþymiø pavadinimø santrumpomis: eigosveikslas – eigos vksl, ávykio veikslas – ávykiovksl, sangràþinë forma – sngr, nesangràþinëforma – nesngr, veikiamoji rûðis – veik.r, neveikiamojirûðis – neveik.r, dalyviø reikiamybësrûðis – reikiamyb.r, tiesioginë nuosaka– tiesiog.nuos, liepiamoji nuosaka – liep.nuos,tariamoji nuosaka – tariam.nuos, esamasis laikas– esam.l, bûtasis kartinis laikas – bût.kart.l,bûtasis daþninis laikas – bût.d.l, bûsimasislaikas – bûs.l, kiekiniai (skaitvardþiø skyrius) –kiekin, dauginiai (skaitvardþiø skyrius) – daugin,kuopiniai (skaitvardþiø skyrius) – kuopin,kelintiniai (skaitvardþiø skyrius) – kelintin,nelyginamasis laipsnis – nelygin.l, aukðtesnysislaipsnis – aukðtesn.l, aukðtëlesnysislaipsnis – aukðtëlesn.l, aukðèiausiasis laipsnis– aukðè.l, neávardþiuotinë forma – neávardþ,ávardþiuotinë forma – ávardþ, vyriðkoji giminë– vyr.gim, moteriðkoji giminë – mot.gim,bendroji giminë – bendr.gim, bevardë giminë– bevrd.gim, vienaskaita – vnsk, daugiskaita– dgsk, dviskaita – dvisk, vardininkas – V,kilmininkas – K, naudininkas – N, galininkas– G, ánagininkas – Án, vietininkas – Vt,ðauksmininkas – Ð, pirmasis asmuo – Iasm,antrasis asmuo – IIasm, treèiasis asmuo –IIIasm. Atpaþintà kaip santrumpà ar akronimàraidþiø sekà <strong>Lemuoklis</strong> apibûdina þymesntrmp.Þodþiø formø atpaþinimui ir jø gramatiniamapibûdinimui <strong>Lemuoklis</strong> naudoja skaitmeniniuslietuviø kalbos gramatinës kaitybosmodelius, plaèiau apraðomus skyrelyje„Lietuviø kalbos leksikos ir gramatikos duomenøbazë”. Ðie modeliai operuoja ne konkreèiaisgramatiniø kategorijø ir poþymiøreikðmiø pavadinimais, o jø eilës numeriais.Tai leidþia ateityje suteikti galimybæ Lemuoklionaudotojui paèiam laisvai pasirinkti jampriimtinus gramatinius þymëjimus.Informacijos apie sulemuotus þodþius pateikimàateityje galima bûtø tobulinti ir kitomiskryptimis. Pavyzdþiui, galima numatytilemavimo rezultatø áraðymà ne tik paprastoteksto pavidalu, bet ir vadinamuoju HTML(HyperText Markup Language) formatu. Ðiuoatveju sulemuotas tekstas kompiuterio ekranenesiskirtø nuo pirminio teksto, taèiau bûtøprikimðtas tik kompiuteriui matomø lemavimorezultatø, automatiðkai pasirodanèiø,uþlipus ant teksto þodþio ir/ar spragtelëjuskompiuterio pelës klaviðu. HTML formatasnepriklauso nuo techninës ir programinëskompiuteriø konfigûracijos, já supranta daugelisðiuolaikiniø tekstais manipuliuojanèiøkompiuteriniø programø.Tekstø mokslinio tyrinëjimo praktikoje plaèiaipaplitusi dar viena tekstø kodavimo priemonë– SGML (Standard Generalized MarkupLanguage). SGML yra formalus aparatas ávairiausiopobûdþio þymiø apraðymui. Programos,mokanèios SGML kalbà, pagal tokiusjoms pateikiamus apraðus þino, kaip interpretuotiáterptàsias á tekstà þymes. SGMLpriemonëmis apraðius lietuviðkø gramatiniøþymëjimø sistemà (tagset), sulemuotà á SGMLformatà, lietuviðkà tekstà toliau bûtø galimatyrinëti ávairiomis specializuotomis lingvistinësanalizës programomis, kurioms jau nebesvarbu,kokia kalba paraðyti pirminiai tiriamiejitekstai. Apie kompiuteriniø technologijønaudojimà lingvistiniuose tekstø tyrimuose,ðiø tyrimø tikslus bei galimybes raðyta(Marcinkevièienë, 1997, 2000).


Vytautas ZinkevièiusLEMUOKLIS – MORFOLOGINEI ANALIZEI251LIETUVIØ KALBOS LEKSIKOSIR GRAMATIKOS DUOMENØ BAZËLemuoklio þinios apie lietuviø kalbà áraðytoskompiuterinëje leksikos ir gramatikos duomenøbazëje. Kalbiniø duomenø bazæ sudarantyskomponentai pagaminti transformuojantá skaitmenines struktûras ið ávairiø ðaltiniøsurinktà kalbà apraðanèià medþiagà. Lemuodamas<strong>Lemuoklis</strong> narðo duomenø bazæspecialiomis programinëmis informacijos paieðkosir iðrinkimo procedûromis. DabartinëjeLemuoklio versijoje vartotojas negali pasiþiûrëtiá lietuviø kalbos leksikos ir gramatikosþinias nei papildyti jas ar kaip kitaipkeisti.Kalbiniø duomenø bazæ sudaro ðeði kompiuteriniaiþodynai: GF, G, TG, F, T ir S. SvarbiausiasLemuoklio þodynas yra GF. Jo pagalba<strong>Lemuoklis</strong> gali atpaþinti lietuviðkø þodþiøkaitybines formas ir apibûdinti jas gramatiðkai.Tam naudojami á GF þodyno sudëtááeinantys skaitmeniniai þodþiø gramatinës kaitybosmodeliai, straipsnyje vadinami kompiuterinemorfologija. Taèiau GF þodyno pagalbaatpaþástamos ir gramatiðkai apibûdinamos tikbendrinës lietuviø kalbos þodþiø kaitybinësformos. Formø su nutrumpëjusiomis galûnëmis,taip pat pasenusiø ar tarmiðkø kaitybiniøformø GF þodynas neatpaþásta. Taip yratodël, kad GF kompiuterinë morfologija kolkas atspindi tik bendrinës kalbos dësnius.Kitas GF gramatinës kaitybos modeliø trûkumas– juos sudarant neatkreiptas dëmesysá tikrinius daiktavardþius kaip á atskirà svarbødaiktavardþiø poskyrá. GF þodyno leksinëjedalyje yra ið ávairiø ðaltiniø surinktøtikriniø daiktavardþiø – asmenvardþiø, geografiniøvardø ir kt. Jø formos kaitybos modeliøpagalba atpaþástamos ir apibûdinamosgramatiðkai. Taèiau kalbos dalimi, jas atpaþástant,nurodomas „daiktavardis”, t. y. kompiuterioatpaþintos tikrinës formos niekaipneatskiriamos nuo analogiðko morfologiniotipo bendriniø daiktavardþiø formø.GF þodyno nesugebëjimà atpaþinti formønutrumpëjusiomis galûnëmis <strong>Lemuoklis</strong> ið dalieskompensuoja þodynais F ir G. Á F þodynàsuraðytos lietuviðkuose tekstynuose uþfiksuotosnetikriniø þodþiø formos. Taigi F þodyneyra ir pasenusiø, ir tarmiðkø formø, ir formønutrumpëjusiomis galûnëmis. G þodyne suraðytosnetikriniø þodþiø ðaknys, o þodþiøformas, esant reikalui, generuoja G kompiuterinëmorfologija, jungdama prie kiekvienosðaknies jai priklausanèius pagal þodþiomorfologiná tipà afiksus. G þodyno morfologijageneruoja ne tik pilnas þodþiø formas,bet ir nutrumpëjusias ar pasenusias formas(pvz., iliatyvus). Taèiau G morfologija manipuliuojatik afiksais, bet ne gramatinëmis reikðmëmis.Taigi G þodyno pagalba galima atpaþintiraidþiø sekose „legalias” lietuviðkø þodþiøformas, bet informacijos apie tø formøgramatines reikðmes ðiame þodyne nëra.GF þodyno nesugebëjimà atskirti tikriniusdaiktavardþius nuo bendriniø ið dalies kompensuojaþodynai T ir TG. Á T þodynà suraðytoslietuviðkuose tekstynuose uþfiksuotos tikriniøþodþiø formos. Þodyne TG suraðytostikriniø þodþiø ðaknys. Þodþiø formø generavimuiTG þodynas, panaðiai kaip G þodynas,naudoja tikriniø þodþiø kompiuterinæmorfologijà. TG þodyno morfologija generuojair kaitybines tikrines formas, ir iðvestines iðtikriniø þodþiø darybines, tarp kuriø gali bûtitiek tikrinës, tiek bendrinës formos. TaèiauTG morfologija, kaip ir G þodyno morfologija,taip pat manipuliuoja tik afiksais, taigiTG þodynas, kaip ir G þodynas, negali suteiktiinformacijos apie aptiktø jame formøgramatines reikðmes.Á S þodynà suraðytos santrumpos bei akronimai.Þodynai TG, F, T ir S buvo sukurti ne lemavimui.Jie perkelti á Lemuoklio kalbiniøduomenø bazæ ið raðybos teisingumo kontrolësfunkcijà atliekanèiø programø (speleriø).Taip padaryta siekiant, kad <strong>Lemuoklis</strong>atpaþintø kuo daugiau lietuviðkø þodþiø formø.Taigi lemavimo procesui naudojama kalbinëinformacija yra iðmëtyta po gana skirtingossudëties ir galimybiø þodynus; neganato, neiðvengta ðios informacijos dubliavimosiatskiruose þodynuose. Ateityje Lemuokliokalbiniø duomenø bazë turëtø bûti perdirbta,paliekant vienà kompiuteriná þodynà.Ðio þodyno pagrindà sudarys GF þodynas,papildþius jo kompiuterinæ morfologijàgalûniø nutrumpëjimo reiðkiniais bei tikriniødaiktavardþiø kaityba ir daryba. O kolkas <strong>Lemuoklis</strong> lemuodamas semiasi kalbiniø


Vytautas ZinkevièiusLEMUOKLIS – MORFOLOGINEI ANALIZEI253konkreèias kalbines technologijas, paaiðkëjotam tikri metodologijos trûkumai; ji buvo tobulinama,ávairiai modifikuojama bei pleèiama(Kaplan, 1988, Ritchie, 1992).Paties morfologiniø reiðkiniø formalizavimoaparato sukûrimas ar parinkimas tëra pusëdarbo kompiuterizuojant fleksinës kalbosmorfologijà. Dar reikia þodþiø gramatinës kaitybosir/ar darybos taisykles bei dësningumus,suraðytus tradicinëse kalbos gramatikose,perraðyti naudojantis to formalaus aparatopriemonëmis. Tai nëra greitai padaromasdarbas, turint omenyje, kad turtingos fleksijøsistemos kalbø morfologijos apraðymai tradicinësegramatikose uþima ðimtus puslapiø. Beto, bûtina sukurti atitinkamà programinæ árangà,manipuliuosianèià aparato kategorijomis.Trumpai apibûdinsime pagrindinius þodþiøgramatinës kaitybos taisykliø transformavimoá skaitmenines duomenø struktûras principus,kuriais remiantis buvo sukurta á GFþodyno sudëtá áeinanti kompiuterinë lietuviøkalbos morfologija. Visa þodþiø kaitybojedalyvaujanti gramatinë informacija sàlygiðkaibuvo suskirstyta á afiksus ir gramatinesreikðmes. Visas galimas tam tikram kaitybiniamtipui priklausanèio þodþio gramatinesformas GF kompiuterinëje morfologijojenusako to kaitybinio tipo paradigma. Kaitybiniotipo paradigma apibrëþiama dviemparametrais. Pirmasis parametras nusako visusið eilës surikiuotus afiksus tos paradigmosformoms sudaryti. Paradigmos afiksøsekoje turi bûti tiek afiksø, kiek paradigmojeyra gramatiniø formø. Antrasis parametrasnusako visas ið eilës surikiuotas gramatinesreikðmes, kurias reiðkia paradigmos formos.Paradigmos gramatiniø reikðmiø sekoje taippat turi bûti tiek gramatiniø reikðmiø, kiekparadigmoje yra gramatiniø formø. Taip paradigmosafiksø seka nusako visas kaitybiniotipo ortografines formas, o paradigmosgramatiniø reikðmiø seka – visas kaitybiniotipo formø gramatines reikðmes. Tokio paradigmønusakymo bûtina sàlyga: tiek paradigmosafiksai á afiksø sekà, tiek ir paradigmosgramatinës reikðmës á gramatiniø reikðmiøsekà turi bûti surikiuoti pagal vienà ir tàpatá sutvarkymo principà.Þodþiø formø gramatiniam atpaþinimui reikiapagal duotà ortografinæ formos iðraiðkàpasakyti formos gramatinæ reikðmæ. Nusakiuskaitybinio tipo paradigmà taip, kaip apraðytaaukðèiau, to tipo formos gramatinioatpaþinimo uþdavinio sprendimas (algoritmas)formaliai atrodytø ðitaip: paradigmosafiksø sekoje randame afiksà, sutampantá suduotos ortografinës formos afiksu, ir pasiþiûrim,koks to afikso numeris sekoje. Formosgramatinæ reikðmæ parodys gramatinëreikðmë, paradigmos gramatiniø reikðmiø sekojeturinti tà patá eilës numerá.Þodþiø formø gramatinei sintezei, atvirkðèiai,reikia pagal duotà pageidaujamà gramatinæformos reikðmæ nusakyti formos ortografinæiðraiðkà. Toks kaitybinio tipo formosgramatinës sintezës uþdavinio sprendimasformaliai atrodytø ðitaip: paradigmosgramatiniø reikðmiø sekoje randame gramatinæreikðmæ, sutampanèià su duotàja (pageidaujamàja),ir pasiþiûrim, koks tos gramatinësreikðmës numeris sekoje. Formos ortografinæiðraiðkà nusakys afiksas, paradigmos afiksøsekoje turintis tà patá eilës numerá.Tokie bûtø pagrindiniai GF kompiuterinësmorfologijos sandaros ir veikimo principai.Aukðèiau apraðytas kaitybiniø tipø paradigmønusakymo bûdas reikalauja, kad dviejøvienam tipui priklausanèiø þodþiø tiek afiksøsekos, tiek gramatiniø reikðmiø sekos idealiaisutaptø. Kadangi lietuviø kalbos gramatikojeparadigmos (linksniuotës, asmenuotësir kt.) ðiuo poþiûriu apraðomos gerokai liberaliau,teko sudaryti lietuviðkø þodþiø morfologiniøtipø klasifikatoriø, grieþèiau apibrëþiantáþodþiø paradigmas nei tai padarytatradicinëje gramatikoje. GF morfologijosklasifikatorius nusako apie 700 skirtingø morfologiniøþodþiø tipø. Suprantama, kad ðitaipsuklasifikuoti didelius kiekius þodþiørankiniu bûdu vargiai ámanoma, be to, dëlklasifikavimo poþymiø gausos ir ávairovësatsiranda didelë klaidingo klasifikavimo tikimybë.Tuo labiau kad kuriant GF þodynà iðkiekvieno klasifikuojamo antraðtinio þodþioreikëjo dar iðskirti ðakná, kartais nusakant irgalimus ðaknies alomorfus. Todël buvo sukurtaspeciali kompiuterinë programa, padedantisuklasifikuoti þodþius pusiau automatiðkai.Klasifikuojant antraðtiná þodá ðiaprograma, kompiuteris pagal þodþio sandarosypatumus formuluoja klausimus operatoriuiir priskiria þodþiui morfologinio tiponumerá priklausomai nuo operatoriaus atsa-


254 KOMPIUTERINËS PROGRAMOSkymø. Autorius ypaè dëkingas þmonai Rasai,ðitaip suklasifikavusiai visus þodynø(DLKÞ, 1972) ir (TÞÞ, 1985) antraðtinius þodþius.Kuriant kompiuterinæ lietuviø kalbos morfologijà,pagrindiniais, kanoniniais morfologijàapraðanèiais ðaltiniais laikyti LKG, 1965ir LKG, 1971. 1984–1990 m., kai buvo kuriamakompiuterinë morfologija, tai buvo iðsamiausi,akademiniai morfologijos darbai, naujesnieji(DLKG 1994, 1996, 1997) dar nebuvopasirodæ. Todël dauguma morfologijos dalykøkompiuterinëje morfologijoje atspindimibûtent taip, kaip jie traktuojami LKG 1965 ir1971.Sukurtieji formalûs lietuviø kalbos morfologijosmodeliai iðsamiau dar nepublikuoti.Ðiek tiek apie morfologijos formalizavimo principus,gramatinës sintezës ir analizës uþdavinius,leksikoniniø þodynø sudarymà raðyta(Zinkevièius, 1996); ðiek tiek apie lietuviðkøþodþiø klasifikavimà pagal morfologiniustipus, klasifikavimo kriterijus, morfologinësinformacijos elementø grupavimo ir struktûrizacijosprincipus – (Zinkevièius, 1996*).Skaitmeniniai GF morfologijos modeliai buvokuriami ne vien lemavimui. Tiesiog <strong>Lemuoklis</strong>naudojasi GF morfologija, iðgaudamasið jos ir pateikdamas gramatinæ informacijàtokià ir taip, kaip to reikia lemavimoprocesui. Lemuojamai formai atstatomas morfologiðkaiartimiausias antraðtinis pavidalas.Taèiau GF morfologijos priemonëmis galimair gilesnë morfologinë þodþiø analizë, automatiðkaiatsekant, pavyzdþiui, tokias analizuojamøformø morfologiniø ryðiø grandinëles:nusijuokë–nusijuokti–juoktis, iðgërinëdamas–iðgërinëti–iðgerti–gerti,nedarbingøjø–nedarbingas–darbingas–darbas,vabalëliui–vabalëlis–vabalas.Bendras teoriðkai ámanomø ir GF þodynopagalba atpaþástamø þodþiø gramatiniøformø skaièius siekia kelis milijardus.Kompiuterinæ GF morfologijà galima naudotine tik þodþiø formoms gramatiðkai atpaþinti(analizuoti), bet ir sintezuoti. Interneteyra pateikta programa, demonstruojanti automatiðkàlietuviðkø þodþiø formø analizæbei sintezæ GF þodyno priemonëmis (þr. Lex-MorphDemo).Atpaþintoms GF þodyne þodþiø formomsantraðtinius pavidalus <strong>Lemuoklis</strong> nustato uþduodamasGF morfologijai gramatinës sintezësuþduotá. Nustatydamas antraðtiná pavidalàvardaþodþiui, <strong>Lemuoklis</strong> liepia sintezuotivienaskaitos vardininko linksná atitinkanèiàortografinæ formà. Nustatydamas antraðtinápavidalà veiksmaþodþiui, <strong>Lemuoklis</strong>liepia sintezuoti ne tik bendraties, bet ir kitasdvi pagrindines formas – esamojo bei bûtojokartinio laiko treèiuosius asmenis.Kadangi antraðtinius pavidalus <strong>Lemuoklis</strong>nustato bûtent tokiu formos sintezës bûdu,tai atstatomi antraðtiniai pavidalai kai kuriaisatvejais gali ðiek tiek skirtis nuo tradicinëjeleksikografijoje priimtø tokiø atvejø traktuoèiø.Pvz., asmeniniø ávardþiø linksniø formosmanæs, tavæs, man, tau, mûsø DLKÞ pateikiamosatskirais antraðtiniais þodþiais. <strong>Lemuoklis</strong>,aptikæs tokias formas, nelaiko jøantraðtinëmis; formoms manæs, man ir mûsøjis nustato antraðtiná pavidalà að, formomstavæs ir tau – pavidalà tu. Atstatydamas ávardþiødviskaitos formø antraðtinius pavidalus,<strong>Lemuoklis</strong> skrupulingai laikosi jam ádiegtosupratimo apie antraðtines formas ir dviskaitàverèia á vienaskaità. Pvz., formoms tiedu, tuodu,tiemdviem jis pateikia antraðtiná pavidalà tas,formai jiedviem – jis, formai mudu – að. Skaitvardþiøformø atveju <strong>Lemuoklis</strong> gal kiek irpersistengia, visoms joms visada nustatydamasantraðtiná neávardþiuotinës kiekinës formospavidalà. Formai keturioliktojoje antraðtinëforma bus keturiolika (ne keturioliktas arketurioliktasis); formai pirmojo – vienas (ne pirmasisir ne pirmas). Ateityje kitose Lemuoklioversijose visus èia suminëtus su antraðtinëmisformomis susijusius nukrypimus galimabus priartinti prie tradicinëje gramatikoje beileksikografijoje priimto minëtø atvejø traktavimo.GF morfologija neturi geidþiamosios nuosakos,kuriant lietuviø kalbos gramatinës kaitybosskaitmeninius modelius, ji tiesiog praslydopro akis. Todël veiksmaþodþio geidþiamosiosnuosakos formas su prefiksu te– <strong>Lemuoklis</strong>atpaþásta tik kaip tiesioginæ nuosakà.Pvz., lemuodamas formà tegyvuoja, <strong>Lemuoklis</strong>nustatys jai tiesioginës nuosakos esamojolaiko gramatinæ reikðmæ ir antraðtinápavidalà tegyvuoti (-uoja, -avo).GF þodyno ðaknø sàraðo pagrindas buvoformuojamas ið ðiø ðaltiniø antraðtiniø þodþiø:DLKÞ(1972), TÞÞ(1985), LKRÞ, ið pastarojoimtas vardø sàraðas. Vëliau GF ðaknø


Vytautas ZinkevièiusLEMUOKLIS – MORFOLOGINEI ANALIZEI255sàraðas papildytas naujø, tekstynuose aptiktøþodþiø ðaknimis. Ðiuo metu GF þodynasatspindi maþdaug 91 tûkstantá leksemø; ið jøapie 69 tûkst. – DLKÞ þodþiai ir apie 22 tûkst. –TÞÞ þodþiai. Ðiems þodþiams GF þodyne atstovauja58 tûkst. ðaknø. Ðaknø þodyne þymiaimaþiau negu leksemø, kurioms jos atstovauja.Taip yra dël trijø prieþasèiø:1) Jei tas pats þodis pasitaikë ir DLKÞ, irTÞÞ, á GF jis átrauktas tik vienàkart. Pvz.,þodþiui abaþûras, esanèiam tiek DLKÞ, tiekTÞÞ, GF ðaknø sàraðe atstovauja viena ðaknisabaþûr.2) Jei ið skirtingà morfologiná tipà turinèiøantraðtiniø þodþiø iðskirtos ðaknys sutampa,tai GF ðaknø sàraðe tokiai ðakniai iðvardijamivisi morfologiniai tipai, bet pati ðaknis á sàraðàátraukta tik vienàkart. Pavyzdþiui, daiktavardþiuikalba, bûdvardþiui kalbus ir veiksmaþodþiuikalbëti GF ðaknø sàraðe atstovauja vienaðaknis kalb, tik ties ja yra duotos tris skirtingusmorfologinius tipus reiðkianèios nuorodos.3) Kadangi GF kompiuterinëje morfologijojeatspindimi ir kai kurie þodþiø darybosreiðkiniai, tai eama daug tokiø atvejø, kaikeli iðvestiniai þodþiai, turintys vienà bendràpamatiná, ðaknø sàraðe atstovaujami vienàkart.Pavyzdþiui, deðimèiai DLKÞ þodþiø –mokslas, mokslingas, mokslingai, mokslingumas,mokslininkas, mokslininkë, mokslinis, moksliðkas,moksliðkai, moksliðkumas – GF ðaknø sàraðeatstovauja viena ðaknis moksl.Þodynas G. G þodynas, kaip ir GF þodynas,taip pat sudëtas ið dviejø komponentø:ðaknø sàraðo ir kompiuterinës morfologijos.Taèiau, skirtingai nei GF morfologija, G þodynomorfologija yra bejëgë nustatyti generuojamøortografiniø formø gramatines reikðmes.Taip yra todël, kad G þodynas buvospecialiai kuriamas kaip duomenø bazë raðybosklaidas aptinkanèioms programoms (speleriams).Tokiø programø þodþiø gramatinësreikðmës paprastai nedomina, joms pakanka,jei þodynas pasako, ar nagrinëjama raidþiøseka gali bûti kokio nors þodþio forma,ar ne. Taèiau G morfologija, lyginant jà su GFmorfologija, turi vienà privalumà. Visø morfologiniøtipø þodþiams ji generuoja ne tikbendrinës kalbos gramatika apibrëþiamas formas,bet ir formas su galûniø nutrumpëjimaisar senesnës vartosenos formas (pvz.,iliatyvus).G þodyno ðaknø sàraðas gautas ið GF þodynoðaknø sàraðo iðmëèius visas tikriniø vardøðaknis (pastarosios buvo perkeltos á TG þodynà,þr. toliau). Ðiuo metu G þodynas atspindimaþdaug 84 tûkstantá leksemø; ið jø apie 67tûkst. – DLKÞ þodþiai ir apie 27 tûkst. – TÞÞþodþiai. Ðiems þodþiams G þodyne atstovauja48 tûkst. ðaknø. Þodyne ðaknø þymiai maþiaunegu leksemø, kurioms jos atstovauja, dël tøpaèiø prieþasèiø, kurios paaiðkintos aukðèiau,apraðant GF þodyno sandarà.Þodynas TG. Tai tikriniø vardaþodþiø ðaknøþodynas, kiekvienai ðakniai yra nuoroda ákompiuterinæ tikriniø daiktavardþiø morfologijà.TG morfologijos pagalba <strong>Lemuoklis</strong>þino, kokius afiksus ir kaip reikia jungti prietikriniø þodþiø ðaknø (ar kamienø), darantjø kaitybines ir darybines formas. TG þodynopagalba <strong>Lemuoklis</strong> atpaþásta tikriniø vardøkaitybines ir darybines formas ir dar þino,kurios jø tikrinës, o kurios bendrinës, betapibûdinti jø gramatiðkai negali.TG morfologijos pagalba generuojamos netik kaitybinës, bet ir ávairios iðvestinës vardøformos. Pavyzdþiui, ið vyriðkø pavardþiøðaknø ar kamienø iðvedamos moteriðkø pavardþiøformos, ið vietovardþiø – bendriniaipriesagø -iðkis, -ietis vediniai ir pan.TG þodyno ðaknø (kamienø) sàraðas sukompiliuotasið ávairiø ðaltiniø. Tai DLKÞ, TÞÞpasitaikæ tikriniai vardai, LKRÞ þodyne pateiktivardai. Á TG taip pat átraukti ir tekstynuoseaptikti tikriniai daiktavardþiai. TG þodynasbuvo sukurtas ne lemavimui. Jis perkeltas áLemuoklio kalbiniø duomenø bazæ ið raðybosteisingumo kontrolës funkcijà atliekanèiøprogramø (speleriø). TG þodynas atspindiapie 15 tûkst. tikriniø vardø, ðiems vardamsatstovauja apie 9 tûkst. ðaknø/kamienø.Þodynas F. Tai netikriniø þodþiø formøsàraðas. Jo sudarymui panaudotos ið KLC tekstyno(Marcinkevièienë, 1997) ir ið DDRLKÞimèiø tekstyno paimtos formos. F þodyne áraðytaapie 132000 formø.Þodynas T. Tai tikriniø þodþiø formø sàraðas.Jam sudaryti taip pat naudotasi KLCtekstyno ir ið DDRLKÞ imèiø tekstyno formøsàraðais. T þodyne áraðyta apie 74 tûkst.formø.Þodynas S. Tai santrumpø ir akronimø sàraðas,sudarytas panaudojant ávairius ðaltinius,tarp jø ir tekstynø analizës rezultatus.


256 KOMPIUTERINËS PROGRAMOSÞodyne áraðyta apie 230 santrumpø ir akronimø.Kiekvienai santrumpai ar akronimuiþodyne priskirtas kodas, ið kurio <strong>Lemuoklis</strong>gali spræsti apie santrumpos ar akronimo raðybà:ar bûtinas taðkas po santrumpos, kuriassantrumpos ar akronimo raides reikëtøraðyti didþiosiomis.Visi apraðytieji kompiuteriniai þodynaituri vieningà loginæ struktûrà. Tai reiðkia,kad ieðkodamas kalbinës informacijos <strong>Lemuoklis</strong>narðo po visus þodynus ir iðtraukiaið jø duomenis naudodamas bendras visiemsþodynams programines procedûras. Visi þodynaisuformuoti kaip medþio pavidalo duomenøstruktûros. Kompiuterinë informacijospaieðka ir jos iðrinkimas tokiose struktûrosevyksta labai greitai. Medþiø ðakas sudaro raidþiøsekos, o ieðkoma informacija áraðyta jøterminalinëse virðûnëse – lapuose. ÞodynuoseGF, G ir TG tokia informacija yra nuorodos áatitinkamas kompiuterines morfologijas; S þodyne– santrumpø ar akronimø kodai; F ir Tþodynø–medþiø lapuose jokios papildomosinformacijos nëra.Þodynø – medþiø struktûros loginë organizacijayra pastovi, ne dinaminë. Todël, norintpakeisti kalbinæ þodynø informacijà (pvz.,papildyti þodynà naujomis þodþiø ðaknimisar formomis), visas þodynas – medis turi bûtiformuojamas ið naujo. Ðaknø ir formø alfabetiniøsàraðø transformavimui á medþiostruktûras sukurta speciali programinë áranga.Ðios programinës árangos pagalba bet koksalfabetinis sàraðas automatiðkai iðanalizuojamas(sudaromos sàraðo ðakojimosi matricos,paskaièiuojami ðakojimosi mazgø parametrai)ir po to perkeliamas á medá. Tokiaþodynø – medþiø formavimo programinë árangaá Lemuoklio sudëtá neáeina, ji tik buvopanaudota rengiant jo kalbiniø duomenø bazæ.INFORMACIJOS PAIEÐKA KALBINIØDUOMENØ BAZËJE IR HIPOTETINIØLEMØ FORMAVIMASLemuodamas kurià nors þodþio formà, <strong>Lemuoklis</strong>ieðko apie jà informacijos kalbiniøduomenø bazëje, kreipdamasis paeiliui á þodynusGF, TG, F, G, T ir S. Kreipimosi á þodynusargumentas yra þodþio formà sudaranèiøraidþiø seka. Jei raidþiø sekà atitinkanèiosinformacijos eiliniame þodyne nëra, gaunamasneigiamas atsakymas, jei yra, teigiamàatsakymà þodynai suformuluoja skirtingai.Þodynai F, G ir T jokios papildomos informacijosdaugiau nepateikia. Þodynas GFpateikia gramatinæ informacijà apie visas duotàjaraidþiø seka ortografiðkai reiðkiamas homoformas.Þodynas TG pasako, ar atpaþintojiraidþiø sekoje þodþio forma yra tikrinisdaiktavardis, ar ne, daugiau nepateikdamasjokios kitos gramatinës informacijos. ÞodynasS apibûdina atpaþintosios santrumpos arakronimo rûðá: ar reikia po santrumpos taðko,ar jà bûtina raðyti didþiosiomis raidëmisir pan.Iðnagrinëjæs þodynø atsakymus (pasiþiûrëjæs,kurie þodynai á raidþiø sekos paieðkàatsakë teigiamai, o kurie neigiamai), <strong>Lemuoklis</strong>pasirenka vienà ið deðimties bûdø, kaip formuotihipotetines raidþiø sekà atitinkanèiaslemas.Ðis procesas pavaizduotas 1 schemoje.Paieðkos þodynuose rezultatø situacijosschemoje sunumeruotos skaièiais rutuliukuose.Apraðysime, kaip <strong>Lemuoklis</strong> formuoja lemaskiekvienoje ðiø situacijø.1–oji situacija: raidþiø sekà radom þodyneGF, þodyne T neradom, þodyne TG neradom.Jei þodyne GF informacija apie raidþiøsekà aptikta, o þodynuose T ir TG tokios informacijosnebuvo, tai á likusiø trijø þodynøatsakymus <strong>Lemuoklis</strong> nebeþiûri. Ið þodynoGF iðrenkama gramatinë bei leksinë informacijaapie visas duotàja raidþiø seka ortografiðkaiiðreikðtas homoformas. Informacijosapie raidþiø sekà nebuvimas þodynuoseT ir TG Lemuokliui parodo, kad þodþio formanëra tikrinë. Formuodamas lemavimo rezultatus,homoformø antraðtiná pavidalà <strong>Lemuoklis</strong>áraðo maþàja raide.Formø naujas, seniausieji, kalba, radikalus,permainingai, geri, politikà, átakos, kurias lemuojantsusiklosto aptariamoji situacija, lemavimopavyzdys:naujasbdvr bdvr nelygin.l neávardþ vyr.gim vnsk Vbdvr nelygin.l neávardþ mot.gim dgsk Gseniausiejibdvr bdvr aukðè.l ávardþ vyr.gim dgsk V


Vytautas ZinkevièiusLEMUOKLIS – MORFOLOGINEI ANALIZEI257kalba** dktv dktv mot.gim vnsk Vdktv mot.gim vnsk Ándktv mot.gim vnsk Ð** bndr vksm nesngr tiesiog.nuos esam.l IIIasmradikalus** dktv dktv vyr.gim dgsk G** bdvr bdvr nelygin.l neávardþ vyr.gim vnsk Vpermainingai** prvks prvks nelygin.l** bdvr bdvr nelygin.l neávardþ mot.gim vnsk Ngeri** bdvr bdvr nelygin.l neávardþ vyr.gim dgsk V** bndr vksm nesngr tiesiog.nuos esam.l vnsk IIasmpolitikà** dktv dktv vyr.gim vnsk G** dktv dktv mot.gim vnsk Gátakos** dktv dktv mot.gim vnsk Kdktv mot.gim dgsk Vdktv mot.gim dgsk Ð** bndr vksm nesngr tiesiog.nuos bûs.l IIIasm2-oji situacija: raidþiø sekà radom þodyneGF ir þodyne T. Þodþiø formø Baltijos, Rusijoje,Merkinës, Neries, Palestinoje, Alpiø, kuriaslemuojant susiklosto tokia situacija, lemavimopavyzdys:Baltijostikr dktv tikr dktv mot.gim vnsk KÞodþio formospaieðka paeiliuivisuose þodynuoseNeAr radomþodyne GF ?TaipAr radomþodyne TG ?NeTaip5Ar radomþodyne T ?NeTaip2Ar radomþodyne T ?Taip6Ar radomþodyne TG ?Ne1NeTaipAr radomþodyne F ?Taip7Ar radomþodyne G ?Taip4NeNe3Ar radomþodyne S ?NeAr radomþodyne G ?Taip8TaipNe91 schema. Hipotetiniø lemø formavimo bûdo pasirinkimas priklausomai nuo paieðkosþodynuose rezultatø1710


258 KOMPIUTERINËS PROGRAMOSRusijojetikr dktv tikr dktv mot.gim vnsk VtMerkinës** bndr vksm nesngr tiesiog.nuos bûs.l IIIasm** tikr dktv tikr dktv mot.gim vnsk KNeries** tikr dktv tikr dktv mot.gim vnsk K** bndr vksm nesngr tiesiog.nuos bûs.l IIIasm** bndr vksm nesngr tiesiog.nuos bûs.l IIIasmPalestinoje** tikr dktv tikr dktv mot.gim vnsk Vt** bndr dlv nesngr reikiamyb.r neávardþ mot.gim vnsk VtAlpiø** tikr dktv tikr dktv mot.gim dgsk K** bdvr bdvr nelygin.l neávardþ vyr.gim dgsk Kbdvr nelygin.l neávardþ mot.gim dgsk KÞodynas GF Lemuokliui pateikia visø ámanomøhomoformø, iðreikðtø duotàja ortografineforma, iðsamius gramatinius apibûdinimus,iðskyrus onomastiná aspektà. Raidþiøsekos aptikimas þodyne T, kuris yra ið ávairiøðaltiniø surinktø tikriniø vardø kaitybiniøformø sàraðas, Lemuokliui signalizuoja,kad ðià raidþiø virtinëlæ atitinkanèios homoformos,kurioms þodynas GF nustatë kalbosdalá „daiktavardis”, yra tikrinës. Formuodamaslemavimo rezultatus, tokiø homoformøantraðtiná pavidalà <strong>Lemuoklis</strong> áraðo didþiàjaraide ir kalbos dalá keièia á „tikrinis daiktavardis”.Taip gautos lemos – tikriniai daiktavardþiai< Baltija>, , , , ir .Jei tarp homoformø, kurias þodynas GF atpaþinoraidþiø sekoje, yra ir ne daiktavardþiø,tai tokiø homoformø antraðtiná pavidalà<strong>Lemuoklis</strong> áraðo maþàja raide, o kalbosdalá nurodo tokià, kokià jai nustatë þodynasGF. Taip gautos lemos bndr , bndr , bndr ,bndr , bdvr .Panaðu, kad daþniausiai ðitaip ðiojesituacijoje gaunamos hipotetinës lemos bûnaklaidingos. Jei jau <strong>Lemuoklis</strong> aptiko þodþioformà tikriniø formø sàraðe T, tai tikriausiaiji ir yra tikrinis daiktavardis, o kitokios þodynoGF siûlomos gramatinës traktuotës iðkyladël atsitiktinës ortografinës homonimijosir greièiausiai yra neteisingos. Taèiau visiðkaiatsisakyti ðioje situacijoje ðiø homonimijøir automatiðkai iðmesti jas ið lemavimorezultatø negalime. Juk visai galimi tokie pasakymai:Neries ji man èia nosies; Alpiø rugpjûèiovakarø prisiminimai.Galima bûtø Lemuokliui liepti nedaiktavardinestraktuotes palikinëti tik atvejais, kaiþodis tekste buvo uþraðytas maþàja raide.Bet vëlgi, dël visiðko korektiðkumo tada darreikëtø tikrinti, ar þodis nëra pirmasis sakinyje(juk pirmas paprastai visada raðomasdidþiàja raide, nors ir ne tikrinis); be to, reiktønumatyti atskirà ðiø situacijø traktavimàatvejams, kai lemuojamas ne riðlus tekstas, opavieniø þodþiø formø sàraðai, ar kai lemuojamasvien didþiosioms raidëmis paraðytastekstas. Kol kas viso to <strong>Lemuoklis</strong> nedaro irpateikia visas hipotetines þodþiø gramatiniøreikðmiø versijas, laikydamasis principo „geriauper daug, negu per maþai”. Visiðkai automatiðkateisingø homoformø atranka ðiaisatvejais bus ámanoma, ko gero, tik iðmokiusLemuoklá atlikti sintaksiniø ryðiø tarp riðlausteksto þodþiø analizæ, o tokia lietuviðkoteksto kompiuterinë analizë dar tik ateitiesplanuose.3-ioji situacija: raidþiø sekà radom þodyneGF, þodyne T neradom, þodyne TG radom,þodyne G neradom. Raidþiø sekos aptikimasþodyne TG Lemuokliui rodo, kad taiarba tikrinis daiktavardis, arba nebûtinai tikrinisvedinys ið tikrinio. Jei tai tikrinio vardoforma, tai greièiausiai gana reta, nes þodyneT, ið ávairiø ðaltiniø surinktø tikriniø vardøformø sàraðe, jos neaptikom.G þodyne tikriniø formø nëra. Todël þodþioformos neaptikimas G þodyne Lemuokliuirodo, kad jei TG þodynas apibûdina aptiktàjàjame þodþio formà kaip tikrinæ, tai jitokia ir yra, – netikriniø jos homoformø nëra.Þemiau pateikiamas þodþiø formø Durbës,rygieèiø, Alðënø, Tveriðkis, Volgos, maskvietiðkajai,Deltuvos, kurias lemuojant susiklosto tokiasituacija, lemavimo pavyzdys:Durbëstikr dktv tikr dktv mot.gim vnsk Krygieèiø


Vytautas ZinkevièiusLEMUOKLIS – MORFOLOGINEI ANALIZEI259** dktv dktv vyr.gim dgsk K** dktv dktv mot.gim dgsk KAlðënøtikr dktv tikr dktv vyr.gim dgsk KTveriðkisdktv dktv vyr.gim vnsk VVolgostikr dktv tikr dktv mot.gim vnsk Kmaskvietiðkajaibdvr bdvr nelygin.l ávardþ mot.gim vnsk NDeltuvostikr dktv tikr dktv mot.gim vnsk KPaþiûrëkime, kaip <strong>Lemuoklis</strong> formuoja lemasðioje situacijoje.Jei þodynas GF atpaþino þodþio formà kaipne daiktavardá, tai tokios þodþio formos antraðtinápavidalà <strong>Lemuoklis</strong> áraðo maþàja raide,o kalbos dalá nurodo tokià, kokià jai nustatëþodynas GF. Taip gauta lema bdvr.Kalbos dalá þodþio formai, kurià þodynasGF atpaþino kaip daiktavardá, <strong>Lemuoklis</strong> nustatotokiu bûdu. Jei TG þodynas rastàjà jameraidþiø sekà apibûdino kaip tikrinæ, tai tokiosþodþio formos antraðtiná pavidalà <strong>Lemuoklis</strong>áraðo didþiàja raide, o kalbos daliminurodo tikriná daiktavardá. Taip gautos lemos–tikriniaidaiktavardþiai , , ir . Jei þodynasTG rastàjà jame raidþiø sekà apibûdino kaipnetikrinæ, tai tokios þodþio formos antraðtinápavidalà <strong>Lemuoklis</strong> áraðo maþàja raide, o kalbosdalimi nurodo daiktavardá. Taip gautoslemos – daiktavardþiai , ir . Kitø gramatiniø kategorijøreikðmes homoformø gramatiniams apibûdinimams<strong>Lemuoklis</strong> áraðo taip, kaip jas pateikiaþodynas GF.Ðiame pavyzdyje <strong>Lemuoklis</strong> tik su formaTveriðkis kiek praðovë pro ðalá. Formà Tveriðkis<strong>Lemuoklis</strong> GF þodyne rado kaip iðvestináið þodþio Tverë daiktavardá. Þodynas TG,á kurá taip pat átrauktas Tverë, formà Tveriðkisapibûdino kaip padarytà ið tikrinio þodþiobendrinæ. Lemuotajame tekste buvo DemetrijusTveriðkis. Kad Tveriðkis yra tikrinis asmenvardis,<strong>Lemuoklis</strong> neþino, nes informacijosapie toká asmenvardá jo þodynuose nëra,kaip, tarp kitko, ir informacijos apie Demetrijø– ðio þodþio formos <strong>Lemuoklis</strong> apskritaineatpaþino.4-oji situacija: raidþiø sekà radom þodyneGF, þodyne T neradom, þodyne TG ir þodyneG radom. Situacija skiriasi nuo 3-iosios tuo,kad raidþiø seka aptikta ir G þodyne. G þodynetikriniø formø nëra, tik bendrinës. Todël,kai ðioje situacijoje TG þodynas rastàjàjame raidþiø sekà apibûdina kaip tikrinæ, taireiðkia, kad lemuojama ortografinë forma atitinkair tikrinæ, ir bendrinæ gramatinæ homoformà.Vienodà ortografinæ iðraiðkà turinèiostikrinë ir bendrinë homoformos ðiuo atvejugali priklausyti semantiðkai artimoms leksemoms(plg. bendrinis gintaras ir tikrinis Gintaras,bendrinis turgeliai ir tikrinis Turgeliai).Ortografiðkai sutapti gali ir semantiðkai tolimøleksemø formos, t. y. toks sutapimas galibûti ir atsitiktinis (plg. jonas ir Jonas). Galiðioje situacijoje ortografiðkai sutapti ir skirtingøkalbos daliø homoformos (pvz.: prieveiksmisgana – tikrinis daiktavardis Gana,prieveiksmis greta – tikrinis daiktavardis Greta,skaitvardis viena – tikrinis daiktavardis Viena).Þodþiø formø Jonà, gintaro, gana, greta, Turgeliø,viena lemavimo pavyzdys:Jonàtikr dktv tikr dktv vyr.gim vnsk Ggintarotikr dktv tikr dktv vyr.gim vnsk Kgana** tikr dktv tikr dktv mot.gim vnsk Vtikr dktv mot.gim vnsk Ántikr dktv mot.gim vnsk Ð** prvks prvksgreta** tikr dktv tikr dktv mot.gim vnsk Vtikr dktv mot.gim vnsk Ántikr dktv mot.gim vnsk Ð** prvks prvksTurgeliøtikr dktv tikr dktv vyr.gim dgsk K


260 KOMPIUTERINËS PROGRAMOSviena** tikr dktv tikr dktv mot.gim vnsk Vtikr dktv mot.gim vnsk Ántikr dktv mot.gim vnsk Ð** bdvr bdvr nelygin.l neávardþ mot.gim vnsk Vbdvr nelygin.l neávardþ mot.gim vnsk Ánbdvr nelygin.l neávardþ bevrd.gim** sktv sktv kiekin mot.gim vnsk Vsktv kiekin mot.gim vnsk Ánsktv kiekin bevrd.gim** ávrd ávrd mot.gim vnsk Vávrd mot.gim vnsk Ánávrd bevrd.gimNors ði situacija kiek skiriasi nuo 3-iosios,lemas joje <strong>Lemuoklis</strong> formuoja lygiai taip pat,kaip ir 3-iojoje situacijoje. Taèiau jei 3-iojojesituacijoje buvo galima gana patikimai nuspræsti,kokia – tikrinë ar bendrinë – yra lemuojamaforma, tai ðioje situacijoje Lemuokliuitai padaryti daug sunkiau. Pateiktamelemavimo pavyzdyje <strong>Lemuoklis</strong> teoriðkai ámanomøbendriniø daiktavardþiø lemø ,, , nepateikia;gintaro atveju tai jau neteisingo lemavimoatvejis, nes lemuotajame tekste ði þodþio formabuvo bendrinë. Gali atrodyti, kad ðiojesituacijoje Lemuokliui derëtø ginèytino onomastiðkumodaiktavardþiø lemas iðvesti abiemvariantais – ir kaip tikrinius, ir kaip bendriniusdaiktavardþius. Taèiau tokiu atveju atsirastøklaidingos lemos – bendriniai daiktavardþiai ir . Jei ðitoje situacijoje<strong>Lemuoklis</strong> nereaguotø á onomastiðkumàir formuotø tik bendrines lemas, bûtø darblogiau: ne tik atsirastø klaidingos lemos –bendriniai daiktavardþiai ir ,bet ir prarastume potencialiai teisingas tikrineslemas , , , .Beje, dël pastarosios: á TG þodynà Turgeliaiátrauktas kaip daugiskaitinis vietovardis,taèiau atstatyti jam antraðtinæ formà TGmorfologija, kaip minëta, nemoka. Uþ antraðtiniøformø atstatymà atsakingas yra GF þodynas.Kadangi á GF þodynà turgelis átrauktasne kaip daugiskaitinis, tai GF kompiuterinëmorfologija formai Turgeliø atstato antraðtinævienaskaitos vardininko formà.Ðiaip ar taip, visa ði painiava su tikriniøformø lemavimu ateityje iðsispræs, atitinkamaipatobulinus GF þodynà. Kai á þodynokompiuterinæ morfologijà átrauksime daiktavardþiøonomastiðkumo poþymá, formas Jonà,gintaro,Turgeliø <strong>Lemuoklis</strong> lemuos dvejopai– ir kaip tikrinius, ir kaip bendrinius daiktavardþius,formà gana – kaip tikriná daiktavardáir kaip prieveiksmá, greta – kaip bendrinádaiktavardá, kaip tikriná daiktavardá irkaip prieveiksmá, viena – kaip tikriná daiktavardá,bûdvardá, skaitvardá ir ávardá. Beje,formai viena priskiriamø kalbos daliø ávairovëgali pasirodyti keista, taèiau èia <strong>Lemuoklis</strong>nekaltas, tokias galimas kalbos dalis þodþiuivienas nurodo DLKÞ.5-oji situacija: raidþiø sekos þodyne GFneradom, bet radom þodyne TG. Kadangi þodþioforma neaptikta þodyne GF, apie josgramatinæ reikðmæ <strong>Lemuoklis</strong> nieko pasakytinegali, kaip ir atstatyti jai antraðtinio pavidalo.Taèiau ið þodyno TG teigiamo atsakymo<strong>Lemuoklis</strong> ðá tà iðpeða ir suformuoja nepilnàlemavimo rezultatà, kurá pailiustruosimformø Tacitas, alanø, Horodlës, naugardieèiams,Vorsklos, pskovieèiø lemavimo pavyzdþiu:Tacitastikr dktv gr char ..?alanøtikr dktv gr char ..?Horodlëstikr dktv gr char ..?naugardieèiamsvrdþ arba prvksm ið tikr dktv gr char ..?Vorsklostikr dktv gr char ..?pskovieèiøvrdþ arba prvksm ið tikr dktv gr char ..?Þodyno TG kompiuterinë morfologija, kaipminëta, operuoja tik afiksais, bet ne gramatinëmisreikðmëmis. Taèiau þodynas TG vienareikðmiðkainurodo, ar rastoji jame formatikrinë, ar bendrinë. Jei TG þodynas rastàjàjame formà apibûdina kaip iðvestinæ ið tikriniovardo bendrinæ, tai teoriðkai ji gali bûtiarba daiktavardis (pvz., naugardieèiø), arbabûdvardis (pvz., naugardietiðkas), arba bûdvardis/prieveiksmis(pvz., naugardietiðkai). To-


Vytautas ZinkevièiusLEMUOKLIS – MORFOLOGINEI ANALIZEI261kiems nepilno kalbos dalies nurodymo atvejams<strong>Lemuoklis</strong> naudoja gana griozdiðkà formuluotæ„vardaþodis arba prieveiksmis ið tikriniodaiktavardþio”.Atstatyti antraðtiná þodþio pavidalà tokiojesituacijoje <strong>Lemuoklis</strong> gali taip pat tik nepilnai.TG morfologija jam tik nurodo, nuokurios formos vietos prasideda darybinë priesaga(jei tokia yra) su galûne. Áraðæs formàiki tos vietos, toliau <strong>Lemuoklis</strong> deda daugtaðká.Pateiktame þodþiø formø nepilno lemavimopavyzdyje forma alanø sulemuota ne visaiteisingai. <strong>Lemuoklis</strong> formà apibûdino kaiptikrinæ (nuo asmenvardþio Alanas), nors teksteji reiðkë bendriná genties pavadinimà. Taipatsitiko dël to, kad vardas Alanas, tekstuosepasitaikantis gerokai daþniau uþ tautovardáalanai, pateko á TG þodynà, o pastarasis neuþfiksuotasnë viename Lemuoklio þodyne.6-oji situacija: raidþiø sekos þodyne GFneradom, þodyne TG neradom, þodyne T radom.Kadangi þodþio forma neaptikta þodyneGF, apie jos gramatinæ reikðmæ <strong>Lemuoklis</strong>nieko pasakyti negali, kaip ir atstatyti jai antraðtiniopavidalo. Ið þodyno T teigiamo atsakymo<strong>Lemuoklis</strong> tik þino, kad tai tikriniodaiktavardþio forma.Formos Pizos lemavimo pavyzdys:Pizostikr dktv gr char ..?Aukðèiau aptartojoje 5-ojoje, taip pat nepilnolemavimo situacijoje TG þodynas nurodëLemuokliui, nuo kurios formos vietos prasidedakintanti jos dalis, ir <strong>Lemuoklis</strong> galëjoformuoti nepilnà antraðtiná formos pavidalà,perraðydamas formà iki tos vietos. Taèiauðioje situacijoje forma TG þodyne neaptikta,tik T þodyne; T þodynas kompiuterinës morfologijosneturi, já sudaro paprastas tikriniøformø sàraðas. Kadangi <strong>Lemuoklis</strong> neþino,kurioje lemuojamos formos vietoje prasidedajos fleksija, tai vietoj antraðtinio pavidaloáraðo tik pirmàjà didþiàjà formos raidæ ir daugtaðká.7-oji situacija: raidþiø sekos þodynuoseGF, TG ir T neradom, bet radom þodyne F.Þodþio forma GF þodyne nerasta, tad apiejos gramatinæ reikðmæ <strong>Lemuoklis</strong> nieko pasakytinegali, negali ir atstatyti jai antraðtiniopavidalo. Ið þodynø TG ir T neigiamoatsakymo <strong>Lemuoklis</strong> þino, kad forma ne tikrinë.GF þodynas atpaþásta bendrinës lietuviøkalbos þodþiø formas, iðskyrus formassu nutrumpëjusiomis galûnëmis. Kadangi þodyneF (á já sudëtos formos ið tekstynø) formaaptikta, tai <strong>Lemuoklis</strong> daro iðvadà, kadlemuotas þodis turëjo nutrupëjusià galûnæarba buvo pavartotas kokia pasenusia ar tarmiðkagramatine forma. Ðià iðvadà <strong>Lemuoklis</strong>rezultatuose paþymi formuluote „..? galbûtnutrumpëjusi galûnë”, áraðyta vietoj antraðtinioformos pavidalo.Þodþiø formø trim, valdþion lemavimo pavyzdys:trimklb d ..? gr char ..?valdþionklb d ..? gr char ..?8-oji situacija: raidþiø sekos þodynuoseGF, TG, T, F ir S neradom, bet radom þodyneG. Situacija labai panaði á 7-àjà. Skiriasi tiktuo, kad forma rasta ne F þodyne, kaip 7-osios situacijos atveju, bet G þodyne. Tiekþodyne F, tiek ir þodyne G laikomos tik netikrinësþodþiø formos be jø gramatiniø reikðmiø.Skiriasi tik ðiø þodynø organizavimobûdas. Á þodynà F suraðytos ortografinës þodþiøformos, jas iðvardijant. Þodyne G suraðytosþodþiø ðaknys, o formø sàraðà generuojaG þodyno morfologija, prijungdama priekiekvienos ðaknies jai priklausanèius pagalmorfologiná tipà afiksus. Ar formà <strong>Lemuoklis</strong>aptinka F þodyne, ar G þodyne, abiematvejais jis daro tà paèià iðvadà. Todël ðiojesituacijoje <strong>Lemuoklis</strong> elgiasi taip pat kaip ir7-ojoje.Formos vykdytojom lemavimo pavyzdys:vykdytojomklb d ..? gr char ..?9-oji situacija: raidþiø sekos þodynuoseGF, TG, T ir F neradom, bet radom þodyne S.S þodynas Lemuokliui nurodo atpaþintosiosjame santrumpos ar akronimo rûðá: ar reikiapo santrumpos taðko, ar visos raidës bûtinaididþiosios ir pan. Vietoj gramatinës reikðmësþymëjimo <strong>Lemuoklis</strong> áraðo þymæ„sntrmp”. Á antraðtinio pavidalo vietà Le-


262 KOMPIUTERINËS PROGRAMOSmuoklis perraðo paèià santrumpà, bet jau vadovaudamasisþodyno S nurodytosiomis santrumposar akronimo raðybos taisyklëmis.Pavyzdþiui, tûkst lemavimas:tûkstsntrmp sntrmp10-oji situacija: raidþiø sekos neradom nëviename þodynø. Neatpaþinæs raidþiø sekojelietuviðko þodþio formos ar santrumpos, <strong>Lemuoklis</strong>áraðo á rezultatø failà sutartiná tokiosnesëkmës þymëjimà.Pavyzdþiui, formø submonarcho, Rusdorfas,antimindauginë, apostazijos, didvalstybæ, Radoðkovièiø,kontrspaudimà, plaèiaveidis lemavimas:submonarchoRusdorfasantimindauginëapostazijosdidvalstybæRadoðkovièiøkontrspaudimàplaèiaveidisSudurtiniø lietuviðkø þodþiø darybos modeliaiiðnagrinëti ir apraðyti pakankamai plaèiai(þr., pvz., Bûda, 1994). Todël, ateityjepapildþius GF þodyno kompiuterinæ morfologijàsudurtinës þodþiø darybos taisyklëmis,galima bûtø iðmokyti Lemuoklá lemuoti irtokias dabar neatpaþástamas formas submonarcho,antimindauginë, didvalstybæ, kontrspaudimà,plaèiaveidis.LEMAVIMO DAUGIAPRASMIÐKUMOMAÞINIMASSilpnoji Lemuoklio vieta yra lemavimo nevienareikðmiðkumas.Iðnagrinëjæs þodþio formà,<strong>Lemuoklis</strong> daþnai pateikia ne vienà, okelis galimus (hipotetinius) jos gramatiniusapibûdinimus. Lemavimo daugiaprasmiðkumoprieþastys glûdi ortografinës homonimijosreiðkinyje. Daþnai kelios skirtingø gramatiniøreikðmiø þodþiø formos turi vienà irtà paèià ortografinæ (raðytinæ) iðraiðkà. Taipsutapti gali skirtingos vieno þodþio gramatinësformos. Pvz., daiktavardþio motina vienaskaitoskilmininkas, daugiskaitos vardininkasir daugiskaitos ðauksmininkas ortografiðkaireiðkiami ta paèia iðraiðka motinos. Galisutapti ir skirtingø þodþiø formos, plg. sutampanèiasformas frazëse ánirtingai lauþo ðakasir sëdëjo lauþo ðviesoje; mes dirbame ir jis mesakmená á langà. Skyrelyje „Informacijos paieðkakalbiniø duomenø bazëje ir hipotetiniølemø formavimas” pateiktuose lemavimo pavyzdþiuoseapstu paèiø ávairiausiø skirtingøgramatiniø formø ortografinio sutapimo atvejø.Su panaðia problema susiduria ir kitø kalbølemuokliai bei gramatiniai anotatoriai. Lemavimonevienareikðmiðkumas juose daþnaiiðsprendþiamas ar sumaþinamas (morphologicaldisambiguation, ambiguity resolution) statistiniais-tikimybiniaismetodais, panaudojusduomenis apie leksemø ir/ar gramatiniø reikðmiøvartosenos daþnius. Lemuoklyje tokieproblemos sprendimo metodai nenaudojamidël ðiø prieþasèiø:1) Ðiuo metu lietuviø kalbos gramatiniøreikðmiø daþniniø charakteristikø nëra iðkur paimti. Daþniniuose lietuviø kalbos þodynuose(DDRLKÞ, 1997 ir 1998) pateiktiþodþiai, jø kalbos dalys ir suminiai visø jøkaitybiniø formø vartojimo daþniai, informacijosapie gramatiniø reikðmiø daþniusðiuose þodynuose nëra.2) Akivaizdu, kad vien þodþiø gramatiniøformø vartosenos daþniniø charakteristikøþinojimas ortografinio homonimiðkumo sukeliamølemavimo problemø neiðspræs. Pvz.,þinom, kad ortografinës formos kalba daiktavardinëhomoforma yra gerokai daþnesnë uþveiksmaþodinæ, bet be gilesnës konteksto analizësvis tiek negalim vienareikðmiðkai nuspræsti,ar kalba tekste yra veiksmaþodþio esamojolaiko III asmens forma, ar daiktavardþiovienaskaitos vardininkas.Autoriaus nuomone, visiðkai panaikinti automatiðkolemavimo daugiaprasmiðkumà ámanomatik iðmokius Lemuoklá nagrinëti ryðiustarp lietuviðkø þodþiø sakiniuose. Ðiuo metudar nëra kompiuteriniø technologijø, kuriasðiam tikslui bûtø galima ádiegti Lemuoklyje.Pasiðovusiøjø sukurti programines procedûras,nagrinësianèias sintaksinius ryðius tarp


Vytautas ZinkevièiusLEMUOKLIS – MORFOLOGINEI ANALIZEI263riðlaus lietuviðko teksto þodþiø, laukia nelengvasdarbas. Svarbiausias uþdavinys èiaturbût bûtø sintaksiniø ryðiø tarp þodþiø dësningumøformalizavimas.Taigi ðiuo metu <strong>Lemuoklis</strong> pateikia gramatinæinformacijà apie visas teoriðkai ámanomaslemuojamø ortografiniø formø homoformas.Vis dëlto jame ádiegti tam tikri metodai,leidþiantys kai kuriais atvejais sumaþintilemavimo rezultato daugiaprasmiðkumà.Kiekvienà ið ðiø metodø <strong>Lemuoklis</strong> gali panaudotiir nepanaudoti. Metodø naudojimasar nenaudojimas valdomas specialiai parenkamais(opciniais) lemavimo parametrais. AteityjeLemuoklio naudotojas lemavimo parametrusgalës keisti per specialø meniu, nuspaudæsklaviðà „Nurodom parenkamus lemavimoparametrus” (þr. 1 pav.). Kaip jauminëta, kol kas ðis klaviðas dar neveikia, ir<strong>Lemuoklis</strong> lemuoja, naudodamas programiðkai„pagal nutylëjimà” priskirtas ðiø lemavimoparametrø reikðmes.Apraðysim kiekvienà ið ðiø lemavimo daugiaprasmiðkumomaþinimo metodø: kaip jisveikia, kaip keièia lemavimo rezultatà, ar <strong>Lemuoklis</strong>taiko já „pagal nutylëjimà”.Visus lemavimo daugiaprasmiðkumo maþinimometodus galima suskirstyti á dvi grupes.Pirmàjà grupæ sudarytø metodai, kuriuosnaudodamas <strong>Lemuoklis</strong> gali ignoruotitam tikras vienos leksemos homoformas. Taimetodai, toliau straipsnyje sàlygiðkai pavadinti„ðauksmininko uþtuðavimas”, „nekaitomøvardaþodþiø skaièiaus, linksnio (giminës) uþtuðavimas”ir „III asmens skaièiaus uþtuðavimas”.Antrojoje grupëje bûtø metodai, kuriuos naudodamas<strong>Lemuoklis</strong> gali ignoruoti kai kuriaslemas ið nustatytøjø vienai þodþio formai hipotetiniølemø sàraðo. Tie metodai toliau vadinami„sudaiktavardëjæ dalyviai ir bûdvardþiai”,„subûdvardëjæ dalyviai”, „padaryèiai”, „yra–bûna–bûva”,„þodelyèiai”, „su”, „ið”, „nors”, „mano,tavo, savo”, „mûsai”, „mûsas”, „pats”, „visti”,„viskà” ir „abu”.Ðauksmininko uþtuðavimasJei þodþio forma yra bûdvardis, skaitvardis,ávardis ar dalyvis (bet ne daiktavardis) ir jeijai buvo nustatyti du hipotetiniai linksniai –vardininkas ir ðauksmininkas, tai <strong>Lemuoklis</strong>tokiais atvejais gali palikti abu arba paliktitik vardininkà.„Pagal nutylëjimà” tokiais atvejais paliekamastik vardininkas, pavyzdþiui:elitinësbdvr bdvr nelygin.l neávardþ mot.gim vnsk Kbdvr nelygin.l neávardþ mot.gim dgsk Vpirmassktv sktv kelintin nelygin.l neávardþ vyr.gim vnsk Vsktv kelintin nelygin.l neávardþ mot.gim dgsk Gvisiávrd ávrd vyr.gim dgsk Vlaikytibndr bndr nesngrdlv nesngr neveik.r bût.kart.l neávardþ vyr.gimdgsk VTø paèiø þodþiø formø lemavimas ne „pagalnutylëjimà”:elitinësbdvr bdvr nelygin.l neávardþ mot.gim vnsk Kbdvr nelygin.l neávardþ mot.gim dgsk Vbdvr nelygin.l neávardþ mot.gim dgsk Ðpirmassktv sktv kelintin nelygin.l neávardþ vyr.gim vnsk Vsktv kelintin nelygin.l neávardþ vyr.gim vnsk Ðsktv kelintin nelygin.l neávardþ mot.gim dgsk Gvisiávrd ávrd vyr.gim dgsk Vávrd vyr.gim dgsk Ðlaikytibndr bndr nesngrdlv nesngr neveik.r bût.kart.l neávardþ vyr.gimdgsk Vdlv nesngr neveik.r bût.kart.l neávardþ vyr.gimdgsk ÐNekaitomø vardaþodþiø skaièiaus,linksnio (giminës) uþtuðavimasDaiktavardþiai lietuviø kalboje yra linksniuojamiir gali bûti kaitomi skaièiumi. Pasiskolintiið kitø kalbø nekaitomi daiktavardþiai,tokie kaip taksi, ledi, Lemuoklio naudojamøskaitmeniniø kaitybos modeliø supratimu, turi,kaip ir visi daiktavardþiai, linksnio ir giminëskategorijas. Todël, lemuodamas nekaitomàdaiktavardá, <strong>Lemuoklis</strong> jam automatiðkaigeneruoja 14 hipotetiniø gramatiniøreikðmiø, t.y. 7 vienaskaitos ir 7 daugiskaitoslinksnius. „Pagal nutylëjimà” paliekama


264 KOMPIUTERINËS PROGRAMOStik viena gramatinë reikðmë, uþtuðavus skaièiausir linksnio kategorijas kaip neapibrëþtastokiems daiktavardþiams.Panaðiai ir nekaitomiems bûdvardþiams,tokiems kaip bordo, bruto, <strong>Lemuoklis</strong> generuoja28 hipotetines gramatines reikðmes: 7vienaskaitos linksnius plius 7 daugiskaitosir visa tai dukart – atskirai vyriðkajai gimineiir atskirai moteriðkajai. „Pagal nutylëjimà”paliekama tik viena, uþtuðavus giminës, skaièiausir linksnio kategorijas kaip neapibrëþtas.Þemiau pateikiamas þodþio formos ampluadvejopas lemavimas.„Pagal nutylëjimà” neapibrëþtos ðiam daiktavardþiuikategorijos uþtuðuojamos:ampluadktv dktv vyr.gimJei neuþtuðuojama:ampluadktv dktv vyr.gim vnsk Vdktv vyr.gim vnsk Kdktv vyr.gim vnsk Ndktv vyr.gim vnsk Gdktv vyr.gim vnsk Ándktv vyr.gim vnsk Vtdktv vyr.gim vnsk Ðdktv vyr.gim dgsk Vdktv vyr.gim dgsk Kdktv vyr.gim dgsk Ndktv vyr.gim dgsk Gdktv vyr.gim dgsk Ándktv vyr.gim dgsk Vtdktv vyr.gim dgsk ÐIII asmens skaièiaus uþtuðavimasJei þodþio forma yra tiesioginës arba tariamosiosnuosakos veiksmaþodis, ir jai nustatomastreèias asmuo (pvz., dirba), tai <strong>Lemuoklis</strong>tokià þodþio formà apibûdina dvejopai: kaipvienaskaità ir kaip daugiskaità. Kadangi lietuviøkalboje tiesioginës ir tariamosios nuosakosveiksmaþodþiø treèiojo asmens vienaskaitosir daugiskaitos formos sutampa, „pagalnutylëjimà” skaièiaus reikðmë uþtuðuojama,ir paliekamas tik vienas gramatinis apibûdinimasbe skaièiaus kategorijos.Þemiau pateikiamas þodþiø formø atsirado,lemtø, susikûrë dvejopas lemavimas.„Pagal nutylëjimà” skaièiaus uþtuðavimasatliekamas:atsiradobndr vksm sngr tiesiog.nuos bût.kart.l IIIasmlemtø** bdvr bdvr nelygin.l neávardþ vyr.gim dgsk Kbdvr nelygin.l neávardþ mot.gim dgsk K** bndr vksm nesngr tariam.nuos IIIasmdlv nesngr neveik.r bût.kart.l neávardþ vyr.gimdgsk Kdlv nesngr neveik.r bût.kart.l neávardþ mot.gimdgsk Ksusikûrëbndr vksm sngr tiesiog.nuos bût.kart.l IIIasmTø paèiø þodþiø formø lemavimas, jei uþtuðavimasnenaudojamas (ne „pagal nutylëjimà”):atsiradobndr vksm sngr tiesiog.nuos bût.kart.l vnsk IIIasmvksm sngr tiesiog.nuos bût.kart.l dgsk IIIasmlemtø** bdvr bdvr nelygin.l neávardþ vyr.gim dgsk Kbdvr nelygin.l neávardþ mot.gim dgsk K** bndr vksm nesngr tariam.nuos vnsk IIIasmvksm nesngr tariam.nuos dgsk IIIasmdlv nesngr neveik.r bût.kart.l neávardþ vyr.gimdgsk Kdlv nesngr neveik.r bût.kart.l neávardþ mot.gimdgsk Ksusikûrëbndr vksm sngr tiesiog.nuos bût.kart.l vnsk IIIasmvksm sngr tiesiog.nuos bût.kart.l dgsk IIIasmSudaiktavardëjæ dalyviaiir bûdvardþiaiKilusius ið dalyviø ar bûdvardþiø daiktavardþius(nelabasis, pëstysis, paþástamas, miegamasis,laukiamasis, mylimasis, dirbantysis, suaugæs,jaunasis, sëjamoji, lygiosios ir pan.) <strong>Lemuoklis</strong>atpaþásta kaip daiktavardþius taisatvejais, jei jie kaip daiktavardþiai buvo átrauktiá (DLKÞ, 1972) þodynà. Kadangi daþniausiaiþodyne DLKÞ yra ir atitinkami veiksmaþodþiaiar bûdvardþiai, ið kuriø kilæ ðie daiktavardþiai,tai tokiø þodþiø formas <strong>Lemuoklis</strong>atpaþásta dvejopai – ir kaip daiktavardþius,ir kaip dalyvius ir/ar bûdvardþius.Todël <strong>Lemuoklis</strong> tokioms formoms nustato


Vytautas ZinkevièiusLEMUOKLIS – MORFOLOGINEI ANALIZEI265kelias hipotetines lemas: daiktavardá pliusatitinkamà veiksmaþodá ir/ar bûdvardá. Lemuoklyjenumatyta galimybë tokias dalyviøir/ar bûdvardþiø formas, nors pagal DLKÞir sudaiktavardëjusias, t. y. atliekanèias daiktavardþiøfunkcijas, visada laikyti dalyviaisar bûdvardþiais – atmesti jø daiktavardiðkàjàlemà.„Pagal nutylëjimà” toks atmetimas nedaromas,ir tokios formos apibûdinamos dvejopai– ir kaip daiktavardþiai, ir kaip dalyviai/ bûdvardþiai. Èia pastebësime, kad Lemuoklioprototipas MAN, naudotas rengiant„Daþniná dabartinës raðomosios lietuviø kalbosþodynà” (DDRLKÞ, 1997:X ir 1998:XII),toká atmetimà darë.Þemiau pateikiamas þodþio formos paþástamødvejopas lemavimas.„Pagal nutylëjimà” toks daiktavardþiø atmetimasnedaromas:paþástamø** dktv dktv vyr.gim dgsk K** dktv dktv mot.gim dgsk K** bdvr bdvr nelygin.l neávardþ vyr.gim dgsk Kbdvr nelygin.l neávardþ mot.gim dgsk K** bndr dlv nesngr neveik.r esam.l neávardþ vyr.gimdgsk Kdlv nesngr neveik.r esam.l neávardþ mot.gimdgsk KJei toks daiktavardþiø atmetimas atliekamas(ne „pagal nutylëjimà”):paþástamø** bdvr bdvr nelygin.l neávardþ vyr.gim dgsk Kbdvr nelygin.l neávardþ mot.gim dgsk K** bndr dlv nesngr neveik.r esam.l neávardþ vyr.gimdgsk Kdlv nesngr neveik.r esam.l neávardþ mot.gimdgsk KSubûdvardëjæ dalyviaiKilusius ið dalyviø bûdvardþius (sukalbamas,uþkreèiamas, mylimas, neatidëliotinas, paþymimasis,suaugæs ir pan.) <strong>Lemuoklis</strong> atpaþástakaip bûdvardþius tais atvejais, jei tie þodþiaiyra bûdvardþiais átraukti á (DLKÞ, 1972) þodynà.Daþniausiai þodyne DLKÞ yra ir atitinkamiveiksmaþodþiai, ið kuriø kilæ ðie dalyviðkibûdvardþiai. Todël tokiø þodþiø formas<strong>Lemuoklis</strong> atpaþásta dvejopai – ir kaipbûdvardþius, ir kaip dalyvius; taigi joms <strong>Lemuoklis</strong>nustatys po dvi hipotetines lemas:bûdvardá plius atitinkamà veiksmaþodá. Lemuoklyjenumatyta galimybë tokias veiksmaþodþiøformas, nors pagal DLKÞ ir subûdvardëjusias,t. y. atliekanèias bûdvardþiøfunkcijas, visada laikyti dalyviais – atmestibûdvardiðkàjà lemà.„Pagal nutylëjimà” toks atmetimas nedaromas,ir tokios formos apibûdinamos dvejopai– ir kaip veiksmaþodþio formos – dalyviai,ir kaip bûdvardþiai. Èia reikia pasakyti,kad Lemuoklio prototipas MAN, naudotasrengiant „Daþniná dabartinës raðomosios lietuviøkalbos þodynà” (DDRLKÞ, 1997:X ir1998:XII), toká atmetimà darë.Þemiau pateikiamas þodþio formos sukalbamàdvejopas lemavimas.„Pagal nutylëjimà” toks bûdvardþiø atmetimasnedaromas:sukalbamà** bdvr bdvr nelygin.l neávardþ vyr.gim vnsk Gbdvr nelygin.l neávardþ mot.gim vnsk G** bndr dlv nesngr neveik.r esam.l neávardþ vyr.gimvnsk Gdlv nesngr neveik.r esam.l neávardþ mot.gimvnsk GJei toks bûdvardþiø atmetimas daromas (ne„pagal nutylëjimà”):sukalbamàbndr dlv nesngr neveik.r esam.l neávardþ vyr.gimvnsk Gdlv nesngr neveik.r esam.l neávardþ mot.gimvnsk GPadaryèiaiTrumpai paaiðkinsime padaryèiø vardu pavadintàproblemà. Kaip jau apraðyta, þodþiøformø atpaþinimui ir gramatiniam apibûdinimui<strong>Lemuoklis</strong> turi GF þodynà, kurá sudarolietuviðkø þodþiø ðaknys ir skaitmeniniaigramatinës kaitybos modeliai, t.y. kompiuterinëmorfologija. GF ðaknø sàraðo pagrindàsudaro þodþiai ið DLKÞ. Þodþiø kaitybakompiuterinëje morfologijoje vienu specifiniuaspektu kiek skiriasi nuo tradicinëse lietuviøkalbos gramatikose apraðytosios þodþiøkaitybos. Lemuoklio kompiuterinëje mor-


266 KOMPIUTERINËS PROGRAMOSfologijoje kaitybai priskirti ir kai kurie patysbendriausi, labiausiai paplitæ lietuviðkø þodþiødarybos reiðkiniai. Ðitaip darybà pakeistiá kaitybà privertë DLKÞ sandara. Á ðá þodynàneátrauktos iðtisos didelës iðvestiniø þodþiøgrupës laikant, kad þodyno naudotojams tokiøþodþiø reikðmës bus savaime suprantamosið pateikiamø pamatiniø þodþiø apraðymo.Ðitaip, pvz., á DLKÞ þodynà nedëtos daiktavardþiømaþybinës formos (stalas–>stalelis,staliukas), veiksmaþodþiø priesagos –inëti vediniai(bëgti –> bëginëti). Todël kompiuterinëjeGF þodyno morfologijoje tokius reguliariosiosdarybos reiðkinius teko átraukti á atitinkamøpamatiniø þodþiø kaitybà, antraip<strong>Lemuoklis</strong> nepaþintø daug lietuviðkø þodþiøformø. Apie tai, bûtent kokie darybos atvejaipriskirti kaitybai ir kaip tai padaryta, èia plaèiauneapraðinësime, dabar tik aptarsime padaryèiøproblemà, iðkilusià dël Lemuoklio sugebëjimoatpaþinti ávairiausias teoriðkai ámanomasmaþybines vardaþodþiø formas.Vyriðkosios giminës daiktavardþiø ir bûdvardþiømaþybiniø priesagos –ytis vediniø(ið sûnus – sûnytis, ið bernas – bernytis, ið maþas– maþytis) vienaskaitos vardininkai galeturi –ytis, o ðauksmininkai –yti. Ðitie ðauksmininkaiortografiðkai gali sutapti su atsitiktinaipanaðiø veiksmaþodþiø bendratimis. Pavyzdþiui,daiktavardþiø aplankytis (maþybinisnuo aplankas), apraðytis (nuo apraðas), blaðkytis(nuo dktv. blaðkas, þr. DLKÞ – „iðblokðtørugiø pëdas”), ginèytis (nuo ginèas) ðauksmininkøformos, gale turëdamos –ti, ortografiðkaisutampa su panaðiø veiksmaþodþiø (aplankyti,apraðyti, blaðkyti, ginèyti) bendratimi.Kai kada dar ir tokiø maþybiniø vardaþodþiøvardininkai, gale turëdami –tis, sutampasu panaðiø sangràþiniø veiksmaþodþiø bendratimi(blaðkytis, ginèytis). Todël tokioms ortografinëmsformoms <strong>Lemuoklis</strong> nustato podvi hipotetines lemas: vienà „daiktavardis...ytis, o kità „veiksmaþodis ...yti” arba „veiksmaþodis...ytis”. Taèiau <strong>Lemuoklis</strong> tokius pa-Atrankos pradþiaKiek yrahipotetiniølemø ?Viena<strong>Lemuoklis</strong> þodþio formainustatë tik vienà lemà:nedarom niekoKeliosAr þodþio formabaigiasi -yti ?NeAr þodþio formabaigiasi -ytis ?NeÞodþio formanesibaigia nei-yti, nei -ytis:nedarom niekoÞodþio formabaigiasi -yti, bettarp nustatytøjøjai hipotetiniølemø lemos dktv ar bdv nëra:nedarom niekoNeTaipAr tarphipotetiniø lemøyra dktv ar bdv ?TaipTaipAr tarphipotetiniø lemøyra dktv ar bdv ?TaipNeÞodþio formabaigiasi -ytis,bet tarpnustatytøjøhipotetiniø lemølemos dktv ar bdv nëra:nedarom niekoÞodþio formabaigiasi -yti, tarpnustatytøjø jaihipotetiniø lemøyra dktv ar bdv ,bet lemos bndr nëra:nedarom niekoNeAr tarpnustatytøjølemø yra bndr ?TaipAr tarpnustatytøjølemø yra bndr ?TaipIðmetam hipotetines lemas dktv ir/ar bdv kaip klaidingasNeÞodþio formabaigiasi -ytis,tarp nustatytøjøhipotetiniø lemøyra dktv ar bdv ,bet lemos bndr nëra:nedarom nieko2 schema. Vienos þodþio formos hipotetiniø lemø atranka pagal kriterijø –yti(s)


Vytautas ZinkevièiusLEMUOKLIS – MORFOLOGINEI ANALIZEI267daryèius gali neutralizuoti, teikdamas pirmenybælemai-veiksmaþodþiui ir ignoruodamaskaip klaidingà lemà – daiktavardá. Padaryèiøneutralizavimo algoritmas pavaizduotas 2schemoje.Þemiau pateikiamas þodþiø formø padaryti,lauþyti, krikðtytis, laikytis, ginèytis dvejopaslemavimas.„Pagal nutylëjimà” padaryèiai neutralizuojami:padarytibndr bndr nesngrdlv nesngr neveik.r bût.kart.l neávardþ vyr.gimdgsk Vlauþytibndr bndr nesngrdlv nesngr neveik.r bût.kart.l neávardþ vyr.gimdgsk Vkrikðtytisbndr bndr sngrlaikytisbndr bndr sngrginèytisbndr bndr sngrNe „pagal nutylëjimà” padaryèiai paliekami:padaryti** dktv dktv vyr.gim vnsk Ð** bndr bndr nesngrdlv nesngr neveik.r bût.kart.l neávardþ vyr.gimdgsk Vlauþyti** dktv dktv vyr.gim vnsk Ð** bndr bndr nesngrdlv nesngr neveik.r bût.kart.l neávardþ vyr.gimdgsk Vkrikðtytis** dktv dktv vyr.gim vnsk V** bndr bndr sngrginèytis** dktv dktv vyr.gim vnsk V** bndr bndr sngrYra – bûna – bûvaVeiksmaþodis bûti, Lemuoklio þiniomis, galiturëti tris skirtingas paradigmas: 1) bûti–yra–buvo, 2) bûti–bûna–buvo ir 3) bûti–bûva–buvo.Tokiu bûdu kaitybinës bûti formos, ið kuriønesimato, kuriai paradigmai jos priklausytø(t. y. ið kuriø negalima spræsti apie esamojolaiko formà), gali priklausyti bet kuriai ið ðiøtrijø lemø: 1) bûti(yra, buvo), 2) bûti(-ûna, –uvo) ir 3) bûti(–ûva, –uvo). Tokiems atvejams,kada ið lemuojamos veiksmaþodþio bûti formosapie esamojo laiko formà spræsti negalima,Lemuoklyje numatyta galimybë pateiktitik pirmàjà bûti lemà, ignoruojant dvi kitasteoriðkai ámanomas.„Pagal nutylëjimà” (2) ir (3) lemos tokiaisatvejais nepateikiamos, pavyzdþiui:bûti** bndr bndr nesngrdlv nesngr neveik.r bût.kart.l neávardþ vyr.gimdgsk V** bdvr bdvr nelygin.l neávardþ vyr.gim dgsk Vyra** bndr vksm nesngr tiesiog.nuos esam.l IIIasm** bndr vksm nesngr tiesiog.nuos esam.l IIIasmbuvæsbndr dlv nesngr veik.r bût.kart.l neávardþ vyr.gim vnsk VNe „pagal nutylëjimà” tokiais atvejais pateikiamosvisos trys bûti lemos:bûti** bndr bndr nesngrdlv nesngr neveik.r bût.kart.l neávardþ vyr.gimdgsk V** bndr bndr nesngrdlv nesngr neveik.r bût.kart.l neávardþ vyr.gimdgsk V** bndr bndr nesngrdlv nesngr neveik.r bût.kart.l neávardþ vyr.gimdgsk Vyra** bndr vksm nesngr tiesiog.nuos esam.l IIIasm** bndr vksm nesngr tiesiog.nuos esam.l IIIasmbuvæs** bndr


268 KOMPIUTERINËS PROGRAMOSdlv nesngr veik.r bût.kart.l neávardþ vyr.gimvnsk V** bndr dlv nesngr veik.r bût.kart.l neávardþ vyr.gimvnsk V** bndr dlv nesngr veik.r bût.kart.l neávardþ vyr.gimvnsk VÞodelyèiaiIð keliø þodþiø sudarytø junginiø, kurie áDLKÞ þodynà átraukti kaip savarankiðki leksiniaivienetai, <strong>Lemuoklis</strong> nelemuoja. Aptikæstekste tokius þodþiø junginius kaip kaþi(n)kas, ið anksto, <strong>Lemuoklis</strong> lemuoja atskiraikaþi(n), atskirai kas, atskirai ið, atskiraianksto. Taip yra dël to, kad <strong>Lemuoklis</strong>, kaipjau minëta, kol kas apskritai teksto þodþiøformas lemuoja tik autonomiðkai po vienà.Visokiø smulkiø þodelyèiø lemavimà apsunkinatai, kad, viena vertus, dauguma jøpriklauso daþniausiai vartojamø kalbos þodþiøkategorijai, o kita vertus, tokie þodelyèiaidaþnai gali turëti kelias kalbos dalies kategorijas.Pavyzdþiui, þodynas DLKÞ 1972 nurodo,kad þodelyèiai ir, èia, kaip gali eiti dalelyte,jungtuku arba prieveiksmiu; þodelyèiailig, ligi – dalelyte, jungtuku ir prielinksniu;þodelyèiai jau, vis – dalelyte ir prieveiksmiu,þodelyèiai nors, ne, lyg – dalelyte ir jungtuku.Lemuoklio prototipas MAN, naudotas rengiant„Daþniná dabartinës raðomosios lietuviøkalbos þodynà” (DDRLKÞ, 1997:X ir1998:XII), toká þodelyèiø kalbos dalies daugiareikðmiðkumàiðsprendë trimis gana grieþtomistaisyklëmis:1) Þodelyèius jau, dar, vël, beveik, ypaè, vis,kaþin, kaþi traktavo tik kaip dalelytes. Atkreipsimedëmesá, kad dar, vël, beveik, ypaè áþodynà (DLKÞ, 1972) átraukti tik kaip prieveiksmiai.2) Þodelyèiø ir, èia, kaip netraktavo kaipprieveiksmiø.3) Visais kitais þodelyèiø kalbos dalies nevienareikðmiðkumoatvejais kalbos dalies kategorijaparenkama ðitaip:– jei þodelytis gali bûti ir prieveiksmis, irdalelytë, paliekama tik dalelytë,– jei þodelytis gali bûti ir prielinksnis, irdalelytë, paliekamas tik prielinksnis,– jei þodelytis gali bûti ir prieveiksmis, irprielinksnis, paliekamas ir tas, ir tas.Ðià pastaràjà (3) taisyklæ taiko ir <strong>Lemuoklis</strong>„pagal nutylëjimà”.Þodelyèiø ir, èia, kaip, jau, vis lemavimas„pagal nutylëjimà”:ir** dll ** jngt èia** dll ** jngt kaip** dll ** jngt jaudll visdll Þodelyèiø ir, èia, kaip, jau, vis lemavimasne „pagal nutylëjimà”:ir** prvks ** dll ** jngt èia** prvks ** dll ** jngt kaip** prvks ** dll ** jngt jau** prvks ** dll vis** prvks ** dll SuRaidþiø sekà su <strong>Lemuoklis</strong> atpaþásta ir kaipprielinksná, ir kaip daiktavardá (su: prancûzøsmulkûs pinigëliai).„Pagal nutylëjimà” su negali bûti daiktavardis:suprln prlnLemuojant ne „pagal nutylëjimà”:su** dktv dktv vyr.gim** prln prln


Vytautas ZinkevièiusLEMUOKLIS – MORFOLOGINEI ANALIZEI269IðRaidþiø sekà ið <strong>Lemuoklis</strong> atpaþásta ir kaipprielinksná, ir kaip veiksmaþodþio bûsimàjálaikà nuo iþti.„Pagal nutylëjimà” ið negali bûti veiksmaþodþiu:iðprln prlnLemuojant ne „pagal nutylëjimà”:ið** bndr vksm nesngr tiesiog.nuos bûs.l IIIasm** prln prlnNorsRaidþiø sekà nors <strong>Lemuoklis</strong> atpaþásta irkaip dalelytæ/jungtukà, ir kaip veiksmaþodþiobûsimàjá laikà nuo norti.„Pagal nutylëjimà nors visada dalelytë arbajungtukas:nors** dll dll** jngt jngtLemuojant ne „pagal nutylëjimà”:nors** bndr vksm nesngr tiesiog.nuos bûs.l IIIasm** dll dll** jngt jngtMano, tavo, savoFormas mano, tavo, savo <strong>Lemuoklis</strong> atpaþástadvejopai: 1) kaip savybiniø ávardþiø kilmininkus;antraðtiniai pavidalai atitinkamaibûtø mano tavo savo; 2) kaip ávardþiø vyriðkosiosgiminës vienaskaitos kilmininkus; antraðtiniaipavidalai atitinkamai bûtø manas tavassavas.„Pagal nutylëjimà” <strong>Lemuoklis</strong> ignoruoja (2)variantà ir palieka tik pirmàjá:savoávrd ávrd KLemuojant ne „pagal nutylëjimà”:savo** ávrd ávrd neávardþ vyr.gim vnsk K** ávrd ávrd KMûsaiRaidþiø sekà mûsø <strong>Lemuoklis</strong> atpaþásta netik kaip ávardá, bet ir kaip daiktavardþio kilmininkà(yra tokie mûsai).„Pagal nutylëjimà” tokiais atvejais mûsøtik ávardis:mûsøávrd ávrd dgsk KLemuojant ne „pagal nutylëjimà”:mûsø** ávrd ávrd dgsk K** dktv dktv vyr.gim dgsk KMûsasRaidþiø sekà mûsø <strong>Lemuoklis</strong> atpaþásta netik kaip ávardþio að formà, bet ir kaip ávardþiomûsas (kaip tavas, manas) formà.„Pagal nutylëjimà”, jei <strong>Lemuoklis</strong> aptinka,kad þodþio formos lema gali bûti arba ávardisað arba ávardis mûsas, tai palieka tik lemàað:mûsøávrd ávrd dgsk KLemuojant ne „pagal nutylëjimà”:mûsø** ávrd ávrd dgsk K** ávrd ávrd neávardþ vyr.gim dgsk Kávrd neávardþ mot.gim dgsk KPatsPats gali bûti ir ávardis, ir daiktavardis.„Pagal nutylëjimà” <strong>Lemuoklis</strong> lemà–daiktavardáignoruoja:patsávrd ávrd neávardþ vyr.gim vnsk VLemuojant ne „pagal nutylëjimà”:pats** dktv dktv vyr.gim vnsk V** ávrd ávrd neávardþ vyr.gim vnsk V


270 KOMPIUTERINËS PROGRAMOSVistiGana reto veiksmaþodþio visti (vysta, viso)kai kurios bûtojo kartinio ir bûsimojo laikoformos savo ortografine iðraiðka sutampa suþymiai daþnesniais ávardþiu, prieveiksmiu irdalelyte visi, visai, vis.„Pagal nutylëjimà” visi, visai vis negali bûtiveiksmaþodþiu, pavyzdþiui:visai** ávrd ávrd mot.gim vnsk N** prvks prvksLemuojant tà patá visai ne „pagal nutylëjimà”:visai** ávrd ávrd mot.gim vnsk N** bndr vksm nesngr tiesiog.nuos bût.kart.l vnsk IIasm** prvks prvksViskà„Pagal nutylëjimà” viskà – visada ávardis,ignoruojant, kad gali bûti ir esamojo laikodalyvis nuo viskëti:viskàávrd ávrd GLemuojant ne „pagal nutylëjimà”:viskà** ávrd ávrd G** bndr dlv nesngr veik.r esam.l neávardþ vyr.gim dgsk Vdlv nesngr veik.r esam.l neávardþ bevrd.gimAbuÞodþio formai abu <strong>Lemuoklis</strong> nustato tieklemà skaitvardá, tiek lemà daiktavardá (þr.TÞÞ, 1985 – abu: [arab. tëvas], musulmonøðalyse – valdytojas, turto turëtojas).„Pagal nutylëjimà” daiktavardis abu ignoruojamas:abusktv sktv kiekin vyr.gim dvisk Vsktv kiekin vyr.gim dvisk GLemuojant ne „pagal nutylëjimà”:abu** sktv sktv kiekin vyr.gim dvisk Vsktv kiekin vyr.gim dvisk G** dktv dktv vyr.gimPARENKAMIEJI (OPCINIAI)LEMAVIMO PARAMETRAILemavimo parametrais Lemuokliui nurodoma,kaip lemuoti tam tikrø specifiniø kategorijølietuviðkas þodþiø formas. Ðie nurodymaigali bûti keièiami (parenkami) pagalporeikius. Kol kas ðiems parametrams priskirtosjø reikðmës „pagal nutylëjimà”, ir naudotojaijø keisti neturi galimybës. Kitose Lemuoklioversijose prieð lemuojant naujà failàðiuos parametrus bus galima kaitalioti.Kandidatai á romëniðkus skaitmenisKandidatais á romëniðkus skaitmenis èia pavadintossimboliø sekos, susidedanèios vienið didþiøjø raidþiø V, I ir X. <strong>Lemuoklis</strong> galitokias raidþiø sekas ignoruoti – nelaikyti jøþodþiø formomis, jø nelemuoti ir neraðyti árezultatø failà. „Pagal nutylëjimà” kandidatusá romëniðkus skaitmenis <strong>Lemuoklis</strong> ignoruoja.Pavyzdþiui, jei parametras bus nustatytas„neignoruoti” (ne „pagal nutylëjimà”),tai raidþiø sekà XII <strong>Lemuoklis</strong> sulemuosðitaip:XIIJei parametras nustatytas „ignoruoti”, kaipkad yra „pagal nutylëjimà”, tai, aptikæs tokiàraidþiø sekà, <strong>Lemuoklis</strong> jos netraktuos kaipgalimos þodþio formos ir todël ið viso nelemuos.Veikslo kategorijos uþtuðavimasVeiksmaþodþiø veikslas lietuviø kalboje morfologinësraiðkos neturi. DLKÞ þodynuoseveikslas daugumai veiksmaþodþiø nenurodomas,ir tai savaime suprantama. Daugelisveiksmaþodþiø gali turëti ir eigos, ir ávykioveikslo reikðmes. Be to, tas pats veiksmaþodisesamajame laike gali bûti eigos veikslo, obûtajame – ávykio, plg. ateina–atëjo, laimi–laimëjo(DLKG, 1997:288–290). Dël ðiø veikslosavybiø <strong>Lemuoklis</strong>, lemuodamas kiekvienàþodþio formà atskirai, veiksmaþodþio formøveikslà nustato nepatikimai. Todël Lemuok-


Vytautas ZinkevièiusLEMUOKLIS – MORFOLOGINEI ANALIZEI271lyje yra numatyta galimybë lemuojant veikslokategorijà ignoruoti, tas ir daroma pagalnutylëjimà.Jei nusprendþiama neignoruoti, tai veikslokategorijà <strong>Lemuoklis</strong> bando nustatyti ganamechaniðkai, pavyzdþiui, visiems prieðdëliniamsveiksmaþodþiams priskirdamas ávykioveikslà ir pan.Þemiau pateikiamas þodþiø formø susiklostant,nutraukti, puolë, verþimusi dvejopas lemavimas.„Pagal nutylëjimà” veikslas ignoruojamas:susiklostantbndr padlv sngr esam.lnutrauktibndr bndr nesngrdlv nesngr neveik.r bût.kart.l neávardþ vyr.gimdgsk Vpuolëbndr vksm nesngr tiesiog.nuos bût.kart.l IIIasmverþimusidktv dktv sngr vyr.gim vnsk ÁnJei veikslas neignoruojamas (ne „pagal nutylëjimà”):susiklostantbndr padlv ávykio vksl sngr esam.lnutrauktibndr bndr ávykio vksl nesngrdlv ávykio vksl nesngr neveik.r bût.kart.l neávardþvyr.gim dgsk Vpuolëbndr vksm eigos vksl nesngr tiesiog.nuos bût.kart.lIIIasmverþimusidktv dktv eigos vksl sngr vyr.gim vnsk ÁnNeávardþiuotinumo, nelyginamojolaipsnio, nesangràþiðkumo ir tiesioginësnuosakos uþtuðavimasLemuoklio gramatiniuose apibûdinimuose pateikiamainformacija apie nelyginamàjá laipsná,tiesioginæ nuosakà, neávardþiuotinæ ar nesangràþinæformas gali pasirodyti bereikalinga,perteklinë. <strong>Lemuoklis</strong> gali ðià informacijàuþtuðuoti. Tada ávardþiuotinumo poþymis busnurodomas tik ávardþiuotinëms formoms, laipsniokategorija – tik laipsná turinèioms formoms,sangràþiðkumas – tik sangràþinëms formomsir nuosakos kategorija – tik tariamosios ir liepiamosiosnuosakos formoms. „Pagal nutylëjimà”toks gramatiniø reikðmiø ir poþymiøuþtuðavimas neatliekamas.Pavyzdþiui, Virvelinës, bûdavo lemavimas„pagal nutylëjimà”:Virvelinësbdvr bdvr nelygin.l neávardþ mot.gim vnsk Kbdvr nelygin.l neávardþ mot.gim dgsk Vbûdavobndr vksm nesngr tiesiog.nuos bût.d.l IIIasmTø paèiø þodþiø formø lemavimas ne „pagalnutylëjimà”, ignoruojant:Virvelinësbdvr bdvr mot.gim vnsk Kbdvr mot.gim dgsk Vbûdavobndr vksm bût.d.l IIIasmVisais kitais parenkamais parametrais Lemuokliuiuþduodami lemavimo daugiaprasmiðkumomaþinimo metodø naudojimo reþimai.Ðie parametrai apraðyti ankstesniajameskyrelyje „Lemavimo daugiaprasmiðkumomaþinimas”.TECHNINËS LEMUOKLIOCHARAKTERISTIKOS<strong>Lemuoklis</strong> skirtas IBM tipo personaliniamskompiuteriams, kuriuose ádiegta MicrosoftWindows NT, Windows 95 ar aukðtesnës versijos32 bitø operacinë sistema. Lemuoklá sudarotrys kompiuteriniai failai: programa (45KB exe tipo failas), lemavimui reikalingø programiniøfunkcijø biblioteka (400 KB dll tipofailas) ir lietuviø kalbos leksikos bei gramatikosduomenø bazë (2 MB lex tipo failas).Lemavimo greitis daugiausia priklauso nuokompiuterio procesoriaus greièio, taip pat ðiektiek nuo pasirinkto lemavimo reþimo (ar nustatomtik lemuojamø þodþiø formø antraðtiniuspavidalus, ar ir formø gramatinius apibûdinimus).Þemiau pateikiamas Lemuoklio lemavimogreitis, iðmatuotas lemuojant ávairius tekstustrim skirtingo galingumo kompiuteriais:


272 KOMPIUTERINËS PROGRAMOS1. Procesorius Intel Pentium (100 MHz), 64MB RAM: 13–17 tûkst. þodþiø formø per minutæ;2. Procesorius Intel PII 233MMX (233 MHz),96 MB RAM: 18–20 tûkst. þodþiø formø perminutæ;3. Procesorius ATX Intel Celeron (433 MHz),64 MB RAM: 30–32 tûkst. þodþiø formø perminutæ.LEMUOKLIO TOBULINIMOPERSPEKTYVOSKuriant ðià pirmàjà Lemuoklio versijà, stengtasikuo greièiau turëti realiai dirbantá produktà.Kai kuriais techniniais aspektais programaliko ne iki galo iðbaigta, ir jos praktinisnaudojimas sukelia tam tikrø nepatogumø.<strong>Lemuoklis</strong> dar neturi instaliavimo dalies.Norëdamas ádiegti Lemuoklá kompiuteryje,vartotojas turi pats rankiniu bûdu sukurtireikiamus katalogus kompiuterio kietajamediske ir ten áraðyti Lemuoklio failus,taip pat patikrinti, ar kompiuterio Windowssistemoje netrûksta sisteminiø failø, kurie bûtiniLemuoklio funkcionavimui, ir pan. Paleidusfailo lemavimo uþduotá, <strong>Lemuoklis</strong> dirba,kol sulemuoja visà failà, sustabdyti arnutraukti ðá procesà dabartinëje versijoje vartotojasneturi galimybiø. Ðiuos ir kitus panaðiustechninius Lemuoklio neiðbaigtumusnaujose versijose galima lengvai paðalinti.Kaip minëta, lemuojamuose tekstuose <strong>Lemuoklis</strong>atpaþásta tik nekirèiuotas raides, beto, nemoka sujunti perkeltøjø þodþio daliø ávienà þodá. Ðias problemas ateityje taip patnesunku iðspræsti. Kiek sudëtingiau bûtø Lemuokláiðmokyti lemuoti ávairesnius failus,pvz., doc tipo ar failus, paruoðtus duomenøbaziø valdymo sistemø priemonëmis. Galbûttokiø Lemuoklio sugebëjimø kol kas nelabaiir reikia – juk visada galima norimàtekstà perraðyti vadinamuoju gryno teksto(text–only) formatu, kurá <strong>Lemuoklis</strong> supranta.Lemavimo rezultatø pateikimo srityje nesunkiaigalima realizuoti galimybæ vartotojuipaèiam laisvai pasirinkti jam priimtinusgramatinius þymëjimus, taip pat lemavimorezultatø áraðymà ne tik gryno teksto pavidalu,bet ir HTML bei SGML formatais. Ateityje,praktiðkai eksploatuojant Lemuoklá, beabejo, gali kilti minèiø ir apie kitokius panaðauspobûdþio Lemuoklio patobulinimus.Didþiausias Lemuoklio lingvistiniø sugebëjimøtrûkumas yra lemavimo nevienareikðmiðkumas.Atsiradus kompiuterinëms technologijoms,manipuliuosianèioms nors ir paèiomispaprasèiausiomis lietuviðkø þodþiø derinimojø junginiuose taisyklëmis, bûtø galimaþymiai sumaþinti lemavimo pertekliná daugiaprasmiðkumà.Kol kas tokios technologijosdar nesukurtos. Autoriaus nuomone, norintsukurti pakankamai galingas sakiniø sintaksinësstruktûros kompiuterinës analizëspriemones, bus tiesiog bûtina ádiegti kompiuteriuisugebëjimà ortografinëse þodþiø formoseatpaþinti visas teoriðkai ámanomas gramatineshomoformas. <strong>Lemuoklis</strong> GF su þodynuir remdamasis morfologija, pagalba tàdaro jau dabar. Taigi lemavimo daugiaprasmiðkumas,kuris dabar gali bûti traktuojamaskaip trûkumas, ateities lietuviø raðytinëskalbos kompiuterinës analizës sistemoseiðvirs á privalumà.Lemuoklio kalbiniø þiniø bazë ateityje turëtøbûti perdirbta, paliekant vienà kompiuterináþodynà – leksikonà. Ðio þodyno kompiuterinæmorfologijà reikëtø papildyti galûniønutrumpëjimo reiðkiniais, tikriniø daiktavardþiøkaityba ir daryba, taip pat paðalintidabar joje esanèius trûkumus. Toks kompiuterinësmorfologijos pertvarkymas negalibûti ir nëra greitai padaromas dalykas. DabarGF morfologijos kartotekiná variantà sudaroapie 6000 korteliø, kuriose yra apie 60tûkst. skaitmenø. Visa ði kartoteka modifikuojantmorfologijà turi bûti atitinkamai perskaièiuotair pernumeruota, jos duomenysperraðyti á atitinkamus failus ir tik po to jaugalima specialia programine áranga sugeneruotinaujà kompiuterinæ morfologijà. TaigiLemuoklio morfologiniø þiniø bazës modernizavimasgali ir uþtrukti.Straipsnyje trumpai supaþindinta su kompiuteriniomanipuliavimo lietuviðkø þodþiøgramatinëmis formomis galimybëmis ir problematika.Ðios galimybës ir problematika aptartosþodþiø lemavimo aspektu. Kompiuterinislemavimas daugiausia turbût taikomastekstynø lingvistikoje kalbos tyrinëjimams.Taèiau automatiðka þodþiø formø gramatinëanalizë bei sintezë reikalinga, be abejo, netik tekstynø lingvistikai. Ðiuo metu pasaulyjeintensyviai kuriamos naujos informacinës


Vytautas ZinkevièiusLEMUOKLIS – MORFOLOGINEI ANALIZEI273technologijos, kurioms tokia analizë bei sintezëyra bûtina. Tai maðininio vertimo, bendravimosu kompiuteriais natûralia kalba,teksto supratimo bei informacijos ið jo gavimo,garsinës kalbos atpaþinimo bei sintezavimoir kitos panaðios technologijos. Lemuoklyjeádiegtas leksikos ir morfologijos þiniøkompiuterizavimas, autoriaus nuomone, galibûti panaudotas ir kuriant tokias technologijaslietuviø kalbai.LITERATÛRAAUTASYS – AUTASYS – A Fully Automatic EnglishWordclass Analysis System. Interneto puslapioadresas http://www.phon.ucl.ac.uk/home/alex/project/tagging/tagging.htmBûda, 1994 – Bûda V. P. Sudurtiniai ir prieðdëlinësdarybos þodþiai su tarptautiniais dëmenimis.Vilnius, 1994.DDRLKÞ, 1997 – Grumadienë L., Þilinskienë V.Daþninis dabartinës raðomosios lietuviø kalbosþodynas (maþëjanèio daþnio tvarka). Vilnius,1997.DDRLKÞ, 1998 – Grumadienë L., Þilinskienë V.Daþninis dabartinës raðomosios lietuviø kalbosþodynas (abëcëlës tvarka). Vilnius, 1998.DLKG, 1994 – Dabartinës lietuviø kalbos gramatika.Vilnius, 1994.DLKG, 1996 – Dabartinës lietuviø kalbos gramatika/ Antrasis pataisytas leidimas. Vilnius, 1996.DLKG, 1997 – Dabartinës lietuviø kalbos gramatika/ Treèiasis pataisytas leidimas. Vilnius, 1997.DLKÞ, 1972 – Dabartinës lietuviø kalbos þodynas/ II papildytas leidimas. Vilnius, 1972.EUSLEM – EUSLEM. A lemmatiser/tagger for Basque.Interneto puslapis adresu http://ixa.si.ehu.es/ingeles/dokument/EUSLEM.htmlKaplan, 1988 – Kaplan R. M. “Regular modelsof phonological rule systems”. Alvey Workshopon Parsing and Pattern Recognition. OxfordUniversity, April 1988.Koskenniemi, 1983 – Koskenniemi K. Two-LevelMorphology: A General Computational Modelfor Word-Form Recognition and Production.University of Helsinki, Department of GeneralLinguistics. Publication No. 11. 1983.LexMorphDemo – LexMorphDemo: Kompiuterinëprograma, demonstruojanti automatiðkà lietu-viðkø kaitybiniø þodþiø formø morfologinæ analizæir sintezæ. Interneto puslapis adresu http://donelaitis.vdu.lt/LexMorphDemoLKG, 1965 – Lietuviø kalbos gramatika. I tomas.Fonetika ir morfologija (daiktavardis, bûdvardis,skaitvardis, ávardis). Vilnius, 1965.LKG, 1971 – Lietuviø kalbos gramatika. II tomas.Morfologija (veiksmaþodis, prieveiksmis, dalelytë,prielinksnis, jungtukas, jaustukas, iðtiktukas).Vilnius, 1971.LKRÞ, 1948 – Lietuviø kalbos raðybos þodynas.Vilnius, 1948.Marcinkevièienë, 1997 – Marcinkevièienë R.„Tekstynø lingvistika ir lietuviø kalbos tekstynas”.Lituanistica, 1997. Nr. 1. 58–78 p.Marcinkevièienë, 2000 – Marcinkevièienë R.„Terminografija ir tekstynas”. Terminologija,2000. Nr. 6. 5–22 p.Ritchie, 1992 – Ritchie Graeme D. “LanguagesGenerated by Two-level Morphological Rules”.Computational Linguistics. 1992, 18,1:41–59.SphinxSurvey – SphinxSurvey – Lemmatizer Module.Interneto puslapis adresu http://www.lesphinx–developpement.fr/en/Products/Lemmatizer.htmTÞÞ, 1985 – Tarptautiniø þodþiø þodynas. Vilnius,1985.Zinkevièius, 1996 – Zinkevièius V. „Lietuviøkalbos morfologiniø reiðkiniø kompiuterizavimas”.Lietuviø katalikø mokslo akademijos suvaþiavimodarbai. 1996. XVI tomas, 155–162 p.Zinkevièius, 1996* – Zinkevièius V. „Lietuviøkalbos morfologiniø reiðkiniø kompiuterizavimolingvistiniai aspektai”. Lietuviø katalikømokslo akademijos suvaþiavimo darbai. 1996. XVItomas, 148–154 p.Gauta 2000 10 12Parengta 2000 10 19Vytautas ZINKEVIÈIUSMORPHOLOGICAL ANALYSIS WITH LEMUOKLISAbstract<strong>Lemuoklis</strong> is a morphological analyzer, lemmatizerand tagger for Lithuanian. It assigns its lemma (orseveral hypothetical lemmas) to each token in atext and performs its morphological analysis. Aword form is characterized grammatically by acombination of properties with respect to 13 categories:part of speech, aspect, reflexiveness, voice,mood, tense, group, degree, definiteness, gender,18


274 KOMPIUTERINËS PROGRAMOSnumber, case and person. The program processesover 30,000 tokens per minute on ATX Intel Celeron(433 MHz, 64 MB RAM).The database of lexical and grammatical informationof the program consists of six lexicons. Alllexicons are organized as letter trees with someinformation on the leaf nodes of the trees. Three ofthe lexicons store roots of Lithuanian words withthe pointers to appropriate morphological rules.Two other lexicons store word forms without anymorphological information. The last lexicon containsa list of abbreviations and acronyms.In <strong>Lemuoklis</strong>, morphological rules are expressedin the form of digital tables. The tables representgraph structures that define both collectionsof affixes and collections of grammatical properties.Using morphological rules together with word–root lexicons enables us to analyse milliards oftheoretically available Lithuanian written forms.In case when a surface form is homonymous, i. e.it has several grammatical meanings, the programmegives a full grammatical characteristic for eachpossible homoform of the surface form. The authorviews grammatical disambiguation of formsas the subject of syntactic analysis which has notbeen performed so far. However, some methodsare used to reduce the ambiguity without takinginto account the context. Algorithm of disambiguationbetween diminutive nouns that have the inflectionalending –yti(s) and the respective verbal infinitiveforms are presented. The disambiguationbetween proper and common nouns is performedusing special lexicons that contain proper nounforms from Lithuanian corpora and other sources.Forms with shortened endings are quite commonin Lithuanian texts. These forms are recognized in<strong>Lemuoklis</strong> by means of special lexicons that primarilywere designed for the needs of Lithuanianspell–checking. The article gives a lot of examplesof various categories of Lithuanian word formstagged and lemmatized with <strong>Lemuoklis</strong>.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!