Záverečná správa - Slovenský národný korpus - SAV
Záverečná správa - Slovenský národný korpus - SAV
Záverečná správa - Slovenský národný korpus - SAV
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Komplexné spracovanie slovenského jazyka a jeho elektronizácia na účely jazykovedného výskumu<br />
čítačových termínov. Hoci sa novovybudované pracovné priestory ukazovali ako kapacitne<br />
nedostačujúce, v r. 2003 sa ich z finančných dôvodov nepodarilo rozšíriť.<br />
Koncepcia komplexného počítačového spracovania vybraných textov súčasného sloven-<br />
ského jazyka a postupnej elektronizácie jazykovedného výskumu na Slovensku bola vypracova-<br />
ná, prednesená a prediskutovaná na pôde JÚĽŠ <strong>SAV</strong> i na medzinárodnej konferencii a zverejne-<br />
ná vo viacerých publikačných výstupoch (Šimková, 2003; Šimková, 2004; presná bibliografia<br />
sa nachádza v časti 8 tejto správy). Dostupná je aj na www stránke SNK (http://<strong>korpus</strong>.juls.sav-<br />
ba.sk/publications/index.sk.html). Súčasťou koncepcie bola stratifikácia textov v Slovenskom<br />
národnom <strong>korpus</strong>e na základe sociolingvistickej analýzy štýlovo-žánrovej distribúcie textov<br />
súčasného slovenského jazyka opretej o analýzy spojené s prípravou viaczväzkového výklado-<br />
vého slovníka slovenského jazyka a podobné výskumy a skúsenosti Ústavu Českého národného<br />
<strong>korpus</strong>u. Začalo sa s prípravou vlastného tagsetu (súboru značiek a pravidiel) na ručnú morfolo-<br />
gickú anotáciu (Forróová – Garabík – Gianitsová – Horák – Šimková, 2003; http://<strong>korpus</strong>.jul-<br />
s.savba.sk/publications/index.sk.html).<br />
Zber a spracúvanie dát prebiehalo podľa plánu a v súlade s kapacitnými možnosťami<br />
pracoviska z hľadiska personálneho aj technického zabezpečenia. Na internete bolo koncom<br />
roka 2003 sprístupnených takmer 170 miliónov slov (porov. prehľad verzií SNK v 3.2.2), čo<br />
umožňovalo uspokojivú prácu lexikografom i bežným záujemcom o slovenský jazyk. Boli sprí-<br />
stupnené v podstate všetky v tom čase spracované dáta s kompletnou bibliografickou a štýlovo-<br />
žánrovou anotáciou, ale bez výberu a vyváženosti štýlov a žánrov. Na vytvorenie reprezentatív-<br />
neho <strong>korpus</strong>u nebolo k dispozícii dostatočné množstvo textov z rôznych oblastí – najviac chý-<br />
bala odborná literatúra z technických a prírodovedných oblastí.<br />
Odborná náplň stanovených cieľov bola v r. 2003 splnená aj napriek oneskorenému ofi-<br />
ciálnemu začiatku riešenia úlohy a personálnym zmenám v riešiteľskom kolektíve. Osobitným<br />
príspevkom programátorov oddelenia SNK bolo sprístupnenie elektronickej verzie najnovšieho<br />
vydania Krátkeho slovníka slovenského jazyka na internete a tvorba a sprístupnenie paralelného<br />
<strong>korpus</strong>u počítačových termínov na stránke SNK.<br />
3.1.2. V r. 2004 bol <strong>Slovenský</strong> <strong>národný</strong> <strong>korpus</strong> poskytnutý používateľom v ďalšej verzii<br />
(182 mil. tokenov; porov. prehľad v 3.2.2) so spresnenou tokenizáciou a štýlovo-žánrovou<br />
anotáciou, s úspešne realizovanou lematizáciou a interne testovanou morfologickou anotáciou<br />
uskutočnenou plne automatizovane na báze softvéru z Matematicko-fyzikálnej fakulty UK v<br />
Prahe. Súčasne sa prepracúval vlastný morfologický tagset, vyvíjali a zdokonaľovali sa nástroje<br />
na anotovanie a prebiehala manuálna morfologická anotácia – zanotovalo sa takmer 100 tisíc<br />
tokenov. V rámci spoločného projektu s MFF UK Praha sa testovala možnosť konverzie medzi<br />
4