Záverečná správa - Slovenský národný korpus - SAV
Záverečná správa - Slovenský národný korpus - SAV
Záverečná správa - Slovenský národný korpus - SAV
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Komplexné spracovanie slovenského jazyka a jeho elektronizácia na účely jazykovedného výskumu<br />
jazyka (analyzátor a generátor tvarov slovenského jazyka, morfologický lematizátor, anotátor<br />
a dezambiguátor).<br />
Rok 2008<br />
Vybudovanie paralelného <strong>korpus</strong>u slovensko-českého a česko-slovenského v rozsahu min. 5<br />
mil. textových jednotiek pre potreby koncipovania prekladového slovníka a porovnávacích<br />
výskumov. Vytvorenie príslušných nástrojov na zarovnávanie textov, automatizované<br />
označkovanie oboch textov a ich efektívne využívanie.<br />
Vytvorenie slovenského elektronického slovníka WordNet a integrácia do projektu<br />
EuroWordNet (sémantický slovník viacerých európskych jazykov).<br />
Rok 2009<br />
Vytvorenie Frekvenčného slovníka súčasnej slovenčiny a Retrográdneho slovníka súčasnej<br />
slovenčiny na báze <strong>korpus</strong>u písaných textov.<br />
Prvá verzia Slovenskej terminologickej databázy.<br />
13. Závery a odporúčania vyplývajúce z riešenia úlohy<br />
Riešiteľský kolektív splnil úlohu vytvoriť <strong>národný</strong> <strong>korpus</strong> slovenského jazyka v dostatočne<br />
širokom rozsahu a zábere, lingvisticky anotovaný a vybavený výkonnými vyhľadávacími<br />
nástrojmi, nástrojmi na indexáciu a kategorizáciu textových dokumentov, nástrojmi na<br />
štatistickú analýzu (rôzne štatistické údaje sú priamo dostupné na stránke <strong>korpus</strong>u) a obsahujúci<br />
aj špecifické súčasti (ručne morfologicky a syntakticky anotované pod<strong>korpus</strong>y, paralelné<br />
<strong>korpus</strong>y, databázu lexikografických diel a lingvistických zdrojov). Korpus poskytuje bohatý<br />
výskumný a výučbový materiál pre oblasť lingvistiky a počítačového spracovania prirodzeného<br />
jazyka – každý rok je okolo 200 registrovaných používateľov z rôznych vedecko-výskumných<br />
domácich i zahraničných pracovísk, bežná návštevnosť najmä lingvistických zdrojov dosahuje<br />
priemerne už približne 10 000 prístupov denne. Korpus slúži ako referenčná materiálová báza<br />
na tvorbu nového 8-zväzkového slovníka súčasnej slovenčiny a na aktualizáciu praktických<br />
jazykových príručiek. V rámci grantov VEGA sa na ňom realizovali a realizujú viaceré<br />
výskumy s výstupmi v oblasti gramatiky a lexikológie slovenského jazyka. Cenným prínosom<br />
bolo aj vytvorenie širšieho okruhu spolupracovníkov, najmä spomedzi študentov a absolventov<br />
slovenského jazyka z viacerých vysokých škôl na Slovensku. Niektoré výsledky sa však mohli<br />
dosiahnuť efektívnejšie a mohli byť kvalitnejšie i výraznejšie zapojené do medzinárodného<br />
kontextu v prípade posilnenia základného kolektívu aspoň o dvoch stálych zamestnancov.<br />
Napriek istým obmedzeniam a problémom s priebežným financovaním riešenia úlohy<br />
štátneho programu výskumu a vývoja Komplexné spracovanie slovenského jazyka a jeho<br />
36