Slovenčina a čeština v počítačovom spracovaní - Slovenský národný ...

VEDA 

VYDAVATEĽSTVO SLOVENSKEJ AKADÉMIE VIED

JAZYKOVEDNÝ ÚSTAV ĽUDOVÍTA ŠTÚRA SLOVENSKEJ AKADÉMIE VIED 

PEDAGOGICKÁ FAKULTA UNIVERZITY KOMENSKÉHO 

RECENZENTI 

Ing. Vladimír Benko 

PhDr. Mária Šimková

S L O V E N Č I N A 

A Č E Š T I N A 

V P O Č Í T A Č O V O M 

S P R A C O V A N Í 

VEDA 

vydavateľstvo 

Slovenskej 

akadémie 

vied 

Bratislava 2001 

Zborník referátov zo seminára 

Bratislava 26. – 27. októbra 2001 

EDITORKA 

ALEXANDRA JAROŠOVÁ

© Vladimír Benko, František Čermák, Sachia Daržágín, Peter Ďurčo, Karol 

Furdík, Jan Hajič, Jana Hašanová, Jozef Ivanecký, Alexandra Jarošová, 

Eduard Kostolanský, Ľubomír Kralčák, Vlasta Křečková, Michal Křen, 

Karel Pala, Milan Rusko, Pavel Smrž, Marián Trnka 2001. 

Tento zborník je jedným z výsledkov účasti Jazykovedného ústavu Ľudovíta Štúra 

Slovenskej akadémie vied a Pedagogickej fakulty Univerzity Komenského v 

mnohonárodnom projekte Transeurópska infraštruktúra jazykových zdrojov II 

(Trans--European Language Resources Infrastructure II – TELRI II, PL 97- 

7085), ktorý sa ako súbor koordinovaných podujatí (coordinated action) 

uskutočnil v rámci programu Európskej komisie INCO-COPERNICUS v 

rokoch 1999 – 2001. Aktivity slovenských partnerov v tomto projekte boli čiastočne 

financované z prostriedkov štátneho rozpočtu Slovenskej republiky (grant 

SAV pridelený na riešenie projektu medzinárodnej vedecko-technickej spolupráce 

č. 51-98-9205-00/1999 a grant Ministerstva školstva Slovenskej republiky 

č. PL 97-7085)

ISBN 80-224-0692-9 

OBSAH 

OBSAH.............................................................................................................5 

Malá inventúra pred hľadaním spoločného jazyka..........................................7 

Statistické modelování 

a automatická analýza 

přirozeného jazyka 

(morfologie, syntax, překlad)..........................................................................11 

Jan Hajič: Ústav formální a aplikované lingvistiky a Centrum komputační lingvistiky, 

Matematicko-fyzikální fakulta Univerzity Karlovy (hajic@ufal.mff.cuni.cz)..............................................................................................................11 

Identifikácia paradigmatických 

a syntagmatických vzťahov v texte.................................................................35 

Karol Furdík: Juvier, s.r.o., Košice.....................................................................35 

Spracovanie morfologickej 

roviny slovenčiny počítačom..........................................................................51 

Eduard Kostolanský – Jana Hašanová: Laboratórium počítačovej lingvistiky, 

Pedagogicka fakulta Univerzity Komenského, Bratislava.................................51 

Databases for Speech Recognition and Synthesis in Slovak..........................92 

Milan Rusko – Sachia Daržágín – Marián Trnka: Institute of Informatics, 

Slovak Academy of Sciences, Bratislava............................................................92 

SAMPA V SLOVENČINE A JEJ VÝZNAM 

Z POHĽADU VIACJAZYČNÝCH 

SYSTÉMOV NA ROZPOZNÁVANIE REČI .............................................102 

Jozef Ivanecký: IBM Voice Systems, European Speech Research; Katedra kybernetiky 

a umelej inteligencie, Fakulta elektrotechniky a informatiky Technickej 

univerzity Košice (ivanecky@de.ibm.com)................................................102 

AUTOMATICKÁ TRANSKRIPCIA 

SLOVENČINY V POČÍTAČOVOM 

ROZPOZNÁVANÍ REČI .............................................................................114 

Jozef Ivanecký: IBM Voice Systems, European Speech Research; Katedra kybernetiky 

a umelej inteligencie, Fakulta elektrotechniky a informatiky Technickej 

univerzity Košice (ivanecky@de.ibm.com)...........................................114 

viacjazyčný výslovnostný 

slovník vlastných mien a názvov lokalít......................................................122 

Peter Ďurčo: Akadémia Policajného zboru, Bratislava (durco@ minv.sk)......122

ČESKÝ NÁRODNÍ KORPUS: 

Stav v roce 2001............................................................................................126 

František Čermák: Ústav Českého národního korpusu, Filozofická fakulta University 

Karlovy, Praha (Frantisek.Cermak@ff.cuni.cz)...................................126 

Český národní korpus – 

počítačová demonstrace................................................................................142 

Michal Křen: Ústav Českého národního korpusu, Filozofická fakulta University 

Karlovy, Praha..................................................................................................142 

Informácie v terminologických databázach a ich využívanie pri preklade odborných 

textov...............................................................................................148 

Vlasta Křečková: Fakulta humanitných vied Univerzity Mateja Bela, Banská 

Bystrica.............................................................................................................148 

Projekt slovníka štúrovskej 

slovenčiny a jeho počítačová podpora..........................................................156 

Ľubomír Kralčák: Katedra slovenského jazyka, Filozofická fakulta Univerzity 

Konštantína Filozofa, Nitra..............................................................................156 

Návrh české lexikální databáze....................................................................161 

Karel Pala: Katedra informačních technologií, Fakulta informatiky Masarykovy 

university, Brno (pala@fi.muni.cz)..................................................................161 

Slovníková data ve formátu XML................................................................175 

Pavel Smrž: Fakulta informatiky Masarykovy univerzity, Brno......................175 

počítačová podpora SLOVENSKÝCH lexikografických projektov – retrospektívny 

pohľad............................................................................................188 

Vladimír Benko: Laboratórium počítačovej lingvistiky Pedagogickej fakulty 

Univerzity Komenského; Jazykovedný ústav Ľudovíta Štúra Slovenskej akadémie 

vied, Bratislava (Vladimir.Benko@fedu. uniba.sk)..................................188

MALÁ INVENTÚRA PRED HĽADANÍM 

SPOLOČNÉHO JAZYKA 

Seminár Slovenčina a čeština v počítačovom spracovaní sme organizovali 

so zámerom zlepšiť vzájomnú informovanosť ľudí zaoberajúcich sa na Slovensku 

problematikou počítačov vo vzťahu k jazyku a naopak, jazyka vo vzťahu 

k počítačom. V tejto oblasti sú u nás značne izolované ostrovčeky aktivít prebiehajúcich 

v odlišných vedných odboroch a teoreticko-aplikačných kontextoch. 

Tieto sa zameriavajú len na neveľké úseky a komponenty odboru počítačová 

lingvistika, pod ktorým možno chápať spolu s automatizovaným spracovaním 

jazykových dát (vývoj a použitie príslušných programových nástrojov) aj 

teoretickú výstavbu jazykovedy v podobe modelov založených na využívaní 

jazykových znalostí v procedurálnej aj deklaratívnej podobe (gramatické 

pravidlá a počítačové lexikóny vybavené vysoko štruktúrovanou explicitnou informáciou, 

ako aj procedúry túto informáciu využívajúce), alebo v podobe 

modelov založených na pravdepodobnosti (stochastické gramatiky). V tomto 

zmysle môžu byť pre nás relevantné aj aktivity v oblasti umelej inteligencie a 

niektoré komponenty kognitívnej lingvistiky (scenáre, rámce a prototypy). Rozšírenie 

záberu má svoje opodstatnenie, pretože v pozadí formalizovaných a explicitných 

modelov stojí zreteľ k možným aplikáciám a naopak, technické aplikácie 

implementujú modely a výrazne stimulujú pohyb v teoretickej jazykovede 

vo všeobecnosti. 

Na rozdiel od Slovenska je situácia v Českej republike diametrálne odlišná. 

Keďže česká počítačová lingvistika je cieľavedome budovaná ako samostatný 

odbor už viac ako tridsať rokov, predstavuje dnes široké spektrum bádateľských 

a aplikovaných aktivít od formálnej (matematickej) lingvistiky cez počítačovú 

lexikografiu, strojový preklad, spracovanie rečového signálu až po 

korpusovú lingvistiku. Druhým cieľom nášho seminára je preto poskytnúť 

slovenskej odbornej verejnosti a študentom z lingvistických aj nelingvistických 

odborov ucelenejší pohľad na výsledky práce v oblasti počítačového spracovania 

češtiny, ktorá patrí v tomto smere medzi európsku a vo viacerých parametroch 

aj medzi svetovú špičku. Tento prehľad nám sprostredkujú vedúce osobnosti 

v danom teoretickom alebo aplikovanom úseku. 

Naším seminárom by sme chceli nadviazať na vedeckú, pedagogickú a organizačnú 

prácu Jána Horeckého, ktorý sa od začiatku šesťdesiatych rokov 

20. storočia usiloval uplatňovať princípy a metódy matematickej lingvistiky na 

7

materiáli slovenského jazyka (v jeho bibliografii možno nájsť vyše päťdesiat 

štúdií a článkov s danou problematikou). Tieto poznatky sprostredkoval aj svojim 

študentom a ašpirantom v prednáškach z matematickej lingvistiky a základov 

jazykovedy (skriptum Úvod do matematickej lingvistiky, Bratislava 

1969 a učebnica Základy jazykovedy, Bratislava 1978). J. Horecký sa usiloval 

zakotviť matematickú jazykovedu aj inštitucionálne, keď v roku 1962 založil 

oddelenie matematickej lingvistiky a fonetiky v bývalom Ústave slovenského 

jazyka SAV. V oddelení, ktoré viedol do roku 1970, pripravovali mladí adepti 

vedy K. Buzássyová, J. Bosák a R. Gedeon pomocou diernoštítkového stroja 

slovník tvarov a morfém a publikovali rad štúdií z oblasti štatistickej lingvistiky. 

V roku 1970 sa z iniciatívy J. Horeckého v uskutočnilo v Smoleniciach 

medzinárodné sympózium o algebraickej lingvistike, na ktorom sa zúčastnili vedúce 

osobností pôsobiace v tomto odbore (materiály zo sympózia boli uverejnené 

v Recueil Linguistique de Bratislava, vol. IV, Bratislava 1973). Matematická 

jazykoveda v tom čase zahŕňala aj staršiu kvantitatívnu (štatistickú) lingvistiku, 

zaoberajúcu sa najmä skúmaním frekvencie jazykových jednotiek v textoch, 

a algebraickú jazykovedu ako súhrn teórií vypracovaných s použitím 

matematickej logiky, teórie množín, teórie grafov a iných súčastí teoretického 

aparátu matematiky. 

Ak sme vyššie spomínali kvantitatívnu analýzu textov vyúsťujúcu do tvorby 

abecedných a konkordančných indexov a frekvenčných slovníkov, nemôžeme 

nespomenúť priekopníka kvantitatívnych metód v jazykovede a literárnej 

vede na Slovensku G. Altmanna a tiež autora frekvenčného slovníka slovenčiny 

(Frekvencia slov a tvarov, Bratislava 1969) a publikácie Frekvencia tvarov a konštrukcií 

v slovenčine (Bratislava 1985) J. Mistríka. 

Počítačovú lingvistiku chápanú podľa J. Horeckého ako aplikovaná matematická 

lingvistika, predstavovali v tom čase vlastne len zahraničné práce na 

strojovom preklade. Začiatkom sedemdesiatych rokov viaceré administratívne 

rozhodnutia sčasti externé (vo vzťahu k odboru), sčasti vnútorné (súvisiace s 

organizačnými zmenami v Jazykovednom ústave Ľudovíta Štúra) spôsobili, že 

sa matematická lingvistika nemohla na Slovensku rozvíjať ako samostatný odbor. 

J. Horecký v nasledujúcich rokoch spolupracoval na niektorých problémoch 

automatizovanej morfologickej analýzy slovenčiny s českými kolegami z 

Ústavu formální a aplikované lingvistiky na Matematicko-fyzikálnej fakulte Karlovej 

univerzity v Prahe. 

Vybrané lingvistické problémy (napr. lematizácia, tvorba sémantických 

sietí, rozpoznávací slovník) boli v osemdesiatych rokoch súčasťou riešenia úlohy 

8

spracovania textu pre potreby informačných (najmä knižničných) systémov (M. 

Cigánik, A. Appelová). 

Absencia inštitucionálnej a personálnej základne počítačovej lingvistiky 

sa odrazila na malej pripravenosti slovenskej jazykovedy vyrovnať sa s búrlivým 

zahraničným vývojom v oblasti automatizovaného spracovania prirodzeného 

jazyka (Natural Language Processing – NLP). Tento typ výskumu nahradil 

koncom šesťdesiatych rokov problematiku strojového prekladu (stiahnutú 

z agendy administratívnym zásahom). Bádanie sa začalo orientovať na 

dostatočne presný opis základných prvkov a vzťahov jazykovej štruktúry vhodný 

na spracovanie do podoby počítačového programu. Mohlo preto slúžiť ako 

vhodná základňa na etablovanie počítačovej lingvistiky ako samostatnej vednej 

disciplíny a nie ako aplikácie matematickej lingvistiky. 

Trocha lepšie je slovenská jazykoveda pripravená na novú empirickú orientáciu 

jazykovedy, ktorá sa prejavuje v budovaní reprezentatívnej materiálovej 

základne jazykovedného výskumu. Tieto rozsiahle zdroje autentického materiálu 

majú podobu textových databáz – korpusov. Korpusová lingvistika, ktorá 

sa zaoberá problematikou budovania a využívania textových korpusov, nie je 

len súborom progresívnych metód zhromažďovania a spracúvania materiálu, 

ale predstavuje v zásade iný pohľad na jazyk a jeho jednotky. Tu treba opäť 

spomenúť osobnosť J. Horeckého, ktorý stál aj pri revitalizácii počítačovej lingvistiky 

v Jazykovednom ústave, keď v rokoch 1988 – 1989 pripravil projekt 

bázy dát slovenského jazyka, v rámci ktorej sa začalo uvažovať aj o budovaní 

korpusu. Vďaka ústretovému prístupu riaditeľa Informačného centra SAV E. 

Kostolanského a jeho spolupracovníkov V. Benka a C. Belicu sa uskutočnilo 

niekoľko pracovných stretnutí, na ktorých sa prerokúvali možnosti vytvorenia 

spoločnej pracovnej skupiny počítačovej lingvistiky. V roku 1990 táto skupina 

(J. Horecký, V. Benko, A. Jarošová, E. Páleš) vznikla v Jazykovednom ústave 

Ľ. Štúra SAV a začala koncepčne pripravovať korpus a lexikálnu bázu dát. 

Tento zámer sa začal v roku 1992 realizovať ako grantový projekt, bol však natoľko 

finančne a personálne poddimenzovaný (V. Benko, A. Jarošová, M. Šimková; 

všetci traja s polovičnou a menšou časovou kapacitou), že sa podarilo vybudovať 

len interný korpus Jazykovedného ústavu Ľ. Štúra. Ide zatiaľ o pomerne 

nevyvážený súbor textov (bez anotácií), rozdelený na niekoľko fragmentov, 

ktoré doteraz nie sú spojené do jedného celku najmä preto, že používaný vyhľadávací 

program nedokáže naraz spracovať väčší objem textu. 

Začiatkom deväťdesiatych rokov E. Páleš teoreticky a aplikačne dopracúval 

počítačový model slovenčiny, ktorý v roku 1994 publikoval v monografii 

9

SAPFO – parafrázovač slovenčiny – počítačový nástroj na modelovanie v jazykovede. 

Začiatok deväťdesiatych rokov priniesol aj založenie Laboratória počítačovej 

lingvistiky na Pedagogickej fakulte Univerzity Komenského, kde sa 

pripravuje morfologická databáza slovenčiny (E. Kostolanský, J. Hašanová, V. 

Benko) a budúci učitelia a prekladatelia dostávajú v kurze prednášok informáciu 

o počítačovej podpore prekladu, o jazykových zdrojoch a počítačovej podpore 

výučby cudzieho jazyka. Nemáme presnú predstavu o mieste lingvistickej problematiky 

v štruktúre učebných predmetov v našich vzdelávacích inštitúciách 

prírodovedného a technického smeru, ale aktívna účasť študentov Technickej 

univerzity v Košiciach na medzinárodných kolokviách mladých jazykovedcov, 

ktoré už desať rokov organizuje pracovníčka Jazykovedného ústavu Ľ. Štúra M. 

Nábělková, svedčia o dobrých výsledkoch košických kolegov pracujúcich v odbore 

umelá inteligencia. Témy viacerých diplomových prác a tímových projektov 

študentov Matematicko-fyzikálnej fakulty a Fakulty elektrotechniky a informatiky 

Univerzity Komenského nás presviečajú o tom, že na týchto pracoviskách 

nám vyrastajú partneri pre efektívny dialóg. 

V roku 1999 sa v Bratislave uskutočnil medzinárodný seminár o inovačných 

prístupoch k viacjazyčným zdrojom a jazykovým technológiám Text Corpora 

and Multilingual Lexicography (Textové korpusy a viacjazyčná lexikografia). 

Toto podujatie, ktoré v spolupráci s Inštitútom nemeckého jazyka v 

Mannheime (W. Teubert, A. Lawson) organizovali Jazykovedný ústav Ľ. Štúra 

(A. Jarošová) a Pedagogická fakulta fakulta Univerzity Komenského (V. Benko), 

bolo súčasťou medzinárodného projektu Európskej komisie Trans-European 

Language Resources Infrastructure – COPERNICUS (Transeurópska štruktúra 

jazykových zdrojov). V týchto dňoch vrcholia organizačno-legislatívne aktivity 

smerujúce k založeniu korpusového pracoviska v rámci Jazykovedného ústavu 

Ľ. Štúra. 

Veľmi si vážime záujem všetkých, ktorí sem prišli prednášať aj počúvať, 

diskutovať a hľadať riešenia. Vitajte! 

10 

Alexandra Jarošová

STATISTICKÉ MODELOVÁNÍ 

A AUTOMATICKÁ ANALÝZA 

PŘIROZENÉHO JAZYKA 

(MORFOLOGIE, SYNTAX, PŘEKLAD) 

Jan Hajič: Ústav formální a aplikované lingvistiky a Centrum 

komputační lingvistiky, Matematicko-fyzikální fakulta Univerzity 

Karlovy (hajic@ufal.mff.cuni.cz) 

Abstract: Statistical modeling is now the prevailing method used in automatic procedures of analysis of 

a natural language. Such an analysis can be performed at various levels, from phonetics to semantics. Two 

levels of representation are described: a morphological one and a syntactic one that is further subdivided 

into surface syntax and deep syntax (tectogrammatics). The role of linguistically annotated corpora will be 

stressed as a necessary prerequisite for any supervised machine learning algorithms, showing examples 

from the Prague Dependency Treebank (PDT) being developed at Charles University, Prague. A possible 

application of some of the tools created during (and thanks to) the development of the PDT will be shown, 

namely, a machine translation system translating from Czech to Slovak. 

1. Úvod 

Automatická analýza přirozeného jazyka 1 počítačem vyžaduje – koneckonců 

jako každý problém, který řešíme – rozdělit práci na několik 

menších, dobře definovaných podproblémů, které pak řešíme (pokud možno) 

nezávisle. V oblasti zpracování přirozeného jazyka se mluví o tzv. rovinách popisu 

(a zpracování) jazyka. Tyto roviny jsou uspořádány zdola nahoru (pro účely 

analýzy jazyka), od roviny nejjednodušší (zabývající se ortografií či 

akustickou stránkou věci) po rovinu nejsložitější, rovinu významu. Každá rovina 

má své jednotky popisu, definice vztahů na této rovině, a navazuje bezprostředně 

na rovinu nižší a vyšší. Obvykle se hovoří o pěti až šesti rovinách 

(akustika/ortografie, fonetika, fonologie, morfologie, syntax, sémantika), ale 

často se (například z praktických důvodů) některé roviny slučují dohromady 

1 V tomto příspěvku se omezíme na zpracování textu. Rozpoznávání (a syntéza) mluvené řeči je 

sice ve smyslu „porozumění“ jazyku podobný problém, avšak tradičně se soustředí zejména na zpracování 

akustického signálu, a v jistém smyslu – aspoň z dnešního pohledu, s existujícími aplikacemi a 

systémy v ruce – se na něj lze dívat jako na přídavný krok, ve kterém nejprve převedeme řečené na text, 

který dále zpracováváme. 

11

JAN HAJIČ 

(např. při zpracování textu je rovina ortografická a fonetická téměř vždy sloučena, 

často i s rovinou fonologickou). Syntax a sémantika rovněž úzce souvisí a 

ne náhodou se analýza na strukturní úrovni často nazývá syntakticko-sémantická, 

přičemž se zde opět slučují dvě roviny. Naopak, někdy je výhodné (nebo 

technicky lépe proveditelné) vložit mezi morfologii a syntax ještě jednu rovinu, 

a to rovinu tzv. povrchové syntaxe. V zahraničních pojetích se obvykle setkáváme 

jen se dvěma rovinami, a to rovinou morfologickou a povrchově-syntaktickou. 

V tomto příspěvku budeme mluvit jednak o rovině morfologické, která 

v našem případě zahrnuje všechny roviny nižší, s výjimkou té části roviny ortografické, 

která se zabývá identifikací slov a interpunkce, a jednak o rovině syntaktické, 

a to jak o její povrchové podobě, tak i o tzv. hloubkové syntaxi, která 

se zabývá reprezentací jazykového významu. Nebudeme však zde tyto roviny 

popisu jazyka rozebírat z lingvistického pohledu, nýbrž se zaměříme na to, jak 

se tyto roviny promítají do práce s textovými korpusy, zejména pro účely jejich 

anotování a následného automatického zpracování. 

V poslední části příspěvku popíšeme jednu zajímavou aplikaci, systém automatického 

překladu z češtiny do slovenštiny, který (trochu překvapivě) 

funguje velmi dobře i přesto, že analýza jazyka je v něm omezena vlastně jen 

na rovinu morfologickou. 

2. Morfologická analýza a značkování textu 

V úvodu jsme řekli, že v našem pojetí morfologická (tvaroslovná) analýza 

spojuje všechny nižší roviny až k rovině tradičně nazývané morfématická. Nezabývá 

se však prvotním zpracováním textu, kterému se v počítačové analýze 

nemůžeme vyhnout, a to tzv. tokenizací. Morfologická analýza tedy vstupuje 

do hry až v okamžiku, kdy ve vstupním textu jsou identifikována slova, mezery, 

interpunkce, a pokud možno i začátky a konce vět. Jakkoli triviální se tento 

úvodní problém může zdát, není tomu tak; již jen definice toho, co to je 

„slovo“ 2 je někdy nejasná: je byl-li, pracovals, technicko-hospodářský nebo 

naň jedno slovo, nebo dvě? Je New York nebo Kostelec n./Č. lesy jedno slovo, 

nebo dvě (resp. pět slov)? Obvykle se volí nějaký relativně dobře definovatelný 

kompromis. Zdá se, že z hlediska dalšího zpracování je vhodné v nejasných 

2 „Slovem“ se zde myslí slovo v tom tvaru, ve kterém se v textu vyskytuje, takže korunou a ko- 

runami jsou dvě různá slova. 

12

STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD) 

případech za slovo brát jednotku co nejkratší. V každém případě ale tokenizace 

není vlastní součástí morfologické analýzy, v této kapitole tedy předpokládáme, 

že tokenizace je již dokončena a jednotka zpracování pro morfologickou analýzu 

je tedy již jednoznačně určena 3 . Tento předpoklad je i z praktického hlediska 

nepříliš omezující, neboť většina existujících textových korpusů je tokenizována, 

jako např. pro nás důležitý Český národní korpus (Čermák 2001). 

2.1 Co je to morfologická analýza? 

Na střední škole se učí, že úkolem morfologické analýzy slova 2 je určit 

morfologické kategorie danému slovu v textu příslušné. Pro člověka je tato definice 

přijatelná, a koneckonců každý z nás na oné střední škole nakonec nějak 

uspěl. Při počítačovém zpracování je však situaci třeba definovat a popsat 

mnohem přesněji. 

Především je třeba jasně rozlišovat mezi morfologickou kategorií a její 

hodnotou. Číslo je morfologickou kategorií, singulár (jednotné číslo) její 

hodnotou. V češtině a slovenštině je možno rozlišovat mnoho kategorií, v našem 

systému jich používáme celkem 13: slovní druh, slovní „poddruh“, rod, 

číslo, pád, přivlastňovací rod, přivlastňovací číslo, osobu, čas, slovesný rod, 

negaci, stupeň a variantu. Hodnotami jsou např. čísla 1 až 7 pro české pády, 

„aktivní“ a „pasívní“ pro slovesný rod, atd. Nejbohatší kategorií je slovní poddruh, 

který má celkem 75 možných hodnot, nejvíce z nich pro zájmena. 

Pozornému čtenáři jistě neunikne, že v seznamu kategorií není nejen kategorie 

vzoru (vzor má v systému pouze pomocnou úlohu, a je zcela nepotřebný 

pro navazující analýzu jazyka), ale ani např. kategorie způsobu; důvod je však 

prostý: morfologická analýza v našem systému pracuje bez ohledu na kontext, 

tj. zpracovává izolovaně vždy jen jedno slovo (slovní tvar). Tím „odsouvá“ řešení 

některých problémů na pozdější dobu, a jakkoli je to z lingvistického pohledu 

bolestné, je tento přístup (vyplývající z dělení popisu a zpracování jazyka 

na jednotlivé roviny) jediný možný, neboť umožňuje nemíchat dohromady věci, 

3 Mluvíme-li o jednoznačném určení (zde slovních jednotek, tokens), musíme zároveň říci, jak je 

toto určení realizováno v textu. K tomu se používají dnes už téměř výhradně tzv. markup jazyky, definované 

na základě standardu SGML, který je dnes nahrazován jednodušším a pro počítačové zpracování 

příhodnějším XML (jež je svým způsobem podmnožinou SGML). (Známý jazyk pro popis 

webových stránek, HTML, je rovněž specifikován pomocí SGML.) Zjednodušeně lze říci, že každá 

značka – zde samozřejmě mluvíme o značce v technickém smyslu, nikoli o značce morfologické – má 

své jméno, a pro účely rozlišení mezi textem a značkami je jednotně ohraničena symboly ‚‘. 

13

JAN HAJIČ 

které k sobě nepatří a byly by tudíž těžko formalizovatelné a zpracovatelné. Ze 

stejných důvodů je nutno brát kategorii slovesného času jako kategorii příslušnou 

k analyzovanému participiu (pracoval), nikoli k celému analytickému 

tvaru (který v uvedeném příkladu může být jak času minulého pracoval jsem, 

tak i času přítomného v podmiňovacím způsobu pracoval bych). 

Vzhledem k tomu, že morfologická analýza pracuje s jednotlivými slovy 

z textu izolovaně, bez ohledu na kontext, tak se na rozdíl od úloh řešených na 

střední škole nezabývá ani jednoznačnou identifikací hodnot morfologických kategorií. 

Pochopitelně, ani nemůže: bez větného kontextu není možno mezi 

jednotlivými možnostmi vůbec vybírat. Problémem jednoznačného určení hodnot 

morfologických kategorií se zabývá tzv. značkování, ke kterému se vrátíme za 

chvíli. 

Pro počítačové zpracování se zavádí tzv. množina morfologických značek 

(tagset). Každá značka shrnuje hodnoty morfologických kategorií pro jeden 

slovní tvar. Pro vlastní zpracování se používá několik typů notací, z nichž nejrozšířenější 

je notace tzv. poziční. V této notaci se každé kategorii přiřadí pozice 

ve značce, a každé hodnotě jeden znak, který se zapisuje na příslušnou pozici. 

Slovní druh je tedy např. na první pozici, a jeho hodnoty jsou reprezentovány 

např. znaky N (pro podstatné jméno, noun), A (pro adjektivum) atd. Hodnoty 

pro daný slovní tvar irelevantních kategorií jsou označeny speciálním znakem, 

obvykle pomlčkou. Např. tedy pro obyčejné podstatné jméno rodu mužského 

neživotného ve 4. pádě jednotného čísla v pozičním systému s 15 kategoriemi 

má příslušná značka tvar NNIS4-----A---- (první pozice je slovní druh 

(N), druhá slovní poddruh (zde N), třetí rod (I pro mužský neživotný, masc. 

inanim.), čtvrtá číslo (S pro singulár), pátá pád (4 pro akuzativ), atd. (A na jedenácté 

pozici specifikuje, že dané slovo není negováno příslušnou předponou). 

Co tedy (počítačová) morfologická analýza vlastně dělá? Po výše uvedeném 

výčtu toho, co nedělá, by se zdálo, že nedělá téměř nic; samozřejmě, že tak tomu 

není. Morfologická analýza pro každý slovní tvar určí všechny možnosti kombinací 

hodnot morfologických kategorií, které danému tvaru vůbec mohou příslušet. 

Že i to je obrovská pomoc pro další zpracování, je vidět z prostého číselného 

srovnání: zatímco všech možných značek (kombinací hodnot morfologických kategorií) 

je v našem systému pro češtinu přes 4400, průměrný počet značek po 

morfologické analýze je menší než 5 (na jedno slovo v běžném textu). 

Počítačová morfologická analýza však musí řešit ještě jeden problém, na 

zmiňované střední škole probíraný pouze okrajově: tzv. problém lematizace. 

Lematizace určuje pro každý slovní tvar jeho základní podobu (obvykle tvar, ve 

14


kterém slovo najdeme ve slovnících). Ani lematizace není obecně při zpracování 

izolovaného slova jednoznačná. Navíc je nutno rozlišovat mezi slovy, 

která jsou v základním tvaru homonymní – např. stát (jako státní útvar) a stát 

(jako sloveso). Počítačová lematizace proto ještě navíc tato slova rozlišuje a 

jednoznačně identifikuje (např. připojením číselného indexu k základnímu tvaru 

slova, např. stát-1, stát-2 atd.). 

Formálně tedy můžeme popsat morfologickou analýzu jako matematickou 

funkci, která posloupnosti znaků (písmen) jazyka přiřazuje množinu možných 

výsledků, složených vždy z dvojic : 

Ma(f) → { ; l ∈ L, t ∈ T }, 

kde f ∈ A + je slovní tvar složený z písmen abecedy A analyzovaného 

jazyka (např. stát), L je množina identifikací lemat (obvykle ve formě řetězce 

nějakých znaků, považovaného ovšem za nedělitelný) v daném případě bude 

jedním z možných výsledků např. stát-1), a T je množina značek používaná pro 

daný jazyk (jako např. NNIS4-----A----; opět jde o řetězec znaků, považovaný 

z hlediska definice za atomický). 

Prakticky morfologická analýza pracuje s (tokenizovaným) textem, v dohodnutém 

formátu, a na výstupu je tentýž text obohacený o lemata a morfologické 

značky (obr. 1 a 2). 

Pekař 

peče 

housky 

 

. 

Obr. 1: Vstup do morfologické analýzy – tokenizovaný text 

PekařpekařNNMS1----A---- 

pečepéciVeYS------A----VB-S---3P-AA--- 

houskyhouskaNNFP1-----A----NNFP4-----A---- 

NNFS2-----A---- 

 

..Z:------------- 

Obr. 2: Výstup z morfologické analýzy (zjednodušeno) 

15

JAN HAJIČ 

2.2 Proces morfologické analýzy 

Morfologická analýza, jejíž definici jsme uvedli v předchozí sekci, je 

ovšem realizována v počítači nikoli jako matematická funkce, ale jako výpočetní 

procedura. Jako základní datová struktura slouží pro daný přirozený jazyk 

jeho morfologický slovník, který je používán vlastním algoritmem morfologické 

analýzy (v zásadě pak již na jazyce nezávislým). Způsobů, jak efektivně 

provádět morfologickou analýzu, se používá několik (Koskenniemi 1983, 

Mohri 1998), my zde popíšeme náš systém „přímé“ analýzy. Ten potřebuje ke 

své práci morfologický slovník a samozřejmě i příslušný algoritmus, který 

vlastní morfologickou analýzy na základě slovníku realizuje. Na základě stejného 

slovníku pak může probíhat i morfologická syntéza, o té se ale zmíníme až v 

sekci 4 o strojovém překladu. 

2.2.1. Morfologický slovník 

Morfologický slovník obsahuje ke každému lematu informaci o kmeni 

slova (v našem případě, kvůli sloučení nejnižších rovin popisu jazyka do jedné, 

je za kmen slova považována ta část slova, která se při ohýbání nemění), a o 

přípustných koncovkách. Množina koncovek tvoří vzor. U každé koncovky je 

navíc informace o tom, které značky (kombinace hodnot morfologických kategorií) 

jí pro daný vzor odpovídají. 

Příkladem vzoru je např. následující množina koncovek a jejich značek: 

„„ NNIS1-----A----, NNIS4-----A---- 

„u“ NNIS2-----A----, NNIS3-----A----, NNIS6-----A---1 

„e“ NNIS5-----A---- 

„ě“ NNIS6-----A---- 

„em“ NNIS7-----A---- 

„y“ NNIP1-----A----, NNIP4-----A----, NNIP5-----A----, NNIP7-----A---- 

„ů“ NNIP2-----A---- 

„ům“ NNIP3-----A---- 

„ech“ NNIP6-----A---- 

Tento vzor je v našem systému označen hd2x. Tedy k lematu stát-1 bude 

v morfologickém slovníku uveden kmen „stát“ a vzor hd2x. 

16


Pro každý vzor je dále ve slovníku uvedeno, zda připouští negaci slova pomocí 

předpony „ne-“ (tj. negaci) a u každé koncovky dále informace o tom, zda 

připouští připojení předpony „nej-“ (stupňování). 

Pro velmi nepravidelná slova jsou pak ve slovníku uvedeny všechny jejich 

tvary i s příslušnými značkami. 

2.2.2 Algoritmus morfologické analýzy 

Tzv. „přímá“ analýza slovních tvarů je založena na vyčerpávající analýze 

slova z hlediska možné segmentace na kmen a koncovku (případně i předpony 

ne- a nej-). Pro každou takto získanou dvojici kmene a koncovky je nutno ověřit, 

zda se ve slovníku vyskytuje jak kmen, tak i koncovka a zda kmen i koncovka 

náleží ke stejnému vzoru. Všechny dvojice lemat (příslušných ke 

kmeni/kmenům) a značek (nalezených ve slovníku u příslušných koncovek) 

jsou pak prohlášeny za výsledek morfologické analýzy. Podrobněji o v současnosti 

používané morfologické analýze češtiny viz Hajič (2001). 

Příkladem může být slovo (slovní tvar) housky. Toto slovo je možno rozdělit 

na kmen housky + nulovou koncovku, nebo na housk + y, nebo na hous + 

ky, atd. až k h + ousky (kmen nulové délky se nepřipouští). Z těchto možností 

nakonec bude správná jen možnost hous + ky, neboť ve slovníku je neměnná 

část základu (zde jen hous, neboť 2. p. mn. čísla je hous+ek). Koncovky y, sky 

a nulová koncovka jsou sice ve slovníku koncovek uvedeny také, ale kmen 

housk (hou) je nepřipouští (resp. nejsou uvedeny v seznamu koncovek pro vzor 

příslušný danému kmeni). 

Modernější systémy používají pro jádro systému morfologické analýzy 

aparát konečných automatů, resp. v kombinaci s fonologií aparát tzv. sekvenčních 

strojů (konečných převodníků) 4 . Prvním takovým systémem byla tzv. 

„Two-level morphology“ (Koskenniemi 1983), následovníky pak Xerox 

Language Tools (XLT, zpracována je i čeština, viz Skoumalová 1997), a v poslední 

době je volně k dispozici univerzální soubor nástrojů pro konečné automaty 

a převodníky (nejen pro morfologii) FSM od AT&T Research (Mohri et 

al. 1998). Je však nutno podotknout, že v dnešní době už vnitřní struktura 

(implementace) morfologického analyzátoru nehraje prvořadou roli – důležitá 

je spíše udržovatelnost a rozšiřitelnost systému. 

4 Podrobněji o konečných automatech a sekvenčních strojích viz např. (Chytil 1984). 

17

JAN HAJIČ 

2.3 Značkování (zjednoznačňování morfologické analýzy) 

Značkování (anglicky poněkud nevhodně nazývané „Part-of-Speech tagging“) 

je v rámci popisu a zpracování jazyka pomocí rovin jakýsi „krok 

stranou“: snažíme se totiž na úrovni morfologické analýzy o něco, co alespoň 

teoreticky přísluší až rovině syntaktické (ať už povrchové nebo hloubkové). 

Nicméně je to problém velmi praktický, jehož výsledky jsou použitelné ve třech 

směrech: jednak jako (zatím) finální krok při značkování korpusů pro lexikografické 

účely, dále jako krok výrazně zrychlující syntaktickou analýzu (byť do 

ní vnáší jistou míru chyb, jak uvidíme dále), a v neposlední řadě i pro některé 

aplikace, které mohou s výhodou využít i jen částečnou jazykovou analýzu 

(např. pro vyhledávání v elektronických slovnících, pro vyhledávání informací 

obecně, a dokonce i pro strojový překlad pro blízké flektívní jazyky – viz dále 

sekce 4). 

Značkování již může využít pro zjednoznačnění výstupu morfologické 

analýzy (na rozdíl od ní samé) kontext, ve kterém se analyzované slovo nachází. 

Dnes se téměř výhradně používají pro značkování metody statistické, založené 

na strojovém učení. Počítač se tedy naučí, že po určitých předložkách 

následují jen některé pády, že na začátku věty nalezneme spíše pád první než 

jakýkoliv jiný, nebo že slovo při je téměř vždy předložka, jen velmi málokdy 

tvar slova pře, a téměř nikdy rozkazovací způsob od slovesa přít (a k tomu se, 

doufejme, naučí i to, kdy jde přeci jen o (soudní) při). 

Jak se však může počítač takovou věc naučit? Potřebuje k tomu (alespoň 

v dosud nejúspěšnějších metodách) předem ručně označkovaný korpus. Takový 

korpus je samozřejmě velmi pracnou záležitostí; pro spolehlivé naučení, kdy 

procento chyb klesá (pro češtinu) pod 5 %, bylo třeba označkovat přes 1.5 miliónu 

výskytů slov v textu (přitom každé zdvojnásobení tohoto počtu přinese jen 

několik desetin procenta zlepšení, a jistou hranici úspěšnosti zřejmě nelze překročit 

vůbec). Označkované korpusy jsou proto velmi cenným zdrojem lingvistických 

informací (nejen pro automatické strojové učení, ale samozřejmě i pro 

vyhodnocování jiných metod, použitých pro značkování). Příkladem takových 

korpusů jsou např. Brown Corpus (první značkovaný korpus na světě z konce 

60. let), Penn Treebank (Marcus 1993) a pro češtinu čerstvě vydaný Pražský 

závislostní korpus (Hajič et al. 2001b). 

Učení z ručně označkovaného korpusu (takovému korpusu se říká trénovací 

data) může probíhat několika způsoby. Velmi jednoduchý a účinný (a 

dosud prakticky nepřekonaný) je postup, při kterém se spočítají relativní 

18


četnosti značek následujících po dvojici bezprostředně předcházejících značek 

v textu (takový způsob se nazývá HMM tagging: viz (Church 1992, Hladká 

1994, Mírovský 1999, Hladká 2000, Hajič et al. 2001a). Pro každou dvojici 

značek (tzv. historii) se tak vytvoří menší či větší tabulka, ve které jsou uvedeny 

relativní četnosti značek po ní následujících v trénovacích datech. Jakkoli je 

tento systém lingvisticky jasně neadekvátní, značkování založené na efektivním 

algoritmu aplikace těchto tabulek (virtuálně rozšiřujícím délku historie 

(kontextu) na mnoho slov na obě strany od analyzovaného slova) na kontinuální 

text (Jelinek 1998) dává velmi dobré výsledky: pro angličtinu se dosahuje 

i méně než 3 % chyb na prakticky libovolném textu, pro češtinu pak 

okolo 5 %. 

Pro češtinu vyvíjíme při její bohatosti značek ještě jeden systém (Hajič 

2001), který, jak doufáme, přiblíží úspěšnost značkování angličtině. Tento systém 

je založen na individuálním „předpovídání“ hodnot jednotlivých morfologických 

kategorií. Statisticky, automaticky vybraná vhodná „pravidla“ (features 

neboli rysy) se ohodnotí váhami (opět zcela automaticky v procesu učení z předem 

ručně označkovaných dat). Takto ohodnocená „pravidla“ se pak používají 

v procesu automatického značkování tak, že se pro každou hodnotu spočítá její 

pravděpodobnost v daném kontextu, a výsledná značka je pak „kompromisem“, 

neboť se pochopitelně vybírá pouze mezi značkami nabídnutými morfologickou 

analýzou. Tato metoda je nyní stejně úspěšná jako výše uvedená metoda HMM 

taggingu, potřebuje však méně statistických dat při vlastním značkování (avšak 

je velmi náročná v průběhu učení na čas výpočtu). 

Kromě čistě statistických přístupů uvažujeme rovněž o možné kombinaci 

s metodami „nestatistickými“, tj. tradičně lingvistickými, které především 

pracují s ručně vytvořenými pravidly s komplexními podmínkami. Tato 

pravidla použitá samostatně vykazují poměrně malou úspěšnost z hlediska počtu 

víceznačností, které jsou schopny řešit, avšak jsou poměrně přesná (v případech, 

které řešit umějí). Systém pak pracuje tak, že tato „lingvistická“ pravidla 

jsou aplikována nejdříve, čímž se víceznačnost zredukuje (aniž by byla ovšem 

odstraněna správná varianta), a pak „statistická“, tj. automaticky naučená 

„pravidla“ zjednoznačňování dokončí (Hajič et al. 2001a). 

Jako konkrétní příklad uveďme opět větu Pekař peče housky. Funguje-li 

disambiguace správně, na základě vstupu z obr. 2 obdržíme následující výstup 

(obr. 3), ve kterém je pro každé vstupní slovo už jen jedna značka a jedno lema: 

PekařpekařNNMS1----A---- 

19

JAN HAJIČ 

pečepéciVB-S---3P-AA--- 

houskyhouskaNNFP4-----A---- 

 

..Z:------------- 

Obr. 3: Zjednoznačněný výsledek morfologické analýzy 

U slova Pekař nebylo nutno rozhodovat o ničem, neboť již bylo jednoznačně 

určeno morfologickým analyzátorem 5 . Slovo peče je samozřejmě v této 

větě v přítomném čase a 3. osobě (nikoli jako přechodník!) a housky jsou zde 

ve 4. pádě množného čísla. 

3. Syntaktická závislostní analýza 

Jakkoli jsou morfologická analýza a (morfologické) značkování zajímavé 

a užitečné, nedotýká se přímo struktury věty. Z hlediska skladby věty potřebujeme 

zjišťovat, která slova jsou ve vztahu gramatické závislosti: řídící slovo je 

„důležitější“, ve větě jej obvykle nelze vynechat bez narušení gramatické skladby 

věty, a obyčejně určuje většinu gramatických kategorií slova závislého (např. 

na základě shody). 

Přímo zjišťovat skladbu věty je však velmi obtížné: důvodem jsou kromě 

již známé nejednoznačnosti jazyka i např. elipsy (slova ve větě vynechaná, byť 

z hlediska významu a standardní definice syntaxe nezbytná), konstrukce bez 

slovesa, koordinace a apozice, parenteze (vsuvky) apod. Proto jsme se rozhodli 

vložit mezi rovinu morfologickou a syntaktickou tzv. rovinu analytickou, která 

zhruba odpovídá rovině povrchové syntaxe známé z jiných teoretických přístupů. 

Pracujeme tedy se dvěma syntaktickými rovinami: rovinou analytickou 

a rovinou vlastní syntaxe, tzv. rovinou tektogramatickou (Sgall et al. 1986). 

3.1 Analytická rovina syntaxe 

Na analytické rovině se reprezentace věty zachycuje závislostním stromem 

6 s vrcholy, případně i hranami ohodnocenými jedním nebo několika 

atributy. Ke každému slovu z analyzované věty (token, tj. i interpunkce) příslu- 

5 Lze ovšem oprávněně namítnout, že slovo Pekař mělo být morfologickým analyzátorem určeno 

též jako první pád jednotného čísla rodu mužského životného od vlastního jména Pekař. To je samozřejmě 

nedostatek slovníku, ovšem jen těžko řešitelný v plném rozsahu. 

20


ší právě jeden vrchol závislostního stromu. Závislostní vztahy jsou určeny hranami 

takového stromu a hodnoty příslušné k jednotlivým hranám určují (povrchově) 

syntaktickou funkci závislého uzlu vzhledem k uzlu řídícímu. Hodnotami 

u vrcholů jsou pak dva údaje: příslušné lema (pro interpunkci se definuje jako 

identické s původní formou interpunkce) a morfologická značka (soubor značek – 

tagset – se rovněž vhodně rozšiřuje kvůli interpunkci, podobně jako na rovině 

morfologické). Pro lepší čitelnost se u každého vrcholu zaznamenává i původní 

tvar daného slova (ačkoli jej lze jednoznačně vyvodit z lematu a morfologické 

značky) a je zde i řada dalších, technických a pomocných atributů. Z technických 

důvodů se rovněž hodnota hrany (tj. povrchově-syntaktická funkce závislého 

slova) uvádí u závislého uzlu. 

Jako příklad lze uvést jednoduchou větu Kominík vymetá komíny (obr. 4). 

Obr. 4: Analytická reprezentace věty Kominík vymetá komíny. 

Vidíme, že Kominík je podmětem věty (Sb), vymetá je predikát (řídící 

sloveso hlavní věty, Pred), a komíny je předmět (Obj). Závěrečná interpunkce 

podle zásady co slovo (token) to vrchol stromu je rovněž přítomna, a to s funkcí 

AuxK (speciální funkce pro koncovou interpunkci). 

Lze tedy říci, že analytická rovina je velmi podobná tomu, co jsme se 

všichni učili na základní a střední škole, snad s výjimkou postavení podmětu 

6 Strom je matematicky definován jako souvislý acyklický orientovaný graf s jedním kořenem 

(tj. vrcholem, do kterého nevede žádná hrana). Obvykle se znázorňuje „vzhůru nohama“, tj. kořen se 

kreslí nahoře a orientace hran se zachycuje pomocí šipek, které vedou shora dolů, od řídícího k závislému 

vrcholu. Z technických důvodů se ovšem v elektronické podobě využívá s výhodou toho, že do každého 

vrcholu (někdy nazývaného podle angličtiny též „uzlem“) vede pouze jedna hrana, a směr závislosti 

se uchovává obráceně – to však nemá žádný vliv na skutečný směr závislosti. 

21

JAN HAJIČ 

(podmět není na stejné úrovni jako predikát) a toho, že na analytické rovině 

jsou přítomna všechna slova z věty (to se týká nejen interpunkce, ale samozřejmě 

i předložek, spojek, pomocných a sponových sloves atd.). 

Účelem analytické anotace jako předstupně k rovině tektogramatické (sekce 

3.2) je zachytit základní závislostní vztahy (tj. vybudovat kompletní závislostní 

strom s analytickými funkcemi), označit pomocná slova a jejich vztah k 

jiným jednotkám na této rovině (i když jistě nejde o skutečnou závislost v obvyklém 

smyslu), označit elipsu, pospojovat koordinované a aponované členy 

věty, označit vsuvky apod. 

Podmínka, že každému slovu ze vstupního textu odpovídá právě jeden vrchol 

závislostního stromu, není náhodná. Umožňuje totiž vytvořit relativně 

efektivní nástroj pro automatickou povrchově-syntaktickou analýzu vět přirozeného 

jazyka (tj. v našem případě češtiny). Obecný postup je zde podobný jako 

při morfologickém značkování (sekce 2.3): používají se primárně statistické metody 

založené na strojovém učení parametrů (pravděpodobností), používaný pravděpodobnostní 

model pro takovou analýzu je však mnohem komplikovanější. V 

našem případě používáme analyzátor (Collins 1997) adaptovaný pro češtinu na 

letním Workshopu na Johns Hopkins University v roce 1998 (Hajič 1998), který 

dokáže správně určit kolem 80 % všech závislostí v testovacím textu. 

Pochopitelně i pro učení syntaktického analyzátoru jsou třeba trénovací data 

(tj. ručně syntakticky anotovaný korpus). Práce na ručním syntaktickém 

anotování je mnohem náročnější než obdobná práce na zjednoznačňování morfologickém, 

a to jak z hlediska softwarové přípravy (anotovací nástroje musí pracovat 

s grafickým obrázkem analyzovaného stromu, tak, jak jsou na to lingvistéanotátoři 

zvyklí), z hlediska přípravy pokynů pro anotování (s trochou nadsázky 

lze říci, že jsme museli přepsat, či snad explicitně dopracovat povrchovou syntax 

češtiny, viz Hajič et al. 1997), i z hlediska vlastní anotovací práce. Pro češtinu 

jsou taková data obsažena na CDROM Pražský závislostní korpus (Hajič 1998, 

Hajič et al. 2001b), spolu se všemi potřebnými nástroji na (ruční) syntaktické 

anotování korpusu. Na tomto CD je anotováno téměř 1.5 miliónu slov (asi 90 tisíc 

vět) na analytické rovině. 

3.2 Tektogramatická rovina syntaxe 

Naším cílem však není zastavit se na rovině povrchové syntaxe. Připravujeme 

proto anotaci na rovině tektogramatické, kde se používá jiný repertoár 

závislostních funkcí (které označují význam, nikoli jen povrchový vztah), kde 

22


odpadají vrcholy s pomocnými slovy a částečně i s interpunkcí, naproti tomu 

přibývají na povrchu vypuštěné, leč z významového hlediska přítomné elipsy. 

Navíc zde přibývá označení koreference a aktuální členění. Příklad věty 

anotované na této rovině je na obr. 5. 

Obr. 5: Anotace věty na tektogramatické rovině 

Bližší popis tektogramatické roviny je možné nalézt z teoretického hlediska 

v (Sgall et al. 1986, Petkevič 1995) a pak přímo ve formě příručky pro 

anotátory (Hajičová et al. 2000). 

Tektogramatická rovina je jakýmsi mezičlánkem mezi lingvistickou analýzou 

a další analýzou sémantickou, logickou, analýzou textu apod., vedoucí ke 

skutečnému porozumění přirozenému jazyku. Předpokládáme, že pro češtinu 

dokážeme na této rovině anotovat řádově obdobný počet vět jako na rovině 

analytické (cca 60 tisíc) do konce r. 2004. 

4. Strojový překlad mezi blízkými jazyky 

4.1 Základní idea a její zjednodušení 

23

JAN HAJIČ 

Ačkoli reprezentaci věty na tektogramatické rovině, jak byla popsána 

v předchozí sekci, považujeme za hlavní formální nástroj k popisu lingvistického 

významu, který by měl být jádrem každé aplikace vyžadující porozumění 

přirozenému jazyku, někdy se obejdeme s prostředky mnohem jednoduššími. 

Takovou aplikací je například strojový překlad mezi velmi blízkými 

jazyky, jako je čeština a slovenština, a jistě by se našly další příklady (někdy 

nejde jen o blízké jazyky, ale může jít i o varianty jednoho jazyka, ať už 

pravopisné, nářeční apod.). Pro jazyky vzdálenější (jako např. čeština a ruština, 

viz Hajič et al. 1987) je otázka složitější: je jasné, že syntax je v jistých okamžicích 

potřebná, avšak není jasné, zda chyby, jichž se nutně v syntaktické analýze 

dopustíme, vyváží tuto výhodu. 

I při zjednodušené analýze ve strojovém překladu mezi češtinou a slovenštinou 

(podrobněji viz Hajič et al. 2000) zachováváme tradiční scénář strojového 

překladu (obr. 6). 

Zdrojový jazyk Cílový jazyk 

Obr. 6: Obecné schéma strojového překladu 

4.2 Tři fáze překladu: analýza, transfer, syntéza 

Při analýze zdrojového jazyka se jednotlivé věty analyzují bez ohledu na 

to, do kterého jazyka se překládá. Buduje se reprezentace věty vhodná pro fázi 

transferu („vlastního překladu“). Ve složitých systémech touto reprezentací 

může být hloubková syntaktická reprezentace, nebo dokonce logická struktura 

užité věty, avšak v našem zjednodušeném případě bude touto analýzou pouze 

analýza morfologická, zjednoznačněná pomocí statistického modulu (taggeru, 

viz sekce 2). 

Transfer pak bude zcela deterministický proces, který nahradí každé 

zdrojové (české) slovo (resp. jeho lemma) jeho cílovým (slovenským) 

ekvivalentem, a českou morfologickou značku značkou slovenskou (ve většině 

případů bude tato značka zcela stejná, nebo jen formálně odlišná). V některých 

případech však musíme slovenskou značku poněkud zobecnit, neboť se výji- 

24 

Analýza 

Transfer 

Syntéza


mečně mění rod substantiva, zvláštní varianta koncovky v určitém pádě se překládá 

standardně, apod. 

Ve fázi syntézy (generování) se pak ze slovenských lemat a slovenských 

morfologických značek vytvoří výsledná forma slovenského slova. Na závěr se 

pak doplní velká písmena podle pravidel pravopisu a věta se zformátuje, případně 

se do textu vloží zpět původní formátování české věty, bylo-li v ní přítomno. 

4.3 Analýza 

Ve fázi analýzy proběhne tokenizace textu (pokud již vstupní text není 

takto zpracován, což obvykle není), uchování formátovací informace (to je důležité 

např. tehdy, je-li původní text např. v HTML, RTF a chceme původní formátování 

pokud možno zachovat) a převedení do jednotného formátu pro další 

zpracování, což je SGML formát obdobný formátu uchovávání textů v ČNK, 

neboť se pochopitelně používají podobné nástroje (morfologie, tagger, atd.). 

Proběhne i identifikace hranic vět, a speciálně se označí úseky, které je třeba 

překládat (na rozdíl od např. formátovacích značek). 

Příklad: 

Věta Transakce slouží k zobrazení zamčených záznamů v databázi. bude 

po tokenizaci a převodu do SGML vypadat takto: 

 

Transakce 

slouží 

k 

zobrazení 

zamčených 

záznamů 

v 

databázi 

 

. 

Obr. 7: Tokenizovaný vstup do systému překladu 

SGML značkou jsou označeny hranice vět, označuje slova, 

interpunkci, a je značka pro nepřítomnost mezery. 

25

JAN HAJIČ 

Po tokenizaci se text zpracuje morfologickou analýzou a značkovačem 

(taggerem) (viz sekce 2). Na výstupu bude u každého slova uvedeno lemma a 

tag po zjednoznačnění (jen připomínáme, že zjednoznačnění probíhá na základě 

kontextu, a to kontextu v české větě). Tato část systému je posledním 

krokem ve zjednodušeném systému překladu, neboť další analýza (syntaktická) 

již v systému není. Je tedy možné říci, že morfologické zjednoznačnění je 

jádrem lingvistické analýzy celého systému překladu. Tato fáze je zároveň zcela 

nezbytná, neboť i když čeština a slovenština mají prakticky shodnou syntax, liší 

se výrazně právě ve slovníku a morfologii (v paradigmatech), a ve z toho vyplývajících 

typech homonymie. Např. české slovo zobrazení z výše uvedené věty 

může být použito ve 12 různých morfologických interpretacích, řada z nich pak 

má různý slovenský překlad: zobrazení, zobrazenia, zobrazenie, zobrazeniu atd. 

Překlad „(slovní) tvar za tvar“ tedy evidentně není možný (i kdybychom vyřešili 

technické obtíže s milióny slovních tvarů, které by musely být ve slovníku takového 

systému). 

Příklad: 

Výsledek po morfologické analýze a jejím zjednoznačnění je na obr. 8. 

TransakcetransakceNNFS1-----A---- 

sloužísloužitVB-S---3P-AA--- 

kk-1RR--3---------- 

zobrazenízobrazeníNNNS3-----A---- 

zamčenýchzamčenýAAIP2----1A------1A---- 

záznamůzáznamNNIP2-----A---- 

vv-1RR--6---------- 

databázidatabázeNNFS6-----A---- 

 

..Z:------------- 

Obr. 8: Zjednoznačněný výsledek morfologické analýzy 

SGML značky slouží k označení lematu, uvádí morfologickou 

značku. Slovo zobrazení se zde tedy jednoznačně určilo (velmi pravděpodobně 

díky předcházející předložce k, která vyžaduje třetí pád) jako neutrum v 

dativu; jeho určení jako singuláru pak plyne spíše z faktu, že v obdobných konstrukcích 

se používá spíše singulár (kontext nic takového nevyžaduje). 

26


Věta je nyní připravena pro vlastní překlad, který nazýváme tradičně 

transferem. 

4.4 Transfer 

Ve fázi transferu se nahradí česká lemata slovenskými a značky se rovněž 

„přeloží“ do zobecněné formy, vyhovující slovenskému systému morfologických 

značek. V této fázi tedy teprve do hry vstupuje slovenština (dosud se systém zabýval 

pouze zpracováním češtiny jako zdrojového jazyka). Podobně teprve zde 

by se zapojila např. polština, pokud bychom chtěli překládat právě do ní. 

Překlad značek lze zařídit poměrně snadno. Překlad je řízen tabulkou, ve 

které je ke každé české morfologické značce přiřazena jedna nebo více zobecněných 

slovenských morfologických značek, v prioritním pořadí. 

Zobecněnou morfologickou značkou se myslí morfologická značka, která 

není plně specifikována. Modul generování (viz dále sekce 4.5) je přizpůsoben 

tak, že za nespecifikovanou hodnotu určité morfologické kategorie (např. 

rodu) dosadí všechny možnosti, které přicházejí pro dané slovo v úvahu. (V případě 

více možností vybere první, která zpracováním projde.) V námi používaném 

pozičním systému se pro nespecifikovanou hodnotu používá znak tečka 

(‚.‘). Tedy například morfologická značka pro třetí pád (dativ) jednotného čísla 

(sg.) obyčejných substantiv s nespecifikovaným rodem vypadá takto: 

NN.S3-----A---- 

Prioritní seznam cílových morfologických značek pak ve spolupráci s modulem 

generování zajistí, že na výstupu se objeví první vytvořený slovní tvar 

(za použití morfologické značky s nejvyšší prioritou). Tím se ošetřují jednotně 

jak případy změny rodu u substantiv, tak i případy, kdy rod je nejednoznačný a 

je třeba dát přednost rodu použitému v češtině. 

Příkladem takového seznamu je např. posloupnost dvou značek: 

NNNS3-----A---- NN.S3-----A---- 

která říká, že nejprve je třeba zkusit rod střední, ale pokud taková 

značka s daným lematem nic nevygeneruje, má se použít libovolný rod. 

Prioritní systém spolu s ideou zobecněných morfologických značek 

umožňuje elegantně a bez dalších zásahů do slovníku řešit i případy, kdy některé 

gramatické charakteristiky slovenštiny neodpovídají češtině. 

27

JAN HAJIČ 

Vlastní slovník (tj. překladový slovník lemat) je vytvořen tak, že může zpracovávat 

i víceslovnou terminologii. Pomocí pravidla „delší vyhraje“ pak 

umožňuje řešit i nejednoznačné případy, kdy ve slovníku je zvlášť uveden jak 

několikaslovný termín, tak i jeho počátek. 

Terminologický slovník však znamená jednu nevyhnutelnou komplikaci: 

ve flektívních jazycích může být část termínu skloňovaná spolu s řídícím 

slovem termínu, ale část může být fixní a tedy i ve slovníku uvedená v příslušném 

pádě (nebo i čísle). Při analýze češtiny však ještě nevíme, a ani nemůžeme 

vědět, zda určité slovo je součástí nějakého termínu nebo ne, a proto všechna 

slova jsou lematizována jednotlivě. Potřebujeme proto, aby slovník obsahoval 

ve formě lemat i ty části termínů, které nepodléhají ohýbání. 

Například termín daň z příjmů je třeba ve slovníku uvést jako daň z příjem, 

jinak by se v textu nemohlo najít poslední slovo termínu (příjmů). 

Abychom vyloučili pracné ruční zpracování slovníku, používáme naprosto 

stejný morfologický analyzátor a značkovač i pro předzpracování slovníku, a to 

na obou jeho stranách (české i slovenské). Tím je zaručena naprostá shoda lemat 

s morfologickými moduly, a to i tehdy, jestliže lemata obsahují nějakou 

vnější identifikaci, jako např. číslo významu (viz k-1, k jako předložka). 

Transfer tedy vydá posloupnost slovenských lemat s morfologickými značkami; 

v této posloupnosti už česká slova ani značky nemusí být (obr. 9). 

transakciaNNFS1-----A----NN.S1-----A---- 

slúžiťVB-S---3P-AA--- 

k-1RR--3---------- 

zobrazenieNNNS3-----A----NN.S3-----A---- 

zamknutýAAIP2----1A---- 

záznamNNIP2-----A----NN.P2-----A---- 

v-1RR--6---------- 

databázaNNFS6-----A----NN.S6-----A---- 

 

.Z:------------- 

Obr. 9: Výsledek transferu (vlastního překladu lemat a morf. značek) 

SGML značky označují slovenské lema, pak každou slovenskou 

morfologickou značku, a to jak v případě, že je uvedena značka jediná, 

tak i v prioritním seznamu. 

28

4.5 Syntéza (Generování) 


Vzhledem k tomu, že na české straně je analýza ukončena po morfologické 

analýze a značkování, je i syntéza na slovenské straně výlučně morfologickou 

(a formátovací) záležitostí. Morfologický generátor (program, jehož funkce je inverzní 

k funkci morfologického analyzátoru) pak z každého lematu a prioritního 

seznamu zobecněných značek vytvoří posloupnost slovenských slov v odpovídajících 

formách. 

Morfologický generátor slovenštiny používá stejná data jako morfologický 

analyzátor slovenštiny použitý pro předzpracování slovníku pro transfer (viz 

sekce 4.4), automaticky zkonvertovaný pro efektivní vyhledávání mezi kmeny, 

vzory a koncovkami pro účely morfologické syntézy. 

V našem příkladu je tedy výsledkem věta na obr. 10. 

transakcia 

slúži 

k 

zobrazeniu 

zamknutých 

záznamov 

v 

databáze 

 

. 

Obr. 10: Výsledek překladu do slovenštiny 

Po závěrečném formátování pak dostaneme konečný výsledek Transakcia 

slúži k zobrazeniu zamknutých záznamov v databáze. 

4.6 Použití v praktických systémech 

Strojový překlad sám o sobě nemá valnou praktickou hodnotu, není-li použit 

ve vhodně koncipovaném softwarovém systému, ať už pro malé „domácí“ 

nebo on-line použití, nebo pro profesionální překlad ve velkém. 

4.6.1 Systémy s překladovou pamětí 

29

JAN HAJIČ 

Nejefektivnější systémy pro profesionální strojový překlad jsou založeny 

na využití tzv. překladových pamětí. Překladová paměť si pamatuje veškerý již 

jednou přeložený text (ukládá si vždy dvojici zdrojová věta → její překlad) 

a při překladu dalšího, nového textu je schopna porovnat nově překládanou větu 

s touto pamětí, a nabídnout překladateli překlad, který je u příslušné zdrojové 

věty uložen. Přitom tyto věty nemusí být zcela identické, mohou se lišit v 

jednom nebo několika slovech, v číselné hodnotě, interpunkci apod. Efektivnost 

systémů strojového překladu založených na překladových pamětech pak plyne z 

faktu, že většina „průmyslově“ prováděných překladů se týká jen málo změněných 

verzí toho, co již jednou bylo přeloženo (např. příručka k textovému editoru 

se jistě změní od verze k verzi jen málo, zvlášť při vysoké frekvenci „upgradů“ 

takových softwarových produktů). 

Do tohoto systému je velmi jednoduché zapojit strojový překlad tak, že vytvoříme 

„překladovou paměť“ a naplníme ji všemi překládanými větami spolu se 

strojově vytvořeným překladem. Překladatel pak ke každé jím překládané větě 

dostane pro něj obvyklým způsobem návrh překladu, jako kdyby daná věta byla 

již někým v minulosti přeložena. Je samozřejmé, že překladatel musí být varován, 

že se jedná o strojový překlad, a ne o překlad „lidský“. Navíc je třeba zajistit 

(technickými prostředky), aby tatáž věta, byla-li dříve již přeložena 

člověkem, dostala při výběru z překladové paměti přednost před větou přeloženou 

strojově. 

4.6.2 Vícejazyčný překlad 

Jednoduchý, rychlý a relativně kvalitní překlad mezi blízkými jazyky pomocí 

popsané metody vede i k návrhu organizace překladu v případech, kdy 

z textu v jednom jazyce je třeba vytvořit překlad v mnoha dalších jazycích. To 

je případ návodů k domácím spotřebičům, příruček k softwarovým systémům, 

a vůbec všech příruček, které doprovázejí výrobky nebo služby exportované do 

mnoha různých jazykových oblastí. 

Základní schéma je na obr. 11. Z původního jazyka se text přeloží ve vysoké 

kvalitě (tj. profesionálními překladateli) jen do několika „centrálních“ 

jazyků („bridge languages“), a z těch se při překladu do jazyků jim blízkých 

použije automatický překlad (jen s manuální postredakcí). 

30


Obr. 11: Využití „centrálního“ jazyka při vícejazyčném překladu 

4.7 Výsledky experimentů s překladem do slovenštiny a polštiny, další 

výhled 

Experimenty s úplným systémem překladu z češtiny do slovenštiny jsme 

prováděli s technickými příručkami pro použití databázového software. 

Úspěšnost jsme měřili s použitím software pro podporu překladu TRADOS, 

resp. jeho části, která počítá tzv. „match“ (souhlas) mezi ručně „dopřeloženou 

větou“ a její předchozí variantou (v našem příkladě touž větou přeloženou automaticky). 

Systém evaluace systému TRADOS je velmi přísný, neboť evaluační 

systém se v tomto systému používá k určení obtížnosti překladu (obecně platí, 

že překladatelské firmy účtují podstatně více, je-li shoda s předcházející verzí 

(tj. v našem případě s výsledkem automatického překladu) menší než 90 %). 

Shoda se počítá na základě modifikované Loewensteinovy vzdálenosti (zhruba 

řečeno, jde o počet editačních zásahů, které je nutno udělat, aby věta byla v 

„definitivně správné“ podobě). 

Pro slovenštinu jsme tohoto cíle dosáhli (shoda se pohybovala těsně nad 

hranicí 90 %, pro polštinu jsme však zůstávali na úrovni 75 % (na tomtéž textu). 

Texty použité pro testování byly texty, z nichž byl částečně zapracován 

slovník, ale např. česká morfologická analýza a český značkovač (coby jádro 

systému) pracovaly na nich nezávisle, tj. testy byly dostatečně realistické a 

„férové“. 

Předpokládáme, že systém budeme dále vyvíjet (zejména systém překladu 

do slovenštiny) jak zvětšováním slovníku, tak i zlepšováním českého značkovače 

(a morfologie, pochopitelně). Polský systém bude nutno zdokonalit podstatněji, 

zejména s ohledem na jisté rozdíly v syntaxi – zdá se, že alespoň základní 

analýza jmenných frází bude nutná pro podstatnější zlepšení. Pak by 

ovšem bylo možno uvažovat i o ruštině, ukrajinštině a dalších jazycích podobně 

„vzdálených“ od češtiny. 

5. Závěr 

V tomto příspěvku jsme se snažili popsat metody počítačového zpracování 

dvou klíčových rovin (morfologie a syntaxe) přirozeného jazyka, a také přiblížit 

možnou aplikaci těchto metod na reálný problém. Ukazuje se, že ač v některých 

aplikacích je možné použít i analýzu jen částečnou (a to nemluvíme o takových 

31

JAN HAJIČ 

z jazykového hlediska velmi jednoduchých aplikacích, jako je vyhledávání nebo 

extrakce informací z textu), je jasné, že úplné porozumění vyžaduje analýzu 

jazyka dost hlubokou. Právě pro tyto účely budujeme jazykové zdroje, jako jsou 

morfologicky a důkladně syntakticky anotované texty. 

Podrobnější informace o budování anotovaných korpusů je možno nalézt na 

webových stránkách Ústavu aplikované a komputační lingvistiky a Centra komputační 

lingvistiky na MFFUK v Praze (http://ufal.mff.cuni.cz a http://ckl. 

mff.cuni.cz). Pro hlubší studium statistických a pravděpodobnostních metod 

v lingvistice, které jsou s danou problematikou úzce svázány, lze doporučit 

zejména publikace Manning a Schuetze (2001), Jurafsky a Martin (2000), 

Charniak (1998) a Jelinek (1998). Kompletní materiály k vlastnímu studiu této 

problematiky jsou umístěny na volně dostupné adrese http://ufal.mff.cuni.cz/ 

~hajic/courses/pfl043/0102/syllabus.html. Téměř kompletní bibliografie jak k 

problematice tvorby anotovaných korpusů, tak jejich zpracování a využití, je 

pak na již zmíněném CD „Prague Dependency Treebank 1.0“ (Hajič et al. 

2001b), ve většině případů s plnými texty článků, příruček a manuálů (a samozřejmě 

i s kompletními českými korpusy!); kopii dokumentace k tomuto CD je 

pak možné nalézt i na webu na http://ufal.mff.cuni.cz/pdt. 

Literatura 

COLLINS, Michael. 1997. Three Generative, Lexicalised Models for Statistical Parsing. In: 

Proceedings of the 35th ACL/EACL. Madrid, s. 16-23. 

COLLINS, Michael – HAJIČ, Jan – BRILL, Eric – RAMSHAW, Lance – TILLMANN, 

Christopher. 1998. A Statistical Parser for Czech. In: Proceedings of the 37th ACL. College Park, MD, 

USA, s. 505 – 512. 

ČERMÁK, František. 2001. Český národní korpus. In: Alexandra Jarošová (ed.). Slovenčina a 

čeština v počítačovom spracovaní. Bratislava: Veda, s.168. 

HAJIČ, Jan. 1998. Building a Syntactically Annotated Corpus: The Prague Dependency 

Treebank. In: Eva Hajičová (ed.): Issues of Valency and Meaning. Studies in Honor of Jarmila 

Panevová. Praha: Karolinum, Charles University Press, s. 12 – 19. 

HAJIČ, Jan. 2001. Disambiguation of Rich Inflection (Computational Morphology of Czech). 

Praha: Karolinum, Charles University Press. 

HAJIČ, Jan – ROSEN, Alexandr – SKOUMALOVÁ, Hana. 1987. RUSLAN – systém strojového 

překladu z češtiny do ruštiny. Výzkumná zpráva. Praha: Výzkumný ústav matematických strojů. 

HAJIČ, Jan – PANEVOVÁ, Jarmila – BURÁŇOVÁ, Eva – UREŠOVÁ, Zdeňka – BÉMOVÁ, 

Alla- ŠTĚPÁNEK, Jan – PAJAS, Petr – KÁRNÍK, Jiří. 1997. Anotace na analytické rovině (manuál 

pro anotátory). Technická zpráva TR-1997-03. Praha: ÚFAL MFF UK. 

32


HAJIČ, Jan – BRILL, Eric – COLLINS, Michael – HLADKÁ, Barbora – JONES, Douglas – 

KUO, Cynthia – RAMSHAW, Lance – SCHWARTZ, Oren – TILLMANN, Christopher – ZEMAN, 

Daniel. 1998. Core Natural Language Processing Technology Applicable to Multiple Languages. 

Research Note 37. Center for Language and Speech Processing, Johns Hopkins University, Baltimore, 

MD, USA. http://www.clsp.jhu.edu. 

HAJIČ, Jan – HRIC, Jan – KUBOŇ, Vladislav. 2000. Česílko: Machine Translation Between 

Closely Related Languages. In: Proceedings of the 6th Applied NLP, Seattle, WA, USA. ACL / MIT 

Press, s. 7 – 12. 

HAJIČ, Jan – KRBEC, Pavel – KVĚTOŇ, Pavel – OLIVA, Karel – PETKEVIČ, Vladimir. 

2001a. Serial Combination of Rules and Statistics: A Case Study in Czech Tagging. In: Proceedings of 

ACL'01, Toulouse, France, s. 160 – 167. 

HAJIČ, Jan – HAJIČOVÁ, Eva – PAJAS, Petr – PANEVOVÁ, Jarmila – SGALL, Petr – 

VIDOVÁ HLADKÁ, Barbora. 2001b. The Prague Dependency Treebank 1.0. CDROM. Philadelphia: 

Linguistic Data Consortium LDC2001T10. ISBN 1-58563-212-0. 

HAJIČOVÁ, Eva – PANEVOVÁ, Jarmila – SGALL, Petr. 2000. Anotace na tektogramatické 

rovině (manuál pro anotátory). Technická zpráva TR-2000-09. Praha: ÚFAL MFF UK. 

HLADKÁ, Barbora. 2000. Czech Language Tagging. PhD thesis, Praha: ÚFAL MFF UK. 

CHARNIAK, Eugene. 1996. Statistical Language Learning. Cambridge: The MIT Press. 

CHURCH, Kenneth. 1992. Current Practice in Part of Speech Tagging and Suggestions for the 

Future. In: Simmons (ed.), Studies in Slavic Philology and Computational Linguistics: In Honour of 

Henry Kučera. Michigan Slavic Publications, s. 13 – 48. 

CHYTIL, Michal. 1984. Automaty a gramatiky. Praha: SNTL. Matematický seminář, roč. 19. 

JELINEK, Frederick. 1998. Statistical Methods for Speech Recognition. Cambridge: The MIT 

Press. 

JURAFSKY, Daniel – MARTIN, James. 2000. Speech and Language Processing. Prentice- 

Hall. 

KOSKENNIEMI, Kimmo. 1983. Two-level morphology. PhD thesis. Technical reports No. 11. 

Helsinki: Dept. of Linguistics, University of Helsinki. 

MANNING, Christopher – SCHUETZE, Heinrich. 1999. Foundations of Statistical Natural 

Language Processing. Cambridge: The MIT Press. 

MARCUS, Mitch – SANTORINI, Beatrice – Marcinkiewicz M. 1993. Building a Large 

Annotated Corpus of English: the Penn Treebank. Computational Linguistics, 19 (2), s. 313 – 330. 

MÍROVSKÝ, Jiří. 1999. Morfologické značkování textu: automatická disambiguace. Mgr. 

Thesis. Praha: MFF UK. 

MOHRI, Mehryar – RILEY, Michael – PEREIRA, Fernando C. N. 1998. A Rational Design for 

a Weighted Finite-State Transducer Library. Lecture Notes in Computer Science 1436. Berlin: 

Springer Verlag. 

PETKEVIČ, Vladimír. 1995. A New Formal Specification of Underlying Representations. In: 

Theoretical Linguistics, Vol. 21. s. 7 – 61 

SGALL, Petr – HAJIČOVÁ, Eva – PANEVOVÁ, Jarmila. 1986. The Meaning of the Sentence 

and Its Semantic and Pragmatic Aspects. Prague/Netherlands: Academia/Reidel Publishing Company. 

SKOUMALOVÁ, Hana. 1997. Czech lexicon by two-level morphology. In:R. Marcinkevičiene 

– N. Volz (eds.), Proceeedings of the 2nd European Seminar of TELRI -- Language Applications for 

a Multilingual Europe. Mannheim/Kaunas: IDS/VSU. s. 123 – 145. 

33

JAN HAJIČ 

34

IDENTIFIKÁCIA PARADIGMATICKÝCH 

A SYNTAGMATICKÝCH VZŤAHOV 

V TEXTE 

Karol Furdík: Juvier, s.r.o., Košice 

Abstract: Paper describes the algorithm of inductive incremental learning for identification and representation 

of paradigmatic and syntagmatic relationships in written texts. Probabilistic methods are used for determination 

of structural similarities on morphological, syntactical, and semantic level. 

1. Problematika analýzy textu 

Analýza textu, čiže identifikácia jazykových jednotiek (znakov) a vzťahov 

medzi nimi, je kľúčovým problémom azda všetkých súčasných systémov na 

spracovanie prirodzeného jazyka. Dôvodov, prečo sa tento problém stále vymyká 

úspešnému a vyčerpávajúcemu riešeniu, je niekoľko. Predovšetkým je to 

zložitosť samotného jazyka: „Jazyk je nesporně nejsložitější a nejbohatší 

známý systém (mimo přírodní vědy) mající mnoho stránek, a tedy i možností 

přístupu k jeho chápání, popisu, popř. i třídění; v důsledku toho je právě komplexní 

pohled na něj, jakkoliv žádoucí, také neobyčejně obtížný.“ (Čermák 

1994, s. 13). Alebo, formálnejšie, prirodzený jazyk v celej svojej šírke nemôže 

byť generovaný menej výkonnou gramatikou, ako je gramatika typu 0 (všeobecná) 

podľa delenia N. Chomského (Csontó – Sabol 1991, s. 42). Dôsledkom 

toho je, že prirodzený jazyk môže byť bez dodatočných ohraničení akceptovaný 

iba programom s výkonnosťou Turingovho stroja, čo znamená, že takýto program 

si bude vyžadovať neobmedzený prístup k dynamickej pamäti. 

Druhým dôvodom, pre ktorý analýza textu v prirodzenom jazyku naďalej 

ostáva výzvou, je tesná prepojenosť jazyka a myslenia. Pri pokuse analyzovať 

text ako jazykový prejav nie je dosť dobre možné oddeliť to, ako jazyk funguje 

(v zmysle formálneho systému), od toho, o čom vypovedá (v rovine sémantickej 

a pragmatickej, v rovine vedomostí a ich reprezentácie, v konečnom dôsledku 

v rovine vedomia a myslenia). Vzájomná podmienenosť jazyka a myslenia naznačuje, 

že tieto dva fenomény nemožno skúmať oddelene, že ide skôr o dve 

strany jednej mince (dôkazom toho môže byť aj tzv. Linguistic Turn, posledný 

veľký obrat vo filozofii – pozri napr. v Michalovič – Minár (1997, s. 12). Sú- 

35

KAROL FURDÍK 

vislosť je vari až taká, že vyriešenie problému analýzy jazyka predpokladá objavenie 

mechanizmov a prípadnú formalizáciu myslenia (a vice versa). 

Posledným, možno trochu diskutabilným dôvodom, avšak rozhodne so silným 

vplyvom na skúmanie analýzy jazykového prejavu, je metodológia. Donedávna 

sa prakticky všetky prístupy k skúmaniu jazyka vyznačovali snahou o explicitný 

popis jednotiek, z ktorých jazykový systém pozostáva, vrátane vzťahov, 

pravidiel, zásad a noriem ich vzájomného kombinovania. Tento prístup predpokladá, 

že existuje všeobecný, spoločný, a relatívne stály abstraktný systém jazyka 

– langue (Čermák 1994, s. 18). Percepcia jazyka sa v takomto prípade dá 

modelovať ako „postupná identifikace povrchových (vnějškových) struktur slyšené 

/ čtené promluvy srovnáváním se známým, t. j. jednotkami a pravidly v langue“ 

(tamže, s. 19). Hrubá schéma systému analyzujúceho text na základe 

porovnávania s vopred známou a nemennou štruktúrou langue je na obrázku 1. 

Problémom tohto prístupu však je otázka, či je vôbec možné vyčerpávajúco explicitne 

a formálne vyjadriť všetky jednotky a pravidlá v langue tak, aby sa 

analyzovaný text (resp. jazykový prejav) dal s nimi porovnávať. Zrejme to možné 

nie je, pretože, ako bolo spomenuté vyššie, takýto formalizmus by musel byť 

vyjadrený gramatikou typu 0 a zodpovedajúci porovnávací mechanizmus by 

musel dosahovať potenciálne nekonečnú zložitosť a výkonnosť Turingovho 

stroja. 

Vstupný text 

(parole) 

Porovnávací modul 

Znalostná báza 

(Explicitné jednotky a pravidlá langue) 

Obrázok 1. Známa a nemenná štruktúra langue. 

2. Intencionalita, inkrementálne učenie 

Identifikácia 

Výstup 

Aký prístup k analýze textu teda zvoliť, aby sa prekonali naznačené problémy? 

Musí to byť prístup, ktorý je dynamický, ktorý sa blíži k predpokladaným 

modelom myslenia, a ktorého formalizmus sa výkonnosťou blíži k výkonnosti 

Turingovho stroja. Jedným z možných riešení je napríklad subjektivizá- 

36

IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE 

cia jazykovej percepcie (Furdík 1999, s. 276). Do popredia tu vystupuje mentálna 

(kognitívna) funkcia jazyka, zameraná najmä na predikciu budúcich interakcií 

subjektu s prostredím na základe vedomých subjektívnych skúseností. 

Komunikačná funkcia jazyka, všeobecne považovaná za základnú a dominantnú 

funkciu langue (Michalovič – Minár 1997, s. 19), sa pri subjektívnom prístupe 

stáva sekundárnou. Langue (ako abstraktný systém, model jazyka) vzniká 

a modifikuje sa pre každý subjekt zvlášť, a to na základe vstupov (zmyslovo 

vnímaných ako parole) v interakcii s okamžitým stavom tohto „subjektívneho 

langue“ (azda presnejší je v tomto prípade Chomského termín competence, čiže 

„systém pravidel k produkování promluv a jejich rozumění, pojatý jako znalost 

mluvčích; odpovídá langue“ (Čermák 1994, s. 62, 208)). Subjektivizácia však 

sama osebe nie je dostatočná na konštrukciu systému schopného vnímať jazyk a 

analyzovať text. Naopak, je iba nevyhnutným predpokladom cieľavedomého 

budovania štruktúry vedomých subjektívnych skúseností, ktoré sa zvykne 

označovať ako intencionalita. Ako uvádza van Gulick (1992, s. 86), zhŕňajúc 

tvrdenia Searla a Nagela: „Schopnosť mať vedomé subjektívne skúsenosti je 

nevyhnutnou podmienkou akýchkoľvek stavov s vlastným intencionálnym obsahom.“ 

Intencionalita v tomto zmysle nie je samoúčelná, jej cieľom je už 

spomínaná predikcia možných budúcich stavov prostredia na základe už rozpoznaných 

stavov a ich porovnávania s okamžitými vnemami – subjekt si vytvára 

vnútorný model prostredia, konfrontuje ho so svojimi vstupmi, a pokúša 

sa jednak interpretovať aktuálne vstupy na základe existujúceho modelu prostredia, 

a jednak meniť tento vnútorný model tak, aby čo najviac zodpovedal 

vnímanému prostrediu. Tento proces „vedomej“ zmeny vnútornej reprezentácie 

(samočinnej optimalizácie), ktorý je cieľovo zameraný na predikciu možných a 

pravdepodobných budúcich stavov prostredia ako dôsledku „zmyslových“ vnemov 

(ukážkových príkladov), sa nazýva učenie (Furdík 1999, s. 277, pozri aj 

Csontó – Sabol 1991, s. 83). 

Realizovaný jazykový prejav (parole, resp. text), ktorý je vstupom pre subjektívny 

intencionálny systém, sa vyznačuje vlastnosťou sekvenčnosti – jednotlivé 

jazykové znaky sú zoradené a následne aj rozpoznávané sekvenčne, za 

sebou, pričom ich poradie je relevantným štruktúrotvorným prvkom. Sekvenčný 

prísun vstupnej informácie spolu s obmedzením pamäti systému implikuje inkrementálnosť 

učenia – učenie nie je jednorázový akt, ale skôr proces „permanentného 

doučovania“. Samozrejme, množina vstupných príkladov nemôže 

byť nikdy úplná – systém musí mať schopnosť učiť sa induktívne, t. j. zovšeobecňovať. 

Pre takýto charakter vstupných príkladov sa dá použiť induktívne 

37

KAROL FURDÍK 

inkrementálne učenie (Csontó – Sabol 1991, s. 83), ktoré môže byť buď kontrolované, 

alebo nekontrolované. Pri nekontrolovanom učení (bez učiteľa) systém 

odvodzuje informáciu o správnosti svojho rozhodnutia pomocou spätnej 

väzby; pri kontrolovanom učení (s učiteľom) je informácia o rozhodnutí a jeho 

správnosti priamo súčasťou vstupu (pozri schému na obrázku 2). 

Vstupný text 

(parole) 

Adaptabilná znalostná báza 

Porovnávací modul 


(Subjektívny abstraktný model jazyka) 

Modifikácia 

znalostnej 

bázy 

Obrázok 2. Analyzátor textu ako učiaci sa systém. 

3. Algoritmus inkrementálneho učenia 

Výstup 

Spätná väzba 

systému 

Zásah učiteľa 

Ďalšou úlohou je špecifikovať vlastný algoritmus induktívneho inkrementálneho 

učenia. Je potrebné nájsť a identifikovať také javy v analyzovanom texte, 

ktoré dovoľujú inkrementálne vytvárať subjektívny abstraktný model jazyka 

vo vnútri systému. Vstupný text v prirodzenom jazyku je realizáciou predpokladanej 

všeobecnej abstraktnej štruktúry langue. Preto jazykové jednotky v 

ňom sú dozaista vzájomne prepojené syntagmatickými a paradigmatickými 

vzťahmi. Tieto vzťahy možno považovať za vzájomne komplementárne, pričom 

syntagmatické vzťahy majú v zásade lineárnu povahu, kým paradigmatické 

zasa povahu asociačnú. Existencia oboch týchto vzťahov je však spôsobená 

tým istým princípom, ktorý je vlastný jazykovému znaku – princípom différence. 

Odlišnosť, diferencia voči iným znakom systému je práve to, čo znak tvorí, 

čo určuje jeho miesto v systéme. Prípadne, ak je to z praktických dôvodov výhodnejšie, 

dá sa vzťah rozdielnosti dvoch objektov jednoduchou inverziou zmeniť 

na vzťah vzájomnej podobnosti (porov. Michalovič – Minár 1997, 

s. 35, 36). 

Algoritmus učiaceho sa systému na analýzu textov by mal byť schopný abstrahovať, 

identifikovať, a následne explicitne vyjadriť vzájomné podobnosti 

jazykových jednotiek. Explicitná reprezentácia identifikovaných podobností je 

abstrakciou spoločných čŕt jazykových jednotiek, ktoré spôsobili jej vznik. 

38


Naviac, ak sa zvolí vhodný formálny jazyk na vyjadrenie explicitných reprezentácií 

podobností, je možné postulovať, že získané explicitné relácie sú meta-jazykovými 

znakmi. Dajú sa vzájomne porovnávať, dá sa vyjadriť ich vzájomná 

podobnosť, čím môžu vzniknúť ďalšie meta-meta-jazykové znaky. Vzniká tým 

štruktúra, zodpovedajúca subjektívnemu abstraktnému modelu jazyka – „subjektívnemu 

langue“. 

V ďalšom sa pokúsime presnejšie popísať jednotlivé moduly a kroky navrhovaného 

algoritmu, ktorého schéma je zobrazená na obrázku 3. 

Vstup 

Text, 

reťazec 

znakov 

Predspracovanie 

vstupného 

reťazca 

Adaptabilná znalostná báza 

(Subjektívny abstraktný model jazyka) 

Štruktúra tried podobností jazykových jednotiek: 

• morfologický modul 

• syntaktický modul 

• sémantický modul 

3.1 Predspracovanie vstupu 

Sekvencia 

elementárnych 

jazykových 

jednotiek 

Porovnávací 

modul 


Obrázok 3. Schéma algoritmu inkrementálneho učenia. 

Spätná väzba 

systému 

Výstup 

Zásahy na zmenu štruktúry 

znalostnej bázy 

Vznik novej triedy 

Zánik existujúcej triedy 

Zmena pravdepod. váh 

Zásah 

učiteľa 

Vstupný analyzovaný text je pre počítačový systém sekvenciou, reťazcom 

znakov. Úlohou modulu predspracovania vstupu je rozdeliť vstupný reťazec na 

postupnosť jazykových jednotiek, t. j. rozpoznať jednotlivé jazykové jednotky 

v tomto reťazci. Avšak identifikácia takých jazykových jednotiek, ako sú slová, 

frazémy, vety a pod., je v učiacom sa systéme možná iba na základe konzultácie 

so znalostnou bázou, teda s aktuálnym subjektívnym modelom jazyka. Inými 

slovami, systém sa musí najprv naučiť, čo je slovo, veta, frazéma a podobne, 

a až potom je schopný tieto jednotky vo vstupnom reťazci identifikovať. 

Tento „dôsledný“ prístup však nie je veľmi výhodný, pretože na začiatku 

predpokladáme prázdnu znalostnú bázu. V takomto prípade by systém nemal 

žiadne „vedomosti“ o tom, čo považovať za jazykovú jednotku, a je otázkou, či 

a za aký dlhý čas by tieto vedomosti získal. 

39

KAROL FURDÍK 

Tu je zrejme vhodné spomenúť miesto a vplyv apriórnych vedomostí na 

činnosť učiaceho sa systému. Apriórne vedomosti sú také fakty, ktoré systém 

nezíska sám v procese učenia, ale ktoré dodáme systému zvonka (kontrolované 

učenie, pozri vyššie). Potom platí, že sa zrejme (ak sú učiteľom dodané fakty 

„správne“, t. j. ak sa potvrdia v budúcich vstupoch) zvýši efektívnosť a rýchlosť 

systému, skráti sa čas prehľadávania znalostnej bázy. Na druhej strane však 

klesne univerzálnosť, systém sa bude snažiť aplikovať dodané fakty namiesto 

toho, aby sa pokúšal prispôsobovať svoju znalostnú bázu aktuálnemu vstupu 

vytváraním „svojich“ znalostí v procese učenia sa. 1 Tento princíp, ktorý nazveme 

ako princíp apriórnych vedomostí, platí aj pri ďalších etápách algoritmu 

všade tam, kde sa uplatňuje inkrementálne učenie. 

Zrejme je potrebné modul predspracovania vstupu vybaviť istými apriórnymi 

vedomosťami o tom, čo je tzv. elementárny jazykový znak. Modul potom 

bude schopný transformovať vstupný reťazec na sekvenciu takýchto 

elementárnych jazykových znakov, ktoré sa v ďalších etapách algoritmu budú 

môcť spájať do vyšších štruktúr. 

Rozdelíme všetky znaky, ktoré sa môžu vyskytovať vo vstupnom reťazci, 

do nasledujúcich kategórií: 

a) alfanumerické znaky (pre slovenskú abecedu sú to znaky a – ž, A - Ž) , 

b) prázdne znaky (Space, Tab, EndOfLine, EndOfFile, ...), 

c) špeciálne znaky (ostatné, t. j. 0 – 9, _, ?, „, :, ...). 

Potom elementárnym jazykovým znakom bude každý reťazec: 

a) zložený iba z alfanumerických znakov alebo 

b) tvorený jedným špeciálnym znakom. 

Na identifikáciu elementárneho jazykového znaku sa dajú použiť aj iné 

metodiky, iné rozdelenia do kategórií, napríklad špeciálne kategórie pre číselné 

reťazce, pre dátum, čas a podobne. Dá sa dokonca postulovať, že elementárnym 

jazykovým znakom je každý jednotlivý znak zo vstupu. Pri každom z týchto 

delení však platí princíp apriórnych vedomostí, teda čím „presnejšie“ určíme, 

čo je elementárny jazykový znak, tým menej flexibilný bude systém. 

3.2 Morfologické štruktúry 

1 Určitým kompromisom môže byť kontrolované učenie s nedokonalým učiteľom (Csontó – Sabol 

1991, s. 83), pri ktorom fakty dodané zvonka nemajú absolútnu platnosť, ale sú ohodnotené istou 

pravdivostnou (alebo pravdepodobnostnou) váhou. Ak sa zmení charakter vstupu, systém môže po istom 

čase takéto fakty „zabudnúť“, čím sa adaptuje na novú situáciu. 

40


Úlohou modulu morfológie je zoskupovať rozpoznané jazykové jednotky 

do tried podľa podobnosti ich formálnej reprezentácie. Týmto procesom vzniká 

abstraktná štruktúra popisujúca paradigmatické vzťahy jazykových jednotiek. 

Paradigmatický vzťah morfologickej úrovne asociuje jazykové jednotky na základe 

ich tvarovej, formálnej podobnosti. Z dvoch alebo viacerých jazykových 

jednotiek vznikajú triedy (kategórie), ktoré abstrahujú spoločné formálne vlastnosti 

týchto jednotiek. Vzniknuté triedy však majú zároveň charakter (abstraktných) 

jazykových jednotiek, vyjadrujú, ktoré formálne vlastnosti sú pre systém 

v danom okamihu relevantné. 

Abstraktná jazyková jednotka má charakter triedy (kategórie) v tom 

zmysle, že vieme povedať, ktoré jazykové jednotky do tejto triedy patria (spĺňajú 

formálne vlastnosti vyjadrené abstraktnou jazykovou jednotkou), a ktoré do 

triedy nepatria. Zároveň má abstraktná jazyková jednotka charakter atribútu 

pre tie jazykové jednotky, ktoré spĺňajú formálne vlastnosti abstraktnou jednotkou 

vyjadrené (Furdík 1999, s. 280). Dvojica atribút – trieda je komplementárna, 

t. j. ak nejaká jednotka patrí do určitej abstraktnej triedy, zároveň má aj 

atribút (príznak, vlastnosť) príslušnosti k tejto triede. Relácia 

Patriť_do_triedy(Ji , Tx) vytvára štruktúru v priestore jazykových jednotiek. 

Triedy sa dajú explicitne vyjadriť napríklad pomocou vhodného formálneho 

jazyka. Formálny jazyk na explicitné vyjadrenie tried treba voliť tak, aby: 

a) jazykové jednotky a triedy boli vyjadrené kvalitatívne rovnakým spôsobom, 

aby sa dali vzájomne porovnávať, zoskupovať a triediť, 

b) triedy mohli byť použité ako klasifikačné pravidlá, t. j. aby bolo možné 

rozhodnúť, či ľubovoľná jazyková jednotka do danej triedy patrí alebo 

nie, 

c) triedy boli generické v tom zmysle, aby bolo možné z danej triedy rekonštruovať 

jazykové jednotky, ktoré spôsobili vznik tejto triedy. 

Samozrejme najdôležitejšou vlastnosťou formálnej reprezentácie abstraktných 

morfologických tried je schopnosť vyjadriť formálne, tvarové podobnosti 

(resp. rozdiely) jazykových jednotiek. 

Explicitné vyjadrenie triedy sa dá realizovať formálnym jazykom generovaným 

buď bezkontextovou, alebo kontextovou gramatikou. Bezkontextová 

gramatika má síce menšiu vyjadrovaciu schopnosť, môže sa stať, že isté morfologické 

podobnosti sa pomocou nej nedajú vyjadriť, je však jednoduchšia a rýchlejšia. 

Kontextová gramatika má kapacitu vyjadriť azda všetky relevantné morfologické 

podobnosti, je tu však reálne riziko veľkej, až exponenciálnej výpočtovej 

zložitosti. 

41

KAROL FURDÍK 

V práci P. Kostelníka (2000, s. 33) bola navrhnutá a použitá metóda troch 

operátorov prepisu, zodpovedajúca zložitosti bezkontextovej gramatiky. Táto metóda 

vychádza z predpokladu, že pre každé dve rôzne jazykové jednotky existujú 

transformácie, pomocou ktorých možno prepísať jednu jednotku na druhú. 

Práve tieto transformácie sa definujú ako tzv. operátory prepisu. Rozlišujú sa tri 

typy týchto operátorov: 

1. operátor doplnenia zľava OL; napríklad reťazec ník je operátorom doplnenia 

zľava pre jazykové jednotky podvod a podvodník: OL(podvod, 

podvodník)=ník. 

2. operátor doplnenia sprava OP; napríklad reťazec ne je operátorom doplnenia 

sprava pre jazykové jednotky šťastie a nešťastie: OP(šťastie, nešťastie)=ne. 

3. operátor zmeny OZ; napríklad dvojica reťazcov {imista, ímia} je operátorom 

zmeny pre jazykové jednotky alchimista a alchímia: OZ(alchimista, 

alchímia)= {imista, ímia}. 

Metóda sa aplikuje postupne na každú dvojicu elementárnych jazykových 

jednotiek identifikovaných na vstupe. Získava sa množina operátorov, ohodnotená 

pravdepodobnostnou váhou podľa toho, ako často sa ten-ktorý operátor 

uplatnil pri transformácii. Operátory, ktorých pravdepodobnostná hodnota presiahne 

určitý prah, vytvoria tzv. priestor typických reťazcov, ktoré zodpovedajú 

abstraktným morfologickým triedam. Táto metóda pracuje iteračne, využíva 

princíp inkrementálneho učenia. 

Modifikáciou metódy operátorov prepisu môže byť napríklad tzv. metóda 

podreťazcov. Okrem operátorov sa zo vstupných jazykových jednotiek získavajú 

aj kontextové vyjadrenia zhodných podreťazcov. Napríklad vstupné jednotky 

kniha a knihe generujú operátor zmeny {a, e}, a zároveň podreťazec knih*, kde 

znak ‘*’ označuje ľubovoľný podreťazec. Nasledujúci príklad ukazuje použitie 

tejto metódy na získanie štruktúry abstraktných morfologických tried: 

Nech vstupom sú nasledujúce elementárne jazykové jednotky: 

{kniha, knihe, knihou, mačka, mačke, mačkou} 

Potom aplikáciou metódy podreťazcov dostávame nasledujúce abstraktné 

morfologické triedy: 

{a, e}; {a, ou}; {e, ou}; {knih*}; {mačk*} 

Ďalej platí: 

{kniha} patrí do tried {a, e}, {a, ou}, a {knih*}, 

{knihe} patrí do tried {a, e}, {e, ou}, a {knih*}, 

42


{mačka} patrí do tried {a, e}, {a, ou}, a {mačk*}, 

{mačkou} patrí do tried {e, ou}, {a, ou}, a {mačk*} atď. 

Ďalej: 

do triedy {knih*} patria jednotky: {kniha}, {knihe}, {knihou}, 

do triedy {mačk*} patria jednotky: {mačka}, {mačke}, {mačkou} 

Je zrejmé, že obe triedy podreťazcov zodpovedajú štruktúre, ktorá sa 

zvykne označovať ako morfologické (resp. slovotvorné) hniezdo. Trieda podreťazcov 

obsahuje v tomto prípade niečo ako abstrahovaný koreň tých slov 

(jazykových jednotiek), ktoré túto triedu vytvorili. 

Teraz ak porovnáme operátory zmien členov oboch tried podreťazcov, zistíme, 

že sú rovnaké – tvoria ich operátory {a, e}; {a, ou}; {e, ou}. Tieto operátory 

možno považovať za abstraktné, pritom však explicitné, vyjadrenie skloňovacieho 

vzoru (resp. jeho časti). 

Samozrejme, v skutočnosti sa pomocou tejto metódy generuje aj množstvo 

chybných abstraktných tried. Tomuto javu sa nedá dosť dobre zabrániť, systém 

nevie sám rozhodnúť, ktorá trieda je generovaná správne, a ktorá chybne. 

Jednou z možností, ako sa dá eliminovať chybovosť, je zohľadnenie pravdepodobnosti 

výskytu jednotlivých abstraktných tried na základe ich rozpoznávania 

v sekvenčnom vstupnom texte (pozri Furdík 1999, Kostelník 2000). Abstraktné 

triedy sa generujú spolu s určitou počiatočnou hodnotou pravdepodobnosti P0. 

Formalizmus ich explicitného vyjadrenia dovoľuje testovať ďalšie jazykové 

jednotky na ich príslušnosť k tej-ktorej abstraktnej triede. Ak sa rozpozná taká 

jednotka, ktorá vyhovuje vyjadreniu triedy, zvýši sa pravdepodobnostná hodnota 

tejto triedy o prírastok ΔP. Napríklad, nech trieda {knih*} z nášho príkladu 

vznikla z jednotiek {kniha} a {knihe}. V tom okamihu jej pravdepodobnosť 

bola P0. Po rozpoznaní jednotky {knihou} sa zdvihla hodnota pravdepodobnosti 

o ΔP na hodnotu P({knih*}) = P0 + ΔP, keďže táto jednotka spĺňa 

kontextové vyjadrenie triedy {knih*}. 

Ďalšou možnosťou zníženia chybovosti je kontrolovanie učenia zvonka. 

Tento algoritmus je citlivý na poradie, v akom sa jazykové jednotky objavujú na 

vstupe. Napríklad chybovosť a efektivita sa dajú zvýšiť vstupom textu, ktorý 

obsahuje vyskloňované vzory substantív a podobne. Tiež možno zvonka doplniť 

niektoré triedy, ktoré systém „neobjavil“, avšak používateľ „vie“, že sú 

relevantné (viac o tom v časti 3.5). 

Dôležitým predpokladom úspešnej činnosti algoritmu je pevná veľkosť 

pamäti generovaných tried. Poradie abstraktných tried (a jazykových jednotiek 

43

KAROL FURDÍK 

vôbec) v pamäti je dané pravdepodobnosťou ich výskytu. Systém, ak má byť 

schopný adaptovať sa na zmenené podmienky (t. j. na zmenený vstupný text), 

musí „zabúdať“ to, čo je chybné, nepotrebné, teda málo pravdepodobné. Ak sa 

pamäť zaplní, systém zmaže, zabudne triedy a jazykové jednotky s najmenšou 

pravdepodobnosťou, aby mohol generovať nové triedy podľa nového vstupu. 

3.3 Syntaktické štruktúry 

Identifikácia syntagmatických (najmä syntaktických) štruktúr sa kvalitatívne 

líši od činnosti morfologického modulu. Syntaktický modul má za úlohu 

hľadať štruktúry, ktoré popisujú lineárne vzťahy medzi jazykovými jednotkami, 

pravidlá, ako za sebou jazykové jednotky nasledujú v texte. Činnosť modulu je 

znova založená na princípe différence, avšak tentokrát sa skúmajú podobnosti 

a rozdiely v poradí a zoskupení jednotiek. Triedy, ktoré sa identifikovali na úrovni 

morfologického modulu, slúžia pre identifikáciu syntagmatických štruktúr 

ako vstup. Na výstupe modulu očakávame explicitnú reprezentáciu abstraktných 

štruktúr popisujúcich najfrekventovanejšie syntagmatické celky. 

Je zrejmé, že pre potreby syntaktického modulu musia už elementárne 

jazykové jednotky rozpoznávané vo fáze predspracovania niesť so sebou aspoň 

minimálnu informáciu o svojej pozícii vo vstupnom texte. Stačí, ak touto informáciou 

bude údaj o tom, ktorá elementárna jednotka bola identifikovaná ako 

predchodca práve rozpoznávanej elementárnej jednotky. Tieto smerníky spolu 

s morfologickými charakteristikami by mali byť dostatočnou vstupnou informáciou 

pre činnosť syntaktického modulu. 

Kľúčovým problémom pri identifikácii syntagmatických štruktúr je voľba 

vhodného formalizmu na vyjadrenie ich explicitnej reprezentácie. Jednou z 

možností je použiť algoritmus podmienených pravdepodobností, prípadne jeho 

zjednodušenie – trigramový model (pozri napr. Furdík 1999, s. 286). Tento algoritmus 

však poskytuje iba implicitnú (pravdepodobnostnú), a nie explicitnú 

reprezentáciu, a naviac, n-gramový model dovoľuje identifikovať iba syntagmatické 

štruktúry dĺžky maximálne n. Druhou možnosťou je zotrvať pri symbolickej 

reprezentácii pomocou formálnych jazykov – touto možnosťou sú rozšírené 

prechodové siete (ATN – Augmented Transition Networks), založené 

na bezkontextovej gramatike s n-ticou argumentov (tzv. DCG gramatika, Definite 

Clause Grammar; Páleš 1993, s. 77). ATN sieť je syntaktický analyzátor 

pozostávajúci z orientovaného grafu, zoznamu podmienok a zoznamu akcií. 

Každá hrana grafu je samostatným pravidlom bezkontextovej gramatiky a zod- 

44


povedá podmienke vyjadrenej nutnosťou zhody argumentov ľavej a pravej časti 

pravidla. Toto pravidlo zodpovedá podmienke, pri ktorej možno cez hranu 

prejsť, a akcii, ktorú treba pri tom vykonať. Zvyčajne sú podmienky na hranách 

označené slovným druhom s požadovanými gramatickými kategóriami, akcie 

sú označenia zodpovedajúcich syntaktických kategórií (obrázok 4). 

NF 

(nominálna fráza) 

adj 

subst 

Hrana Podmienky Akcie 

adj adj(_, P1, C1, R1, Z1) DETERMINANT 

subst subst(_, P1, C1, R1, Z1) 

Podmienky k hranám adj a subst požadujú zhodu vetných 

členov v rode, čísle, páde a životnosti. Ak sú podmienky 

splnené, potom akcie priraďujú syntaktické roly, ktoré sú 

výsledkom analýzy. 

Obrázok 4. Príklad fragmentu ATN siete pre nominálnu frázu. 

Vstupom pre syntaktický analyzátor využívajúci ATN siete sú úplne morfologicky 

ohodnotené slová vety. Výstupom sú identifikované vetné členy – syntaktické 

kategórie. Samozrejme, predpokladá sa, že existuje nemenný a úplný zoznam 

všetkých ATN sietí pre daný jazyk. Tento prístup nezodpovedá princípom 

systému založeného na inkrementálnom induktívnom učení, preto je nevyhnutné 

formalizmus ATN sietí prispôsobiť potrebám učiaceho sa algoritmu analýzy textu. 

Analogicky s morfologickým modulom, syntaktické štruktúry nesmú byť 

pevné a vopred určené, ale musia vznikať ako abstrakcie v procese učenia. Ich 

platnosť nie je absolútna, ale je daná pravdepodobnosťou, ktorá sa počas činnosti 

algoritmu môže meniť. Syntaktické štruktúry, ktoré sú pod určeným minimálnym 

prahom, zanikajú, zabúdajú sa. 

Vstupom pre učiaci sa syntaktický analyzátor nie sú vety, pretože systém 

apriórne nie je schopný členiť vstupný text na vety. Zároveň vstupom nemôžu 

byť ani slová ohodnotené tradičnými gramatickými kategóriami, pretože učiaci 

sa systém si vytvára svoje vnútorné kvázi-morfologické kategórie. Dokonca 

apriórne morfologický modul nie je schopný určiť ani slovný druh jazykovej 

jednotky. Vstupom pre učiaci sa syntaktický modul sú elementárne jazykové 

jednotky rozpoznané vo fáze predspracovania, kontextovo pospájané smerníkmi 

na svojich predchodcov. Súčasťou tohto vstupu je aj celá štruktúra abstraktných 

tried, identifikovaných morfologickým modulom. Čiže syntaktické 

štruktúry nemôžu byť pevné a dopredu určené, pretože gramatické kategórie, 

ktoré sú ich súčasťou, sú premenlivé. 

45

KAROL FURDÍK 

Výstupom učiaceho sa syntaktického analyzátora nie sú syntaktické kategórie, 

ale vlastné pravdepodobnosťou ohodnotené ATN siete, ktoré sú explicitnou 

reprezentáciou abstraktných štruktúr popisujúcich najfrekventovanejšie 

syntagmatické celky. Sú to vlastne abstraktné a elementárne jazykové jednotky, 

ktoré sa spolu, v určitých syntagmatických vzťahoch, najčastejšie vyskytujú. 

Nasledujúci príklad demonštruje, aké syntaktické štruktúry možno očakávať na 

výstupe syntaktického modulu: 

Jano 

som 

Nech na vstupe boli rozpoznané nasledujúce fragmenty textu: 

– Jano číta knihu 

– bol by som čítal tento zaujímavý časopis, keby... 

– Keby som to bol vedel, nebol by som sa začal venovať 

spracovaniu prirodzeného jazyka na počítači. 

Potom syntaktický modul generuje napríklad takéto fragmenty ATN siete: 

číta* 

zaujímavý 

knih* 

časopis 

bol 

by som 

sa 

čítal 

začal 

kde každý z elementov je zároveň začlenený do paradigmatických štruktúr 

morfologického modulu. 

Chybovosť sa rieši, podobne ako pri morfologickom module, pravdepodobnostným 

ohodnotením generovaných syntaktických štruktúr. Tu sa však, 

azda viac ako pri morfologických abstraktných štruktúrach, stáva aktuálnou 

otázka „rozumného“ riadenia procesu učenia zvonka. Ako upozorňuje Páleš 

(1993, s. 76), počet pravidiel DCG gramatiky pre slovenskú syntax je neúmerne 

veľký, a aj keď použitie ATN sietí reprezentáciu zjednodušuje, výpočet alternatív 

v procese učenia môže dosahovať exponenciálnu zložitosť. Do určitej 

miery sa dá toto riziko eliminovať tým, že učiteľ vopred vloží „známe“ ATN 

fragmenty do systému a priradí im vhodné pravdepodobnostné hodnoty. 

3.4 Sémantické štruktúry 

46


Sémantický modul sa svojím charakterom odlišuje od oboch predchádzajúcich 

modulov. Na rozdiel od morfologických a syntaktických štruktúr, ktoré 

sa viac či menej dajú abstrahovať z formy jazykového prejavu, sémantické 

štruktúry sú primárne založené aj na iných než na jazykových skúsenostiach. 

Riešením by azda bolo, ak by sme systému simulovali aj iné „zmysly“, teda aj 

iné vstupy, ako len vstup písaného textu – napríklad vstupy zvukovej a obrazovej 

informácie. Takéto komplexné riešenie však zameraním aj zložitosťou presahuje 

problematiku analýzy textu. 

Čiastočne sa isté sémantické podobnosti a vzťahy dajú abstrahovať aj zo 

štruktúr identifikovaných predchádzajúcimi dvoma modulmi, napríklad: 

• do triedy {knih*} patria slová ako kniha, knihár, knihovníčka a podobne, 

ktoré rozhodne vzájomne sémanticky súvisia (patria do toho istého 

slovotvorného hniezda), 

• do triedy OL={ár} patria slová ako rybár, knihár, stolár, vinár a podobne, 

ktoré patria k tomu istému slovotvornému typu – k typu „pracovať s ...“, 

• z textov číta knihu a čítal tento zaujímavý časopis vzniká fragment ATN 

siete, ktorá sa dá interpretovať ako časť valenčného rámca slovesa čítať. 

Zároveň sa dá dedukovať, že {knih*} (ako abstrakcia tvaru knihu) a 

časopis spolu sémanticky súvisia, a to tak, že sú v pravom valenčnom 

okolí jazykovej jednotky číta (respektíve jej abstrakcie {číta*}). 

Avšak prisudzovať sémantickú blízkosť slovám podľa ich pozície vo vete 

je veľmi problematické, a to aj v jazykoch s oveľa prísnejšími pravidlami slovosledu, 

ako má slovenčina. Zdá sa byť nevyhnutnosťou doplniť do systému 

niečo, čo by pomohlo spoľahlivejšie identifikovať vzťahy sémantickej podobnosti 

medzi rozpoznanými jazykovými jednotkami. 

Zároveň vzniká problém, akú formálnu reprezentáciu zvoliť na explicitné 

vyjadrenie štruktúr sémantickej podobnosti. Povaha týchto štruktúr je totiž 

„zmesou“ paradigmatických a syntagmatických vzťahov, preto sa na ich reprezentáciu 

zvyknú používať špeciálne formalizmy, vyznačujúce sa sieťovou 

štruktúrou. Patria medzi ne napríklad rámce a skripty, sémantické siete, ontológie 

a podobne (Csontó – Sabol 1991, s. 113, pozri tiež Furdík 2000). Tieto formalizmy 

umožňujú definovať tzv. znalosti pomocou pojmov a relácií medzi 

nimi, pritom poskytujú aj isté možnosti odvodzovania, transformácií a vyhľadávania. 

Znalosti, explicitne vyjadrené zvoleným formalizmom, sú však doménovo 

závislé – opisujú iba určitý ohraničený „výsek“ reality, a aj to zväčša subjektívnym 

spôsobom. Ak by však intencionálny učiaci sa systém mal schopnosť 

efektívne vytvárať a modifikovať na základe svojich vstupov a vnútorných 

47

KAROL FURDÍK 

stavov svoju subjektívnu štruktúru znalostí, formálne reprezentovaných napríklad 

ontológiou, potom by táto štruktúra znalostí mala pre systém absolútnu 

platnosť. Ibaže, ako sme ukázali vyššie, samotná morfologická a syntaktická 

analýza na budovanie subjektívnej štruktúry znalostí zrejme nestačí. Je potrebné 

doplniť ju o informácie „zvonka“, z reálneho sveta. Podmienkou je, aby formát 

napĺňaných externých znalostí zodpovedal formalizmu implementovanému 

v systéme. Využiť sa pritom nemusia iba ontológie, sémantické siete a rôzne iné 

sofistikované metódy reprezentácie znalostí. Cenným zdrojom externých 

znalostí môže byť napríklad výkladový slovník, prípadne sémanticky anotovaný 

korpus jazyka – v týchto prípadoch však bude zrejme potrebná transformácia 

do formalizmu použitého v systéme. Systém by potom mohol v procese učenia 

svoju reprezentáciu znalostí modifikovať na základe svojich nových vstupov, a 

spätnou transformáciou by sa azda získal cenný materiál pre slovníky alebo pre 

jazykový korpus. 

3.5 Riadenie algoritmu 

Ak sa má zachovať intencionálny charakter navrhovaného učiaceho sa 

systému, je potrebné minimalizovať riadiace zásahy zvonka. Na druhej strane, 

pri analýze textu hrozí neustále nebezpečenstvo príliš veľkej zložitosti, prílišného 

množstva alternatív. V takomto prípade je vhodné zvýšiť efektívnosť 

metódou kontrolovaného učenia, dodaním vzorky „správnych“ údajov na 

vstup. Tento prístup je najmenej „deštruktívny“, nemení samotný algoritmus 

ani jeho parametre, aj tak však čiastočne znižuje „samostatnosť“ systému – 

platí tu princíp apriórnych vedomostí, definovaný v časti 3.1. Metóda kontrolovaného 

učenia sa používa pri všetkých troch stupňoch analýzy textu. V morfologickom 

module je ňou napríklad vstup vyskloňovaných vzory substantív, v 

syntaktickom naplnenie známych fragmentov ATN sietí, a v sémantickom doplnenie 

externých sémantických znalostí. 

Ďalšou z možností, ako efektívne obmedziť priestor prehľadávania a zrýchliť 

činnosť systému, je riadenie zabúdania nastavením vhodných pravdepodobnostných 

prahových hodnôt. Na rozdiel od kontrolovaného učenia, prahové 

hodnoty ovplyvňujú vlastný spôsob učenia, sú súčasťou kódu algoritmu. Zmenou 

pravdepodobnostných prahových hodnôt sa vlastne menia kľúčové konštanty 

algoritmu, aj keď samotná činnosť algoritmu ostáva nezmenená. 

Je možné implementovať aj taký spôsob učenia, že rozhodovanie a činnosť 

algoritmu (napríklad porovnávacieho modulu) je funkciou vstupu a 

48


vnútorného stavu systému – tento spôsob sa zvykne nazývať ako výpočet 

riadený údajmi. V takomto prípade sa nemení iba vnútorná štruktúra údajov v 

znalostnej báze, ale mení sa samotný spôsob spracovania vstupného textu. Algoritmus 

však v takomto prípade stráca determinickosť v tom zmysle, že ak nevieme 

presne, v akom stave sa systém práve nachádza, nedokážeme predpovedať, 

aké zmeny daný vstup v systéme spôsobí. 

Napokon sa principiálne dá uvažovať nad riadením systému pomocou 

metavedomostí. Systém v takomto prípade chápe vstupné údaje ako pokyny, a 

mal by byť schopný adekvátne reagovať. To však už zrejme predpokladá, aby bol 

systém schopný text nielen analyzovať, ale aj pochopiť jeho zmysel vo vzťahu k 

sebe ako k subjektu, a na základe rozpoznaného zmyslu aj vykonávať príslušné 

akcie. 

4. Záver 

Analýza písaného textu realizovaná pomocou algoritmu induktívneho inkrementálneho 

učenia transcenduje problém zložitosti jazyka a metodologický 

problém jeho explicitného popisu tým, že buduje subjektívnu a v tomto zmysle 

úplnú štruktúru abstraktných pravidiel a vzťahov, ktorá predstavuje subjektívny 

model jazyka. Učenie je založené na porovnávaní podobností a rozdielov vo 

vstupnom texte. Tieto podobnosti a rozdiely systém identifikuje a abstrahuje 

z nich štruktúry na morfologickej, syntaktickej, a čiastočnej aj na sémantickej 

úrovni. Navrhnuté formalizmy symbolickej reprezentácie týchto štruktúr dovoľujú 

jednak efektívne riadiť algoritmus pomocou vstupov, jednak zohľadňujú 

prípadné využitie vytvoreného modelu jazyka v iných aplikáciách, napríklad pri 

vyhľadávaní textov, v systémoch na spracovanie prirodzeného jazyka, v textových 

korpusoch a podobne. 

Literatúra 

CSONTÓ, Július – SABOL, Tomáš. 1991. Umelá inteligencia. Košice: Edičné stredisko TU v 

Košiciach. 

ČERMÁK, František. 1994. Jazyk a jazykověda. Praha: Pražská imaginace. 

FURDÍK, Karol. 2000. Pojmové modelovanie. In: M. Nábělková (ed.), Varia IX. Zborník 

materiálov z IX. kolokvia mladých jazykovedcov. Bratislava: SJS pri SAV (v tlači). 

FURDÍK, Karol. 1999. Pravdepodobnostné modelovanie vzniku a vývoja jazykových štruktúr. 

In: M. Nábělková – Ľ. Králik (ed.), Varia VIII. Zborník materiálov z VIII. kolokvia mladých 

jazykovedcov. Bratislava: SJS pri SAV, s. 276 – 289. 

van GULICK, Robert. 1992. Vedomie, vlastná intencionalita a stroje, ktoré rozumejú samy sebe. 

In: E.Gál – J.Kelemen (eds.), Myseľ / telo / stroj. Bratislava: Bradlo, s. 80 – 100. 

49

KAROL FURDÍK 

KOSTELNÍK, Peter. 2000. Získavanie informácií s využitím algoritmov zhlukovej analýzy. 

Diplomová práca. Košice: Katedra kybernetiky a umelej inteligencie. 

MICHALOVIČ, Peter – MINÁR, Pavol. 1997. Úvod do štrukturalizmu a postštrukturalizmu. 

Bratislava: Vydavateľstvo Iris. 

PÁLEŠ, Emil. 1993. SAPFO – Parafrázovač slovenčiny. Doktorská dizertačná práca. 

Bratislava: JÚĽŠ SAV. 

50

SPRACOVANIE MORFOLOGICKEJ 

ROVINY SLOVENČINY POČÍTAČOM 

Eduard Kostolanský – Jana Hašanová: Laboratórium počítačovej 

lingvistiky, Pedagogicka fakulta Univerzity Komenského, Bratislava 

1. Úvod 

Lingvistický výskum, ktorého hlavným cieľom je tvorba adekvátnych lingvistických 

teórií umožňujúcich „vypočítať“ všetky slovné tvary daného slova, 

resp. identifikovať príslušný slovný tvar, je v jazykoch európskeho typu, či už 

s jednoduchou alebo rozsiahlou flektívnou morfológiou, zavŕšený. Pre väčšinu 

týchto jazykov je algoritmicky spracovaná flektívna i derivačná morfologická 

rovina. Základná schéma a automatizovaný postup rozpoznania/generovania 

flektívnej morfológie jednotlivých ohybných slovných druhov sú spracované aj 

pre slovenčinu. 

Algoritmické spracovanie flektívnej slovenskej morfológie sa budovalo na 

báze existencie virtuálneho slovníka. Tento slovník obsahuje iba vybrané údaje 

o ohýbaných slovách a vzoroch ohýbania. Keď vznikne potreba sformovať 

ktorýkoľvek tvar k ľubovoľnému slovu, vygeneruje sa s využitím virtuálneho 

slovníka, ktorý obsahuje komplexné údaje o vzoroch ohýbania a vybrané údaje 

o konkrétnych ohýbaných slovách. Pri každom vzore sú komplexné údaje 

o zmenách v tvarotvornom základe (TZ), súbor ohýbacích prípon a výpočtové 

pravidlá formovania jednotlivých slovných tvarov. 

Systémy, ktoré vykonávajú algoritmickú analýzu textov, sú opatrené poznatkami 

o morfológii, syntaxi a sémantike príslušného jazyka. Potrebné informácie 

sa umiestňujú vo vhodne štruktúrovanej databáze. 

2. Vývoj referenčnej morfologickej databázy 

V tejto práci predstavíme opis morfologickej roviny lexikálnej databázy. 

Príspevok sa delí na dve hlavné časti. 

V prvej časti sa sústreďujeme na opis slovenskej flektívnej morfológie. 

Ukážeme, ako sa formujú skupiny údajov a pravidiel potrebných na vytváranie 

slovných tvarov jednotlivých slov. Napr. skupiny údajov predstavujú pádové 

51

EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ 

prípony skloňovacieho vzoru chlap: -ø, -a, -ovi, -a, -ovi, -om atď. alebo tvarotvorné 

základy pri vzore mráz: mráz-, mraz-. Príkladom pravidla je napr. alternácia 

spoluhlások ch/s v nominatíve plurálu pri vzore černoch: černoch – 

černosi. Poznatky a skúsenosti z práce s rozsiahlou množinou podstatných 

mien, ktoré sú obsiahnuté v Krátkom slovníku slovenského jazyka (1997), sme 

zhrnuli vo viacerých prácach (Benko – Hašanová – Kostolanský 1996, 1997, 

1998). V tomto príspevku podáme iba základnú informáciu o podstatných 

menách a uvedieme údaje o ostatných ohybných slovných druhoch. Všetky poznatky 

plánujeme uverejniť v širšej knižnej forme. 

Možno povedať, že explicitnosť opisu morfológie odstraňuje výnimky, 

zvláštne prípady, varianty a stanovuje transformačné pravidlá, vzory a skupiny 

prípon na presný opis formovania a analýzy slovných tvarov. Hlavným cieľom 

je dosiahnuť, aby formovanie/analýza slovných tvarov boli mechanické postupy, 

t. j. vykonateľné aj strojom a aplikovateľné ku každému slovu. Prvá časť 

sa teda sústreďuje na paradigmy vzorov. Skloňovací vzor chápeme v zmysle definície: 

„Skloňovací vzor je jednak množina slov s rovnakým skloňovaním, 

jednak jedno vzorové slovo, ktoré danú množinu slov ako typický príklad vhodne 

reprezentuje svojimi (formálnymi i významovými) vlastnosťami“ (Oravec – 

Bajzíková – Furdík 1984). 

V druhej časti nášho príspevku opisujeme modelovanie referenčnej morfologickej 

databázy pomocou relačného dátového modelu. Ide o morfologické 

údaje – primerane štruktúrované a detailizované – o najpoužívanejších slovách 

v súčasnej spisovnej slovenčine (Krátky slovník slovenského jazyka 1997). Ku 

každému slovu je priradený údaj o jeho slovnodruhovej príslušnosti a v závislosti 

od toho ďalšie údaje, napr. pri jednotlivých podstatných menách vzor skloňovania 

a tvarotvorný základ (základy). 

Predpokladá sa, že vo všeobecnosti sa bude môcť počet atribútov slov zvyšovať, 

takže morfologická databáza bude postupne prerastať na databázu, ktorá sa 

využije aj pri analýze textu v iných smeroch (syntaktická rovina, sémantická 

rovina, kvantitatívna analýza a pod.) a pri tvorbe iných, už spomenutých aplikácií. 

Ďalej stručne opíšeme virtuálne slovníky patriace k jednotlivým ohybným 

slovným druhom. Základnými zdrojmi morfologických údajov sú práce Morfológia 

slovenského jazyka (1966), Oravec – Bajzíková – Furdík (1984), Páleš 

(1994), Pauliny – Ružička – Štolc (1968). 

Opis morfológie slovného druhu má gramatickú časť, ktorá obsahuje 

gramatické údaje, prípadne výsledky podrobnejšieho štúdia, potrebné pri algo- 

52

SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM 

ritmickom spracovaní morfologickej roviny. Potom nasledujú vzory ohýbania. 

Informácie o každom slovnom druhu sú zhrnuté v prehľadných tabuľkách. 

Zhromaždené morfologické údaje o vzoroch považujeme za vhodné predstaviť 

v dvoch rovinách. 

V prvej rovine je základom, okolo ktorého sa zhromažďujú ďalšie údaje, 

tvarotvorný základ (TZ) a zmeny v ňom, ktoré spôsobujú alternácie, ako aj 

zmeny v sústave ohýbacích prípon. TZ chápeme ako bazálnu časť slova po oddelení 

tvarotvornej prípony – formantu. Pri každej zmene v týchto dvoch zložkách 

zavádzame nový vzor. Napr. pri stupňovaní prídavných mien majú slová 

biely, blízky, krátky samostatné vzory, pretože pri ohýbaní má ich TZ rôznu 

podobu – bel-ší, bliž-ší, krat-ší. Slovo čierny má iný vzor preto, že okrem zmeny 

TZ má inú ohýbaciu príponu – čern-ejší. Túto rovinu voláme prvá rovina – lingvistická, 

pretože pri práci na nej bolo nahromadených mnoho údajov zaujímavých 

práve z lingvistického hľadiska. Údaje sú prezentované, pokiaľ možno, 

v takej podobe, aby boli zrozumiteľné čo najširšiemu okruhu používateľov. 

V druhej rovine hrá podstatnú úlohu sústava ohýbacích prípon. TZ boli 

vytvorené v rámci prvej roviny a na to, aby počítač správne generoval/stanovil 

príslušnú morfologickú podobu, potrebuje zodpovedajúcu skupinu prípon. Teda 

za predpokladu existencie TZ a ich uvažovania ako doplňujúcich údajov pri 

analýze/generovaní slovných tvarov sa redukuje počet ohýbacích vzorov, pretože 

vzory sa charakterizujú predovšetkým sústavou prípon. TZ vstupujú do procesu 

analýzy/generovania ako konštanty. TZ1, TZ2 sú podoby TZ pri ohýbaní. Dokumentovať 

to môžeme znovu na vzoroch stupňovania prídavných mien. Napr. 

adjektíva biely, blízky, krátky majú v druhej rovine len jeden vzor, pretože majú 

rovnakú ohýbaciu príponu komparatívu a príslušný TZ je k dispozícii ako konštanta: 

biely – belší (TZ1-y, TZ2-ší), blízky – bližší (TZ1-y, TZ2-ší), krátky – 

kratší (TZ1-y, TZ2-ší) atď. 

Na počítačové spracovanie morfologickej roviny je určená vlastne len 

druhá rovina. Ale kvôli zachovaniu výsledkov analýzy a vzhľadom na možnosti 

využívania zhromaždených a štruktúrovaných údajov aj pre ďalšie výskumné 

práce, budeme pri každom slovnom druhu špecifikovať obe tieto 

roviny. Prvá rovina je pritom prezentovaná formou základných informácií, na 

ktorých možno stavať ďalší špeciálny jazykovedný výskum. Podrobnejšie informácie 

o prvej rovine podstatných mien sú obsiahnuté v už spomínanej 

publikácii Benko – Hašanová – Kostolanský (1998). Úplný gramatický opis 

vzorov všetkých ohybných slovných druhov je mimo rámca tohto príspevku, 

53


preto pri každom slovnom druhu uvádzame len niekoľko príkladových opisov 

vzorov prvej i druhej roviny. 

3. Morfológia podstatných mien 

Pri spracúvaní morfológie substantív a ostatných slovných druhov na 

účely počítačového spracovania slovenských textov vychádzame zo všeobecných 

základných pojmov (Morfológia slovenského jazyka 1966). Základnou 

jednotkou morfologickej roviny je slovný tvar, ktorý tvorí tvarotvorný základ 

(TZ) a relačná časť. Pri substantívach relačnú časť predstavuje sústava pádových 

prípon, pomocou ktorých sa tvoria jednotlivé slovné tvary. 

3.1 Podstatné mená – prvá morfologická informačná rovina 

Skloňovací vzor chápeme, ako sme už uviedli, v zmysle definície podľa 

Oravec – Bajzíková – Furdík (1984). Určenie formálnych vlastností vzoru je v 

našej práci prísnejšie, podrobnejšie. Formovanie nových vzorov sa riadi pravidlom, 

že každá zmena v sústave ohýbacích prípon alebo zmena v TZ spôsobí zavedenie 

nového vzoru. Podľa toho napr. rôzne zakončenia substantív mužského 

rodu v nominatíve plurálu (-i, -ia, -ovia), ktoré sa pri klasických vzoroch uvádzajú 

ako variantné prípony (tamže), v našom chápaní vzoru vyžadujú nové vzory: 

chlap – chlapi, kresťan – kresťania, sok – sokovia. Rozbor robíme pre potreby písaného 

textu, preto berieme do úvahy grafickú podobu slovných tvarov, nie fonetickú 

(napr. kosť--ø/kost-i – dva TZ: kosť-, kost-). 

Vzory rozdeľujeme do okruhov, ktoré majú názvy klasických vzorov 

(napr. „chlap“, „dub“), ale aj nové názvy („mláďa“). Pri určovaní členov týchto 

okruhov sa vychádza zo sústavy prípon vzorového slova – reprezentanta 

okruhu, prípadne zmeny v TZ. Reprezentant potom slúži ako porovnávací vzor 

pre nové vzory patriace do jeho okruhu. Vzorové slová nemajú variantné prípony. 

Výnimkou sú vzory, ktoré majú pri svojom názve číslice 0, 1, 2, 3. 

„Zvieracie“ vzory mužského rodu sú zaradené do osobitnej podskupiny, 

pretože majú osobitné sústavy ohýbacích prípon: v singulári podľa vzorov mužských 

substantív životných a v pluráli podľa vzorov mužských substantív neživotných 

(had – hady, mravec – mravce). 

Slová, ktoré nemajú úplnú paradigmu – hromadné a pomnožné – nemajú 

samostatné vzory. Je im pridelený vzor zo skupiny substantív s úplnou paradigmou, 

ktorý má rovnaké skloňovanie v singulári alebo v pluráli ako príslušné 

54


substantíva s neúplnou paradigmou (nožnice – vzor ulica). Pri jednotlivých 

slovách je v databáze uvedený údaj v stĺpci SA (t. j. špecifické atribúty), ktorý 

„upozorňuje“, že pomnožné podstatné mená treba skloňovať len v pluráli a 

hromadné len v singulári. 

V stĺpci SA sú zoskupené aj príznakové tvary oslovenia v pôvodnom vokatíve 

(Bože, synu). 

Odlíšenie vzorov v rámci jedného okruhu sa vykonáva už spomenutým 

porovnávaním s reprezentantom, pričom si najprv všímame zmeny v TZ a potom 

zmeny v sústave prípon. 

Pod A sa uvádzajú typy alternácií, ktoré spôsobujú zmeny v TZ slova (k/c: 

vodník-, vodníc-). Pod B sa uvádzajú odlišnosti v sústave ohýbacích prípon 

(chlap-i, sok-ovia). 

Niektoré skupiny slov s dubletnými príponami majú také sústavy ohýbacích 

prípon, ktoré zodpovedajú niektorému zo vzorov v zozname len v jednom 

variante. V druhom variante sa skloňujú podľa osobitného vzoru, ktorý má pri 

svojom názve číslicu 0. Napr. slovo tvár sa skloňuje podľa vzoru dlaň. V genitíve 

singuláru má aj príponu -i, preto sa skloňuje aj podľa vzoru tvár-ø. Niektoré 

skupiny slov s dubletnými príponami sa skloňujú podľa osobitného vzoru v 

jednom aj v druhom variante. Vtedy majú pri svojom názve číslice 1, 2. Napr. 

oko-1 (očí), oko-2 (očú). Číslicu 3 majú pri svojom názve vzory zveličených 

substantív, ktoré majú dva rody. (Číslica 3 je pri názve vzoru v inom ako strednom 

rode, napr. skalisko3 – ženský rod.) 

Výsledkom takéhoto prístupu je podstatné rozšírenie počtu vzorov podstatných 

mien v porovnaní s doterajšími prácami (Morfológia slovenského 

jazyka 1966, Pauliny – Ružička – Štolc 1968). V súčasnosti má náš systém 199 

vzorov podstatných mien. 

Homonymá sú do počtu substantív zarátané len jedenkrát, pretože sa berie 

do úvahy len ich rovnaký morfologický tvar, nie rozdiel vo význame. Ak majú 

v niektorých tvaroch rozdiely, sú uvedené dvakrát (napr. ucho – uši, ucho – 

uchá). 

Každý okruh je označený menom jeho vzoru – reprezentanta (napr. 

„chlap“). 

Pri podstatných menách sú to tieto okruhy: „chlap“, „hrdina“, „dub“, 

„stroj“, „nesklonné“ – mužský rod; „žena“, „ulica“, „dlaň“, „kosť“, „gazdiná“, 

„nepravidelné“, „nesklonné“ – ženský rod; „mesto“, „srdce“, „vysvedčenie“, 

„mláďa“, „nesklonné“ – stredný rod. Samostatný okruh majú aj pod- 

55


statné mená s nepravidelným skloňovaním, pričom žiaden zo vzorov okruhu 

nie je reprezentant. 

Napr. okruh vzorov „ulica“ obsahuje tieto vzory: ulica, fakľa, dyňa, funkcia, 

hrádza, jedľa, míľa, nedeľa, ovca, pomyje-ø, ruža, svieca, víchrica, vládkyňa, 

vôňa. 

Morfologická databáza obsahuje v súčasnosti asi 22 500 podstatných 

mien. 

Podobný postup ako pri podstatných menách využívame aj pri ostatných 

ohybných slovných druhoch. 

Ako ukážku opisu vzorov uvedieme niekoľko príkladov ohýbacích typov 

prvej roviny. 

Okruh „chlap“ a jeho vybrané vzory. 

Vzor chlap je vzor reprezentant, podľa ktorého sa skloňuje skupina životných 

podstatných mien mužského rodu zakončených v N sg. na nulovú morfému. 

V TZ u nich nedochádza k zmenám. Majú túto sústavu ohýbacích prípon: 

N chlap-ø chlap-i 

G chlap-a chlap-ov 

D chlap-ovi chlap-om 

A chlap-a chlap-ov 

L chlap-ovi chlap-och 

I chlap-om chlap-mi 

Vzor vodník je príkladom vzoru, ktorý patrí do okruhu „chlap“ a od reprezentanta 

sa odlišuje takto: 

A: alternácia spoluhlások k/c v N pl. 

B: – 

N vodník-ø vodníc-i 

G vodník-a vodník-ov 

D vodník-ovi vodník-om 

A vodník-a vodník-ov 

L vodník-ovi vodník-och 

I vodník-om vodník-mi 

Vzor černoch je príkladom vzoru, ktorý patrí do okruhu „chlap“ a od reprezentanta 

sa odlišuje takto: 

56 

A: alternácia spoluhlások ch/s v N pl.


B: – 

N černoch-ø černos-i 

G černoch-a černoch-ov 

D černoch-ovi černoch-om 

A černoch-a černoch-ov 

L černoch-ovi černoch-och 

I černoch-om černoch-mi 

3.2 Podstatné mená – druhá morfologická informačná rovina 

Ako sme už vyššie zdôraznili, vzor druhej roviny sa formuje zo sústavy 

ohýbacích prípon a príslušných variantov TZ, ktoré vystupujú ako konštanty. 

Napr. substantíva mesto, laso, gazdovstvo majú v prvej rovine každé osobitný 

vzor, pretože pri ohýbaní dochádza v každom z ich TZ k inej zmene (miest, 

lás, gazdovstiev). V druhej rovine je vzorec vyjadrujúci ich ohýbanie vždy rovnaký: 

TZ1, TZ2 (použité na rovnakom mieste) + rovnaká sústava ohýbacích 

prípon, t. j. jeden vzor. 

Aj keď sa počet vzorov v druhej rovine zredukuje, zostáva ich škála pomerne 

veľká, pretože je veľa odlišností v sústavách ohýbacích prípon aj v počtoch 

TZ. 

Nasledujúce príklady ilustrujú opis vzorov druhej roviny. 

Vzor 2chlap 

N TZ1-ø TZ1-i 

G TZ1-a TZ1-ov 

D TZ1-ovi TZ1-om 

A TZ1-a TZ1-ov 

L TZ1-ov TZ1-och 

I TZ1-om TZ1-mi 

TZ1: chlap- 

Vzor 2vodník využíva oproti vzoru chlap dva druhy TZ na rovnakom 

mieste. 


G TZ1-a TZ1-ov 

D TZ1-ov TZ1-om 

57


A TZ1-a TZ1-ov 

L TZ1-ovi TZ1-och 

I TZ1-om TZ1-mi 

TZ1: vodník-, TZ2: vodníc- 

Vzor černoch je „pohltený“ vzorom 2vodník. Počítač vyberá zložky týchto 

dvoch vzorov podľa rovnakej schémy. 

4. Morfológia slovies 

Požiadavka presnosti počiatočných údajov pri počítačovom spracovaní 

morfológie slovies si vyžadovala dôslednú inventarizáciu informácií o morfologickej 

stavbe slovesa a poskytnutie základných informácií v jednoduchej podobe. 

Najprv bolo nevyhnutné skompletizovať potrebné údaje o časovacích vzoroch. 

Postupovalo sa ako pri podstatných menách. Nepripúšťali sa žiadne výnimky 

a sledovala sa homogenita informácií o vzoroch. Dôsledkom akceptovania 

výnimiek a alternácií bol nárast počtu vzorov slovies prvej roviny na 79. Pri 

každom druhu alternácie a každej zmene v sústave ohýbacích prípon je zavedený 

nový vzor. Aj časovacie vzory sú rozdelené do okruhov. Koreň a tematická 

morféma dohromady tvoria slovesný kmeň: robi-. Pri slovesách sa najvýraznejšie 

prejaví rozdiel pri prezentovaní nazhromaždených morfologických údajov o 

vzoroch časovania (a o slovesách vôbec) v dvoch rovinách. V prvej rovine je základom, 

okolo ktorého sa zhromažďujú ďalšie údaje, slovesný koreň. Presnejšie, 

koreňom tu nazývame časť slovesa bez ohýbacej prípony a tematickej morfémy 

(rob-). V druhej rovine je týmto základom kmeň (robi-), teda koreň a tematická 

morféma spolu a najmä sústava ohýbacích prípon. 

Keďže predmetom nášho záujmu v tejto práci je flektívna morfológia, pri 

strojovom spracovaní tejto morfologickej roviny je jednotkou spracovania slovo, 

t. j. reťazec znakov vymedzený dvoma medzerami. Z toho vyplýva, že súčasťou 

vzoru sú len jednoduché slovesné tvary: indikatív prézenta, imperatív, prechodník, 

činné príčastie prítomné, neurčitok, l-ové príčastie, činné príčastie minulé, 

n/t-ové príčastie, slovesné podstatné meno. Zložené slovesné tvary sú viacslovné 

výrazy. 

Pri nepravidelných slovesách vzhľadom na zložitosť zmien v často sa 

meniacej báze neuvádzame typy alternácií v prvej rovine. Neuvádzame tiež tvary, 

ktoré sa pri nepravidelných slovesách nevyskytujú. Opierame sa pritom o 

údaje uvedené v práci J. Mistríka (1988). 

58


Neosobné slovesá nemajú osobitné vzory. Teoreticky je možné utvoriť pri 

nich všetky jednoduché slovesné tvary. Majú pri sebe znak – 3. os. n., napr. vyčasiť 

sa. Pri slovesách, ktoré sa používajú len v 3. os. sg., je označenie – iba 

3. os., napr. bolieť. Údaje sú v databáze slov pod atribútom SA. 

4.1 Slovesá – prvá morfologická informačná rovina 

Prvá rovina poskytuje v rámci jednotlivých vzorov údaje formou opisu 

koreňov, tematických morfém, sústavy ohýbacích prípon a alternácií. Pre každý 

druh zmeny je iný vzor. Pri opise alternácií, ktoré sa vyskytujú v jednotlivých 

vzoroch, vychádzame z prác Morfológia slovenského jazyka (1966), Oravec – 

Bajzíková – Furdík (1984), Pauliny – Ružička – Štolc (1968). Pri slovesách je 

problematika alternácií v prvej rovine riešená menej podrobne ako pri podstatných 

menách. Napr. alternácia A1 zahŕňa spoločne zmeny spoluhlások pred tematickou 

morfémou -e-: t/c, d/dz, s/š, z/ž... Každý druh spoluhláskovej zmeny 

nie je prezentovaný ako nová alternácia. Sústredili sme sa na správne vytváranie 

jednotlivých TZ a nie na presné pravidlá alternovania. 

Časovacie vzory prvej roviny – zásady formovania 

Do okruhu patrí vzor – reprezentant, ktorý je vo všetkých ukazovateľoch 

zhodný s klasickým vzorom, resp. so vzorovým slovom, a skupina vzorov, ktoré 

majú určité odchýlky. Napr. do okruhu vzorov „chytať“ patrí vzor – reprezentant 

chytať (chytá) a tiež vzor čítať (číta), ktorý má krátku prézentnú tematickú 

morfému v dôsledku rytmického krátenia. Za každým vzorom, v ktorom dochádza 

k zmenám v koreni, je uvedený príslušný typ alternácie (napr. hynúť A4 – 

hyň!). 

Okruhy vzorov prvej roviny sú tieto: „brať“, „chudnúť“, „chytať“, 

„hynúť“, „kričať“, „niesť“, „pracovať“, „robiť“, „rozumieť“, „trieť“, 

„vidieť“, „česať“, „žať“, „žuť“, „nepravidelné“. 

Napr. okruh vzorov „robiť“ obsahuje tieto vzory: robiť, hájiť, krášliť, 

kresliť, kúpiť, tajiť. 

Kompletný súbor morfologických informácií prvej roviny dokumentujeme 

na dvoch príkladoch z okruhu „robiť“. 

Vzor kresliť 

sloveso v neurčitku: kresl-i-ť 

59


tematická morféma prítomníková TMPA1: -ítematická 

morféma prítomníková TMPB1: -ø- 

1. podoba prítomníkového koreňa RPA1: kresl-(í-) 

2. podoba prítomníkového koreňa RPB1: kresl-(0-) 

prítomník (okrem 3. os. pl.): RPA1 + -í-m, -í-š, -í-ø; -íme, 

-í-te 

prítomník (3. os. pl.): RPB1 + -ia 

imperatív: RPB1 + -ø!, -me!, -te! 

prechodník: RPB1 + -iac 

činné príčastie prítomné: RPB1 + -iaci, -iaca, -iace; 

-iaci, -iace, -iace, -iace 

vzor pre činné príčastie prítomné: rýdzi 

tematická morféma neurčitková TMIA1: -itematická 

morféma neurčitková TMIB1: -i- 

1. podoba neurčitkového koreňa RIA1: kresl-(i-) 

2. podoba neurčitkového koreňa RIB1: kresl-(i-) 

minulý čas: RIB1 + -i-l, -i-la, -i-lo; -ili 

činné príčastie minulé: RIB1 + -i-vší, -i-všia, -ivšie; 

-i-vší, -i-všie, -i-všie, 

-i-všie 

vzor pre činné príčastie minulé: cudzí 

trpné príčastie: RPB1 + -ený, -ená, -ené; 

-ení, -ené, -ené, -ené 

vzor pre trpné príčastie: pekný 

slovesné podstatné meno: RIB1 + -enie 

vzor pre slovesné podstatné meno: vysvedčenie 

A: A26 – IZ s morfémou -i 

Aa: zmena tematickej morfémy oproti vzoru – 

reprezentantu 

B: – 

Vzor kúpiť 

sloveso v neurčitku: kúp-i-ť 

tematická morféma prítomníková TMPA1: -itematická 

morféma prítomníková TMPB1: -ø- 

60


1. podoba prítomníkového koreňa RPA1: kúp-(i-) 

2. podoba prítomníkového koreňa RPB1: kúp-(0-) 

prítomník (okrem 3. os. pl.): RPA1 + -i-m, -i-š, -i-ø; -ime, 

-i-te 

prítomník (3. os. pl.): RPB1 + -ia 

imperatív: RPB1 + -ø!, -me!, -te! 

prechodník: RPB1 + -iac 

činné príčastie prítomné: RPB1 + -iaci, -iaca, -iace; 


vzor pre činné príčastie prítomné: rýdzi 

tematická morféma neurčitková TMIA1: -itematická 

morféma neurčitková TMIB1: -i- 

1. podoba neurčitkového koreňa RIA1: kúp-(i-) 

2. podoba neurčitkového koreňa RIB1: kúp-(i-) 

minulý čas: RIB1 + -i-l, -i-la, -i-lo; -ili 

činné príčastie minulé: RIB1 + -i-vší, -i-všia, -ivšie; 

-i-vší, -i-všie, -i-všie, 

-i-všie 

vzor pre činné príčastie minulé: cudzí 

trpné príčastie: RPB1 + -ený, -ená, -ené; 


vzor pre trpné príčastie: pekný 

slovesné podstatné meno: RIB1 + -enie 

vzor pre slovesné podstatné meno: vysvedčenie 

A: – 

Aa: TMPA1 -i- kúp-i-m 

B: – 

4.2 Slovesá – druhá morfologická informačná rovina 

Druhá morfologická rovina, ktorá je hlavným predmetom nášho záujmu 

v spojitosti s algoritmickým spracovaním morfológie slovies, je predstavená 

prostredníctvom kmeňov a prípon. 

Časovacie vzory druhej roviny – zásady formovania 

61


Časovací vzor v našom ponímaní je sloveso alebo množina slovies s rovnakým 

súborom osobných, tvarových a menných prípon, príslušných variácií 

podôb neurčitkových a prítomníkových kmeňov a imperatívneho základu. Základným 

dištinktívnym prvkom nie sú ani tematické morfémy, pretože počítač 

pracuje s celým kmeňom, ktorého súčasťou je aj tematická morféma (chytá-m). 

Opis vzorov časovania slovies druhej roviny obsahuje všetky jednoduché 

tvary. Pri každom vzore sú uvedené podoby neurčitkových kmeňov, podoby 

prítomníkových kmeňov a príslušná sústava ohýbacích prípon. Pre tvary, ktoré sa 

skloňujú (činné príč. prít., činné príč. min., trpné príč., slovesné pods. meno), je 

uvedená sústava ohýbacích prípon v základnom tvare a skloňovací vzor. 

V druhej rovine sú tieto okruhy vzorov: „2chudnúť“, „2kričať“, 

„2niesť“, „2česať“, „2robiť“, „2nepravidelné“. 

Ako príklad opisu slovesných vzorov druhej roviny uvádzame vzor 2robiť. 

Vzor 2robiť je vzor reprezentant. Charakterizuje ho príslušná množina 

kmeňov a ohýbacích prípon. 

neurčitok: KIA1 + -ť 

prítomníkový kmeň – 1. podoba KPA1: robí- 

2. podoba KPB1: robimperatívny 

základ IZ: robprítomník 

(okrem 3. os. pl.): KPA1 + -m, -š, -ø; -me, -te, 

prítomník (3. os. pl.): KPB1 + -ia 

imperatív: IZ + -ø; -me, -te 

prechodník: KPB1 + -iac 

činné príčastie prítomné: KPB1 + -iaci, -iaca, -iace; 


ohýbací vzor pre činné príčastie prítomné: rýdzi 

neurčitkový kmeň – 1. podoba KIA1: robi- 

2. podoba KIB1: robiminulý 

čas: KIB1 + -l, -la, -lo; -li 

činné príčastie minulé: KIB1 + -vší, -všia, -všie; 

-vší, -všie, -všie, -všie 

ohýbací vzor pre činné príčastie minulé: cudzí 

trpné príčastie: KIB1 + -ený, -ená, -ené; 


ohýbací vzor pre trpné príčastie: pekný 

62


slovesné podstatné meno: KIB1 + -nie 

ohýbací vzor pre slovesné podstatné meno: vysvedčenie 

Aj pri slovesných vzoroch vidíme, ako sa v druhej rovine redukuje počet 

vzorov. Na ukážke môžeme sledovať, ako sa slová, ktoré sa v prvej rovine časovali 

podľa troch rôznych vzorov (robiť, kresliť, kúpiť), ohýbajú v druhej rovine 

podľa jedného vzoru (2robiť). 

V ďalšej časti sa budeme zaoberať zostávajúcimi ohybnými slovnými 

druhmi, ktorými sú prídavné mená, príslovky, zámená a číslovky. Výsledkom 

morfologickej analýzy sú aj v tomto prípade zoznamy a opisy vzorov, predstaviteľov 

ohýbacích typov. Ako príklad uvedieme pri každom z týchto 

slovných druhov niekoľko vzorov. Kladieme si týmto za cieľ objasniť rozdiely 

medzi prvou a druhou rovinou prezentácie morfologických údajov. 

5. Morfológia prídavných mien 

Skloňovací vzor prídavných mien má 38 tvarov. Oproti podstatným 

menám je zmena v tom, že prídavné mená všetkých troch rodov sú reprezentované 

jedným heslovým slovom (pekný – N sg., mužský rod). Všetky majú v N 

sg. rovnaký TZ. V mužskom rode pristupuje osobitná skupina ohýbacích prípon 

pre mužskú osobu prídavných mien. Súčasťou vzoru je uvedenie prípadných alternácií 

v TZ a zmeny v sústave ohýbacích prípon. 

Stupňovací vzor, pomocou ktorého sa určuje miera vlastnosti, je charakterizovaný 

použitím prípony -ší alebo -ejší v komparatíve (star-ší, jasn-ejší). 

Mnohé prídavné mená nadobúdajú kategóriu stupňovania v prenesenom 

význame. Preto sme stupňovací vzor pridelili každému stupňovateľnému 

prídavnému menu. Delenie na stupňovateľné a nestupňovateľné prídavné mená 

sme robili ručne na základe vlastného jazykového vedomia. 

Superlatív – 3. stupeň – tvoríme pridaním predpony naj- k tvaru komparatívu 

(naj-starší, naj-jasnejší). 

Stupňovací vzor prvej roviny teda obsahuje informáciu o stupňovacej 

prípone a údaje o alternáciách v TZ. 

5.1 Prídavné mená – prvá morfologická informačná rovina 

63


Pri prídavných menách závisí sformovanie nového vzoru skloňovania od 

zakončenia slova a zachovania rytmického krátenia v TZ. To má potom vplyv 

aj na súbor ohýbacích prípon. Pri stupňovaní dochádza k väčším zmenám v TZ 

a pri niektorých prídavných menách sa prejavuje aj supletívnosť bázy. 

Postup rozširovania skupiny vzorov prídavných mien – prvá rovina 

Okruhy vzorov skloňovania prídavných mien – prvá rovina: „pekný“, „cudzí“, 

„extra“. 

Okruhy vzorov stupňovania prídavných mien – prvá rovina: „nový“, „belasý“, 

„bosý“. 

Ako príklad opisu vzorov skloňovania prídavných mien prvej roviny je 

uvedený vzor pekný ako reprezentant a vzor krásny ako člen okruhu. Napriek 

tomu, že ide o všeobecne známe informácie, z dôvodu komplexnosti uvedieme 

aj tieto údaje. 

Okruh vzorov „pekný“: pekný, krásny, hoden. 

Vzor pekný je vzor reprezentant. Skloňujú sa podľa neho prídavné mená 

zakončené v N sg. mužského rodu na -ý. V TZ nie je alternácia. 

Sg. Pl. 

M živ. M neživ. F N M živ. M neživ. 

F N 

N pekn-ý pekn-ý pekn-á pekn-é pekn-í pekn-é 

G pekn-ého pekn-ého pekn-ej pekn-ého pekn-ých pekn-ých 

D pekn-ému pekn-ému pekn-ej pekn-ému pekn-ým pekn-ým 

A pekn-ého pekn-ý pekn-ú pekn-é pekn-ých pekn-é 

L pekn-om pekn-om pekn-ej pekn-om pekn-ých pekn-ých 

I pekn-ým pekn-ým pekn-ou pekn-ým pekn-ými pekn-ými 

A: – B: – 

Vzor krásny 

Sg. Pl. 

M živ. M neživ. F N M živ. M neživ. F N 

N krásn-y krásn-y krásn-a krásn-e krásn-i krásn-e 

G krásn-eho krásn-eho krásn-ej krásn-eho krásn-ych krásn-ych 

D krásn-emu krásn-emu krásn-ej krásn-emu krásn-ym krásn-ym 

64


A krásn-eho krásn-y krásn-u krásn-e krásn-ych krásn-e 

L krásn-om krásn-om krásn-ej krásn-om krásn-ych krásn-ych 

I krásn-ym krásn-ym krásn-ou krásn-ym krásn-ymi krásn-ymi 

A: – B: krátke ohýbacie prípony 

Príklady vzorov stupňovania prídavných mien. 

Okruh vzorov „nový“: nový, tenký, vysoký, hlboký, pekný-s (stupňovací), 

dobrý, malý, veľký, zlý, biely, blízky, krátky. 

Vzor nový sa v N sg. mužského rodu v pozitíve končí na -ý. Stupňuje sa 

pomocou prípony -ší. Pri stupňovaní nedochádza k alternáciám. 

rod číslo 1. stupeň 2. stupeň 3. stupeň 

M Sg. nov-ý nov-ší naj-novší 

F Sg. nov-á nov-šia naj-novšia 

N Sg. nov-é nov-šie naj-novšie 

M živ. Pl. nov-í nov-ší naj-novší 

M neživ., F, N Pl. nov-é nov-šie naj-novšie 

A: – B: – 

Vzor biely sa v N sg. mužského rodu v pozitíve končí na -y. TZ sa končí 

na jednu spoluhlásku, pred ktorou je dlhá samohláska, ktorá sa skracuje (A1). 

Stupňuje sa pomocou prípony -ší. 


M Sg. biel-y bel-ší naj-belší 

F Sg. biel-a bel-šia naj-belšia 

N Sg. biel-e bel-šie naj-belšie 

M živ. Pl. biel-i bel-ší naj-belší 

M neživ., F, N Pl. biel-e bel-šie naj-belšie 

A: A1 B: krátke ohýbacie prípony 

Vzor vysoký sa v N sg. mužského rodu v pozitíve končí na -ý. TZ sa končí 

na -ok-, pred ktorým je sykavka. Pri stupňovaní -ok- vypadáva (A4) a sykavka 

sa zmäkčuje (A5). Stupňuje sa pomocou prípony -ší. 


M Sg. vysok-ý vyš-ší naj-vyšší 

F Sg. vysok-á vyš-šia naj-vyššia 

65


N Sg. vysok-é vyš-šie naj-vyššie 

M živ. Pl. vysok-í vyš-ší naj-vyšší 

M neživ., F, N Pl. vysok-é vyš-šie naj-vyššie 

A: A4, A5 B: – 

5.2 Prídavné mená – druhá morfologická informačná rovina 

Okruhy vzorov skloňovania prídavných mien – druhá rovina: „2pekný“, „2cudzí“, 

„2extra“. 

Okruhy vzorov stupňovania prídavných mien – druhá rovina: „2nový“, „2belasý“, 

„2bosý“. 

Príklady na skloňovanie prídavných mien druhej roviny neuvádzame, pretože 

postup je jednoduchý. Vzory prvej roviny (pekný, krásny), ktoré sme 

uviedli ako príklady, majú v druhej rovine rovnaký TZ a rozdiel v dĺžke prípon: 

TZ1-ý (pekn-ý), TZ1-y (krásn-y). 

Príklady vzorov stupňovania prídavných mien. 

Okruh vzorov „2nový“: 2nový, 2vysoký, 2biely. 

Vzor 2nový – stupňujú sa podľa neho prídavné mená zakončené na -ý, 

u ktorých pri stupňovaní nedochádza k zmenám v báze a komparatív sa tvorí 

pomocou prípony -ší. 


M Sg. TZ1-ý TZ1-ší naj-TZ1-ší 

F Sg. TZ1-á TZ1-šia naj-TZ1-šia 

N Sg. TZ1-é TZ1-šie naj-TZ1-šie 

M živ. Pl. TZ1-í TZ1-ší naj-TZ1-ší 

M neživ., F, N Pl. TZ1-é TZ1-šie naj-TZ1-ie 

TZ1: nov- 

Vzor 2vysoký – stupňujú sa podľa neho prídavné mená zakončené na -ý, 

u ktorých pri stupňovaní dochádza k zmenám v báze a komparatív sa tvorí pomocou 

prípony -ší. 


M Sg. TZ1-ý TZ2-ší naj-TZ2-ší 

F Sg. TZ1-a TZ2-šia naj-TZ2-šia 

N Sg. TZ1-e TZ2-šie naj-TZ2-šie 

66


M živ. Pl. TZ1-i TZ2-ší naj-TZ2-ší 

M neživ., F, N Pl. TZ1-e TZ2-šie naj-TZ2-šie 

TZ1: vysok-, TZ2: vyš- 

Pod vzor 2vysoký patria prídavné mená viacerých vzorov prvej roviny, 

napr. vysoký, hlboký, tenký, dobrý, malý, zlý a pod. 

Vzor 2biely – stupňujú sa podľa neho prídavné mená zakončené na -y, 

u ktorých pri stupňovaní dochádza k zmenám v báze a komparatív sa tvorí pomocou 

prípony -ší. 


M Sg. TZ1-y TZ2-ší naj-TZ2-ší 

F Sg. TZ1-a TZ2-šia naj-TZ2-šia 

N Sg. TZ1-e TZ2-šie naj-TZ2-šie 

M živ. Pl. TZ1-i TZ2-ší naj-TZ2-ší 

M neživ., F, N Pl. TZ1-e TZ2-šie naj-TZ2-šie 

TZ1: biel-, TZ2: bel- 

6. Morfológia prísloviek 

Gramatická forma prísloviek – vzťah príslovky k nadradenému slovu je 

nediferencovaný. Pri niektorých príslovkách sa uplatňuje kategória stupňovateľnosti, 

ktorou sa vyjadruje miera vlastnosti deja. 

6.1 Príslovky – prvá morfologická informačná rovina 

Prvý stupeň je zhodný so základným tvarom príslovky, t. j. s heslovým 

slovom. 

Druhý stupeň sa tvorí spravidla pomocou prípon -šie alebo -ejšie, zriedka 

aj inými príponami. Tieto prípony sa pripájajú k TZ po odtrhnutí prípon pozitívu: 

-o, -e, -y. Pri tvorení druhého stupňa dochádza často k spoluhláskovým, samohláskovým 

a supletívnym zmenám v báze. 

Tretí stupeň sa tvorí pripojením predpony naj- k druhému stupňu príslovky. 

67


Stupňovateľnosť prísloviek sme zisťovali sčasti pomocou počítača, porovnaním 

stupňovateľných prídavných mien a im zodpovedajúcich deadjektívnych 

prísloviek. Zároveň sme názvy stupňovacích vzorov prísloviek odvodili od príslušných 

vzorov prídavných mien (novo, bielo, zle...). Stupňovacie vzory prvej 

roviny sa delia podľa toho, aká stupňovacia prípona sa v nich využíva a aký 

druh alternácie sa v jednotlivých príslovkách pri ohýbaní prejavuje. 

Okruhy vzorov stupňovania prísloviek – prvá rovina: „novo“, „belaso“, 

„mocne“, „ľudsky“, „nepravidelné“, „boso“. 

Napr. okruh vzorov „novo“: novo, bielo, tenko, hlboko, vysoko, krátko, 

blízko, malo. 

Vzor novo – stupňujú sa podľa neho príslovky zakončené v pozitíve na -o, 

ktoré pri ohýbaní nemenia TZ. Stupňuje sa pomocou prípony -šie. 

1. stupeň 2. stupeň 3. stupeň 

nov-o nov-šie naj-novšie 

A: – B: – 

Vzor bielo je vzorom pre stupňovanie prísloviek zakončených v pozitíve 

na -o, ktoré majú v TZ dvojhlásku alebo dlhú samohlásku, ktorá sa skracuje 

(A4). Stupňuje sa pomocou prípony -šie. 


biel-o bel-šie naj-bel-šie 

A: A1 B: – 

6.2 Príslovky – druhá morfologická informačná rovina 

Okruhy vzorov stupňovania prísloviek – druhá rovina: „2novo“, „2belaso“, 

„2mocne“, „2ľudsky“, „2nepravidelné“, „2boso“. 

Napr. okruh „2novo“: 2novo, 2bielo. 

Vzor 2novo 


TZ1-o TZ1-šie naj-TZ1-šie 

TZ1: nov- 

Vzor 2bielo 


68


TZ1-o TZ2-šie naj-TZ2-šie 

TZ1: biel, TZ2: bel- 

Vzor 2bielo zahŕňa v druhej rovine aj príslovky, ktoré v prvej rovine patria 

pod vzory krátko, blízko, hlboko, vysoko, tenko... a pod. Ich zložité zmeny 

v TZ počas ohýbania sú k dispozícii vždy v rovnakom stĺpci pod rovnakým 

atribútom. Vzorec stupňovania je, ako vidíme vyššie, vždy rovnaký. 

7. Morfológia zámen 

Zámená sú slová so všeobecným významom, vyjadrujú však gramatické 

významy konkrétnych názvov (Morfológia slovenského jazyka 1966, s. 233). 

Výsledkom analýzy morfológie sú aj v tomto prípade zoznamy a opisy vzorov, 

predstaviteľov ohýbacích typov. 

7.1 Zámená – prvá morfologická informačná rovina 

Z hľadiska morfologického delíme zámená na zámená typu „ja“, „kto“, 

„on“, „sám“, „môj“, „akýsi“, „čísi“, ktoré plnia úlohu reprezentantov jednotlivých 

okruhov. 

Pri spracovaní zámen vychádzame sčasti z monografie J. Horeckého 

(1964). Všímame si odlišnosti v sústave relačných morfém. Slovám, ktoré majú 

niektoré tvary variantné, prideľujeme dva vzory. Pri osobných zámenách sú 

slová, ktoré majú viac ako dva variantné tvary. Napr. genitív singuláru zámena 

on (jeho, neho, ho). V takom prípade pridelíme vzory pre dva tvary a ostatné 

uvedieme v databáze v stĺpci SA. 

Napr. okruh vzorov „ja“: ja1, ja2, ty1, ty2, my, vy, sa1, sa2. 

Vzory zodpovedajú (v zásade) svojím súborom ohýbacích prípon tomuto 

typu: 

Sg. Pl. 

N G D A L I N G D A L I 

-ø -a -e -a -e -ou -ø -ás -ám -ás -ás -ami 

Vzor ja1 vyjadruje kategóriu 1. osoby, nerozlišuje rod, číslo – len singulár. 

číslo N G D A L I 

Sg. ja-ø mň-a mn-e mň-a mn-e mn-ou 

A: ZB (zložité zmeny v báze) B: – 

Vzor vy vyjadruje kategóriu 2. osoby, nerozlišuje rod, číslo – len plurál. 


69


Pl. vy-ø v-ás v-ám v-ás v-ás v-ami 

A: A6 (vy-/v-) B: – 

7.2 Zámená – druhá morfologická informačná rovina 

Vzory pre zámená druhej roviny v podstate zodpovedajú svojím obsahom 

vzorom prvej roviny, odlišná je len forma opisu. 

Napr. okruh vzorov „2ja“: 2ja1, 2ja2, 2ty1, 2ty2, 2vy, 2sa. 

Vzor 2ja1 


Sg. TZ1-ø TZ4-a TZ2-e TZ4-a TZ2-e TZ2-ou 

TZ1: ja-, TZ2: mn-, TZ4: mň- 

Vzor 2vy 


Pl. TZ1-ø TZ2-ás TZ2-ám TZ2-ás TZ2-ás TZ2-ami 

TZ1: vy-, TZ2: v- 

8. Morfológia čísloviek 

Číslovky nemajú osobitné gramatické vlastnosti, ale s mnohými obmedzeniami 

sa pri nich uplatňujú gramatické kategórie podstatných mien, prídavných 

mien a prísloviek. 

V jazykovedných prácach nájdeme rôzne charakteristiky čísloviek a ich 

rozdelenia na jednotlivé skupiny. Pri našom spracovaní morfologických vlastností 

čísloviek sa budeme pridŕžať morfologických informácií uvedených 

v Krátkom slovníku slovenského jazyka (1997): 

1. ohybné podľa vzorov podstatných mien (sto, milión), 

2. ohybné podľa vzorov prídavných mien (prvý, tretí), 

3. nesklonné (tristo), 

4. osobitné skloňovanie – so znakmi charakteristickými len pre číslovky 

(šesť, dvanásť). 

Prvé tri skupiny skloňovania sme riešili pri iných slovných druhoch, preto 

sa budeme venovať najmä poslednej skupine. 

8.1 Číslovky – prvá morfologická informačná rovina 

70


Pri číslovkách, rovnako ako pri zámenách, neuvádzajú príručky slovenskej 

gramatiky žiadne pevné „klasické“ vzory. Opierame sa preto aj tu o už 

citovanú prácu J. Horeckého (1964) a zoskupujeme jednotlivé číslovkové vzory 

okolo autorom uvedených typických súborov relačných morfém. Z morfologického 

hľadiska je pri číslovkách charakteristická kategória mužského osobného 

rodu (napr. tri – traja). 

Okruhy vzorov: „jeden“, „dva“, „tri“, „štyri“, „päť“, „dvesto“. 

Napr. okruh vzorov „päť“ obsahuje vzory: päť, sedem, jedenásť. V sústave 

relačných morfém zodpovedá nasledujúcej schéme: 

Pl. 

N G D A L I 

-ø -ich -im -ø -ich -imi 

-i -ich -im -ich -ich -imi 

Vzor päť – dochádza k alternácii A1 (zmena samohlásky na dvojhlásku) 

a A21 (zmena ď/d, ť/t, ň/n, ľ/l) v TZ. 

M, F, N M živ. 

N päť-ø piat-i 

G piat-ich piat-ich 

D piat-im piat-im 

A päť-ø piat-ich 

L piat-ich piat-ich 

I piat-imi piat-imi 

A: A1, A21 B: – 

Vzor sedem – dochádza k alternáciám A1, A2 (vypustenie samohlásky) 

v TZ. 


N sedem-ø siedm-i 

G siedm-ich siedm-ich 

D siedm-im siedm-im 

A sedem-ø siedm-ich 

L siedm-ich siedm-ich 

I siedm-imi siedm-imi 

A: A1, A2 B: – 

71


8.2 Číslovky – druhá morfologická informačná rovina 

Okruhy vzorov: „2dva“, „2tri“, „2štyri“, „2päť“, „2dvesto“. 

Napr. okruh vzorov „2päť“: 2päť. 

Vzor 2päť 



G TZ2-ich TZ2-ich 

D TZ2-im TZ2-im 

A TZ1-ø TZ2-ich 

L TZ2-ich TZ2-ich 

I TZ2-imi TZ2-imi 

TZ1: päť-, TZ2: piat- 

Číslovky vzoru sedem sa stávajú v druhej rovine súčasťou vzoru 2päť. 

9. Dátový model referenčnej morfologickej databázy slovenského jazyka 

Pripomeňme, že v tejto práci sa zaoberáme lingvistickými informáciami, 

ktoré sú potrebné na vykonanie automatickej analýzy/generovania slovných 

tvarov ohybných slov slovenského jazyka. 

Potrebné informácie sú umiestnené v referenčnej morfologickej databáze 

slovenského jazyka (RMDSJ). Databáza obsahuje všetky morfologické informácie 

o najpoužívanejších slovách súčasnej slovenčiny (okrem vlastných 

mien a pomenovaní) v rozsahu stanovenom v predchádzajúcich častiach, primerane 

štruktúrované a detailizované. Dynamika jazyka vyžaduje databázu vyvíjať 

tak, aby ju bolo možné rozširovať a použiť v pôvodnej podobe, s určitými 

modifikáciami alebo v transformovanej podobe ako prvok komplexnejších systémov 

spracovania textov. Preto musí byť možnosť ku každému slovu priradiť 

údaje, ktoré sú potrebné pri analýze textu v rôznych smeroch (morfologická 

rovina, syntaktická rovina, sémantická rovina, kvantitatívna analýza a pod.). 

Takými údajmi sú napr. štylistická charakteristika, frekvencia a pod. Typickú 

skupinu údajov, ktorá sa využíva v kvantitatívnej lingvistike, uvádza Koehler – 

Schmied (1992). Ďalej budeme špecifikovať konceptuálnu schému referenčnej 

morfologickej databázy. Opisujeme konceptuálnu schému morfologickej databázy, 

ktorá pozostáva z konceptuálnych schém vzorov a z konceptuálnych 

schém k jednotlivým slovným druhom. Pri algoritmickom spracovaní morfológie 

slovných tvarov využívame údaje obsiahnuté v databázach druhej roviny. 

72


9.1 Modelovanie RMDSJ pomocou relačného dátového modelu 

Na základe vykonanej analýzy slovenskej lexiky, vlastností morfologických 

údajov, očakávaného rozširovania databázy a vlastností relačného modelu 

dát považujeme za výhodné využiť na modelovanie morfologických údajov 

relačný dátový model. 

Pripomeňme, že v relačnom modeli skupina príbuzných dát, nazývaných 

relačné n-tice, tvorí reláciu. Reláciu si možno predstaviť ako tabuľku, v ktorej 

každý riadok predstavuje jeden člen – (n-ticu) relácie – a každý stĺpec zodpovedá 

zložke relácie, nazývanej atribút relácie. Každý stĺpec relácie obsahuje údaje toho 

istého typu, napr. koncovka skloňovania v datíve singuláru. Teda napr. každá ntica 

relácie (riadok tabuľky) obsahuje všetky uvažované informácie o danom 

slove. 

Meno relácie a množina atribútov tvoria relačnú schému. Naplnenie (výskyt) 

relačnej schémy R sa volá relácia (Lanka – Pal 1993). Na zápis výskytu 

relácie sa obyčajne využíva len meno relácie, čo realizujeme aj my. Vzhľadom 

na rôznorodosť morfologických údajov pri jednotlivých slovných druhoch v 

slovenčine sme k jednotlivým slovným druhom definovali samostatné relácie, t. 

j. samostatné tabuľky. Uvádzame opisy relačných schém k týmto skupinám 

slov: podstatné mená, slovesá, prídavné mená, zámená, príslovky, číslovky. 

9.1.1 Relačné schémy a relácie k podstatným menám 

Pri podstatných menách, podobne ako pri ostatných ohybných slovných 

druhoch, budeme uvažovať dva typy relačných schém a relácií. Prvý typ zahŕňa 

relačné schémy a relácie k vzorom skloňovania a druhý typ relačné schémy 

a relácie k samotným podstatným menám ako heslovým slovám. Relácie skloňovacích 

vzorov budú obsahovať údaje o vzorových podstatných menách – 

vzoroch skloňovania. Relácie k podstatným menám budú obsahovať údaje 

o jednotlivých heslových slovách, ktoré sú potrebné na morfologické spracovanie 

podstatných mien. Pri stanovení relačnej schémy sa za menom relačnej 

schémy v jednoduchých zátvorkách vymenujú mená atribútov relácie. 

Relačné schémy a relácie vzorov skloňovania podstatných mien 

Konkrétne relačné schémy vzorov skloňovania podstatných mien a príslušné 

relácie k týmto schémam sú uvedené v tvare tabuliek. Záhlavie tabuľky 

– pomenovanie tabuľky a mená stĺpcov – formujú príslušnú relačnú schému a 

samotná tabuľka je zodpovedajúcou reláciou k tejto schéme. Špecifikovanie 

73


atribútov – stĺpcov tabuliek je uvedené za každou tabuľkou. Ukážky tabuliek 

relácií vzorov skloňovania pre podstatné mená sú tieto: 

1. rovina – okruh vzorov „ulica“ 

PODSP1: 

SK 

ALTER 

R VZOR SN SG SD SA SL SI PN PG PD PA PL PI 

i 

-NÁCIA 

dyň dyňa a e i u i ou e ø iame ach amiA1 A21 

i 

fak fakľa a e i u i ou e ø iame ach amiA10 A21 

fun funkcia a e i u i ou e í ám e ách ami– 

hrá hrádza a e i u i ou e í am e ach ami– 

i 

jea jedľa a e i u i ou e í iame ach amiA21 

míľ míľa a e i u i ou e ø am e ach amiA21 

i 

ned nedeľa a e i u i ou e ø iame ach amiA2 A21 

i 

ovc ovca 

pomy- 

a e i u i ou e ø iame ach amiA10 

po0 je-0 – – – – – – e – am e ach amiA1 

i 

ruž ruža a e i u i ou e í iame ach ami– 

sva svieca a e i u i ou e ø am e ach ami– 

i 

ia ac am 

uli ulica a e i u i ou e ø m e h i A1 

víchri- 

i 

víc ca a e i u i ou e ø iame ach ami– 

vládky- 

i 

vlá ňa a e i u i ou e ø iame ach amiA21 

vôň vôňa a e i u i ou e í am e ach amiA21 

Relačná schéma má meno PODSP1 a obsahuje tieto atribúty: (SKR, 

VZOR, SN, SG, SD, SA, SL, SI, PN, PG, PD, PA, PL,PI ALTERNÁCIA). 

74 

Špecifikácia atribútov:


SKR – skratka vzoru 

VZOR – vzor skloňovania 

SN, SG ... SI – 6 pádov singuláru 

PN, PG ... PI – 6 pádov plurálu 

ALTERNÁCIA – pravidlá zmien v TZ (s hodnotou reťazca) 

2. rovina – okruh vzorov „2ulica“ 

PODSP2: 

SKR VZOR SN SG SD SA SL SI PN PG PD PA PL PI Druhy 

TZ 

2dyň 2dyňa a e i u i ou e ø iam e iach ami 1,2,4 

2fun 2funkcia a e i u i ou e í ám e ách ami 1 

2hrá 2hrádza a e i u i ou e í am e ach ami 1 

2jea 2jedľa a e i u i ou e í iam e iach ami 1,4 

2míľ 2míľa a e i u i ou e ø am e ach ami 1,4 

2po0 2pomyje-0 – – – – – – e ø am e ach ami 1,2 

2ruž 2ruža a e i u i ou e í iam e iach ami 1 

2sva 2svieca a e i u i ou e ø am e ach ami 1 

2uli 2ulica a e i u i ou e ø iam e iach ami 1,2 

2víc 2víchrica a e i u i ou e ø iam e iach ami 1 

2vlá 2vládkyňa a e i u i ou e ø iam e iach ami 1,4 

2vôň 2vôňa a e i u i ou e í am e ach ami 1,4 

Špecifikácia atribútov je totožná s predchádzajúcou tabuľkou prvej roviny. 

Namiesto atribútu ALTERNÁCIA je atribút Druhy TZ. 

Druhy TZ – použité druhy TZ (TZ1, TZ2...). 

Predpokladáme, že princíp relačnej schémy a relácie vzorov je dostatočne 

vysvetlený a ďalej môžeme prezentovať len meno a záhlavie tabuľky ako relačnú 

schému vzorov. 

Relačné schémy a relácie k jednotlivým podstatným menám: 

Relačná schéma podstatných mien mužského rodu má 11 atribútov. Tie 

isté atribúty má aj relačná schéma podstatných mien ženského rodu a stredného 

rodu. Mená relačných schém sú: PMM – pre mužský rod, PMF – pre ženský 

rod, PMN – pre stredný rod a PMD – pre podstatné mená dvojrodové. 

Relačná schéma mužských podstatných mien: 

75


PMM(PARA, PAR1, LEMMA, MORPH, TZ1, TZ2, TZ3, TZ4, SA, PA- 

RA2, PAR2_1) 

Špecifikácia atribútov: 

PARA je skratka pre vzor ohýbania (paradigmy) – ok1 (oko1) 

PAR1 je skratka pre druhý vzor, ak má podstatné meno variantné tvary 

– ok2 (oko2) 

LEMMA základný tvar slova, heslové slovo – oko 

MORPH výber morfologických tvarov, ako ich ponúka KSSJ – -a s. 1. 

mn. oči, očí/ arch. očú -iam –iach 

TZ1,TZ2 obmeny tvarotvorného základu, ktoré sa vyskytnú pri ohýbaní 

TZ3,TZ4 podstatného mena: TZ1 – ok-, TZ2 – oč- 

SA špecifické atribúty, ktoré sa vyskytnú nad rámec štandardných 

informácií (napr. uvedenie vokatívu pri niektorých podstatných 

menách) 

PARA2 je skratka pre vzor ohýbania v 2. rovine – 2ok1 (2oko-1) 

PAR2_1 je skratka pre druhý vzor v 2. rovine, keď má podstatné meno 

variantné tvary – 2ok2 /(2oko-2) 

Všetky atribúty nadobúdajú reťazcové hodnoty. 

9.1.2 Relačné schémy a relácie k slovesám 

Relačné schémy a relácie vzorov skloňovania slovies 

Relačné schémy a relácie k vzorom časovania slovies sú obsiahnuté v tabuľkách. 

Relácia obsahuje vzorové slová a ich atribúty. Z dôvodu väčšej efektívnosti 

a úspory tlače je tabuľka – relácia predstavená tak, že jej stĺpce (nie 

riadky) tvoria n-ticu relácie, t. j. obsahujú príslušné údaje k vzoru. Mená 

atribútov sú uvedené na začiatku riadkov. Špecifikácia atribútov a význam 

značiek (TMPA1, RPB1... pre prvú rovinu, KPA1, KPB2... pre druhú rovinu) je 

vysvetlený v prvej časti pri opise vzorov slovies. 

1. rovina – ukážka z okruhu vzorov „chudnúť“: chudnúť, vládnuť, ľnúť, 

KVITNÚŤ. 

SLOVP1: 

76


skratka chu vlá ľnú KVI 

vzor chudnúť vládnuť ľnúť KVITNÚŤ 

TMPA1 e e e e 

TMPB1 ø ø ø ø 

RPA1 chudn vládn ľn kvitn 

RPB1 chudn vládn ľn kvitn 

RPA2 – – – pokvitn 

RPB2 – – – pokvitn 

1.os.pr.č.j.č. m m m m 

2.os.pr.č.j.č. š š š š 

3.os.pr.č.j.č. ø ø ø ø 

1.os.pr.č.mn.č. me me me me 

2.os.pr.č.mn.č. te te te te 

3.os pr.č.mn.č. ú u ú ú 

imper.2.os.j.č. ø ø ø ø 

imper.1.os.mn.č. me me me me 

imper.2.os.mn.č. te te te te 

prechodník úc uc úc úc 

čin.príč.prít.j.č.m.r. úci uci úci úci 

čin.príč.prít.j.č.ž.r. úca uca úca úca 

čin.príč.prít.j.č.s.r. úce uce úce úce 

čin.príč.prít.mn.č.m.r. úci uci úci úci 

čin.príč.prít.mn.č.ž.r. úce uce úce úce 

čin.príč.prít.mn.č.s.r. úce uce úce úce 

č.pr.prít.mn.č.m.r.živ. úce uce úce úce 

vzor pre čin.príč. rýdzi rýdzi rýdzi rýdzi 

TMIA1 ú u ú ú 

TMIB1 ø ø u ø 

RIA1 chudn vládn ľn kvitn 

RIB1 chud vlád ľn kvitn 

min.čas m.r.j.č. ol ol l ol 

min.čas ž.r.j.č. la la la la 

min.čas s.r.j.č. lo lo lo lo 

min.čas.mn.číslo li li li li 

čin.príč.min.j.č.m.r. vší vší vší vší 

77


2. rovina – ukážka z okruhu vzorov „2chudnúť“: 2chudnúť, 2vládnuť, 2ľnúť, 

2KVITNÚŤ, 2HRNÚŤ, 2objať. 

Tabuľka – relácia je riešená ako relácie pre 1. rovinu. 

SLOVP2: 

skratka 2chu 2vlá 2ľnú 2objať 

vzor 2chudnúť 2vládnuť 2ľnúť 2objať 

KPA1 chudne vládne ľne objíme 

KPB1 chudn vládn ľn objím 

1.os.j.č. m m m m 

2.os.j.č. š š š š 

3.os.j.č. ø ø ø ø 

1.os.mn.č. me me me me 

2.os.mn.č. te te te te 

3.os..mn.č. ú u ú u 

imperatív 2.os.j.č. ø ø ø ø 

imperatív 1.os.mn.č. me me me me 

imperatív 2.os.mn.č. te te te te 

prechodník úc uc úc uc 

čin.príč.prít.j.č.m.r. úci uci úci uci 

čin.príč.prít.j.č.ž.r. úca uca úca uca 

čin.príč.prít.j.č.s.r. úce uce úce uce 

čin.príč.prít.mn.č.m.r.živ úci 

. 

uci úci uci 

čin.príč.prít.mn.č.ž.r. úce uce úce uce 

čin.príč.prít.mn.č.s.r. úce uce úce uce 

čin.príč.prít.mn.č.m.r. úce uce úce uce 

oh.vzor pre čin.príč.prít. rýdzi rýdzi rýdzi rýdzi 

KIA1 chudnú vládnu ľnú obja 

KIB1 chud vlád ľnu obja 

KIB2 chudnu vládnu – – 

IZ chudni vládni ľni objím 

min.čas j.č.m.r. ol ol l l 

min.čas j.č.ž.r la la la la 

min.čas j.č.s.r. lo lo lo lo 

78


min.čas mn.č. li li li li 

čin.pr.m.čas j.č.m.r.živ. vší vší vší vší 

čin.pr.m.čas j.č.ž.r. všia všia všia všia 

čin.pr.m.čas j.č.s.r. všie všie všie všie 

čin.pr.m.čas mn.č.m.r. vší vší vší vší 

čin.pr.m.čas mn.č.ž.r. všie všie všie všie 

čin.pr.m.čas mn.č.s.r. všie všie všie všie 

čin.pr.m.čas m.r. všie všie všie všie 

ohýb.vz.pre čin.pr.min. cudzí cudzí cudzí cudzí 

trp.príč.j.č.m.r. tý tý tý tý 

trp.príč.j.č.ž.r. tá tá tá tá 

trp.príč.j.č.s.r. té té té té 

trp.príč.mn.č.m.r. tí tí tí tí 

trp.príč.mn.č.ž.r. té té té té 

trp.príč.mn.č.s.r. té té té té 

trp.príč.mn.č.iné té té té té 

ohýb.vzor pre trp.príč. pekný pekný pekný pekný 

slov.podstatné meno tie tie tie tie 

ohýb.vzor pre sl.pod.m. vysvedčenie vysvedčenie vysvedčenie vysvedčenie 

Relačné schémy a relácie k jednotlivým slovesám 

VER(PARA, LEMMA, V, MORPH, RAD_INF_A, TM_INF_A, RAD_INF_B1, 

TM_INF_B1, RAD_INF_B2, TM_INF_B2, RAD_PRZ_A1, TM_PRZ_A1, 

RAD_PRZ_A2, TM_PRZ_A2, RAD_PRZ_B1, TM_PRZ_B1, RAD_PRZ_B2, 

TM_PRZ_B2, IZ, SA, PARA_2, KME_INF_A, KME_INF_B1, KME_INF_B2, 

KME_PRZ_A1, KME_PRZ_A2, KME_PRZ_B1, KME_PRZ_B2) 

Meno schémy je VER, má 28 atribútov, ktoré sú špecifikované takto: 

PARA je skratka pre vzor ohýbania (paradigmy) – dža (džavotať) 

LEMMA základný tvar slova, heslové slovo – džavotať 

V informácia o poradí variantov 

MORPH výber morfologických tvarov, ako ich ponúka KSSJ – -ce 

-cú -tajúc ndk 

79


RAD_INF_A 1. podoba neurčitkového koreňa – džavot- 

TM_INF_A 1. podoba infinitívnej tematickej morfémy – -a- 

RAD_INF_B1 1. variant 2. podoby neurčitkového koreňa – džavot- 

TM_INF_B1 1. variant 2. podoby infinitívnej tematickej morfémy – -a- 

RAD_INF_B2 2. variant 2. podoby neurčitkového koreňa 

TM_INF_B2 2. variant 2. podoby infinitívnej tematickej morfémy 

RAD_PRZ_A1 1. variant 1. podoby prítomníkového koreňa – džavoc- 

TM_PRZ_A1 1. variant 1. podoby prézentnej tematickej morfémy – -e- 

RAD_PRZ_A2 2. variant 1. podoby prítomníkového koreňa 

TM_PRZ_A2 2. variant 1. podoby prézentnej tematickej morfémy 

RAD_PRZ_B1 1. variant 2. podoby prítomníkového koreňa 

TM_PRZ_B1 1. variant 2. podoby prézentnej tematickej morfémy 

RAD_PRZ_B2 2. variant 2. podoby prítomníkového koreňa – džavot- 

TM_PRZ_B2 2. variant 2. podoby prézentnej tematickej morfémy – -aj- 

IZ imperatívny základ – džavotaj- 

SA špecifické atribúty nad rámec štandardných informácií 

PARA_2 je skratka pre vzor ohýbania v 2. rovine – 2dža (2džavotať) 

KME_INF_A 1. podoba neurčitkového kmeňa – základ neurčitku – džavota- 

KME_INF_B1 1. variant 2. podoby neurčitkového kmeňa – džavota- 

KME_INF_B2 2. variant 2. podoby neurčitkového kmeňa 

KME_PRZ_A1 1. variant 1. podoby prítomníkového kmeňa – džavoc- 

KME_PRZ_A2 2. variant 1. podoby prítomníkového kmeňa 

KME_PRZ_B1 1. variant 2. podoby prítomníkového kmeňa – džavoc- 

KME_PRZ_B2 2. variant 2. podoby prítomníkového kmeňa – džavotaj- 

Všetky atribúty majú ako hodnoty reťazce znakov. 

9.1.3 Relačné schémy a relácie k prídavným menám 

Relačné schémy a relácie vzorov skloňovania prídavných mien 

Ukážka relačnej schémy a relácie k vzorom skloňovania prídavných mien. 

(Ide o jednu tabuľku, ktorá je z tlačových dôvodov umiestnená v častiach pod 

sebou.) 

1. rovina 

PRIDP1: 

80


S S S S S S 

S S 

SK V N_Ž_G_Ž_ 

D_Ž A_Ž_L_Ž 

I_Ž_ SN SG D_ SA L_ S 

R ZOR M M _M M _M M _M _M M _M M I_M 

pek- 

ém 

ém 

pek ný ý ého u ého om ým ý éhou 

ý om ým 

krás- 

em 

em 

kry ny y eho u eho om ym y ehou 

y om ym 

i 

i i 

cud cudzí í ieho emuieho om ím í ehoemuí 

om ím 

em 

em 

rýd rýdzi i eho u eho om im i ehou 

i om im 

⇒ 

SN S SD SA S S S S S S S S 

_F G_F_F 

_F L_F I_F N_NG_N 

D_N A_N L_N I_N 

á ej ej ú ej ou é ého ému é om ým 

a ej ej u ej ou e eho emu e 

i 

om ym 

ia ej ej iu ej ou ie ieho emu ie om ím 

a ej ej u ej ou e eho emu e om im 

PN PG PD PA P P 

_Ž_ _Ž_ _Ž_ _Ž_ L_ŽI_Ž 

P P P P P P 

⇒ M M M M _M _M N_X G_X D_X A_X L_X I_X 

í ých ým ých ých ýmié ých ým é ých ými 

i ych ym ych ych ymie ych ym e ych ymi 

í ích ím ích ích ími ie ích ím ie ích ími 

i ich im ich ich imi e ich im e ich imi 




SN_Ž_M, SG_Ž_M ... SI_Ž_M – 6 pádov singuláru pre mužský 

rod – životný 

SN_M, SG_M ... SI_M – 6 pádov singuláru pre mužský rod 

– neživotný 

SN_F, SG_F ... SI_F – 6 pádov singuláru pre ženský rod 

SN_N, SG_N ... SI_N – 6 pádov singuláru pre stredný rod 

81


PN_Ž_M, PG_Ž_M ... PI_Ž_M – 6 pádov plurálu pre mužský 


PN_X, PG_X ... PI_X – 6 pádov plurálu pre mužský rod – 

neživotný, ženský rod, stredný rod 

Druhá rovina obsahuje rovnaké vzory ako prvá rovina, preto ukážku neuvádzame. 

Relačná schéma k jednotlivým prídavným menám 

PRIDME(PARA, PRG, PRG1, LEMMA, MORPH, TZ1, TZ2, TZ_G1, TZ_G2, 

SA, GR, PARA2, PRG2, PRG2_1) 

Schéma má meno PRIDME a jej 12 atribútov je špecifikovaných nasledovne: 

PARA skratka pre vzor skloňovania prídavného mena – pek 

(pekný) 

PRG skratka pre vzor stupňovania prídavného mena – dob 

(dobrý) 

PRG1 skratka pre 2. vzor stupňovania, ak má prídavné meno 

variantné tvary 

LEMMA základný tvar slova, heslo – dobrý 

MORPH výber morfologických tvarov, ako ich ponúka KSSJ – 

lepší príd. 

TZ1,TZ2 obmeny TZ, ktoré sa vyskytnú pri skloňovaní prídavného 

mena – dobr- 

TZ_G1,TZ_G2 obmeny TZ, ktoré sa vyskytnú pri stupňovaní prídavného 

mena – dobr- lepš- 

SA špecifické atribúty, ktoré sú nad rámec štandardných informácií 

GR údaj o stupňovateľnosti 

PARA2 skratka pre vzor skloňovania prídavného mena v 2. 

rovine – 2pek (2pekný) 

PRG2 skratka pre vzor stupňovania v druhej rovine – 2bie 

(2biely) 

PRG2_1 skratka pre vzor stupňovania v druhej rovine ak má 

slovo varianty 

82

Hodnoty všetkých atribútov sú reťazcové hodnoty. 


83


9.1.4 Relačné schémy a relácie k príslovkám, zámenám a číslovkám 

Relačné schémy a relácie k vzorom stupňovania prísloviek 

1. rovina 

PRÍSLP1: 

SKR VZOR F_POZIT F_KOMP ALTERNÁCIA 

noo novo o šie – 

bio bielo o šie A1 

kro krátko o šie A1 A3 

beo belaso o ejšie – 

čio čierno o ejšie A1 

ľud ľudsky y ejšie – 

moc mocne e ejšie – 



VZOR – vzor stupňovania 

F_KOMP – formant komparatívu 

F_POZIT – formant pozitívu 


2. rovina 

PRÍSLP2: 

SKR VZOR F_POZIT F_KOMP DRUHY TZ_G 

2noo 2novo o šie 1 

2beo 2belaso o ejšie 1 

2čie 2čierno o ejšie 1,2 

2ľud ľudsky y ejšie 

2moc mocne e ejšie 

84 



VZOR – vzor stupňovania 

F_KOMP – formant komparatívu 

F_POZIT – formant pozitívu


DRUHY TZ_G – počet použitých TZ pri stupňovaní (TZ_G1, 

TZ_G2) 

Relačné schémy a relácie k vzorom skloňovania zámen 

1. rovina 

ZÁMP1: 

S 

V N_Ž SG_ŽSD_Ž_SA_Ž_ 

SL_Ž_ SI_Ž_ 

SKR ZOR _M _M M M M M 

on2 on-2 ø eho emu eho om ím 

tvo tvoj 

žiade 

ø ho mu ho om ím 

žia n ø eho emu eho om ym 

éhoému- aže akýže ýže žeže éhože omže ýmže 

iehoiemu- čže číže íže žeže iehožeomže ímže 

⇒ 

⇒ 

S S 

N_M G_M SD_M SA_M SL_M SI_M 

ø eho emu ho om ím 

ø ho mu ø om ím 

ø eho emu ø om ym 

éhoému- ýže žeže ýže omže ýmže 

iehoiemu- íže žeže íže omže ímže 

S 

N_F SG_FSD_F SA_F SL_F SI_F 

a ej ej u ej ou 



áže ejže ejže úže ejže ouže 

iaže ejže ejže iuže ejže ouže 

85


⇒ 

⇒ 

⇒ 

S S 

N_N G_N SD_N SA_N SL_N SI_N 

o eho emu ho om ím 

e ho mu e om ím 

e eho emu e om ym 

éhoému- éže žeže éže omže ýmže 

iehoiemu- ieže žeže ieže omže ímže 

P 

N_Ž 

_M 

PG_Ž 

_M 

PD_Ž_PA_Ž_ 

PL_Ž_ PI_Ž_ 

M M M M 

i ich im ich ich imi 


i ych 

ých- 

ym ych ych ymi 

íže že ýmže ýchže ýchže ýmiže 

íže íchže ímže íchže íchže ímiže 

P 

PI_X ALTER- 

N_X PG_XPD_X PA_X PL_X NÁCIA 

y ich im e ich imi ZB 

e ich im e ich imi – 

e ych ym e ych ymi A2 

ých- 

ýmiže 

éže že ýmže éže ýchže – 

ieže íchže ímže ieže íchže ímiže – 




SN_Ž_M, SG_Ž_M ... SI_Ž_M – 6 pádov singuláru pre mužský 


86


SN_M, SG_M ... SI_M – 6 pádov singuláru pre mužský rod 

– neživotný 

SN_F, SG_F ... SI_F – 6 pádov singuláru pre ženský rod 

SN_N, SG_N ... SI_N – 6 pádov singuláru pre stredný rod 



PN_X, PG_X ... PI_X – 6 pádov plurálu pre mužský rod – 

neživotný, ženský rod, stredný rod 


Druhá rovina zámen obsahuje rovnaké vzory, len namiesto atribútu AL- 

TERNÁCIA je atribút DRUHY TZ. 

Relačné schémy a relácie k vzorom skloňovania čísloviek 

1. rovina 

ČÍSLP1: 

P P P 

V P G_ D_ A_ P P 

SKR ZOR N_M M M M L_MI_M 

dva dva a och om a och oma 

päť päť 

sede 

ø ich im ø ich imi 

sed m ø ich im ø ich imi 

⇒ 

P 

N_Ž 

_M 

⇒ P 

N_F 

P P P P 

G_Ž D_Ž A_Ž L_Ž 

_M _M _M _M 

PI_Ž 

_M 

aja och om och och oma 



P P 

G_F 

P P P 

D_F A_F L_F I_F 

ALTERNÁCIA 

87


N N N N N N 

e och om e och oma– 

ø ich im ø ich imi A1 

ø ich im ø ich imi A1, A2 




PN_M, PG_M ... PI_M – 6 pádov plurálu pre mužský rod – 

neživotný 



PN_FN, PG_FN ... PI_FN – 6 pádov plurálu pre ženský a 

stredný rod 


88

2. rovina 

ČÍSLP2: 

V P P P P P P 

SKRZOR 

2 

N_M G_M D_M A_M L_M I_M 

dva 2dva a och om a och oma 

2päť2päť ø ich im ø ich imi 

⇒ 

⇒ 

P P P P P 

N_Ž G_Ž_D_Ž 

A_Ž_L_Ž_ 

PI_Ž 

_M M _M M M _M 

aja och om och och oma 


P 

N_F 

N 

P 

G_F 

N 

P 

D_F 

N 

P 

A_F 

N 


P 

L_F 

N 

PI_F 

N DRUHY 

TZ 

e och om e och oma 1 

ø ich im ø ich imi 1, 2 




PN_M, PG_M ... PI_M – 6 pádov plurálu pre mužský rod – 

neživotný 



PN_FN, PG_FN ... PI_FN – 6 pádov plurálu pre ženský a 

stredný rod 

DRUHY_ TZ – druhy použitých TZ (TZ1, TZ2, ...) 

Relačné schémy a relácie k jednotlivým príslovkám, zámenám a číslovkám, 

ak sú ohybné, sú tvorené podľa vyššie uvedených relačných schém pre 

podstatné mená, slovesá a prídavné mená, preto ich nebudeme opakovať. 

89


9.2 Fyzická referenčná morfologická databáza slovenčiny 

Cieľom nášho snaženia bolo zhromaždiť morfologické údaje o každom 

slove súčasnej slovenskej lexiky, ako ju zachytáva Krátky slovník slovenského 

jazyka (1997), a dať ich k dispozícii v štruktúrovanej podobe a usporiadané 

napr. podľa slovných druhov a paradigiem. To sme dosiahli vytvorením relácií 

– počítačových súborov. Samostatný súbor tvoria vzory ohýbania slovných 

druhov. Ku každému slovnému druhu existuje dátový súbor, ktorý obsahuje 

najpoužívanejšie slová z daného slovného druhu v súčasnej spisovnej slovenčine. 

Tieto súbory sú k dispozícii na ďalší výskum alebo tvorbu jazykových 

aplikácií. 

10. Poznámky k realizácii (implementácii) referenčnej morfologickej databázy 

Prvým krokom na ceste tvorby referenčnej morfologickej databázy slovenčiny 

bolo získanie elektronickej podoby KSSJ ako základného lexikálneho 

zdroja, obsahujúceho tiež veľa gramatických údajov. Poznatky z práce na KSSJ 

je možné aplikovať aj na iné informačné zdroje. 

Literatúra 

ALLÉN, Sture. 1981. The Lemma-Lexeme Model of the Swedish Lexical Data Base. In: 

Progress in Empirical Semantics. Bochum: Brockmeyer. 

BENKO, Vladimír – HAŠANOVÁ, Jana – KOSTOLANSKÝ, Eduard. 1996. Počítačové 

spracovanie slovenčiny – výskumná správa. Bratislava: Pedagogická fakulta UK. 

BENKO, Vladimír – HAŠANOVÁ, Jana – KOSTOLANSKÝ, Eduard. 1997. Morfologické 

údaje o slovenských substantívach na účely algoritmickej analýzy textov. Slovenský jazyk a literatúra 

v škole, č. 5, s. 154 – 166. 

BENKO, Vladimír – HAŠANOVÁ, Jana – KOSTOLANSKÝ, Eduard. 1998. Počítačové 

spracovanie slovenského jazyka – časť: Morfológia podstatných mien. Bratislava: Pedagogická 

fakulta Univerzity Komenského. 

HORECKÝ, Ján. 1964. Morfematická štruktúra slovenčiny. Bratislava: Vydavateľstvo SAV. 

KAČALA, Ján – PISÁRČIKOVÁ, Mária (eds.). 1997. Krátky slovník slovenského jazyka. (3. 

vydanie) Bratislava: Veda. 

KOEHLER, R. – SCHMIED, P. 1992. Lexikondateien fuer Quantitative Lexikologie. FB II, 

Universitaet Trier. 

LANKA, S. – PAL, S. 1993. Database Systems. New York: Elsevier Science Pub. 

90


MISTRÍK, Jozef. 1988. Moderná slovenčina. Bratislava: Slovenské pedagogické nakladateľstvo. 

ORAVEC Ján – BAJZÍKOVÁ, Eugénia – FURDÍK, Juraj. 1984. Súčasný slovenský spisovný 

jazyk. Morfológia. Bratislava: Slovenské pedagogické nakladateľstvo. 

PÁLEŠ, Emil. 1994. SAPFO – parafrázovač slovenčiny, počítačový nástroj na modelovanie v 

jazykovede. Bratislava: Veda. 

PAULINY, Eugen – RUŽIČKA, Jozef – ŠTOLC, Jozef. 1968. Slovenská gramatika. Bratislava: 

Slovenské pedagogické nakladateľstvo. 

PECIAR, Štefan. (ed.). 1959 – 1968. Slovník slovenského jazyka. (6 zväzkov). Bratislava: 

Vydavateľstvo SAV. 

Projekt „Referenčná morfologická báza dát slovenského jazyka“. Záverečná správa. 

Bratislava: Laboratórium počítačovej lingvistiky PdF UK 1998. 

RUŽIČKA, Jozef. (ed.). 1966. Morfológia slovenského jazyka. Bratislava: Vydavateľstvo SAV. 

91

DATABASES FOR SPEECH RECOGNITION 

AND SYNTHESIS IN SLOVAK 

Milan Rusko – Sachia Daržágín – Marián Trnka: Institute of Informatics, 

Slovak Academy of Sciences, Bratislava 

1. Introduction 

An effort of the scientists and developers to change the approach to automated 

speech processing systems building has become evident in recent years. 

The older methods based on a set of human-expert defined rules has been replaced 

by systems with new architecture. In these systems the needed information 

on the properties and behavior of the speech signal is obtained automatically 

from large speech databases. This paper reflects an effort to apply the data 

driven approach in the telephone-speech recognizer and speech synthesizer in 

Slovak, at the Department of the Speech Synthesis and Speech Analysis of the 

Institute of Informatics. 

The automatic speech processing technology has reached such a high degree, 

that it is being implemented in various applications in different areas of life. 

More and more voice driven teleservices (Rusko 1998) are offered by companies 

to allow the customer easier access to information (e.g. traintable information), to 

transaction services (e.g. teleshopping or telebanking), or more comfortable way 

of communication (call processing services, e.g. voice mail handling). 

The American companies having a benefit of a large and rich monolingual 

market are in a much better position than companies of the multilingual 

Europe. Not to loose the market, the European companies have to create an effective 

infrastructure to deal successfully with their multilingual environment. 

While the mathematical principles and algorithms of the speech recognition 

and speaker identification systems (based usually on Hidden Markov Models 

and Neural Nets) are more or less language independent, the training databases 

must include native speakers recordings. Their preparation as well as postprocessing 

needs a skilled team of local scientists and engineers capable of solving 

problems concerning computer linguistics, speech acoustics, phonetics, programming 

and management. Very similar situation is that in the field of the 

modern speech synthesis. 

92

2. Speech Recognition – The need of the speech database 

DATABASES FOR SPEECH RECOGNITION AND SYNTHESIS IN SLOVAK 

After the era of rule-based speech recognition systems the Dynamic Time 

Warping (DTW) algorithm has become most popular and many of the functional 

applications with a vocabulary up to several tenths of words use it also today 

(e.g. voice dialed telephone). 

The idea of the data driven approach is not to force the recognition system 

to follow the predefined rules, but rather to let the system extract the 

knowledge on the properties and behavior of the speech signal automatically 

from the information stored in huge speech databases. This process of extracting 

information and setting own rules for further recognition is called 

training. Such a recognizer based generally on Hidden Markov Models 

(HMMs) and/or Artificial Neural Nets (ANNs) can be considered as a selflearning 

system. The problem was, that no speech database had been built for 

Slovak speech, that would be large enough for training before we started to 

build our database. 

Database 

signal 

interface 

Databases 

X 

Speech 

samples 

Feature 

extraction 

Y 

Prob. 

density 

functions 

P(Y t |S t ) 

Phonetic 

training 

Recognition 

Transition 

probabilities 

P(S t |St-1) 

Strings of words: W 

HMMs 

Word 

statistics 

P(W |W ) 

t t-1 

Word class 

training 

Fig. 1: Functional scheme of a data driven speech recognizer based on HMM 

For HMM based speaker independent recognizer, a database containing 

5000 recorded telephone calls (of different speakers) is considered a reasonable 

volume. The database must have predefined structure and content (which can 

W* 

93

MILAN RUSKO – SACHIA DARŽÁGÍN – MARIÁN TRNKA 

be application-dependent), and must reflect all the phonetical and phonological 

phenomena which the recognizer should be capable to employ in its work. The 

most time-consuming phase of the database-building is that of annotation and 

labelling. In this process an orthographic (written text) and orthoepic (phonetic 

representation) information is linked to all the recorded speech files. Instead of 

the fact, that there are some possibilities to do the annotation automatically, one 

comes to a paradox: 

a) an annotated training database is needed for the speech recognizer building, 

b) a reliable speech recognizer is needed for the automatic speech-database 

annotation. 

Fig. 2: Display of the program Label 1.0, used for manual annotation of the database records 

and running check of the signal quality and some other database features. 

This simply means, that the first speech database must be annotated 

manually by human expert. After it is finished, it can be used for the first recognizer 

training, and this recognizer can possibly be included in a system for 

automatic annotation of future databases. 

94


For illustration we present on Fig. 2 a typical display of the program used 

for manual annotation (program Label 1.0 developed at our Department of 

Speech Analysis and Synthesis). 

3. SpeechDat-e, the first Telephone speech database in Slovak 

SpeechDat-E is a set of databases following the standard defined with 

SpeechDat II (Winski 1997). The collection is performed automatically telephone 

via the ISDN connection (on the recording side). As a compromise 

between the need and the economical possibilities, it was decided to build a 

1000 speakers database for Czech, Polish, Slovak and Hungarian and a 2500 

speakers database for Russian. After the preliminary statistical research a set of 

the so called promptsheets had to be generated. The promptsheet is a list of 

sentences and words to be read by the caller and a set of questions to be 

answered. The promptsheets were formed according to the possible areas of the 

speech recognizer applications (computers, banking, shopping, marketing, travelling 

and tourist information, telecommunication etc.). Every of them include: 

– isolated digits and its sequences 

– digit / number strings 

– natural number 

– money amounts in Slovak crowns, Dollars and Euro and their 

smaller units 

– yes/no questions (spontaneous answer) 

– dates, prompted phrases with date, relative and general date expression 

– time and time-phrases 

– application words / keyphrases 

– word spotting phrase using embedded application word 

– directory assistance names: city of birth (spontaneous), company, 

agency, surname, forename plus surname, own forename 

(spontaneous) 

– spellings: artificial sequence, city name, own forename (spontaneous) 

– phonetically rich words 

– phonetically rich sentences. 

To reflex the real-life features the database has to be statistically balanced 

according to: 

95


a) regional coverage – representation of the main phonetic groups. The repartition 

of speakers should be proportional to the population in regions 

with 5 % tolerance and with a minimum 5 % speakers per region; 

b) age of the callers; 

c) sex of the callers. 

It is the first large telephone speech corpus collected in Slovakia. Speech- 

Dat-E Slovak is available for the users now. It is being used in our experiments 

for training of several types of recognizers. The companies which are members 

of the SpeechDat-E Consortium has already started to develop commercial recognizers 

using this database. We also hope that the database will be useful not 

only for the universities and academic institutions, but primarily for companies 

in the telecommunications and teleservices. The liberalization of the Slovak 

telecommunication market, hand in hand with recent boom in speech processing 

technology, will lead to a competition among operators and also other 

companies in the field of voice-driven teleservices. The created database can be 

the first step to the professional design of such services. 

A new database intended for building the speech synthesis systems in 

Slovak is under development . 

4. Data driven approach to speech synthesis 

Speech synthesis has been considered to be less complex problem than 

that of speech recognition. This statement is true only up to a certain level of 

quality of the synthesis systems. 

96 

Fig. 3: Schematic diagram of the recent version of the Slovak speech synthesizer


Modern approaches aim at reaching high naturalness of speech. One of 

the ways how to incorporate the difficult phenomena of the natural speech prosody 

and rhythm, is to use a large training database of the speech of one speaker, 

optimized for text-to-speech applications. 

The content of the database must allow for the extraction of the following 

synthesis elements: 

– the basic elements of the signal waveform used for concatenative 

synthesis (e.g. diphones), these must be available in accented 

an unaccented form, in different contexts, and positions in the 

word and sentence. Advanced systems allow for the concatenation 

from the non-uniform speech units. The choose of these 

units is optimized regarding the actual text and the speech material 

in the database; 

– the pitch and energy contours of the syllables, words and sentences; 

– rhythmical rules (e.g. phone and syllable durations) for different 

speech rates and speaking styles. 

Annotation of such a training database is extremely difficult task. The information 

which should be linked to the recorded speech is of several levels: 

Level Annotated information 

Sentence level orthographic and 

orthoepic 

representations 

Word level orthoepic 

representation 

Syllable level orthoepic 

sentence type 

(syntax) 

sentence boundary 

pointers (BP) 

accent word BP 

grammatical type 

(syntax) 

consonant-vocal accent syllable BP 

representation structure 

syllable nuclei BP 

Phoneme level orthoepic representation BP to phonemes and pauses 

Microsegment level F0 energy BP to microsegments 

Tab. 1: Level structure of the information annotated in the speech database 

for speech synthesis purposes 

For the automatic annotation we have developed a set of tools analyzing 

the signal in the time and frequency domains, measuring energy, pitch, and the 

97


position of important instants (boundaries) in the speech signal. The signal 

analysis system (developed at the Department of Speech Analysis and Synthesis) 

is Called SOUNDY 4.0. 

Fig. 4.: Typical appearance of the screen of the SOUNDY 4. 0. signal analysis system 

5. The automatic phonetic labeller 

Text to phoneme conversion is performed by an automatic orthographicto-orthoepic 

converter. 

Many of modern speech synthesis and speech recognition systems require 

phonetic information to be incorporated in the training database – namely 

pointers to the phoneme boundaries and orthoepic transcription of the recorded 

utterances. 

The architecture of our automatic phonetic labeller is shown in Fig. 5. 

98


Fig. 5: The architecture of the automatic phonetic labelling system 

5.1 Pitch synchronous analysis on the microsegmental level 

The microsegment recognition process itself can be divided into several 

steps: 

a) Microsegmentation 

b) Time domain acoustic feature extraction 

c) Filter-bank based frequency domain analysis 

d) Assignment to one of the main phonetic groups 

e) Identification of the microsegments (assignment to one of the phonemes). 

5.2 Microsegmentation of the speech signal 

99


For this purpose we use our rule-based microsegmentation procedure developed 

for the speaker-independent speech recognizer (Daržágín – Trnka 

1995). 

In the first step the voiced/unvoiced/pause decision must be taken for the 

analyzed frame of the signal. In the next step of the acoustic pre-processing, 

the speech signal is pitch-synchronously divided into frames of the length corresponding 

to one period of the fundamental on the voiced portion of the signal 

and into frames of a constant length on the unvoiced part. These frames, called 

microsegments, are the elementary analysis time-intervals in our system. Every 

microsegment is then analyzed and a hypothesis on its correspondence to some 

of the phonemes of the Slovak phoneme-inventory is created. 

5.3 Text input and orthographical to orthoepical form conversion 

The text of the utterance which was read by the speaker is sent to the input 

of the text processing branch in an ASCII-coded form. The automatic orthographic 

to orthoepic form conversion is made by a rule based routine that 

was originally written for the Slovak speech synthesizer. This orthoepical transcription 

gives a sequence of the phonemes that should theoretically be pronounced 

when reading the source text. Thus the system can send the information 

on the expected actual phoneme and the succeeding one too. 

5.4 Comparing logic and phoneme labelling 

The comparison process of the expected phonemes and the sequence of 

the microsegments has two levels: 

a) a coarse phonetic labelling based on the automatically recognized phonetic 

structure of the utterance; 

b) phoneme-boundary label position refining using the information from the 

text processing branch. The acoustic characteristics of the microsegment 

are compared to the typical acoustic characteristics of both of the phonemes 

at the actual boundary. 

The pointer to the refined position of the phoneme-boundary in the wavesignal 

(the label) is then included into the output file. 

5.5 Output – linked database files 

100


The whole automatic labelling is finished by creating two types of linked 

database-files, one of them containing the PCM coded wave-data, and the second 

one containing the text, the phonetical (orthoepical) transcription of the given utterance 

as well as the pointers to the phoneme boundaries in the wave-file. 

6. Conclusion 

The important part of the datadriven speech recognizer – Slovak speech 

database for training purposes is available now. This makes the development of 

the HMM based recognition systems possible. The main areas of application 

can be found for instance in telephone services. The developed speech signal 

analysis system and the database labelling tool can be used for further database 

building and speech research. 

The recent version of the speech synthesizer in Slovak works rather well, 

but a new, data driven version, is under development. 

The described phonetic labelling tool executes its task in acceptable quality 

but the operator's assistance is needed. Most problems occur if the signal is 

of poor quality, or if there are severe mistakes in the pronunciation of the 

speaker. The tool is suitable for the speech-database building purposes and it is 

now being used in the process of the "synthesis database" development. 

The authors are members of the Department of Speech Analysis and Synthesis, 

Institute of Informatics of the Slovak Academy of Sciences. 

This work is supported by the Slovak Grant Agency VEGA project number 

47/0214/99. 

References 

DARŽÁGÍN, Sachia – TRNKA, Marian. 1995. Speaker independent speech recognition system 

in Slovak. In: Proceedings of the international conference Telecommunications '95. Bratislava: Dom 

techniky ZSVTS. s. 118 – 123. 

RUSKO, Milan. 1998. Voice Driven Teleservices in Slovak. In: Proceedings of the 2 nd international 

conference Where are You Going ATM? Bratislava: ADAPT. s. 45 – 49. 

WINSKI, R. 1997. Definition of corpus, scripts and standards for fixed networks. Technical report. 

SpeechDat-II, January 1997, Deliverable SD 1.1.1., workpackage WP1, http://www.speechdat.org. 

101

SAMPA V SLOVENČINE A JEJ VÝZNAM 

Z POHĽADU VIACJAZYČNÝCH 

SYSTÉMOV NA ROZPOZNÁVANIE REČI 

Jozef Ivanecký: IBM Voice Systems, European Speech Research; 

Katedra kybernetiky a umelej inteligencie, Fakulta elektrotechniky 

a informatiky Technickej univerzity Košice (ivanecky@de.ibm.com) 

Abstract: The paper deals with the phonetic alphabet SAMPA. In a brief survey of the development of 

the SAMPA transcription we are indicating possible problems in the formation of the SAMPA transcription 

for new languages and the significance of the SAMPA transcription for computer speech recognition 

from the multilingual systems’ view. The core of the paper is the procedure used in the formation of 

the SAMPA transcription for Slovak as well as for a current status of the Slovak version of the SAMPA 

transcription. 

1. Úvod 

Význam fonetickej transkripcie v počítačovom rozpoznávaní reči nie je 

potrebné zdôrazňovať. Transkripcia je použitie príslušných znakov abecedy na 

reprezentáciu zvukov reči. Systém na počítačové rozpoznávanie reči rozpoznáva 

na najnižšej úrovni jednotlivé zvuky, ktoré sú označované znakmi fonetickej 

abecedy zvolenej pre danú fonetickú transkripciu. Keďže ide o počítačové 

spracovanie, znakmi sú vo väčšine prípadov kvôli jednoduchosti a prenositeľnosti 

7 bitové ASCII znaky. Priradenie ASCII znakov jednotlivým zvukom – t. 

j. kódovanie – je záležitosť tvorcu daného systému, pričom medzi konkrétnymi 

transkripčnými systémami sú – aj vzhľadom na fonetické rozdiely v spracúvaných 

jazykoch – väčšie či menšie rozdiely. 

Tento stav viac-menej pretrváva dodnes, aj keď potreba jednotného kódovania 

v poslednom desaťročí narastá. Dôvodom je nielen potreba vzájomnej 

kompatibility (transkripčné systémy) a uľahčenie komunikácie pri výmene 

skúseností, no v poslednom čase aj nárast viacjazyčných systémov na rozpoznávanie 

reči. Na tento účel sa dnes takmer výhradne používa kódovanie SAM- 

PA (Speech Assestment Methods – Phonetic Alphabet). 

2. SAMPA – vývoj a súčasnosť 

102

SAMPA V SLOVENČINE A JEJ VÝZNAMZ POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI 

Transkripcia SAMPA vznikla na základe kódovania použitého v niekoľkých 

projektoch na rozpoznávanie reči na konci deväťdesiatych rokov. Každý 

z týchto projektov sa zaoberal jednojazyčným systémom, no pre rôzne jazyky. 

Kódovanie použité v týchto projektoch zobrazuje tabuľka 1. 

Výsledkom dohôd v rámci SAM – European collaborative speech technology 

assessment research – boli odporúčania pre štandardný transkripčný 

systém aplikovateľný na mnohé európske jazyky. Pojem transkripčný systém 

má v tomto prípade oveľa širší význam. Problematika bola riešená v júni 1987 

na University College v Londýne v rámci práce na Labelling, Transcription a 

Management Methods for speech databases (Fourcin – Harland – Barry – Hazan 

1989). 

Súčasťou týchto prác bolo aj vytvorenie jednotného kódovania, dnes 

známeho ako SAMPA abeceda. Z tabuľky č. 1 je evidentné, že kódovacie tabuľky 

COST 209, Esprit 291 a Alvey majú veľa spoločného. Na základe toho boli 

postavené základy pre európsky štandard. Z princípov formulovaných v projekte 

Esprit 291 vyplýva nasledujúce: ASCII znaky v IPA tabuľke ostávajú nezmenené. 

Nie ASCII znakom – do tej miery, do akej je to možné – sú priradené 

veľké ASCII znaky. Použitím týchto pravidiel na tabuľku č. 1 dostaneme ASCII 

reprezentáciu pre nasledujúce znaky z fonetickej abecedy IPA: 

IPA znaky 

kódované 

ako ASCII A O D E @ G I N T S U Y Z ? : 

Na základe tohto a ďalších pravidiel bola formovaná SAM-PA fonetická 

abeceda, prvýkrát publikovaná v práci J. C. Wellsa (1987). Táto fonetická abeceda, 

predstavujúca prvý – počítačovo jednoducho reprezentovateľný – kódovací 

systém dohodnutý medzi predstaviteľmi ôsmich európskych krajín spolupracujúcich 

na projekte SAM, je v tabuľke č. 2 a č. 3. Prvá verzia SAMPA pokrývala 

tieto jazyky: angličtina, dánčina, francúzština, nemčina, španielčina a taliančina. 

V čase vzniku projektu SAMPA nebol doň zahrnutý žiaden zo slovanských 

jazykov, z čoho vyplýva značná limitácia použitia SAMPA abecedy pre 

slovanské jazyky. Napriek týmto obmedzeniam sme v roku 1995 vytvorili prvú 

neoficiálnu verziu SAMPA abecedy pre slovenčinu (Krokavec – Filasová – Ivanecký 

1996). 

103

JOZEF IVANECKÝ 

V posledných piatich rokoch bola v rámci niekoľkých projektov SAMPA 

značne rozšírená a dnes už pokrýva mnohé – nie len indoeurópske – jazyky. 

104


Tab. 1: Prehľad počítačovo reprezentovateľných fonetických transkripcií. 

105


(Znak ’!’ v treťom stĺpci poukazuje na dohodu medzi COST 209, Esprit 291 

a Alvey tabuľkami. Kódovanie v DIN a ISO stĺpci sú v hexa formáte.) 

106


Z priestorových dôvodov nie je možné, aby súčasná verzia SAMPA abecedy 

bola súčasťou tohto príspevku. Aktuálny stav SAMPA abecedy je možné nájsť 

na adrese http://www.phon.ucl.ac.uk/home/sampa/home.htm. 

Napriek tomu, že zo slovanských jazykov dnes existujú oficiálne verzie 

SAMPA abecedy pre bulharčinu, chorvátčinu, poľštinu, ruštinu a slovinčinu, oficiálna 

verzia pre slovenčinu a rovnako ani pre češtinu dodnes nie je k dispozícii. 

3. SAMPA a slovenčina 

Slovenskú fonetickú transkripciu ovplyvnili najmä dva činitele: 

• úzus v zapisovaní slovenských nárečových textov, 

• technické vybavenie tlačiarní. 

Vývin našej fonetickej transkripcie súvisí aj s inými okolnosťami: s užším 

využívaním transkripcie IPA u nás a s ťažkosťami pri jej používaní na zápis prejavov 

v slovanských jazykoch podobne ako aj v mnohých orientálnych jazykoch 

(Isačenko – Romportl 1966). Zostavovatelia transkripcie IPA sa totiž opierali 

predovšetkým o poznanie neslovanských jazykov. Vývin slovenskej transkripcie 

závisel ďalej od toho, že staršie výskumné ciele nevyžadovali takú techniku 

(podrobnosť) zápisu, akú umožňuje IPA. Zápisy slovenských textov boli určené 

predovšetkým domácim bádateľom. Z tohto dôvodu sa vystačilo s jednoduchým 

systémom založeným na gramatickej sústave jazyka, v ktorom sa na prepis hlásky 

volí to písmeno, ktoré je v ortografickej forme jeho základným ekvivalentom. 

V tabuľke č. 4 je uvedený zoznam fónov spisovnej slovenčiny kódovaných 

znakmi používanými v slovenskej fonetickej transkripcii podľa A. Kráľa 

(1983). Takáto fonetická abeceda je síce plne vyhovujúca domácemu použitiu, 

avšak v žiadnom prípade nevyhovuje pri použití na medzinárodnom poli, na čo 

upozorňujú už A. V. Isačenko a M. Romportl (1966). Tento stav v oblasti 

slovenskej fonetickej transkripcie pretrváva dodnes. Pri pokuse vytvoriť inventár 

slovenských fónov kódovaných pomocou SAMPA fonetickej abecedy sme 

narazili na dva základné problémy: 

• Nekompatibilita slovenskej fonetickej transkripcie s tranksripciou IPA. 

Riešenie tohto problému malo pre nás veľký význam z toho dôvodu, že 

SAMPA je popisovaná práve na základe znakov IPA. Predpokladá sa roz- 

107


šírenosť IPA systému a na základe toho jednoduchá konverzia zo znakov 

IPA na znaky SAMPA. 

• SAMPA abeceda v čase svojho vzniku pokrývala len dosť malú časť repertoáru 

IPA. S určitými obmedzeniami a zavedením dvoch nových znakov ju 

bolo možné použiť na vytvorenie fonematickej abecedy slovenčiny (Ivanecký 

1996), avšak na vytvorenie jej fonetickej abecedy nebola vhodná vôbec. 

Tento stav bolo možné zovšeobecniť pre väčšinu slovanských jazykov. 

Pri vytváraní IPA verzie slovenskej transkripcie sme okrem deficitu zdrojov 

zaoberajúcich sa možnosťami aplikácie IPA systému na slovenčinu narazili 

aj na isté malé rozdiely u A. Kráľa (1983) a J. Sabola (1988) v opise transkripčného 

systému používaného pre slovenčinu Na naše účely sme ako východiskový 

zdroj použili prácu A. Kráľa (1983). 

Z vyššie uvedených problémov vyplýva, že naším prvým logickým krokom 

malo byť vytvorenie IPA systému, na základe ktorého by sme mohli vytvoriť 

SAMPA systém. Nakoniec ale vzhľadom na problémy so získavaním informácií 

108


Tab. 4: Tabuľka znakov slovenskej fonetickej transkripcie 

o IPA systéme – získať informácie o SAMPA systéme bolo pre nás nepomerne 

jednoduchšie – sme v mnohých prípadoch použili opačný postup. Najprv sme 

vytvorili prepis zo slovenského transkripčného systému do systému SAMPA. 

Znak IPA pre daný prepis sme na základe tohto prepisu už len vyhľadali v príslušnej 

tabuľke. Napriek nekompatibilite slovenskej transkripcie s IPA systémom 

sa určité percento znakov prekrýva. Medzi zhodné znaky patria: 

a, p, b, m, t, d, n, k 

109


Týmto znakom sme mohli priamo priradiť aj rovnaké SAMPA znaky, čo 

vyplýva z princípov definovaných pre vytváranie transkripčného systému SAM- 

PA. Ďalšie znaky, ktorých prepis bol relatívne bezproblémový napriek tomu, že 

sú pre ne použité v IPA systéme odlišné symboly, boli: 

, l, ľ, ň, v, f, g, x, s, z, š, ž, j, c, č, 

Z tohto zoznamu sa môže zdať, že prepis prebiehal bez ťažkostí. Musíme 

však poznamenať, že prvú verziu SAMPA pre slovenčinu sme vytvárali na 

fonologickej úrovni, čo značne zjednodušovalo riešenie. Dôvodom na to bola 

hlavne skutočnosť, že s prvou verziou SAMPA už táto úloha bola neriešiteľná 

bez pridania vlastných znakov. Hlavným problémom boli v tomto prípade palatálne 

konsonanty ť a ď. Pre ne sme v prvej verzii používali náhradné znaky. 

Znaky pre ť a ď boli do SAMPA zavedené až pri rozšírení SAMPA o gréčtinu, 

keďže žiaden z jazykov, na základe ktorých bola vytváraná prvá verzia SAM- 

PA, tieto palatálne konsonanty nemá. 

Znak pre palatalizáciu, ktorý bol zavedený skôr ako rozšírenie pre gréčtinu, 

je nevyhovujúci napriek tomu, že sa používa v slovenskom aj v českom 

transkripčnom systéme. Pretože slovenčina, rovnako ako čeština, obsahuje len 

palatálne a nie palatalizované konsonanty (na rozdiel napr. od ruštiny), je používanie 

uvedeného znaku v našich jazykoch zavádzajúce. 

Ďalším problémom pre nás boli samohlásky. V tomto prípade nešlo o nezrelosť 

SAMPA systému na opis samohlások. Problémom bol nejednotný prístup 

rôznych zdrojov k prepisu slovenských samohlások do IPA systému. Nakoniec 

sme sa rozhodli použiť informácie zo zborníka IPA z roku 1999, v 

ktorom bola publikovaná aj IPA pre češtinu (Dankovičová 1999). Problém dvojhlások 

bol vyriešený po zavedení znaku pre neslabičnosť. 

Na základe aktualizovanej verzie SAMPA, ktorá už pokrývala podstatne 

väčšiu jazykovú skupinu ako na začiatku, sme sa v roku 2000 rozhodli zrevidovať 

našu verziu SAMPA pre slovenčinu a previesť ju z fonologickej do fonetickej 

roviny. V tomto procese rozširovania sme narazili na jeden vážnejší problém, 

ktorý sa nám doteraz nepodarilo celkom uspokojivo vyriešiť. Je to prepis 

nazály n. Náš predpoklad je, že v rámci SAMPA, rovnako ako aj IPA, nie je 

možné pre tento prípad také podrobné rozlíšenie, a preto sa nazálne n prepisuje 

vždy ako n. Túto skutočnosť je však potrebné overiť. 

110


Tab. 5: Porovnanie slovenskej transkripcie, IPA a SAMPA systému 

Tabuľka č. 5 obsahuje našu aktuálnu verziu SAMPA pre slovenčinu. Okrem 

toho sú v nej uvedené aj príslušné IPA znaky. Problematické znaky sú označené 

otáznikom. Keďže stále ide o pracovnú verziu, budeme vďační za akékoľvek pripomienky 

a návrhy, ktoré nám pomôžu ku konečnej realizácii SAMPA pre slovenčinu. 

4. Viacjazyčné systémy 

Prečo má fonetická abeceda použiteľná pre viaceré jazyky taký veľký význam? 

Niektoré odpovede sme naznačili už na začiatku. Ak sa na problematiku 

pozrieme z pohľadu počítačového rozpoznávania reči, najväčší prínos vidíme 

práve pri tvorbe viacjazyčných systémov. Systém, ktorý je schopný rozpoznávať 

viaceré jazyky, môže pracovať dvoma spôsobmi: 

• paralelne pracujúce systémy – každý systém vie rozpoznávať práve jeden 

jazyk; 

111


• jeden systém schopný rozpoznávať viaceré jazyky. 

V prípade prvého systému s počtom jazykov neúmerne narastá požiadavka 

na výkon. Výhodou je, že takéto systémy dosahujú vyššiu úspešnosť rozpoznávania, 

avšak v prípade zlej začiatočnej identifikácie jazyka je celé rozpoznávanie 

chybné. 

Pozrime sa teraz bližšie na druhú možnosť. V tomto prípade máme systém, 

ktorý zvláda rozpoznávanie celého fonetického repertoáru niekoľkých rôznych 

jazykov. Výkonovo je menej náročný ako paralelne pracujúce systémy a aj 

v prípade chyby na začiatku môže správne pokračovať. Nevýhodou takýchto 

systémov je menšia úspešnosť rozpoznávania ako v predchádzajúcom prípade. 

Napriek tomu podľa nášho názoru patrí budúcnosť práve týmto systémom. Dôvodom 

je to, že vytvorenie kvalitného systému je časovo aj finančne značne 

náročné, z čoho vyplýva, že pre jazyky, ktorými hovorí len malá skupina ľudí, 

je to neefektívne. Použiť v takomto prípade systém natrénovaný na iný jazyk a 

obsahujúci potrebný fonetický inventár môže byť oveľa schodnejšie. Z tohto dôvodu 

je podľa nášho názoru podpora a polupráca pri vytváraní počítačovo 

jednoducho kódovateľnej medzinárodnej fonetickej abecedy viac než potrebná. 

5. Záver 

V príspevku sme sa zamerali na prezentáciu aktuálneho stavu pri vytváraní 

SAMPA abecedy pre slovenčinu a poukázali sme na dôležitosť tohto transkripčného 

systému z pohľadu viacjazyčných systémov na počítačové rozpoznávanie 

reči. V blízkej budúcnosti sa chceme zamerať na potvrdenie správnosti 

nami navrhovanej verzie SAMPA pre slovenčinu a doplnenie kódovania pre poslednú 

chýbajúcu hlásku, poprípade jej vyradenie. V poslednom kroku chceme 

zaradiť slovenčinu do oficiálneho zoznamu jazykov opísaných systémom SAM- 

PA. 

Literatúra 

FOURCIN, A. – HARLAND, G. – BARRY, W. – HAZAN, V. 1989. Speech input and output 

assestment–multilingual methods and standards. Ellis Horwood Limited. 

DANKOVIČOVÁ, D. 1999. Czech IPA, Handbook of the International Phonetic Assocation. 

Cambridge University Press. 

ISAČENKO, A. V. – ROMPORTL M. 1966. Návrh fonetické a fonologické transkripce češtiny 

a slovenštiny. Slovo a slovesnosť, roč. 27. 

112


IVANECKÝ, J. 1996. Automatizácia fonematickej transkripcie slovenčiny. In: Varia VII. 

Bratislava: SJS pri SAV. 

KRÁĽ, Á. 1983. Pravidlá slovenskej výslovnosti. Bratislava: Slovenské pedagogické 

nakladateľstvo. 

KROKAVEC, D. – FILASOVÁ, A. – IVANECKÝ, J. 1996. Basic Properties of the Phonetic 

Transcription and the Sentence Description in Slovak Language. In: COST-249 Meeting. Košice: FEI 

Technical University. 

SABOL, J. 1988. Syntetická fonologická teória. Bratislava: Jazykovedný ústav Ľ. Štúra SAV. 

WELLS, J. C. 1987. Computer-coded phonetic transcription. Journal of the International 

Phonetic Association 17, č. 2, s. 94 – 114. 

113

AUTOMATICKÁ TRANSKRIPCIA 

SLOVENČINY V POČÍTAČOVOM 

ROZPOZNÁVANÍ REČI 

Jozef Ivanecký: IBM Voice Systems, European Speech Research; 

Katedra kybernetiky a umelej inteligencie, Fakulta elektrotechniky 

a informatiky Technickej univerzity Košice (ivanecky@de.ibm.com) 

Abstract: The paper reacts on one of the important tasks in the computer speech recognition - phonetic 

transcription - whose successful management has a significant impact on the process of both training 

and the recognition itself. We present the problems of the automatic transcription, procedures used in the 

formation of the system capable to transcribe a common text from an orthographic to orthoepical form. 

Furthermore we deal with the need to cope with a various (not only standard) pronunciation in the automatic 

transcription. 

1. Úvod 

Medzi najrozšírenejšie techniky na počítačové rozpoznávanie reči patria 

v dnešnej dobe skryté markovovské modely (HMM) a neurónové siete (NN). 

V oboch prípadoch je na vytvorenie systému potrebné väčšie množstvo dát (niekoľko 

tisíc viet). V prípade kvalitnejších systémov ide o niekoľko desiatok až 

stoviek tisíc viet. Vstupom na trénovanie takýchto systémov je okrem nahratých 

viet aj ich fonetická transkripcia. Od jej kvality značne závisí kvalita výsledného 

systému. 

Transkripciu môžeme vytvoriť manuálne, čo je v prípade väčšieho množstva 

viet značne prácne a môže viesť k väčšiemu množstvu chýb. V prípade použitia 

takýchto údajov pri trénovaní sa znižuje úspešnosť rozpoznávania. Ešte 

väčší vplyv má na druhej strane nepoužitie takýchto údajov v procese samotného 

rozpoznávania. 

Druhý prístup je automatická transkripcia. Na rozdiel od prvej je pri nej 

možné vylúčiť mnohé chyby. Na druhej strane je vytvorenie systému na automatickú 

transkripciu značne zložitá záležitosť. V niektorých jazykoch natoľko 

zložitá, že sa od nej celkom upúšťa. Automatickej transkripcii slovenčiny, určenej 

však na syntézu, sa venujú Daržágín – Franeková – Rusko (1994). Na automatickú 

transkripciu je potrebné nájsť všeobecné pravidlá, pomocou ktorých 

by bolo možné fonetický, resp. fonematický prepis automaticky vytvárať. Tieto 

114

AUTOMATICKÁ TRANSKRIPCIA SLOVENČINY V POČÍTAČOVOM ROZPOZNÁVANÍ REČI 

pravidlá môžu byť formulované ako produkčné pravidlá a nazývajú sa transkripčné 

pravidlá. 

Ďalším problémom, ktorým sa zaoberáme v tomto príspevku, je problematika 

spisovnej výslovnosti v rozpoznávaní reči. Použitie fonologických 

pravidiel zadefinovaných na základe práce Á. Kráľa (1983) síce bude vytvárať 

spisovný prepis, ale ten nemusí, a pravdepodobne ani nebude, presne zodpovedať 

skutočnej výslovnosti. O to výraznejšie to bude v prípade, keď nahrávky 

pokrývajú všetky nárečové skupiny. 

2. Transkripcia všeobecne 

Úlohy obsiahnuté v systéme na automatickú fonetickú transkripciu môžeme 

rozdeliť na dve základné podskupiny: 

• jazykovo nezávislé úlohy 

• jazykovo závislé úlohy. 

V tejto časti sa budeme venovať prvej skupine. Zjednodušene môžeme povedať, 

že sem patria všetky úlohy, ktoré sú na vstupnom texte vykonané predtým, 

než sú aplikované vlastné jazykovo závislé transkripčné pravidlá. 

Segmentácia: Prvým krokom je konverzia všetkých veľkých písmen na malé 

a rozdelenie vstupného textu na segmenty vhodné na transkripciu. Na tomto 

mieste si musíme uvedomiť, čo je minimálny segment. V prípade, že 

počas transkripcie nechceme brať do úvahy ortoepické javy vznikajúce na 

hranici slov, realizujeme segmentáciu textu na jednotlivé slová. V opačnom 

prípade musíme vstupný text rozdeliť na jednoduché vety s vyznačením 

hraníc slov. 

Filtrácia: V tomto kroku odstraňujeme všetky nepotrebné znaky z textu. 

Kódovanie: Vstupný text môže byť v jednom z N rôznych kódovaní. V prípade 

slovenčiny je N= . V našom prípade je kódovanie vstupného textu zmenené 

do interného kódovania, ktoré obsahuje len 7 bitové ASCII znaky. Dôvodom 

pre toto riešenie bola požiadavka na ľahkú prenositeľnosť medzi 

jednotlivými operačnými systémami pri zaručenej čitateľnosti kódu. Celý 

systém je napísaný v jazyku Perl a vytváraný pod operačným systémom 

Linux. Z hľadiska internej štruktúry údajov bolo potrebné zaručiť jednoznačnú 

identifikáciu už prepísaných a ešte neprepísaných častí, keďže výstupná 

abeceda pozostáva taktiež zo 7 bitových ASCII znakov, vzhľadom 

na to, že pre výstup zo systému bola zvolená SAMPA abeceda. Na tomto 

mieste je dôležité poznamenať, že SAMPA abeceda použitá ako výstupná 

115


abeceda v našom systéme zatiaľ nie je oficiálnou SAMPA abecedou pre 

slovenčinu. 

Použitie všetkých vyššie opísaných krokov demonštrujeme na nasledujúcej 

vete: 

Keby som bol vedel, ako je tam zle, nikam by som nešiel... 

Po aplikovaní prvého kroku sa dopracujeme k nasledujúcemu tvaru vstupnej 

vety: 

keby som bol vedel; ako je tam zle; nikam by som nešiel 

Bodkočiarka v tomto prípade oddeľuje jednotlivé segmenty. Ak by najmenším 

segmentom bolo slovo, nachádzala by sa za každým slovom. Ďalšími 

krokmi prechádza každý segment samostatne. Po aplikovaní filtrácie na tretí 

segment dostaneme: 

nikam–by–som–nešiel 

Výsledkom záverečného prekódovania je: 

!n! !i! !k! !a! !m! – !b! !y! – !s! !o! !m! – !n! !e! !S! !i! !e! !l! 

Znak ! slúži na jasnú identifikáciu znakov patriacich k vstupnej abecede. 

Znak – označuje hranicu slov. Všetky ďalšie kroky spadajú do kategórie jazykovo 

závislých. 

3. Transkripcia slovenčiny 

Pri vytváraní transkripčných pravidiel pre slovenčinu sme čerpali hlavne 

z práce Á. Kráľa (1983). Na každý segment sú postupne aplikované všetky 

pravidlá. Súbor pravidiel môžeme rozdeliť do skupín podľa rôznych kritérií, 

napríklad fonetických, ale z nášho pohľadu sa pravidlá delia na dve základné 

skupiny: 

• jednoznačné transkripčné pravidlá 

• nejednoznačné transkripčné pravidlá. 

Medzi jednoznačné transkripčné pravidlá zaraďujeme také pravidlá, pri 

ktorých je jednoznačný vzťah medzi ortografickou a ortoepickou reprezentáci- 

116


ou, a teda transkripcia je možná bez akýchkoľvek ďalších znalostí. Typickým 

príkladom tejto skupiny pravidiel sú pravidlá pre samohlásky. Pre samohlásky 

sme preto zadefinovali nasledujúce transkripčné pravidlá: 

Krátke samohlásky: Dlhé samohlásky: 

a → a á → a: 

e → E é → e: 

i → I í → i: 

y → i ý → i: 

o → o ó → o: 

u → u ú → u: 

ä → E 

Vyššie uvedené pravidlá sú na samohlásku aplikované vtedy, ak sa samohláska 

nachádza medzi dvoma spoluhláskami alebo ak sa nachádza na hranici 

slova. Znak ä prepisujeme v našom systéme ako E z nasledujúcich dôvodov: 

• Výskyt spisovnej výslovnosti znaku ä je v súčasnosti minimálny. Len tento 

dôvod by však bol v rozpore s našimi ďalšími tvrdeniami uvedenými v 

nasledujúcom texte. 

• V slovenčine vieme len o jednom prípade, kde znak ä má význam pri 

rozlíšení významu dvoch slov. Ak však aj v tomto jedinom prípade 

berieme do úvahy predchádzajúce tvrdenie, domnievame sa, že prepis 

znaku ä ako E je viac než opodstatnený. 

Pre tretí segment z vyššie uvedeného príkladu dostaneme po aplikácii 

pravidiel pre samohlásky tento výsledok: 

!n! I !k! a !m! – !b! I – !s! o !m! – !n! E !S! !i! !e! !l! 

Na poslednom slove si môžeme všimnúť, že dvojhlásky ostali nezmenené. 

Podobné jednoznačné pravidlá, ako sme zadefinovali pre samohlásky, môžeme 

zadefinovať aj pre niektoré spoluhlásky, napríklad p, r, l, m a iné. Na tomto 

mieste je potrebné zdôrazniť, že jednoznačnosť pravidiel neznamená aj ich 

jednoduchosť. Pre mnohé spoluhlásky existuje viacero transkripčných 

pravidiel. Výber pravidla závisí od okolia znaku, na ktorý aplikujeme dané 

transkripčné pravidlo. Ako jednoduchý príklad nám môže poslúžiť spoluhláska 

m. Á. Kráľ (1983) o výslovnosti znaku m uvádza: „pred spoluhláskami v, f sa 

vyslovuje namiesto pernoperného [m] pernozubné [m] ... Spoluhláska [m] sa v 

117


spisovnej slovenčine vyslovuje vtedy, keď po m vnútri slova bezprostredne nasleduje 

v, f ako v slovách domvedúca, komfort...“ (s. 153, 155). Pre znak m sme 

preto zadefinovali nasledujúce pravidlá: 

!m! !v! → F v 

!m! !f ! → F f 

!m! → m 

Znak F je SAMPA znakom pre nosové m. Ak dodržíme pri aplikovaní 

transkripčných pravidiel pre m vyššie uvedené poradie, dosiahneme presné aplikovanie 

pravidiel uvedených v citovanej konštatácii (Kráľ 1983). V tomto 

prípade sme pravidlá uviedli v internom kódovaní, aby sme ukázali princíp činnosti 

transkripčného algoritmu. Z uvedeného príkladu vyplýva aj to, že pravidlá 

pre v a f musia nasledovať za pravidlom pre m. 

V prípade nejednoznačných pravidiel nie je možné zadefinovať jednoduché 

transkripčné pravidlá, pomocou ktorých by bolo možné zaistiť správny prepis 

jednoduchým algoritmom len na základe okolia. V takomto prípade sú na 

správnu transkripciu potrebné ďalšie informácie. Ako jednoduchý príklad nám 

tentokrát poslúžia dvojhlásky. 

V spisovnej slovenčine sú štyri dvojhlásky: ia, ie, iu, ô. V prípade, že po 

samohláske i bezprostredne nasleduje ďalšia samohláska, nemusí ísť o dvojhlásku. 

Príkladom sú predponové slová (priučiť, vyučiť) a prevzaté slová 

(Ázia). Prepis dvojhlásky ô a slov tvorených predponou vy- a základom začínajúcim 

samohláskou je jednoznačný, preto sa ním nebudeme zaoberať. Problémy 

vznikajú až pri slovách vytvorených predponou pri- a slovným základom 

začínajúcim samohláskou. V tomto prípade už nie je možné len na základe 

jednoduchých pravidiel určiť, či dvojice samohlások ia, ie, iu tvoria samohláskovú 

postupnosť alebo dvojhlásku. Prístup k riešeniu tohto problému rozoberieme 

pre každú dvojicu samostatne: 

ia: Ak sa na začiatku slova nachádza postupnosť znakov pria, na určenie toho, 

či ide o dvojhlásku alebo samohláskovú skupinu, sme využili skutočnosť, 

že slovenčina má len 23 slov (pozri Kráľ 1983), v ktorých základnom tvare 

sa na začiatku vyskytuje postupnosť znakov pria a znaky ia tvoria dvojhlásku. 

V prípade, že slovo patrí do tejto skupiny slov, je použité pravidlo 

118 

^!p! !r! !i! !a! → p r i â 

v opačnom prípade

^!p! !r! !i! !a! → p r I a 


Zoznam slov bez ohýbacej prípony bol vytvorený podľa počítačového korpusu 

slovenčiny a údajov z literatúry (Kráľ 1983) a začlenený do pomocnej 

databázy. Databáza obsahuje výnimky vzťahujúce sa na konkrétne 

pravidlá, v tomto prípade všetky slová začínajúce na pria, kde ia tvorí 

dvojhlásku a nie samohláskovú skupinu. 

ie: V prípade postupnosti znakov prie sme zvolili opačný prístup, keďže slov, 

v ktorých postupnosť pri netvorí predponu ako v predchádzajúcom prípade, 

je podstatne viac. V sledovanom korpuse sme našli 593 rôznych slov 

začínajúcich sa na prie, pričom vo všetkých prípadoch išlo o dvojhlásku 

a nie o spoluhláskovú postupnosť. Ani Á. Kráľ (1983) neuvádza slová, 

v ktorých by prie obsahovalo spoluhláskovú postupnosť, teoreticky však 

môžu takéto slová vzniknúť spojením prevzatého, resp. cudzieho slova začínajúceho 

na e a predpony pri- ako napríklad prielegantný. Pre tento 

prípad je, za predpokladu, že dané slovo sa nachádza v pomocnom slovníku, 

použité nasledujúce pravidlo: V prípade, že v slovníku existuje výnimka 

pre predponu prie-, ktorá je aplikovateľná na dané slovo, použije sa 

pravidlo 

^!p! !r! !i! !e! → p r I E 

v opačnom prípade 

^!p! !r! !i! !e! → p r i Ê 

iu: Posledná z trojice je postupnosť iu. Keďže slovenčina nemá bezpredponové 

slovo začínajúce na priu, kde iu predstavuje dvojhlásku, je možné na každé 

slovo aplikovať nasledujúce pravidlo 

^!p! !r! !i! !u! → p r I u 

V sledovanom korpuse boli jedinými slovami s postupnosťou priu slová 

odvodené od slova priučiť. Celkový výskyt dvojhlásky iu je v slovenčine 

veľmi nízky, podľa J. Mistríka (1985) je to len okolo 0,016 %. 

119


Postupy uvedené pre prípad nejednoznačnosti pravidiel pri dvojhláskach 

používame aj pre spoluhlásky, rovnako je to pri jednoznačných pravidlách. Po 

aplikovaní všetkých pravidiel v systéme na náš tretí segment uvedený na začiatku, 

získame nasledujúci prepis: 

J I k a m – b I – s o m – J E S i Ê l 

4. Správne verzus spisovne 

V predchádzajúcej časti sme predpokladali, že text, ku ktorému potrebujeme 

vygenerovať fonetickú transkripciu, je vyslovovaný spisovne a zodpovedá 

pravidlám, ktoré uvádza Á. Kráľ (1983), a teda rovnako aj nášmu výstupu, 

ktorý bol podľa týchto pravidiel vytvorený. Hovorená forma jazyka sa v rôznych 

oblastiach viac či menej líši od formy spisovnej a zanedbanie tejto skutočnosti 

v prípade počítačového rozpoznávania reči môže viesť k chybnému 

označeniu niektorých segmentov reči v prípade, že je tento proces vykonávaný 

automaticky a v zozname možných výslovností sa výslovnosť, ktorá presne 

zodpovedá nahovorenému textu, nevyskytuje. 

Na získanie správneho prepisu výslovnosti sme museli do nášho systému 

pridať možnosť generovať aj takzvanú „nespisovnú“ výslovnosť. Pri tvorbe 

tohto druhu pravidiel sme čerpali z vlastných skúseností v oblasti rozpoznávania 

reči, ako aj z literatúry (Kráľ 1983). Na základe vlastných skúseností 

sme vyrobili pravidlá na prepis dlhých samohlások na krátke, čo sa nám 

osvedčilo v prípade hovoriacich z východných oblastí Slovenska. Z práce Á. 

Kráľa sme napr. čerpali informáciu o hláske m: „V neutrálnom a vyššom štýle 

výslovnosti sa v slovenčine nepripúšťa výslovnosť pernozubnej spoluhlásky 

m namiesto n, ň v slovách ako dezinfekcia, fanfáry, infekcia, informácia, 

kanva, konfekcia, konferencia, konflikt, konvergencia, konvoj, panvica, panvička, 

skonfiškovať a v slovných spojeniach ako ten váš, len volaj, jeleň vyskočil“ 

(Kráľ 1983, s. 155). Pre nás bolo toto pravidlo indikáciou, že takáto 

výslovnosť sa môže vyskytnúť, a pridali sme ho medzi pravidlá na generovanie 

nespisovnej výslovnosti. 

5. Záver 

Cieľom tohto príspevku bolo poukázať na problematiku automatizácie 

fonetickej transkripcie a prezentovať nami zvolený spôsob riešenia tohto problému. 

Doterajšie výsledky dosiahnuté v budovaní systému sú porovnateľné s vý- 

120


sledkami podobných systémov v iných jazykoch. Naším ďalším cieľom je zvýšenie 

robustnosti systému zameraním sa na frekventované prevzaté slová v 

slovenčine, a tým aj rozšírenie databázy výnimiek. Z dlhodobejšieho hľadiska 

sa chceme zamerať na kvalitu generovania nespisovnej výslovnosti, čo je však 

už podmienené analýzou výsledkov reálnych systémov. 

Poďakovanie. Chceli by sme na tomto mieste poďakovať pracovníkom 

Jazykovedného ústavu Ľudovíta Štúra v Bratislave za ústretový prístup a možnosť 

použitia korpusu slovenčiny, bez ktorého by sme neboli schopní dopracovať 

sa k mnohým z našich záverov. 

Literatúra 

DARŽÁGÍN, Sachia – FRANEKOVÁ, Ľudmila – RUSKO, Milan. 1994. Konverzia a rečová 

syntéza slovenčiny. Jazykovedný časopis, roč. 45, č. 1. s. 31 – 43. 

KRÁĽ, Ábel. 1983. Pravidlá slovenskej výslovnosti. Bratislava: Slovenské pedagogické 

nakladateľstvo. 

MISTRÍK, Jozef. 1985. Frekvencia tvarov a konštrukcií v slovenčine. Bratislava: Vydavateľstvo 

VEDA. 

121

VIACJAZYČNÝ VÝSLOVNOSTNÝ 

SLOVNÍK VLASTNÝCH MIEN A NÁZVOV 

LOKALÍT 

Peter Ďurčo: Akadémia Policajného zboru, Bratislava (durco@ 

minv.sk) 

Abstract: The ONOMASTICA project has successfully produced an important European linguistic resource 

in the form of a pronunciation lexicon containing 1.8 million European names in 7 languages, together 

with their pronunciations, namely Czech, Slovak, Slovenian, Polish, Estonian, Latvian and 

Ukrainian. 

The orthographic data is displayed using a True-Type font which matches the MS-DOS code 

page of the PC which produced the original data. For most Copernicus languages, this is CP852, but for 

Ukrainian, using Cyrillic alphabet, CP866 was used. Transcription data is mapped onto IPA from the 

original language-specific ASCII phonemic alphabets developed by each Copernicus partner, and displayed 

using the freely available IPAKiel font. The transcription display may be switched between the 

ASCII and IPA versions. 

Letter-to-sound (grapheme-to-phoneme) correspondences can be difficult to specify, even in text 

which does not contain names. The central observation here is that grapheme-to-phoneme correspondences 

are different for names with different languages of origin and that the general phonological systems 

of languages are only partially reflected in the names of those languages. Their anomalous pronunciations 

then often 'fossilise', and even when the names themselves become long-established, their phonemic 

form causes problems for grapheme-to-phoneme conversion rules. 

The ONOMASTICA lexicon will form the foundation of a range of products in the telematics sector 

and its emergent use in speech recognition and speech synthesis systems. Full coverage of names for Europe 

will be an on-going task for the language industry in Europe. The ONOMASTICA lexicon provides a very 

good research tool to enable to develop new services which require pronunciation of names. The ONO- 

MASTICA lexicon provides a resource for evaluating multi-lingual systems. 

Cieľom projektu COP-58 ONOMASTICA, ktorý bol financovaný Európskou 

komisiou v rámci programu COPERNICUS, bolo vytvorenie výslovnostného 

slovníka priezvisk, krstných mien, názvov lokalít a ulíc. Projekt viedol 

prof. Mervyn Jack 1 z Univerzity v Edinburgu. Do projektu bolo zapojených 

sedem stredo- a východoeurópskych krajín. 2 Projekt sa začal realizovať v janu- 

1 Kontakt: Prof. Mervyn Jack, Centre for Communication Interface Research, The University of 

Edinburgh, 80 South Bridge, Edinburgh EH1 1HN, UK, e-mail: Mervyn Jack@ed.ac.uk 

2 Zúčastnené inštitúcie a riešitelia: Pavel Kolár, Language Institute, Silesian University, Opava, 

Czech Republic, e-mail: Pavel.Kolar@fpf.slu.cz; Peeter Päll, Inst. of Estonian Language, Estonian Academy 

of Sciences, Tallinn, Estonia, e-mail: peeter@pea.kki.ee; Andrejs Spektors, Inst. of Mathematics 

122

VIACJAZYČNÝ VÝSLOVNOSTNÝ SLOVNÍK VLASTNÝCH MIEN A NÁZVOV LOKALÍT 

ári 1995 a bol ukončený v marci 1997. Informácie o výsledkoch projektu za 

slovenčinu som predstavil na rôznych fórach a boli aj publikované. 3 Zatiaľ však 

nedošlo k ich širšiemu využitiu. Hlavný problém spočíva v (ne)dostupnosti dát. 

Vzhľadom na rozsah dát nie je možné ich publikovať v tlačenej podobe a všetky 

výsledky existujú len v elektronickej verzii. Právo voľne poskytovať údaje 

má každý spoluriešiteľ len v rámci svojej časti. 4 

Hlavnou úlohou riešiteľov bolo spracovanie pravidiel výslovnosti vlastných 

mien pre automatický výslovnostný transkriptor. Vypracovanie transkripčných 

pravidiel výslovnosti vlastných mien bolo o to zložitejšie, že pri menách nefungujú 

štandardné výslovnostné pravidlá a mechanizmy, typické pre daný jazyk. Jednou 

z príčin týchto výslovnostných „anomálií“ je veľká mobilita mena spojená s vrstvením 

výslovnostných podôb v závislosti od miery jeho ustálenia a adaptovanosti. 

Pomenovania sú pritom veľmi často nositeľmi rôznych „fosilizovaných“ prvkov. 

Veľmi zaujímavým sprievodným produktom z hľadiska korpusovej lingvistiky 

však bolo zhromaždenie prakticky úplných zoznamov krstných mien, 

priezvisk, názvov lokalít, názvov ulíc, v niektorých prípadoch aj názvov firiem 

v siedmich jazykoch. Vo väčšine prípadov sa to podarilo vďaka využitiu databáz 

registrov obyvateľov v jednotlivých krajinách. Aj v prípade slovenčiny boli 

využité dáta bývalého Centrálneho registra pobytu obyvateľov. Takýmto spôsobom 

boli získané prakticky úplné údaje k uvedeným kategóriám mien 5 , čo otvá- 

and Computer Science, University of Latvia, Riga, Latvia: e-mail: aspekt@ailab.mii.lu.lv; Peter Ďurčo, 

Dept. of Foreign Languages, Police Academy, Bratislava, Slovakia, e-mail: durco@ minv.sk; Zdravko 

Kačic, Faculty of Technical Sciences, University of Maribor, Maribor, Slovenia, e-mail: kacic@unimb.si; 

Jevgenyj Ludovik, Institute of Cybernetics, Ukraine Academy of Sciences, Kiev, Ukraine, e-mail: 

lud@lambda.kiev.ua; Prof. Wiktor Jassem, Inst. of Fundamental Technologogical Research, Polish Academy 

of Sciences, Poznań, Poland, e-mail: jassem@math.amu.edu.pl 

3 ĎURČO, Peter. 1996. Vlastné mená na Slovensku. In: Jozef Mlacek (ed.), Studia Academica 

Slovaca, roč. 25. Bratislava: Stimul. s. 54 – 60; ĎURČO, Peter. 1997. Počítačové spracovanie vlastných 

mien na Slovensku. In: Slavomír Ondrejovič (ed.), Slovenčina na konci 20. storočia, jej normy a 

perspektívy. Sociolinguistica Slovaca, roč. 3. Bratislava: Veda. s. 312 – 325; ĎURČO, Peter – MED- 

ĽA, Milan – KOŠA, Jozef. 1996. Onomastica. Copernicus. Kop.exe. Users’ Guide. Dept. of Foreign 

Languages, Police Academy of the Slovak Republic and Central Residence Register of the Inhabitants 

of the Slovak Republic. Bratislava.; ĎURČO, Peter. 1996. Names in Slovakia: Occurrence, pronuntiation, 

transcription in computer compilation. In: Keith Edwards (ed.), Onomastica Research Colloquium 

digest, No. 1, 23. February, University of Edinburgh. s. 1 – 15. 

4 CD s dátami možno získať na adrese: ELRA - elra@calvanet.calvacom.fr 

5 Kvantitatívne údaje pre jednotlivé kategórie: krstné mená – 8433; priezviská – 208011; ulice – 

8142; lokality – 4060. 

123

PETER ĎURČO 

ra novú perspektívu pre onomastické výskumy na Slovensku, pretože všetky 

mená obsahujú kvantitatívny údaj (počet nositeľov daného krstného mena, 

resp. priezviska) s priradením ku všetkým lokalitám jeho výskytu, resp. je možné 

zistiť výskyt všetkých priezvisk v príslušnej lokalite. 

V tabuľke je uvedená veľkosť korpusov mien za jednotlivé krajiny: 

Krajina Počet 

Česká republika 244025 

Estónsko 208380 

Lotyšsko 245331 

Poľsko 244632 

Slovensko 228646 

Slovinsko 283449 

Ukrajina 251579 

Spolu 1 705256 

Pred spustením aplikácie a prezeraním dát je nevyhnutné nainštalovať príslušné 

fonty, ktoré používa program a nie je možné ich nainštalovať automaticky. 

Ide o štyri skupiny fontov: fonty IPAKiel na zobrazovanie výslovnosti znakmi 

medzinárodnej fonetickej abecedy, ďalej tzv. fonty MRPA (Machine Readable 

Phonetic Alphabet) na zobrazenie pomocou ASCII, font NRB CP852 na korektné 

ortografické zobrazenie znakov pre MS-DOS s kódovou stránkou 852. Špeciálne 

fonty existujú pre ukrajinskú databázu s kódovou stránkou 866. 

Pre každý jazyk sú dáta uložené v dvoch ASCII textových formátoch. Prvá 

tabuľka obsahuje východiskovú grafickú podobu každej jednotky, druhá tabuľka 

obsahuje priradené výslovnostné polia, ktoré môžu obsahovať aj viac riadkov, 

ak existujú dva alebo viaceré výslovnostné varianty. 

Aj keď možno prezerať dáta v ktoromkoľvek bežnom databázovom programe, 

dochádza k ťažkostiam pri čítaní ortografických znakov v jednotlivých 

jazykoch alebo pri zobrazovaní transkripčných symbolov v IPA štandarde. Aby 

bolo možné zobraziť dáta korektne, bol vytvorený špeciálny prehliadač 

COPDB, ktorý tento problém rieši. Používateľská obrazovka má nasledujúci 

tvar: 

124

VIACJAZYČNÝ VÝSLOVNOSTNÝ SLOVNÍK VLASTNÝCH MIEN A NÁZVOV LOKALÍT 

V prvej položke je zobrazená grafická podoba. Druhá položka zobrazuje 

výslovnosť, pričom tento nástroj umožňuje aj prepínanie medzi transkripciou 

pomocou znakov ASCII a IPA. Položka „Etymology“ označuje krajinu výskytu 

mena, ďalej je zobrazený kód mena v databáze. Položka „Quality“ označuje 

stupeň presnosti transkripčného prepisu v zmysle výslovnostnej normy, pričom 

I. stupeň znamená expertne overenú výslovnosť, II. stupeň výslovnosť skontrolovanú 

a upravenú po automatickej transkripcii, III. stupeň označuje výslovnosť, 

ktorá bola vykonaná automaticky len pomocou automatického transkriptora 

na základe predprogramovaných pravidiel. Položka „Comments“ 

označuje kategóriu pomenovania. 

Myslím si, že výsledky tohto projektu možno využiť na ďalší výskum 

v oblasti fonetiky, onomastiky a počítačovej lingvistiky. 

125

ČESKÝ NÁRODNÍ KORPUS: 

STAV V ROCE 2001 

František Čermák: Ústav Českého národního korpusu, Filozofická 

fakulta University Karlovy, Praha (Frantisek.Cermak@ff.cuni.cz) 

Abstract: In a broad context, the contributions surveys the curreny state of preparation, build-up and perspectives 

of the Czech National Corpus and its various subcorpora. The corpus grew up out of real need of 

better linguistic data and its relevance for various fields of linguistics and outside is paid some attention. 

Some of the basic corpus-linguistics terms are revisited and redefined as well as a survey of current needs is 

outlined. Finally, various subcorpora, especially the 100-million contemporary corpus of written Czech are 

described and various criteria for its build-up discussed and given. 

1. Úvod 

Současný svět si stále více uvědomuje cenu informace, a to nejen jako pouhého 

zboží, ale především jako nezbytného předpokladu pro celkový rozvoj 

společnosti. Zvláštní místo tu zaujímá informace jazyková, o jazyku a z jazyka. 

Jazyk není jen nejcennější kulturní statek a dědictví společenství, které už dávno 

není jednonárodní, který podmiňuje a umožňuje existenci veškeré slovesné 

kultury od literatury přes divadlo a žurnalistiku až po osobní korespondenci i 

ústní komunikaci. Jazyk nám umožňuje své myšlenky a názory přenášet překladem 

jazykovým do jiné společnosti a nazpátek a překladem kulturním nahlížet 

do vlastní minulosti a udržovat kontinuitu toho, co stojí za to. Vedle své úlohy 

nástroje všeobecné komunikace společnosti je však jazyk i médiem vědeckého 

styku, nástrojem techniky a obchodu a všech dalších oblastí společenského 

života zrovna tak jako nástrojem sebereflexe a poznání dění kolem nás, a bez 

něj by tento život prostě nebyl. Jazyk je však přitom takovou samozřejmostí, 

jakkoliv nezbytnou, že se na něj prostě zapomíná, zapomíná se – především investičně 

– na to, že je o něj jako o výsostný statek kulturní třeba pečovat co nejlépe 

(a nejen o statky hmotné, průmyslové apod.), a tedy co nejlépe ho poznávat, 

toto poznání využívat a zpřístupňovat ho všem. Dnes je už zřejmé, že 

až dotud nevídanou, epochální možnost jeho poznání tu nabízejí komputery, 

které hloubkou, šíří, kvalitou i objevností své nabídky předčí cokoliv, co tu bylo 

až dosud. 

126

ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001 

Mluví-li jeden z dokumentů Evropských společenství v r. 1991 (Commission 

1991, s. 20) o tom, že „Technologie mluvy a jazyka vyžadují rozsáhlé 

databázové korpusy... pro výzkum a rozvoj, účely testování a k podpoře spisovatelů 

a překladatelů“, a odpovídá tak na otázku Proč korpus?, pak o dva roky 

později člen téže komise ES DG XIII J. Soler (Soler 1993) si už tuto otázku 

vůbec neklade a uvažuje spíše o způsobech jeho využití: „...rozvoj standardizovaných 

korpusů a metod a nástrojů jejich správy i aplikace je dlouhodobý podnik 

přesahující možnosti projektu individuálního. Nesmírnost úkolu, jehož má 

být dosaženo, i jeho náklady naznačují, že standardizované korpusy mají být 

budovány spoluprací skrze evropskou koordinaci národních snah, která je otevřená 

mezinárodním výměnám, i to, že výsledné korpusy mají být veřejné a 

orientované tak, aby uspokojovaly různé potřeby uživatelů.“ 

2. Pojem jazykového korpusu 

Jazykovým korpusem lze rozumět vnitřně strukturovaný, unifikovaný a 

obvykle i oindexovaný a ucelený rozsáhlý soubor elektronicky uložených a zpracovávaných 

jazykových dat většinou v textové podobě, organizovaný se zřetelem 

k využití pro určitý cíl, vůči němuž pak je také považován za reprezentativní. 

Existence a smysl tvorby korpusu vycházejí především ze dvou základních 

teoretických předpokladů a jazykových faktů zároveň: 

1) data nejrůznějšího druhu se v korpusu nacházejí ve své přirozené kontextové 

podobě a užití, což umožňuje jejich všestranné a objektivní studium 

a indukci závěrů; 

2) velký rozsah plánovitě vybudovaného korpusu minimalizuje to, že čistou 

náhodou – k níž u malých rozsahů dat dochází – převládnou zvláštní a 

okrajová užití jazykových jednotek nad základními a typickými; minimalizuje 

se tak však i problematická indukce opřená o nedostatečnou analogii. 

Vedle primárně sledované reprezentativnosti korpusu v různém smyslu 

a míře (včetně škály typický–zvláštní/výjimečný) se u tvorby korpusu též obvykle 

zdůrazňuje i nutnost zachytit v něm variabilitu jazyka v různém smyslu, 

obojí výhodně i v kvantifikované podobě. 

Možnost správy hromadných jazykových dat a práce s nimi na počítači 

vedou ve svých důsledcích nejen k nesmírnému zrychlení a usnadnění lingvistovy 

práce, ale i k jejímu dotud nevídanému zkvalitnění. Data takto získaná, 

která lze průběžně snadno modernizovat a doplňovat, tak představují dnes absolutně 

nejbohatší a nejrealističtější zdroj poznání jazyka vůbec. Možnostmi 

127

FRANTIŠEK ČERMÁK 

kvalitativními i kvantitativními tento zdroj vysoko předčí všechny lingvistovy 

pracně budované kartotéky a archivy minulosti a nabízí se tak proti dosavadní a 

tradiční individuální lingvistově introspekci a elicitaci informace od rodilých 

mluvčích. Proto také je jazykový korpus předpokladem ke skutečné revoluci v 

práci s jazykem a i proto se zcela právem o posledním desetiletí tohoto století 

mluví také jako o dekádě korpusové lingvistiky. Mluví-li se v přírodních a dalších 

vědách zcela samozřejmě o základním výzkumu, na který navazuje veškerý 

další výzkum a aplikace, pak v jazykovědě se právě takovým zdrojem a předpokladem 

základního výzkumu stává elektronický korpus. Docenění jeho prvotního 

významu vede pak i k pochopení toho, že jeho budoucí studium a široké využívání 

znamená skutečně novou epochu v lingvistice, nový způsob výzkumu 

jak co do kvality a povahy dosahovaných výsledků (zahrnující do značné míry 

poprvé i ve vědě obecně nutnou možnost verifikace), tak ovšem i podoby a povahy 

metodologie práce s ním; své důsledky bude mít i pro filozofii přístupu k 

jazyku vůbec. Už na samotném začátku tu těsně spolupracují lingvisté s matematiky 

a odborníky v komputerové vědě a nové problémy a cíle, které se vynořují 

v průběhu práce, si vyžadují a budou vyžadovat zcela nové způsoby řešení a 

exaktnější metodologie, užité techniky a nástroje. Rostoucí význam tu nabývá 

lingvistické modelování a statistické metody, propojované do probabilitních 

modelů, ale i fuzzy logika apod. Lingvistika se právě až v této fázi stává i prakticky 

plně interdisciplinární. 

3. Korpusová data 

Je třeba lišit mezi povahou jazykových dat (data vnější a hrubá) ještě před 

jejich vstupem do korpusu a po jejich vstupu do něj (data vnitřní a strojově 

čitelná, resp. zpracovatelná), kdy nabývají především unifikovanou podobu. 

Zdrojem korpusových dat (vnějších) jsou obě manifestace jazyka, psaná 

i mluvená, resp. psané i mluvené texty, ne však zatím ve stejné míře, protože 

záznam mluveného jazyka a jeho převod do počítačově čitelné podoby (vlastní 

magnetofonová nahrávka a následný přepis) je dosud velmi nákladný; s 

ohledem na zlepšující se možnosti počítačového rozpoznávání mluvy a jejího 

přímého záznamu komputerem se však situace může dramaticky změnit. 

Dosavadní zdroje dat se podle dostupných prostředků člení v zásadě na tři 

druhy. Nejlevnější a nejsnadněji využitelná jsou data v podobě elektronické sazby 

textů, kterou dnes užívá už většina centrálních novin a časopisů a některá 

nakladatelství. Druhou možností, různě úspěšnou v souvislosti s mírou typo- 

128


grafické náročnosti textu, je načítání textů, resp. jejich skenování do počítače 

pomocí scannerů; na rozdíl od snímání obrázků je snímání písma v jeho různorodosti 

a různé velikosti (jen typografických sad jsou stovky), a tedy i optické 

rozpoznávání znaků (OCR, Optical Character Recognition) spíše složitější a 

vyžaduje velmi výkonný a specializovaný software. Zvlášť složité texty, např. 

slovníkové, však přesto při tom vykazují mnoho chyb a vynucují si mnoho 

oprav. Třetí možností je konečně manuální přepisování potřebných textů do počítače 

písařkou (prostřednictvím některého z běžných editorů). 

Žádný z těchto způsobů tedy nevede k potřebným datům přímo a snadno, 

vždy je zapotřebí kontroly a oprav, většinou bohužel i odborných (nejjednodušší 

je paradoxně způsob třetí, který jazykového odborníka průběžně nepotřebuje), 

každý z nich však navíc vyžaduje řadu větších či menších programátorských a 

odborných zásahů v podobě preeditace či posteditace, různých konverzí, sjednocení 

aj. (viz 4., korpusová data interní), často v podobě zvláštních dalších 

programů. Ať už je elektronický text pořízen tím či oním způsobem (převádí se 

napřed většinou do neutrálního mezinárodního ASCII formátu), má pak v zásadě 

trvalou, neomezenou platnost a lze ho opakovaně využít při různých dalších příležitostech, 

což ho dělá zvlášť cenným. Doprovodnými faktory bývají i některé aspekty 

další, zvláště právní. 

Protože počet korpusů i jejich rozsah rychle roste, je dnes už zřejmá jak 

potřeba standardizace sběru a označování textů, tak možnost jejich vícenásobného, 

sdíleného použití (reusability, znovupoužitelnost). Tomu prvnímu je 

věnovaná mezinárodní iniciativa TEI (Text Encoding Initiative), sponzorovaná 

mj. Evropskými společenstvími a americkou vládou; TEI v několika dokumentech 

doporučuje společný výměnný formát textů, zásad kódování nových a 

způsoby převodu mezi formáty existujícími. Její různé subkomise už mj. specifikovaly 

a doporučily i vhodné znakové sady, zásady textové analýzy v návaznosti 

na různé obory i kódovací metajazyk. Za ten byl pro deskriptivní rámec 

syntaktické analýzy zvolen SGML (Standard Generalized Markup Language), 

uznávaný od r. 1986 jako mezinárodní standard (ISO 8879). Opakovaná, obecná 

znovupoužitelnost textů, aktuální zvl. ve světle nákladů na pořízení a přípravu 

elektronických textů i jejich mezinárodní výměny, vyžaduje ke své realizaci 

vyřešení především otázek polyfunkčnosti korpusu, jeho polyteoretičnosti (tj. 

nepoplatnosti jedné úzké teorii), dostupnosti, intelektuálních vlastnických práv, 

reprezentativnosti, standardizace aj. 

129


4. Český národní korpus 

Pro češtinu vznikl r. 1994 z inciativy interdisciplinární skupiny Počítačového 

fondu češtiny a spojením sil více univerzitních pracovišť a Ústavu pro 

jazyk český Akademie věd České republiky Ústav českého národního korpusu, 

jehož cílem bylo a je vybudovat rozsáhlý a víceúčelový korpus češtiny obecné povahy 

na půdě Filosofické fakulty University Karlovy, korpus, který se nazývá 

Český národní korpus. Svou povahou jde o projekt akademický, a tedy nekomerční, 

i když jedním ze sponzorů je jedno české nakladatelství. I když je nedostatek 

novějších jazykových dat, která by měla být v lexikálním archívu Akademie věd 

České republiky, ale bohužel nejsou, jednou z prvotních motivací ke tvorbě ČNK, 

promítly se do snah o jeho vytvoření i motivace další a záhy začalo být jasné, že o 

takovou informační základnu můžou mít zájem vlastně všichni synchronní lingvisté, 

i když si to zatím ne všichni připouštějí a postupný růst ČNK se vždy nesetkává 

s obecným porozuměním; nevraživost či lhostejnost zvláště některých 

starších lingvistů je však jen přirozeným průvodním jevem, známým odleckud. 

Typově projekt Českého národního korpusu předpokládá především vznik 

korpusu současných českých textů a klasické slovníkové databáze, které se 

můžou každá skládat z více částí. Vedle vlastního korpusu, u kterého se sleduje 

naplňovaná struktura složení, vzniká však i volněji pojatý elektronický archív. 

Všechny texty se mimoto evidují ve zvláštní evidenční databázi. 

Korpus současných českých textů, základní část ČNK, sloužící mj. i jako 

vydatný zdroj pro další dvě obecné složky, byl pro první fázi práce uvažován 

jako stomiliónový. tj. o rozsahu 100 milónu textových slov (pro srovnání uveďme, 

že zahraniční zkušenosti i konkrétní projekty, např. uvedený Britský 

národní korpus, dnes ukazují na potřebu 100 a více miliónů výskytů). Tento 

první korpus je dokončený a byl uvolněn pro odbornou veřejnost r. 2000. Je nesporné, 

že v souvislosti s jeho výstavbou a využíváním se hledala a hledá odpověď 

na řadu otázek, především: 

– reprezentativní a vyvážené zdroje konkrétních textů, získaných 

v elektronicky hotové podobě či optickým scannováním, 

– způsobů převodu/konverze textů do jednotného formátu, kompatibilního 

mj. i podle mezinárodních standardů (zvl. TEI), 

– jejich sloučení v organický celek, popř. propojení s dalšími složkami, 

– lingvistického označkování a utřídění i 

130


– efektivního softwarového mapování a analýzy, korelování jeho 

různých částí a především 

– rychlého prohlížení a vyhledávání podle dané potřeby, popř. 

shromáždění vybrané, ale roztroušené informace v ucelený souhrn, 

s nímž lze dál pracovat. 

Dodejme, že řada nakladatelství a redakcí je dnes už ochotná své texty, 

ukládané elektronicky, dávat k dispozici, i když ne však všechna; na druhé 

straně však řada typů textu není k dispozici a je třeba je skenovat. 

Konkordanční báze, tvořená abecedně uspořádanými tvary slov s jejich 

kontexty a jejich frekvencí ve formátu KWIC, je ideálním východiskem jak pro 

tvorbu slovníků tak studium syntaxe či analýzu mikrostylistickou, a tedy i pro 

poznání kombinatoriky jazyka obecně či zjištění tematizace textů. Mívá obvykle 

jen výběrovou ad hoc povahu vždy pro daný účel a může se pružně obměňovat. 

Hlavním důvodem této výběrovosti jsou neúnosně velké rozsahy potřebných 

konkordancí, které jakožto dvacateronásobky apod. délky původních textů 

jsou velkým břemenem pro počítačovou paměť. Lze proto počítat se základní a 

typologizovanou referenční konkordancí stálou, na jejímž základě bude možné 

se kvalifikovaně rozhodovat o potřebě tvorby dočasných konkordancí dílčích. I 

zde vyvstávají tytéž otázky a potřeba odpovědí na ně jako u textového korpusu; 

přibývá pak potřeba speciálního softwaru tvorby konkordancí a především 

programátorského zvládnutí úskalí obrovské záplavy jazykových dat, často pro 

sledovaný cíl redundantních. 

Vedle případných konkordancí se zakládají i slovníkové databáze. Budou 

široce pojaté tak, aby – mj. v propojení s textovým korpusem – mohly sloužit 

jako základní referenční zdroj pro autory budoucích slovníků nejrůznějšího 

druhu. Z těchto tří typů svou strukturací do mnoha polí budou bází nejpropracovanější. 

Jejich prvním obsahem se stanou největší slovníky současného českého 

jazyka a na jejich pozadí bude možné později pro nový slovník češtiny snadno 

ověřovat, za použití materiálu nabízeného z textových korpusů, co se v jazyce 

změnilo, co chybí, jaké jsou objektivní proporce jevů aj. Konkrétně budou tuto 

náplň tvořit především stávající slovníky: čtyřsvazkový Slovník spisovného 

jazyka českého (SSJČ) o rozsahu 192 000 hesel na 5600 stranách, který už byl 

opticky sejmut a dál se zpracovává; hotové 2. vydání jednosvazkového Slovníku 

spisovné češtiny o rozsahu asi 48 000 hesel vyšlo i v disketové podobě a je 

tedy počítačově k dispozici hned. Protože i tato databáze bude složena z několika 

dílčích, může do sebe zahrnout po příslušné konverzi i počítačově už dostupné 

slovníky další, zvl. retrográdní, popř. frekvenční apod.; přepsat by bylo 

131


zřejmě vhodné pro tyto účely velkou část novodobých vrstev lexikografického 

archívu Ústavu pro jazyk český, které už do SSJČ vstoupit nemohly. 

Všechny formy či mody existence korpusu mj. závisejí na dobrém a rychlém 

vyhledávacím programu, resp. programech; většinou je přímo součástí základních 

databázových programů obou typů (viz výše), popř. i programu konkordančního. 

Některá členění uvnitř uvedených složek Českého národního korpusu byla 

naznačena už výše. Český národní korpus je střechový název pro několik entit 

a složek v různém stadiu rozpracovanosti a vývoje. Všechny složky jsou vytvářeny 

výhradně z elektronických textů různé povahy, zaměření a rozsahu. Základní 

dělení je na (1) synchronní korpus a (2) diachronní korpus. V rámci 

synchronního korpusu dominuje svou velikostí (1A) synchronní korpus psaný, 

patří sem však také (1B) synchronní korpus mluvený (zvl. Pražský mluvený 

korpus) a (1C) synchronní korpus nářeční. Zčásti obdobné je dělení diachronního 

korpusu na složku (2A) diachronního korpusu psaného a (2B) diachronního 

korpusu nářečního. Nářeční korpusy obojího typu však mají z praktických 

důvodů zatím jen výhledovou povahu. Postupně budovanou složkou, 

která má však především pomocný charakter, je lexikografická databáze složená 

z dostupných elektronických slovníků různého druhu. I když u nás vznikají 

specializované korpusy i jiné a jinde, je ČNK pro češtinu a Česko jediným 

zdrojem svého druhu a jako takový má i určitý mezinárodní význam. ČNK je 

bezprecedentně největší informační bází v ČR a patří dnes i k významným evropským 

projektům. 

V jazyce se nenabízejí žádná jasná a nepochybná kritéria pro stanovení 

časových rozmezí, a tedy ani pro stanovení hranic jednotlivých druhů korpusů. 

Časová parcelace ČNK je také proto do jisté míry arbitrární a závislá na činitelích 

vnějších, historických. Jistým vodítkem pro oddělení současného jazyka od 

jazyka staršího (resp. správněji řady jeho různých diachronních podob) je však 

vždy to, jak se dnešní mluvčí k jednotlivým formám jazyka stavějí a co vyciťují 

jako ještě živé a co už ne. V podstatě z těchto hledisek byly také vymezeny 

spodní časové hranice synchronního korpusu psaného. 

V oblasti pokrytí (1) novin a časopisů byl za základ a začátek textového 

mapování a zařazování do korpusu vzat rok 1990 se svým přelomovým charakterem 

(1990–); starší noviny, plné dobového ideologického newspeaku, můžou 

dnes už jen těžko představovat současný jazyk, který se právě v publicistické oblasti 

mění nejrychleji. Vzhledem k tomu, že knihy, zvláště beletristické, se nejen 

znovu a znovu někdy přetiskují i později, ale že se hojně čtou i někteří autoři 

132


starší, kteří takto do současnosti patří, protože ji svým vlivem spoluvytvářejí, bylo 

pro ně stanoveno několik vzájemně se doplňujících kritérií dalších. Vedle (2a) 

knih (hlavně románů) poprvé vydaných po r. 1990 včetně (1990–, kritérium 

shodné s (1)) bylo rozhodnuto respektovat i (2b) čtené autory starší, jako je Jaroslav 

Hašek a Karel Čapek, a to ty, kteří se narodili r. 1880 nebo později (tj. v 

letech narození J. Haška a K. Čapka) a konečně (2c) knihy publikované od r. 

1945, tj. od konce 2. sv. války (1945–); u tohoto posledního kritéria jde však o 

procentuálně řidší zastoupení než u (2a). Jazyk takto vymezených autorů totiž 

ještě žije. Jednotkou evidovanou, kterou lze v ČNK zvlášť identifikovat, je takto 

buď jednotlivá kniha, nebo číslo novin; vzorky se v tomto přístupu neuplatňují. 

Všechna ostatní díla, která těmto kritériím nevyhovují, jsou řazena do 

korpusu diachronního. Je však třeba připomenout, že k dispozici ani zdaleka 

ještě nejsou všichni vhodní kandidáti pro zařazení do ČNK (problém dostupnosti 

textů je trvalým problémem), a že i u dostupných a daným kritériím vyhovujících 

knih, textů bylo nutno přikročit k proporcionálnímu výběru (např. 

beletrie je v celku synchronního korpusu jen něco přes 11 %). Bylo by tudíž 

omylem domnívat se, že ČNK obsahuje celou českou literaturu daného období, 

popř. že v rámci projektu ČNK je převod tak rozsáhlého souboru dat proveditelný. 

Korpus obsahující všechny texty a autory nikde neexistuje a zřejmě ani 

existovat nebude. Jde však o to, mít ho co největší a pružně rozšiřovaný. 

Horní časovou hranicí pro zařazení textů do synchronního psaného korpusu 

bylo časové rozmezí let 1999, dané v podstatě dostupností textů, které lze 

získávat vždy jen s určitým časovým odstupem; nějaký čas si vždy ovšem vyžádá 

i jejich interní zpracování. Takto pokrytá časová etapa, tj. od roku 1990 (s 

naznačenými přesahy do minulosti do roku 1998/99), je zastoupena k r. 2000, 

tj. v době dokončení první etapy ČNK, synchronním korpusem v rozsahu cca 

100 miliónů textových slov ve vyvážené reprezentativní podobě. Projekt ČNK 

ovšem pokračuje dále a na první etapu a verzi navážou verze další a rozsáhlejší. 

Těchto 100 miliónů slov je zároveň označkováno vnějším značkováním co 

do typu a původu textu i (pokusným) značkováním vnitřním. Takto je každý 

tvar určen co do své morfologické platnosti a zařazení včetně slovního druhu; 

přiřazena je lemmatizace. Jednotlivé typy anotace lze zároveň užít i pro vyhledávání, 

zadá-li si je uživatel. 

Uvedený rozsah jen samotných textů bez označkování je nevídaně velký, 

jaký dosud nikdy k dispozici nebyl; pohybuje se v rozmezí 1 – 2 gigabytů a jeho 

prosté manuální prohlížení přesahuje lidské možnosti. Máme-li si ho nějak 

přiblížit, pak toto číslo v podobě a velikosti průměrných tištěných knižních 

133


stránek (při knize o cca 250 standardních stranách běžného tisku a tenkého papíru), 

odhadem představuje asi 10 zaplněných metrů místa na polici. Jen pouhé 

přečtení celého synchronního korpusu by pak při dost rychlém tempu (150 slov 

za minutu, 8 hodin denně a 365 dní ročně) zabralo přes 4 roky. Podstatné je, že 

příslušný software tento rozsah prohlédne a výsledek uživateli představí (podle 

složitosti dotazu) maximálně za pár sekund. 

Diachronní korpus je budován s cílem vytvořit elektronickou materiálovou 

základnu pro výzkum vývoje českého jazyka od prvních dochovaných 

souvislejších záznamů (2. polovina 13. stol.) do doby, kterou pokrývá synchronní 

korpus (zhruba do poloviny 20. stol., s přesahem do konce 80. let 20. stol. v 

případě novinových a časopiseckých textů). Do korpusu jsou zařazovány pouze 

dobové a útvarově autentické texty, tj. texty, u nichž lze s rozumnou mírou jistoty 

vyloučit, že do nich byly vneseny prvky pozdějšího jazykového stavu nebo 

jiného jazykového útvaru: jsou to především opisy a přetisky, které vznikly podstatně 

později než původní text (netýká se kritických edic), a ty, které původní 

text zjevně zkreslují nářečními a jinými prvky. 

Postup budování diachronního korpusu je pomalý a obtížný, neboť většinu 

textů je třeba manuálně přepisovat nebo (v případě spolehlivých novodobých 

edic) skenovat a manuálně korigovat. Vzhledem k tomu, že elektronické prohledávání 

různorodých paleografických podob textů z odlišných období vývoje 

českého pravopisu je prakticky nezvládnutelné, vstupují texty z doby před 

rokem 1849 do diachronního korpusu v transkribované podobě. V současné době 

není v možnostech ČNK standardně připojovat k transkribovaným starším textům 

jejich transliterované podoby, avšak pro budoucnost se počítá s podstatně 

užším spojením transkripce s originálem, a to ve formě elektronického propojení 

korpusových transkribovaných textů s digitalizovanými obrazy jednotlivých 

stránek původních předloh. Toto řešení by mělo nejen dát badatelům příležitost 

detailního ověřování jednotlivých případů transkripce, ale i podstatně 

rozšířit možnosti korpusového výzkumu na oblast vývoje grafiky a pravopisu. 

Jeho realizace je však velmi náročná. 

Diachronní korpus dosáhl v roce 2000 celkového objemu 1 750 000 textových 

slov. Jeho součástí je mj. banka transliterovaných textů (o celkovém rozsahu 

přibližně 100 000 textových slov) a jazyková databáze (v níž se shromažďují 

překlady starších českých slov, vysvětlivky jednotlivých obratů, míst v textech 

ap., obsažené v jednotlivých edicích). 

Mluvený korpus synchronní (Pražský mluvený korpus), který je samostatnou 

složkou ČNK, byl původně vytvářen z hlediska výzkumu frekvence 

134


autentické mluvené, především obecné češtiny a jeho rozsah a povaha byly do 

vysoké míry dány pragmaticky, možnostmi, které byly k dispozici. Jeho dnešní 

rozsah činí přes 700 000 slov. Kvůli limitujícím faktorům je prozatím omezený 

na oblast Prahy a okolí, kde míra širší reprezentativnosti je nejvyšší (Praha 

ovlivňuje ostatní území nejen mediálně, ale i tím, že v ní pracují lidé z celé 

země); je však naděje na získání ještě obdobných korpusů dalších. Mluvený 

korpus časově pokrývá období let 1988 – 1996 a představuje zdaleka největší a 

nejreprezentativnější záznam autentického mluveného jazyka, který česká lingvistika 

ve svém uhranutí téměř výlučně jazykem psaným dosud tradičně ignorovala. 

Rozsah 700 000 textových slov je podle dnešních nároků a ve srovnání 

s psaným synchronním korpusem malý, ale je třeba vidět, že odpovídá reálným 

možnostem. Jde především o to, že získání takového korpusu je 

mnohonásobně pracnější a dražší než vybudování korpusu psaného a že dosud 

není k dispozici ani celková metodologie výzkumu mluveného jazyka, která – 

měla-li být převzata z jazyka psaného – například v oblasti syntaxe zcela selhává. 

Povaha mluveného jazyka je v mnohém jiná než jazyka psaného a jeho 

komplexní a systematický výzkum je dosud velkým úkolem. 

Projekt mluveného korpusu, složený z cca 300 magnetofonových nahrávek 

v upraveném přepisu, sledoval reprezentativní zastoupení 4 hlavních sociolingvistických 

proměnných: pohlaví mluvčích (muž – žena), věku (vyšší – 

nižší s hranicí kolem 35 let, ale s vyloučením jazyka nedospělé mládeže), 

vzdělání (nižší – vyšší) a typu textu, resp. nahrávky (formální, tj. podle předem 

připravených širokých otázek, nebo neformální, tj. neřízený dialog dvou mluvčích, 

kteří se znají). Tak vzniklo několik desítek kombinací těchto čtyř indexů, 

které se nahrávkami naplňovaly tak, aby se dosáhlo vyvážené, proporcionální 

podoby. Nahrávky se pak manuálně přepisovaly standardním způsobem do počítače 

a anotovaly. 

Vedle neoznačené, tj. prostě textové podoby, která je už veřejně dostupná, 

má být tento korpus po dokončení zpřístupněný včetně bohaté anotace textové 

a lingvistické zahrnující i víceslovné jednotky a vůbec poprvé i frazeologii; je 

to první korpus v Evropě vůbec obsahující mj. úplné značkování frazeologie. 

Jeho hlavní využitelnost je specificky v oblasti lexikonu a morfologie; méně 

vhodný je pro studium syntaxe (vzhledem k malému rozsahu) i ke zkoumání tématickému 

apod. 

Zvláště mluvený korpus představuje značný a specifický problém: v důsledku 

v minulosti pěstovaného přezírání a následného opomíjení výlučně ve 

prospěch spisovného jazyka tato část jazyka zůstává nemapovaná, a to je lin- 

135


gvisticky situace jak neudržitelná, tak neopodstatnitelná, na druhé straně však i 

metodologicky náročná a nová. Kromě nového asi třičtvrtěmiliónového korpusu 

mluvené češtiny, jehož zpracování bude dokončeno v r. 2001, a to zvláště pro 

potřeby frekvenčního slovníku mluveného jazyka, k dispozici není nic, a musí 

se tudíž, spolu s vypracováváním metodologie sběru a zpracování, která je tu 

značně jiná, i začínat prakticky od nuly. Je třeba si uvědomit, že magnetofonové 

nahrávání, přepis do počítače a okódování každého slova složitým číselným 

kódem, který se realizuje, je jak pracné, tak nesmírně drahé. Dodejme, že 

právě vzhledem k nesmírné absurdnosti situace zde, tj. vzhledem k tomu, že 

většina naší komunikace je mluvená a přitom pro její výzkum a popis není v 

daném smyslu k dispozici nic, kdežto pro menšinovou komunikaci psanou disponujeme 

už teď miliónovými záznamy, je třeba tento stav urychleně a koncepčně 

řešit v širším měřítku. 

Výčet složek ČNK lze konečně uzavřít připomenutím toho, co bylo řečeno 

už výše: podle potřeby a cíle i možností vzniku různých dílčích databází 

specializovaných. K nim může nesporně patřit terminologická databáze lingvistická 

(zvlášť postrádaná mnohými) i z jiných oborů, databáze českých 

kořenů a kmenů, registr všech evidovaných forem i lemmat v různých databázích 

apod. 

5. Aspekty práce a využití 

Složení korpusu se řídí řadou kritérií, stále dolaďovaných; jejich základ se 

opírá o podniknutý sociologický výzkum. Vedle vlastních obsahových kritérií, 

jako je podíl textů žurnalistických, beletristických či odborných, se výběr řídí 

podle vymezení statistické populace, a to především kritérii (A) recepce či (B) 

produkce, a tedy podle toho, jak jazyk lidé užívají (recepce, tj. jazyka ve skutečnosti 

jen několika málo spisovatelů, novinářů apod. pro velmi široké publikum 

různých médií), či toho, jak ho píšou a mluví (produkce, tj. jazyka velmi 

širokého vzorku aktivních uživatelů pro stejně široké spektrum příjemců). 

K primárně řešeným otázkám patřila tedy reprezentativnost, jejíž průzkum 

dospěl k několika stupňům poznání. Už první její výzkum, který byl svou 

podstatou sociologický a zabýval se průzkumem prosté recepce jazyka, tj. zjišťování 

proporcí, v nichž jsou lidé vystaveni různým druhům jazyka, přinesl 

některá zásadní překvapení. Tak např. bylo zjištěno, že celá třetina pokrytí patří 

textům odborným (33,5 %), zatímco nespecializované, neodborné texty tvoří 

zbývající dvě třetiny (66,5 %). Z toho noviny a časopisy pokrývají 56 %, zatím- 

136


co próza a poezie 10 %; 0,5 % připadlo na jiné, tj. okrajové a zvláštní typy textů. 

Složité technické otázky značkování, resp. anotace či taggování korpusového 

materiálu a jeho automatizace přesahují možnosti této stručné informace, 

naznačme jen, že zahrnují stejně tak oblast lemmatizace, a to lexémů jednoslovných 

i později víceslovných, jako syntaktického parseru, řešení jednoznačnosti 

záznamu či způsoby jeho uložení do korpusu. V pozdějších fázích snad 

však zahrnou i propojení jednotlivých korpusů a databází dohromady i jejich 

automatické on-line doplňování o nové formy, prvky a lexémy. Dodejme, že 

ČNK je experimentálně morfologicky označkovaný a lemmatizovaný. V 

současnosti se značkování i lemmatizace pro přílišnou chybovost reviduje a 

předělává a výhledově bude nutné řešit i související problém víceslovnosti. 

První zkušenosti s korpusy v různých jazycích přinesly už i některé zásadní 

zkušenosti metodologické povahy. Jednak je zřejmé, že analýza většiny sémantické 

stránky jazyka (srov. mj. Atkins 1987), která je na rozdíl od diskrétní 

formy (tu lze opřít programově o binární volbu typu „ano – ne“) spíše většinou 

kontinuální a škálové, resp. splývavé povahy (a tedy v závislosti především na 

volbě typu „spíše toto než to, popř. ono“), bude mít jinou povahu (M. A. K. Halliday 

1991: jazykový systém je inherentně probabilistický, jeho kontinuu s 

komplementárními perspektivami gramatiky a lexikonu lépe vyhovuje koncepce 

lexikogramatiky). Významným přístupem, založeným na předpokladu různé 

statistické pravděpodobnosti výskytu různých jevů formy, je vyhodnocování 

těchto aspektů na základě probabilistických odhadů, měření a různých indexů 

(o vztahu kvantitativních a kvalitativních aspektů viz mj. Itkonen 1980, srov. 

i Brunet 1986). Vždy však ke studiu této stránky bude možné přejít pouze skrze 

zřetelně a spolehlivě okódovanou stránku formální; jedno tu tudíž předpokládá 

druhé. I ve formální stránce jazykových dat lze však pozorovat, resp. předpokládat 

nejednoduchost a nejednoznačnost, především ve smyslu časté variabilnosti 

formy, která jako jazykový fakt stojí proti snahám některých ligvistů o 

zjednodušenou a násilně sjednocenou kodifikaci. Na druhé straně se jako odraz 

určité skepse k síle jednotlivých jazykových teorií také doporučuje (srov. Leech 

1993), aby značkování bylo spíše jednodušší, široké a konsensuální (viz dál) a 

nevycházelo z jedné konkrétní teorie, protože se později nemusí osvědčit a 

označkovaná data by nebyla jinak použitelná ani v přístupech dalších. 

Obecně lze uvažovat o více typech zužitkování a třebaže konkrétní podoba 

bude dána také zájmem z té či oné strany, lze přesto zmínit především či aspoň 

137


tři okruhy výstupů. Každý z nich bude mít ovšem různě přímou/nepřímou praktickou 

využitelnost a tudíž i různého příjemce. 

První okruh představují slovníky výkladové i překladové, gramatiky a učebnice 

i samotná data v databázích, na nichž budou stavět, tedy výstupy společensky 

a zřejmě i komerčně bezprostředně zajímavé. Není jistě žádným tajemstvím, 

že mnohá slova ve slovnících nejsou, ať stará či nová, že mnohá informace 

je v lepším případě pokřivená či zastaralá, či že mnohé otázky třeba našich 

mluvnic nemohly být pro nedostatek dat vůbec řešeny a není proto ani tak 

těžké si představit, co vše se může v této sféře nabídnout lepšího. A v horším 

případě nemá už cenu nijak zastírat, že mnohé z autoritativních soudů předchozích 

normotvůrců a autorů především gramatik stojí na hliněných nohách, jsou 

nepodložené, apriorní a, v tom lepším případě, minimálně problematické a 

skutečnému vědeckému výzkumu vzdálené. V zrcadle korpusu a jeho informací 

jsou pak především minulé soudy kodifikační povahy krajně problematické, 

jazykový svět, stejně tak jako ten reálný, prostě není černobílý. 

Hlavním úkolem však bude, což bude starostí některého z návazných pracovišť, 

nabídnout Čechům a bohemistům pořádný, objektivní a spolehlivý velký 

slovník současné češtiny. Český národní korpus se tak stává hlavním a vlastně 

jediným možným zdrojem poznání a dat pro tvorbu takového příštího slovníku. 

Není žádným tajemstvím, že náš dosud největší výkladový slovník (SSJČ), jehož 

poslední svazek vyšel už před 31 lety, tj. r. 1971, a první dokonce před více než 

40 lety, už poněkud nutně zastarává, mnohé – zvláště v důsledku prudce se měnící 

češtiny dneška – v něm není a mnohé je nepříjemně poplatné komunistickým 

dobám, kdy vznikal. Jakkoliv nelze podceňovat lidskou intuici, bude to především 

korpus, odkud bude možné čerpat poznání o tom, co je v jazyce typické, co se 

nejčastěji a jak říká či píše a co je naproti tomu řídké a netypické. Na jeho obrovském 

podkladě pak bude taky mj. konečně možné zjistit ze skutečného úzu a 

způsobů používání jazyka, pokud jde o jeho varianty, kam se ubírá vývoj, a ověřit 

si tak objektivně např. i to, nakolik pravopisná pravidla odpovídají životu a nakolik 

nikoliv. 

Druhý okruh představují zkušenosti, podklady i realizované dílčí výstupy 

a programy ve sféře komputerizace jazyka. Půjde především o výstavbu dokonalejších 

spelling-, grammar- i style-checkerů, tedy korektorů pravopisu, 

mluvnice i stylu, o dělicí programy, automatické gramatiky a analyzátory pro 

dané účely i o moduly pro komunikaci s počítačem v přirozeném jazyce a možnosti 

další, především ve směru významového zkoumání jazyka. Významným 

momentem tu jsou desiderata, která se už teď kladou na kvality a povahu kor- 

138


pusů ze strany Evropské unie především ve smyslu vzájemné kompatibility a 

možnosti paralelního zkoumání jazykových dat: členové ÚČNK jsou partnery 

dvou velkých evropských multinacionálních projektů v rámci iniciativy Copernicus, 

které jsou zaměřeny na otázky budování národních korpusů. 

Třetí, nejužší okruh bude polem pro realizaci a precizaci samotné lingvistické 

teorie, jejíž bezprostřední využití sice žádné neexistuje, jejíž vliv však 

může být zcela zásadní a všudypřítomný. Přestože korpus je pro lingvisty všeho 

druhu obecným a základním zdrojem, popř. testovacím prostředím (viz výše), 

lze s ohledem na jejich primární orientaci na něj rozlišit především následující 

typy profesionálních uživatelů: 

A – lexikografové/lexikologové (zdroj informací o skutečném úzu obecně 

či specifických slov apod.), 

B – komputační lingvisté (zdroj zjišťovaných statistických pravděpodobností 

jako klíč k analýze, prostředí k aplikaci teorií a modelů jazyka, automatické 

získávání lexikálně-sémantických znalostí, řešení vztahu gramatika – lexikon 

aj.), 

C – teoretičtí lingvisté (zdroj vzorků jazykových jevů i prostředí ověřování 

svých domněnek apod.), 

D – úzcí specialisté (zdroj specifických informací, paralelních řešení i úzu 

ap. pro překladatele, terminology, dialektology aj.), 

E – aplikovaní lingvisté (autoritativní a typický zdroj dat, zvl. pro výuku, 

tvorbu jazykových pomůcek. 

Mimolingvistické využití korpusu se nabízí vlastně všem oblastem a disciplínám, 

které pracují s jazykem, a to hlavně jako referenční zdroj informací 

o distribuci zjišťovaného jevu. Především tu jde však o specialisty různých 

oborů zaměřené na obsah textů (historikové, literární kritikové, tvůrčí autoři, 

sociologové, psychologové) či jejich formu (specialisté na média včetně např. 

reklamy, stejně jako právníci apod.). 

Do určité míry tu živnou půdu budou skýtat předchozí dva okruhy aplikací 

v podobě zatím, tj. stávajícími technikami a teoriemi neřešitelných problémů či 

prostých otázek; především však bude usilovat o posunutí hranice poznání 

vlastní disciplíny tam, kde jsme se dosud museli spokojovat s prozatímními 

závěry a předpoklady. Mám na mysli možnosti řešení, tj. na základě velkého 

rozsahu dat a exaktních technik, takových otázek, jako jsou sémantické zákonitosti 

kombinace slov, podstata a hranice ustálenosti nebo metafory. Je zřejmé, 

že na základě hlubšího poznání v první oblasti budeme pak schopni říct leccos 

navíc i o zákonitostech našeho myšlení; v druhé oblasti si nejenom například 

139


lexikograficky ujasníme, při kolika výskytech dané formy v textu už lze místo 

posunu starého významu uvažovat význam nový, popř. samostatnou kombinaci 

slov, ale především budeme vědět víc o samotné hranici jazykové synchronie, a 

tedy jazyka současného a živého, a o povaze přechodů k diachronii a minulým 

stavům jazyka, s nimiž se lingvisté nejsou dnes schopni vyrovnat; konečně v 

třetí oblasti naše poznatky umožní nejen kvalifikovaně hodnotit metafory 

slovesného umění, jejich zpětný vliv na intelektuální vnímavost lidí, ale i jejich 

podíl na samotném vývoji jazyka a tím i kultury. 

Literatúra 

ATKINS, Sue – CLEAR, Jeremy – OSTLER, Nicholas. 1992. Corpus Design Criteria. Literary 

and Linguistic Computing, roč. 7, č. 1, s. 1 – 16. 

BIBER, Douglas. 1993. Representativeness in Corpus Design. Literary and Linguistic 

Computing, roč. 8, č. 4, s. 243 – 257. 

British National Corpus. Written Corpus Design Specification. 1991 (a handout information). 

BRUNET, É. (ed.). 1986. Méthodes quantitatives et informatiques dans l’étude des textes 

(hommage à Charles Mueller). Collogue international de CNRS. Paris: Université de Nice. 

ČERMÁK, František. 1995. Komputační lexikografie. In: F. Čermák – R. Blatná (eds.). Manuál 

lexikografie. H+H: Praha.1995, s. 50 – 71. 

ČERMÁK, František – BLATNÁ, Renata (eds.). 1995. Manuál lexikografie. H+H: Praha. 

ČERMÁK, František. 1997. Czech National Corpus: A Case in Many Contexts. International 

Journal of Corpus Linguistics, roč. 2, č. 2, s. 181 – 197. 

ČERMÁK, František – KRÁLÍK, Jan – KUČERA, Karel. 1997. Recepce současné češtiny a reprezentativnost 

korpusu. Slovo a Slovesnost, roč. 58, s. 117 – 124. 

ČERMÁK, František. 1995. Jazykový korpus: Prostředek a zdroj poznání. Slovo a slovesnost, roč. 

56, s. 119 – 140 (revidovaná verze In: Studie z korpusové lingvistiky, 2000, s. 15 – 37). 

ČERMÁK, František. 1998. Czech National Corpus: Its Character, Goal and Background. In: P. 

Sojka – V. Matoušek – K. Pala – I. Kopeček (eds.). Text, Speech, Dialogue. (Proceedings of the First 

Workshop on Text, Speech, Dialogue-TSD '98, Brno, Czech Republic, September.). Brno: Masaryk 

University, s. 9 – 14. 

ČERMÁK, František. 2001. Language Corpora: The Czech Case. In: V. Matoušek et al. (eds.). 

Text, Speech and Dialogue, TSD 2001. Berlin – Heidelberg – New York: Springer, s. 21 – 30. 

HALLIDAY, M. A. K. 1991. Corpus studies and probabilistic grammar. In: K. Aijmer et al. 

(eds.). Corpus Linguistics. Studies in Honour of Jan Svartvik, s. 30 – 43. 

ITKONEN, E.: Qualitative vs quantitative analysis in linquistics. In: T. Perry (ed.). Evidence 

and Argumentation in Linguistics. Berlin 1980. 

LEECH. G. 1993. Corpus annonation schemes. Journal of Literary and Linguistic Computing, 

roč. 8, č. 4, s. 275 – 281. 

KOCEK, J. – KOPŘIVOVÁ, M. – KUČERA, K. (eds.). 2000. Český národní korpus: Úvod 

a příručka uživatele. Praha: Ústav Českého národního korpusu FFUK. (F. Čermák spoluautor. zvl. 1.1, 

1.21-1.22 a předmluva.) 

140


KRUYT, J. G. 1993. Design Criteria for Corpora Construction in the Framework of 

a European Corpora Network. Final Report. Leiden: Institute for Dutch Lexicology INL. 

NORLING-CHRISTENSEN, Ole. 1992. Preparing a Text Corpus. Computational Tools and 

Methods for Standardizing, Tagging and Structuring Text Data. In: R. Kiefer et al. (eds.), Papers in 

Computational Lexicography COMPLEX '92. Budapest: Research Institute for Linguistics, Hungarian 

Academy of Sciences, s. 251 – 259. 

SINCLAIR, John McH. 1991. Corpus, Concordance, Collocation. Oxford: Oxford University 

Press. 

ČERMÁK, F. et al. (eds.). 2000. Studie z korpusové lingvistiky. Praha: Karolinum. 

ŠULC, Michal. 1999. Korpusová lingvistika. První vstup. Praha: Karolinum. 

ŠULC, Michal. 2001. Tematická representativnost korpusů. Slovo a Slovesnost, roč. 62, s. 53 – 61. 

141

ČESKÝ NÁRODNÍ KORPUS – 

POČÍTAČOVÁ DEMONSTRACE 

Michal Křen: Ústav Českého národního korpusu, Filozofická fakulta 

University Karlovy, Praha 

Abstract: This paper briefly describes the structure of the Czech National Corpus, the acquisition of texts 

and the whole process of their subsequent conversion into the final SGML format. It also deals with the architecture 

of the software tool that is provided to the registered users. The emphasis of the workshop 

presentation is put on practical computer demonstration of the tool and possibilities of its usage for data 

mining. 

1. Složení Českého národního korpusu 

Český národní korpus je zastřešujícím názvem projektu, který v sobě zahrnuje 

vytvoření více různých korpusů, kromě synchronního jsou to zejména diachronní 

a mluvený korpus. Nadále se však budu věnovat výhradně korpusu 

SYN2000, což je reprezentativní synchronní korpus psaného jazyka, zachycující 

nejrůznější žánry a typy textů psané češtiny devadesátých let. Jeho rozsah činí 

100 miliónů slovních tvarů. Na základě řady výzkumů, při kterých se brala v 

úvahu zejména recepce, bylo jeho složení stanoveno takto: 60 % tvoří publicistika, 

tedy především noviny, a to jak celostátní tak regionální, 25 % odborná literatura 

a 15 % beletrie. Těžištěm korpusu jsou texty vzniklé v letech 1990 – 1999. 

Výjimkou z tohoto vymezení jsou pouze významná beletristická díla, která se stále 

čtou a vydávají; podmínkou však je, že se jejich autor narodil po roce 1880. 

2. Získávání textů a jejich konverze do SGML 

Nyní bych se chtěl ve stručnosti věnovat problematice získávání textů a zejména 

procesu jejich převodu do jednotného SGML formátu, ve kterém jsou nakonec 

uloženy a připraveny k využívání pomocí korpusových nástrojů. Protože tomuto 

tématu nebývá obvykle věnována dostatečná pozornost, chtěl bych celý tento 

proces shrnout a stručně popsat, jak probíhá v Ústavu Českého národního 

korpusu. 

2.1 Získávání textů 

142

ČESKÝ NÁRODNÍ KORPUS – POČÍTAČOVÁ DEMONSTRACE 

Texty do korpusu získáváme v zásadě třemi různými způsoby: nejvýhodnější 

je dostat texty v elektronické podobě přímo od vydavatele, a to na základě 

dohody o jejich nekomerčním využití. Bohužel ne všechna nakladatelství 

s poskytnutím textů souhlasí, v ideálním případě však lze takto získat celé archivy 

jednotlivých titulů novin a časopisů nebo velké množství knih v jednom 

formátu. Druhou možností je stahování z internetu. V této souvislosti bych 

chtěl vyvrátit poměrně častou domněnku, že získávání textů není žádná velká 

věda, stačí jich přeci pomocí automatických programů stáhnout z internetu co 

nejvíce. To sice na první pohled vypadá jako velice rychlé a elegantní řešení, je 

však použitelné jenom v omezené míře. Na internetu skutečně nalezneme velké 

množství textů, jsou však často nekvalitní, bez korektur, v některých případech 

dokonce chybí i diakritika. Také internetové archivy novin a časopisů jsou často 

neúplné, a je tedy třeba si texty před stažením pečlivě vybírat. Při jakémkoli 

získávání nových dat je navíc nutné vyjednat s vlastníky autorských práv podmínky 

použití jejich textů, což je časově nejnáročnější fáze, kterou nelze automatizovat. 

Při takovém jednání však již většinou není problém získat data 

kompletní a v kvalitnější podobě, než by se podařilo on-line. Konečně třetí 

možností získávání textů je jejich skenování a přepisování. Protože však jde o 

způsoby zdlouhavé, pracné, a tedy drahé, používáme je pouze u textů, které 

jsou z nějakého důvodu cenné a nelze je získat jinak. Každý text, který získáme 

některým z uvedených způsobů, je ještě evidován v databázi a nakonec zálohován 

na CD. 

2.2 Konverze do jednotného formátu 

Cílem této konverze je dát všem textům jednotný tvar tak, aby další zpracování 

mohlo probíhat jednotně, bez ohledu na jejich původ. Texty jsou sice již 

v elektronické podobě, ale v různých formátech, někdy jde doslova o změť nejrůznějších 

typů souborů, v rámci dat od jednoho nakladatelství lze třeba najít 

jednu knihu v několika verzích nebo také nepotřebné soubory, ve kterých žádný 

text není, jako například obrázky, spustitelné programy a podobně. Nejprve je 

tedy třeba „oddělit zrno od plev“, a pak se pustit do převodu jednotlivých souborů 

s texty do meziformátu. 

Meziformátem rozumíme prostý ASCII text, který však může navíc obsahovat 

SGML entity, v nichž jsou kódovány informace, které by se převodem 

do ASCII ztratily: jde zejména o typografické značky (kurzíva, podtržení, horní 

a dolní index apod.) a o nečeské znaky s diakritickými znaménky, které se ne- 

143

MICHAL KŘEN 

vyskytují v daném kódování češtiny. Postup konverze pochopitelně závisí na 

tom, v jakém formátu byly soubory s texty vytvořeny. Nejjednodušší je z 

prostého ASCII, HTML, RTF nebo z formátů jednoduchých textových editorů 

(T602, WordPerfect) – pro tyto případy již máme vyvinuty spolehlivé konverzní 

programy, které generují přímo meziformát bez nutnosti texty v těchto editorech 

otevírat a ukládat. U složitějších editorů (Word) nebo DTP programů 

(QuarkXPress, PageMaker) to již nutné je – pokud jde o Word, problém řešíme 

pomocí maker, která automaticky vyexportují všechny soubory v adresáři do 

RTF. V případě DTP programů, jejichž používání je bohužel stále častější, však 

není jednoduché text vůbec vyexportovat (zvlášť pokud jde o složitou sazbu), a 

je proto nutné každý soubor tímto programem otevřít a všechny textové rámce 

postupně uložit. Tato metoda je časově, a tedy i finančně náročná, snažíme se 

proto takové texty zpracovávat v co nejmenší míře a podobně jako například 

skenování ji používat pouze jako doplòkový zdroj textů. Přesto se však nedá 

říci, že v případě relativně jednoduchých veřejných formátů zmíněných výše 

stačí pouze spustit příslušný program a konverze do meziformátu je hotová. 

Vždy je totiž nutné výsledek zkontrolovat a většinou také ještě napsat danému 

textu „na míru“ jednoduchý program, který odstraní některé nevhodné jevy, jakými 

jsou například odkazy na literaturu, čísla stránek a obrázků a podobně. 

2.3 Bibliografická anotace 

Kromě vlastní konverze do SGML je ještě nutné k jednotlivým textům doplnit 

základní bibliografické informace, aby bylo možné se při vytěžování korpusu na 

jednotlivé zdroje odkazovat. Bibliografickou anotací textů zde tedy rozumíme 

zjišťování informací o autorech, nakladatelství, roku vydání, typu textu, 

žánrovém zařazení aj. a jejich zapsání do databáze a zároveň také přímo do textů v 

meziformátu. Tuto část konverze samozřejmě nelze automatizovat a je tedy nutné 

ji dělat ručně. 

2.4 Převod do SGML, tokenizace, morfologické značkování a lemmatizace 

Následuje poslední a také již plně automatická fáze konverze, a tou je 

převod do SGML (mezinárodně standardizovaný metajazyk vhodný pro ukládání 

strukturovaných textů) a tokenizace (tj. segmentace textu do slov a vět), 

následované několika čisticími a kontrolními programy. Zde je myslím třeba 

zdůraznit, že se snažíme zachovat v co největší míře autenticitu textu, to znamená, 

že do něj nezasahujeme, neopravujeme zjevné chyby ani překlepy, s vý- 

144


jimkou slov „natvrdo“ rozdělených pomlčkami. Odstraňujeme pouze některé 

součásti textů, které nemají pro studium jazyka valný význam a které by svou 

přítomností byly spíše na škodu. Jsou to především celky netextového charakteru 

(tabulky, vzorce, tiráž, seznamy literatury apod.) a celé odstavce psané cizími 

jazyky (nikoli tedy krátké citáty). U novin a časopisů se také poměrně často 

stává, že dostaneme v datech z nakladatelství několik verzí jednoho článku, a 

proto také kontrolujeme, zda mezi jednotlivými články nejsou dva stejné nebo 

velmi podobné, a případné duplicity odstraňujeme. 

Nyní je text již připraven k zařazení do korpusu, k jeho plnohodnotnému 

používání však ještě chybí morfologická analýza, desambiguace a lemmatizace. 

I tyto kroky je nutné vzhledem k obrovskému objemu dat dělat automaticky, 

v současné době používáme programy vyvinuté na Úsavu formální a aplikované 

lingvistiky Matematicko-fyzikální fakulty University Karlovy pod vedením 

Jana Hajiče. Na zlepšení výsledků desambiguace pracuje v současné době tým 

Vladimíra Petkeviče na Ústavu teoretické a komputační lingvistiky Filozofické 

Fakulty University Karlovy. Výsledkem všech těchto kroků je tedy nakonec 

anotovaný strukturovaný text ve formátu SGML, ve kterém je ke každému 

slovnímu tvaru přiřazeno jeho lemma (základní slovníkový tvar) a spolu s ním 

také morfologická značka, která vyjadřuje jednoznačnou morfologickou interpretaci 

daného slova, tedy údaj o slovním druhu a v závislosti na něm také 

například o osobě, čísle a času u sloves, stupni u přídavných jmen a příslovcí a 

podobně. 

3. Programové nástroje pro práci s korpusem 

Běžný způsob práce s korpusem, který nabízíme všem našim registrovaným 

uživatelům, je pomocí programu GCQP. Jeho autorem je Pavel Rychlý 

z Fakulty informatiky Masarykovy university v Brně. Uživatelé si ho mohou 

stáhnout z internetových stránek Ústavu Českého náodního korpusu a podle návodu 

nainstalovat na svůj počítač. Jde o klientskou aplikaci napsanou v jazyce 

Tcl/Tk, a tedy přenositelnou mezi jednotlivými operačními systémy, která 

pracuje jak v systémech typu Unix/Linux, tak samozřejmě také pod Windows 

95/98/NT/2000. Práce s korpusem tedy vypadá tak, že uživatel na svém počítači 

spustí program GCQP, který se přes internet připojí k našemu serveru, posílá 

mu požadavky a dostává zpět data, která zpracovává a zobrazuje. Server běží u 

nás v Ústavu Českého národního korpusu pod Linuxem, výkonným jádrem celého 

systému je program CQP (Corpus Query Processor), vyvinutý na univerzi- 

145

MICHAL KŘEN 

tě ve Stuttgartu. Nad tímto jádrem, které zajišťuje vlastní vyhledávání, běží 

ještě program cqsd, který komunikuje s klientskými aplikacemi, předává jejich 

požadavky CQP a posílá zpět výsledky vyhledávání. 

Při práci s korpusem je možné používat bohatý dotazovací jazyk vycházející 

z regulárních výrazů, který umožňuje nejenom vyhledávat jednotlivá slova 

a slovní spojení, ale samozřejmě také při hledání využívat lemmata a morfologické 

značky. Při další práci s konkordančními řádky je možné používat všechny 

běžné funkce, jako jsou například možnost jednotlivé řádky označit a dále s 

nimi pracovat, třídit je, mazat, tisknout a ukládat na disk, dále lze také u každého 

konkordančního řádku zjistit zdrojový text. Velkou výhodou je možnost 

takřka neomezeně rozšiřovat kontext vyhledaného slova nebo slovního spojení 

a v neposlední řadě je třeba zmínit také statistické funkce GCQP – frekvenční 

distribuci a výpočet nejčetnějších kolokací. 

Program CQP byl v době svého vzniku bezesporu jedním z nejlepších 

korpusových nástrojů, které byly k dispozici. Přestože většinou svých parametrů 

stále ještě vyhovuje dnešním požadavkům, některá jeho omezení jsou takového 

charakteru, že je nelze obejít ani pomocí nadstavby, jakou je například GCQP 

nebo cqsd. Protože jsou navíc nejasnosti okolo dalšího vývoje CQP, nebylo by 

z dlouhodobého hlediska vhodné se na něj vázat. Vytvoření zcela nového 

korpusového nástroje se ujal Pavel Rychlý, autor GCQP. Tato nová aplikace, 

používající opět architekturu klient/server a nazvaná Bonito/Manatee, by měla 

v blízké budoucnosti nahradit celý současný systém, založený na CQP. Kromě 

zrychlení vyhledávání by měla odstranit také některá omezení současného systému 

a umožnit tak zejména vytváření virtuálních korpusů a používání strukturních 

značek při vyhledávání, tj. vyhledávání pouze v textech, splňujících 

určitá uživatelem zadaná kritéria. 

4. Závěr 

Další informace o dostupných korpusech a možnostech jejich využívání, 

manuál ke GCQP, popis morfologických značek a jiné lze najít na adrese 

http://ucnk.ff.cuni.cz, kde je možné vyzkoušet také veřejný přístup ke korpusu, 

ovšem s několika poměrně významnými omezeními. Lze totiž vyhledávat 

jedině ve dvacetimiliónovém vyváženém korpusu PUBLIC (jde o menší obdobu 

korpusu SYN2000), a to pouze jednotlivá slova (nikoli tedy slovní spojení), 

dále nelze používat lemmata, morfologické značky ani statistické funkce, a konečně 

je omezen kontext i celkový počet zobrazených konkordančních řádků. V 

146


případě vážnějšího zájmu tedy rozhodně doporučuji stát se naším registrovaným 

uživatelem a získat tak bezplatně plný přístup ke korpusu SYN2000 

bez jakýchkoli omezení. Jedinou podmínkou k jeho získání je podepsání prohlášení 

o nekomerčním využití textů, kromě akademické obce tedy korpus 

může plnohodnotně využívat i široká veřejnost. 

Literatura 

HAJIČ, Jan – HLADKÁ, Barbora. 1997. Probabilistic and Rule-Based Tagger of an Inflective 

Language – a Comparison. In: Proceedings of the Fifth Conference on Applied Natural Language 

Processing. Washington D. C. 

HAJIČ, Jan – HLADKÁ, Barbora. 1998. Tagging Inflective Languages: Prediction of 

Morphological Categories for a Rich, Structured Tagset. In: Proceedings of the Conference COLING 

– ACL ’98. Montreal. 

HLAVÁČOVÁ, Jaroslava. 1998. Technical Insight into Birth of a Corpus. In: P. Sojka – V. Matoušek 

– K. Pala – I. Kopeček (eds.), Proceedings of the First Workshop on Text, Speech and 

Dialogue. Berlin: Springer, s. 55 – 60. 

KOCEK, Jan – KOPŘIVOVÁ, Marie – KUČERA, Karel (eds.). 2000. Český národní korpus – 

úvod a příručka uživatele. Praha: ÚČNK FF UK. 

OLIVA, Karel – HNÁTKOVÁ, Milena – PETKEVIČ, Vladimír – KVĚTOŇ, Pavel. 2000. The 

Linguistic Basis of a Rule-Based Tagger of Czech. In: P. Sojka – I. Kopeček – K. Pala (eds.), Proceedings 

of the Third International Workshop on Text, Speech and Dialogue. Berlin: Springer, s. 3 – 8. 

RYCHLÝ, Pavel. 2000. Korpusové manažery a jejich efektivní implementace. Brno: disertační 

práce FI MU. 

RYCHLÝ, Pavel. 2000. GCQP – Multiplatform Graphical User Interface to the CQP Corpus 

Manager. In: Proceedings of the Ninth EURALEX International Congress. Stuttgart: Institut für 

Maschinelle Sprachverarbeitung, s. 149 – 154. 

147

INFORMÁCIE V TERMINOLOGICKÝCH 

DATABÁZACH A ICH VYUŽÍVANIE PRI 

PREKLADE ODBORNÝCH TEXTOV 

Vlasta Křečková: Fakulta humanitných vied Univerzity Mateja 

Bela, Banská Bystrica 

Abstract: The basic unit of the terminological database is a terminological record, the structure of 

which is formed by three kinds of information. The first group contains information of linguistic nature 

related to the term: grammatical label, pronunciation, orthography, synonyms, abbreviations, context, 

equivalents of the term in different languages etc. The second group is constituted by information of encyclopaedical 

character related to the concept: definition, graphic representation of the concept, subject 

label etc. The third group includes „administrative“ information: term identifier, institution code, source 

identifier documenting the terminological data, as well as documeting the source of particular pieces of 

information etc. Different groups of users of terminological database make use of different terminological 

data, and that to a different extent. The analysis of the results of the translators’ terminological needs 

survey organised in Slovakia in the second half of 2000 by the Section of Terminology and Lexicography 

of the Translators and Interpreters Union in cooperation with the participants of the research project 

VEGA No. 1/7296/20 presents information searched for by the scientific texts translators in the terminological 

dictionaries and databases. 

1. Terminologická databáza a terminologický slovník 

Terminologická databáza (TDB) má veľa spoločného s elektronickým terminologickým 

slovníkom, ale jej koncepcia a využitie sú rozdielne. Terminologická 

databáza predstavuje komplexný súbor informácií o termínoch z ľubovoľnej 

tematickej oblasti v jednom alebo vo viacerých jazykoch. Tento súbor je vytvorený 

a uložený na počítačových médiách vo forme terminologických záznamov, 

pričom jeden terminologický záznam zodpovedá jednému pojmu a je 

spracovaný v jednom jazyku (Machová 1995). Tvorbu terminologických databáz 

umožňujú špeciálne počítačové programy a viaceré programy na počítačovú 

podporu prekladu. Na rozdiel od „tradičných“ terminologických slovníkov 

v elektronickej forme majú terminologické databázy mnohé výhody: aktualizácia 

údajov je veľmi jednoduchá; TDB môže poskytnúť používateľom oveľa viac 

informácií ako terminologický slovník; TDB umožňuje identifikáciu všetkých 

autorov terminologických záznamov a identifikáciu všetkých použitých zdrojov; 

z jednej terminologickej databázy je možné generovať rôzne typy termi- 

148

INFORMÁCIE V TERMINOLOGICKÝCH DATABÁZACH A ICH VYUŽÍVANIE PRI PREKLADE ODBORNÝCH TEXTOV 

nologických slovníkov publikovaných tlačou alebo na elektronických nosičoch 

s rôznou štruktúrou hesiel podľa potrieb cieľovej skupiny používateľov. Prístup 

k informáciám v terminologickej databáze je možný aj priamo z počítačovej 

siete. 

1.1 Tvorba terminologických databáz na Slovensku 

Podľa výsledkov prieskumu terminologických aktivít na Slovensku a v Českej 

republike, ktorý spolu s prieskumom terminologických potrieb organizovala 

v druhej polovici roka 2000 Sekcia terminológie a lexikografie Jednoty tlmočníkov 

a prekladateľov v spolupráci s riešiteľmi projektu VEGA č. 1/7296/20 

Manažment terminologických údajov a možnosti jeho uplatnenia v oblastiach 

poznania a praxe, existujú v súčasnosti na Slovensku viaceré terminologické 

projekty. Ich výstupmi sú najmä tradičné knižné terminologické slovníky, terminologické 

slovníky v elektronickej forme, ale aj terminologické databázy. 1 

Vo Výskumnom ústave práce, sociálnych vecí a rodiny v Bratislave vznikla 

v rámci európskeho programu Consensus II (Phare) databáza termínov z oblasti 

sociálnej ochrany s názvom Glossary and Dictionary of Social Protection 

Terms. Jedným z výstupov tejto TDB, ktorá je spracovaná v programe 

TRADOS, je dvojjazyčný Terminologický slovník z oblasti sociálnej ochrany: 

slovensko-anglický a anglicko-slovenský (European Commission, Consensus 

Program, 2000), ktorý obsahuje 1100 hesiel a nasledujúce informácie: termín 

vo východiskovom a v cieľovom jazyku, skratky, index, príklady a citácie, poznámky, 

definície. Ďalším výstupom projektu je viacjazyčný terminologický 

slovník z oblasti sociálnej ochrany Glossary of Social Protection Terms English-Bulgarian--Macedonian-Romanian-Slovakian 

(European Commission, 

Consensus Program, 2000). 2 

Terminológia vodohospodárstva a ochrany životného prostredia je obsiahnutá 

v TDB realizovanej inštitúciou CEIT Bratislava v databázovom počítačovom 

programe pre knižnice a terminológiu PROFLIB. Spracovaná terminoló- 

1 KŘEČKOVÁ, Vlasta. 2001. Prieskum terminologických aktivít v SR (1. časť). ToP (tlumočení 

– překlad), roč. XII, č. 56, s. 29/1447; KŘEČKOVÁ, Vlasta. 2001. Prieskum terminologických aktivít 

v SR (2. časť). ToP (tlumočení – překlad), roč. XII, č. 58, s.10/1472 – 11/1473. 

2 O projekte informoval v rámci Ankety o terminologických aktivitách v SR doc. PhDr. Rastislav 

Bednárik, CSc. Autori projektu: VEGHTE, Benjamin – SCHMITZ, Klaus Dirk – BEDNÁRIK, Rastislav 

- BUJNOVSKÁ, Daniela – BRUCHÁČOVÁ, Zora – KRIŽKOVÁ, Elena – JAROŠOVÁ, Alexandra 

– ŠEBESTOVÁ, Anna. 

149

VLASTA KŘEČKOVÁ 

gia je publikovaná na CD disku, ktorý obsahuje terminológiu vodného hospodárstva 

(4 411 termínov s definíciami a obrázkami), vodohospodárske normy 

a štvorjazyčný slovník termínov vodného hospodárstva a životného prostredia. 3 

Terminologická databáza, ktorá obsahuje terminológiu z oblasti knižničnej 

a informačnej vedy, vznikla na základe viacročného terminologického výskumu 

na Katedre knižničnej a informačnej vedy Filozofickej fakulty Univerzity 

Komenského v Bratislave. Pri jej tvorbe boli akceptované niektoré zásady 

terminologickej práce obsiahnuté v norme STN ISO 10241 Medzinárodné terminologické 

normy – Tvorba a úprava. Na vytvorenie databázy bol použitý 

databázový systém MS ACCESS. Východiskom pre tvorbu databázy bola jedna 

z posledných počítačových verzií na katedre spracovaného terminologického a 

výkladového slovníka Informačná výchova. Publikovaným výstupom TDB je 

Terminologický slovník z knižničnej a informačnej vedy na CD disku. 4 Všetky 

spracované termíny sú systematicky zaradené do tematických oblastí podľa 

čísla systematického triedenia. Štruktúra hesla (terminologického záznamu), 

ktoré je spracované v slovenčine, je nasledujúca: poradové číslo terminologického 

záznamu, heslový termín v základnom tvare, ekvivalent termínu v angličtine, 

synonymum, skratka, neodporúčaný termín, systematické triedenie, definícia, 

autor záznamu, zdroj a poznámka, ktorá objasňuje použitie termínu, ak je 

to potrebné. Elektronická podoba slovníka umožňuje rýchly prístup k termínom 

niekoľkými spôsobmi. Termíny možno prezerať v základnom súbore v abecednom 

usporiadaní. Ďalej sú vytvorené registre: systematický (termíny sú 

usporiadané podľa systematického triedenia do jednotlivých oblastí), abecedne 

usporiadaný register anglických ekvivalentov termínov a autorský register. Zo 

všetkých registrov sa dá pristúpiť priamo k celým terminologickým záznamom. 

Najrýchlejším prístupom k termínom je vyhľadávanie podľa začiatočného 

reťazca. Tento sa hľadá nielen v poli termín, ale aj v synonymách, neodporúčaných 

termínoch a v skratkách. Terminologická databáza sa v súčasnosti v rámci 

projektu VEGA č. 1/7296 /20 ďalej aktualizuje a rozširuje o ďalšie príbuzné tematické 

oblasti a o ďalšie terminologické informácie. 5 

3 STANČÍKOVÁ, Pavla – ŠMIHLA, Marek. 2000. Multilingual Vocabulary of Water Terms 

EN – SK – HU – RU (Viacjazyčný vodohospodársky slovník ang.-slov.-maď.-ruš.). Bratislava: CEIT. 

4 KRIŠTOFIČOVÁ, Eva – JURČACKOVÁ, Zora – ONDRIŠOVÁ, Miriam. 1999. Terminologický 

slovník z knižničnej a informačnej vedy. Bratislava: Stimul. 

5 Riešiteľmi projektu VEGA č. 1/7296/20 s názvom Manažment terminologických údajov 

a možnosti jeho uplatnenia v oblastiach poznania a praxe sú Eva KRIŠTOFIČOVÁ, Zora JURČAC- 

KOVÁ, Miriam ONDRIŠOVÁ a Vlasta KŘEČKOVÁ. 

150


2. Informácie v terminologickom zázname 

Za základnú jednotku terminologickej databázy sa považuje terminologický 

záznam. Jeden terminologický záznam sa vzťahuje na jeden pojem a jeho 

pomenovanie (termín) a je vytvorený v jednom jazyku. Ak má jeden termín 

viac významov v jednom odbore, resp. v jednej tematickej oblasti, každý pojem 

( ~ význam) je spracovaný na osobitnom zázname. Štruktúru terminologického 

záznamu tvoria tri základné skupiny informácií (Jurčacková 1999, Gouadec 

1990). Do prvej skupiny patria informácie jazykového charakteru, ktoré sa 

vzťahujú na termín: termín (termíny) v základnej forme (synonymá, varianty 

termínu, skrátené alebo úplné formy termínu, symboly, inojazyčné ekvivalenty 

termínu), gramatické informácie, miera akceptovateľnosti termínu, kolokácie, 

antonymá, kontext, odvodené termíny a pod. Druhú skupinu tvoria informácie 

encyklopedického charakteru vzťahujúce sa na pojem: definícia, grafické reprezentácie 

pojmu, identifikátory tematickej oblasti, hyponymá, hyperonymá, encyklopedická 

poznámka a pod. Do tretej skupiny patria „administratívne“ informácie: 

identifikátor termínu, symbol jazyka, dátum vytvorenia terminologického záznamu, 

identifikátor tvorcu záznamu, kód inštitúcie, informácie o zdrojoch, z 

ktorých pochádzajú termíny, ale aj o zdrojoch, z ktorých pochádzajú jednotlivé 

informácie, identifikátor overovateľa správnosti a spoľahlivosti terminologického 

záznamu atď. 

2.1 Informácie jazykového charakteru 

Základnou jazykovou informáciou v terminologickom zázname je heslový 

termín, ktorý sa uvádza vo svojej základnej gramatickej forme. Heslový termín 

býva zvyčajne dokumentovaný kontextom, v ktorom sa vyskytol. Kontext poukazuje 

na existenciu termínu a zároveň termín vysvetľuje (objasňuje). Zohráva 

významnú úlohu aj pri formulovaní definície termínu. V štruktúre terminologického 

záznamu sa k heslovému termínu vzťahujú všetky uvádzané informácie 

jazykového a encyklopedického charakteru. 

Pokiaľ ide o informácie jazykového charakteru, sú to v prvom rade 

gramatické informácie, ktoré sú rôzne podľa charakteru jednotlivých jazykov. 

V slovenčine sa zvyčajne uvádza informácia o slovnom druhu. Z menných charakteristík 

sa uvádza najmä informácia o rode a čísle, prípadne zvláštnosti týkajúce 

sa deklinácie. Gramatické informácie využívajú nielen prekladatelia odborných 

textov, ale aj používatelia databázy, ktorých cieľom je písanie odbor- 

151


ných prác v materinskom alebo aj v cudzom jazyku. Nezanedbateľnou jazykovou 

informáciou sú informácie o variantoch termínu: zemepisné varianty (pri 

termínoch vo svetových jazykoch, ako sú angličtina, španielčina, francúzština a 

pod.; pravopisné varianty alebo morfologické a syntaktické varianty). Ak je výslovnosť 

termínu netypická, je vhodné uvádzať aj informáciu o výslovnosti, 

ktorú uvítajú najmä tlmočníci. 

Pri preklade odborných textov sa javí ako veľmi dôležitá informácia o 

kolokáciách termínu, čiže o spojeniach, v ktorých sa termín v textoch najčastejšie 

vyskytuje. Nedostatočná znalosť kolokácií znižuje vo veľkej miere kvalitu 

prekladu. Vyhľadávanie kolokácií je náročnou činnosťou, ale v súčasnosti ju 

uľahčujú počítačové programy na textovú analýzu a programy na preklad podporovaný 

počítačom. Užitočná môže byť informácia o odvodených termínoch a 

o synonymách. Medzi synonymiou vo všeobecnej slovnej zásobe a v terminológii 

je základný rozdiel. V terminológii sa považujú za synonymá len tie termíny, 

ktoré pomenúvajú ten istý pojem. Aj keď je synonymia v terminológii 

javom nežiaducim, v praxi sa s ňou prekladatelia často stretávajú, najmä pokiaľ 

ide o nové termíny. Preto je vhodné v terminologickom zázname uvádzať informáciu 

o spisovnosti, resp. „akceptovateľnosti“ termínu (termín spisovný, nespisovný, 

odporúčaný, neodporúčaný, zastaraný a pod.) a pokiaľ ide o tzv. 

„čiastočné“ synonymá, špecifikovať oblasť a spôsob ich použitia. Zaujímavá 

môže byť pre prekladateľov informácia o jazykovej štruktúre termínu. 

Cennými informáciami sú informácie o skrátených alebo úplných formách 

termínu a o inojazyčných ekvivalentoch. Pre kvalitu odborného prekladu je 

žiaduce, aby boli inojazyčné ekvivalenty doplnené explicitným vyjadrením 

miery ich ekvivalencie najmä vtedy, ak sa neuvádza pôvodná inojazyčná definícia. 

Ekvivalencia termínov sa realizuje na základe ekvivalencie pojmov, ktoré 

sú v jednojazyčných terminologických záznamoch vyjadrené definíciou. Medzi 

pojmom termínu v jazyku A a pojmom ekvivalentného termínu v jazyku B 

môžu nastať tri základné typy vzťahov. Ekvivalencia pojmov, a teda i termínov, 

môže byť úplná alebo čiastočná. Na čiastočnú ekvivalenciu je potrebné vo viacjazyčných 

terminologických súboroch upozorniť. Avšak môže nastať i situácia, 

že pojem pomenovaný v jednom jazyku nemá v druhom jazyku žiadne pomenovanie. 

V takom prípade môže terminológ utvoriť (navrhnúť) termín pomenúvajúci 

pojem v tom jazyku, v ktorom termín chýba, avšak je potrebné používateľov 

terminologickej databázy na tento fakt upozorniť. 

Jazykové zvláštnosti termínu, ktoré nemohli byť uvedené v rámci žiadnej 

zvolenej jazykovej charakteristiky, bývajú uvádzané v jazykovej poznámke. 

152


2.2 Informácie encyklopedického charakteru 

V štruktúre terminologického záznamu je základnou encyklopedickou 

informáciou definícia. Definícia vyjadruje jazykovými prostriedkami znaky, 

ktorými je vymedzený príslušný pojem, ako aj jeho miesto v sústave pojmov 

tematickej oblasti. Je dôležité, aby sa opis pojmu realizoval pomocou 

známych pojmov a známych jazykových prostriedkov. Východiskom definície 

je logické spektrum pojmu. Podľa medzinárodnej normy ISO 704 je pre terminologickú 

prácu najvhodnejšia tzv. klasická definícia (obsahová, intenzionálna: 

genus proximum + differentiam specificam alebo enumeratívna definícia 

(rozsahová, extenzionálna). Veľká opisnosť pri formulovaní terminologickej 

definície, definovanie vzorcom, číselným údajom, prípadne synonymom, 

kruhové definície alebo tautologické definície sa nejavia byť vhodnými 

definíciami pre terminologickú prax. Okrem jazykového vyjadrenia pojmu 

definíciou môže byť pojem v terminologickom zázname vyjadrený ikonickou 

(nejazykovou) jednotkou, ktorá vyjadruje predstavu ľudí o reálnom objekte 

(obrázok, vzorec, graf). Ilustrácia pojmu by však nemala nahrádzať definíciu 

vyjadrenú jazykovými prostriedkami. 

Ďalšie informácie dôležité pre opis pojmu, ktoré neumožňuje vyjadriť 

štruktúra definície, sa zvyčajne uvádzajú v encyklopedickej (technickej) poznámke. 

Medzi informácie vzťahujúce sa na pojem patrí informácia o tematickej 

oblasti, do ktorej termín patrí. Informácie o antonymách, hyponymách 

alebo hyperonymách umožnia prekladateľovi správne situovať termín v 

štruktúre pojmov danej tematickej oblasti. 

2.3 Administratívne informácie 

Základnými administratívnymi údajmi sú číslo terminologického záznamu, 

dátum tvorby terminologického záznamu a meno alebo kód autora 

(autorov) terminologického záznamu. V prípade potreby môžu byť tieto informácie 

doplnené kódom spoľahlivosti terminologického záznamu, bibliografickými 

údajmi o zdrojoch všetkých informácií uvedených v terminologickom 

zázname, informáciou o kontrole a potvrdení správnosti údajov v terminologickom 

zázname odborníkom, názvom inštitúcie, na ktorej bol terminologický 

záznam vypracovaný, prípadne i menami sponzorov, ktorí podporili 

tvorbu terminologickej databázy. 

153


3. Anketa o využívaní informácií v terminologických databázach a v terminologických 

slovníkoch pri preklade odborných textov 

Rôzne skupiny používateľov terminologickej databázy využívajú v rôznej 

miere jednotlivé terminologické informácie. Analýza výsledkov prieskumu terminologických 

potrieb prekladateľov, ktorý bol realizovaný na Slovensku v 

rámci Jednoty tlmočníkov a prekladateľov, uvádza informácie, ktoré hľadajú v 

terminologických slovníkoch a databázach prekladatelia odborných textov. 

Okrem termínov vo východiskovom a v cieľovom jazyku sú to najmä definície 

termínov, pričom pri dvojjazyčných alebo viacjazyčných terminologických 

súboroch sú žiaduce pôvodné definície v každom zo zastúpených jazykov. Na 

druhom mieste prekladatelia vyhľadávajú informácie o kolokáciách termínu a o 

synonymách. Väčšina prekladateľov dáva prednosť terminologickým slovníkom 

a databázam, v ktorých nájde informáciu o tematickej oblasti, do ktorej 

termín patrí, a informáciu o používaní terminologických skratiek. Prekladateľov 

zaujímajú aj gramatické informácie a informácie o spisovnosti termínu. 

Výsledky uskutočneného prieskumu ukazujú, že len málo prekladateľov sa zaujíma 

o to, z akých zdrojov pochádzajú jednotlivé termíny, prípadne z akých 

zdrojov pochádzajú jednotlivé informácie. Menej sú vyhľadávané informácie o 

výslovnosti termínu, o pôvode termínu, o antonymách, hyponymách a hyperonymách. 

Veľmi málo prekladateľov hľadá v terminologickom slovníku grafické 

reprezentácie pojmov, jazykové a encyklopedické poznámky, kontexty a informáciu 

o miere ekvivalencie inojazyčných termínov. 6 

V súvislosti s preberaním technických a iných noriem a ich prispôsobovaním 

európskym alebo svetovým normám, ako i v súvislosti s aproximáciou 

práva právu krajín Európskej únie a vzhľadom na stále intenzívnejšie kontakty 

slovenských inštitúcií a podnikov so zahraničím sa zvyšujú nároky na kvalitu 

prekladov odborných textov. Kvalitné pomôcky (terminologické slovníky alebo 

terminologické databázy) môžu v mnohom uľahčiť prekladateľom odborných 

textov ich náročnú a zodpovednú prácu. 

Tvorba veľkých terminologických databáz je činnosťou náročnou na 

materiálne a ľudské zdroje a vyžaduje si spoluprácu odborníkov z jednotlivých 

tematických oblastí s odborníkmi terminológmi a informatikmi. Možnosti využitia 

kvalitných terminologických databáz sú však veľké. Okrem odborného 

6 KŘEČKOVÁ, Vlasta – DOVČIAKOVÁ, Anna. 2001. Analýza terminologických potrieb prekladateľov 

na Slovensku. ToP (tlumočení – překlad), roč. XII, č. 59, s. 12/1510 – 13/1511. 

154


prekladu zohrávajú terminologické databázy dôležitú úlohu pri normalizácii 

termínov, v dokumentácii, pri organizácii poznania. Viacjazyčná terminologická 

databáza je dôležitým nástrojom úspešnej komunikácie v rozvinutej viacjazyčnej 

informačnej spoločnosti. 

Literatúra 

BESSÉ, Bruno (de). 1992. Cours de terminologie. Genève: ETI Université de Genève. 

CABRÉ, Maria Teresa. 1998. La terminologie. Théorie, méthode et applications. Paris – 

Ottawa: Armand Colin – Les Presses de lÚniversité dÓttawa. 

GOUADEC, Daniel. 1990. Terminologie. Constitution des données. Paris: Afnor Gestion. 

GOUADEC, Daniel. 1997. Terminologie et Phraséologie pour Traduire. Paris: La Maison du 

Dictionnaire. 

JURČACKOVÁ, Zora. 1999. Viacnásobné využitie terminologických údajov. In: Zborník 

Filozofickej fakulty Univerzity Komenského. Knižničná a informačná veda, roč. XVIII. Bratislava: 

Univerzita Komenského. 

MACHOVÁ, Svatava. 1995. Terminografie. In: František Čermák – Renata Blatná (eds.). 1995, 

Manuál lexikografie. Nakladatelství H&H, s. 137 – 157. 

MASÁR, Ivan. 1991. Príručka slovenskej terminológie. Bratislava: Veda SAV. 

Medzinárodné terminologické normy. Tvorba a úprava. STN ISO 102 41, január 2000. 

Principes et méthodes de la terminologie. ISO 704, 1997 (F). 

155

PROJEKT SLOVNÍKA ŠTÚROVSKEJ 

SLOVENČINY A JEHO POČÍTAČOVÁ 

PODPORA 

Ľubomír Kralčák: Katedra slovenského jazyka, Filozofická fakulta 

Univerzity Konštantína Filozofa, Nitra 

Abstract: The specificity of the dictionary of the Slovak language from the Štúr period lies in the fact 

that it is a historical dictionary whose lexical basis is defined by the texts originated in a relatively exactly 

confined period, i.e. more or less in the first half of the nineteenth century. The conception of the 

project requires that the following problems are considered: the specification of the Štúr Slovak texts 

canon (for example, the question whether only the printed texts or also unpublished manuscripts will be 

included), then to what extent new words occurring in the work of only one author and displaying signs 

of being occasional words (which means that they have not occurred in any other periods of the existence 

of the Standard Slovak) can be included in the database, how to include the tautonyms (dialectical 

synonyms) reflecting a momentary state of the emerging Štúr Slovak, how to assess the words which, in 

spite of their occurrence in some texts, were linguistically refused by the contemporary criticism as inappropriate 

or un-Slovak, as well as some other specific problems. 

In the lexicographic work at this dictionary we expect to make a significant use of computer technology. 

The building of an electronic corpus of texts has already begun. So far the corpus has reached approximately 

half a million of verbal forms, although our aim is to reach the final size of 15 million verbal 

forms. As a significant contribution of the computer technology can be considered, among other things, 

also the fact that - having in mind the possibility of a relatively exact specification of the Štúr Slovak 

text inventory - within individual entries it will be possible to give a frequency index of the word as 

well. This would solve the problem of the occasional words, that is neologisms with low frequency rate. 

Je celkom prirodzené a samozrejmé, že lexikografia a informatika našli 

veľmi rýchlo spoločnú oblasť záujmu. Preto sa dnes stáva takmer nemysliteľné 

uvažovať o tvorbe akéhokoľvek slovníka bez využitia počítačovej technológie. 

Takéto využite sa dnes stáva bežnou praxou i v slovenskej lexikografii a uplatnilo 

sa pri zostavovaní Historického slovníka slovenského jazyka, Slovníka 

slovenských nárečí, Krátkeho slovníka slovenského jazyka, Synonymického 

slovníka slovenčiny i slovníkovej časti Pravidiel slovenského pravopisu. V niektorých 

prípadoch išlo, ako je známe, o konvertovanie tzv. papierovej podoby 

ručne spracovaných lexikografických údajov na elektronickú lexikálnu databázu 

(porov. napr. Benko 1992, Jarošová 1997). Posledné tri menované slovníky 

má možnosť využívať široká verejnosť aj v elektronickej podobe ako tzv. počítačové 

slovníky na kompaktnom disku. 

156

PROJEKT SLOVNÍKA ŠTÚROVSKEJ SLOVENČINY A JEHO POČÍTAČOVÁ PODPORA 

Ak sa dnes pozrieme na celé dlhé obdobie fungovania slovenčiny ako 

spisovného alebo aspoň písaného (literárneho) jazyka, zreteľne sa ukazuje, že 

lexikograficky je najskromnejšie spracované obdobie štúrovskej spisovnej 

slovenčiny. Slovník štúrovskej slovenčiny (SŠS) je dávnejšie zamýšľaný projekt 

na nitrianskej Katedre slovenského jazyka. Pôvodné predstavy sa však predtým 

nepremietli do konkrétnej realizácie, neboli začaté práce na zhromažďovaní 

jazykového materiálu, ba nebol načrtnutý ani špecifikovanejší postup či rozsah 

lexikografických prác. V súčasnosti tu však projekt slovníka nadobúda zreteľnejšie 

kontúry, pričom podstatný vplyv na jeho oživenie malo to, že sa vyskytli 

nové možnosti, ktoré ponúka využitie počítačovej podpory pri zbieraní a lexikografickom 

štruktúrovaní jazykového materiálu. 

Projekt SŠS predpokladá tri okruhy prác: zhromažďovanie jazykového 

materiálu, lexikografická analýza textov a vytvorenie lexikálnej bázy dát. 

l. Zhromažďovanie jazykového materiálu 

Táto etapa lexikografickej práce má dva aspekty: lingvistický a informatický. 

Lingvistická stránka zahŕňa v prípade SŠS potrebu riešenia otázok periodizácie 

štúrovskej slovenčiny a vymedzenia pramennej základne slovníka. 

Informatická stránka sa týka predovšetkým problematiky elektronického zápisu 

textov. 

1.1 Problém periodizácie štúrovskej slovenčiny a vymedzenia pramennej 

základne 

1.1.1 Vertikálne vymedzenie inventára textov (periodizácia) 

Pri skúmaní vývinového úseku v dejinách slovenčiny, ktorý sa všeobecne 

nazýva štúrovská slovenčina, sa ukazuje ako jeden zo základných problémov 

presnejšie časové ohraničenie tohto úseku. Časové ohraničenie potom, samozrejme, 

rozhoduje o rozsahu textového materiálu zahrnutého pod takéto periodické 

vymedzenie. Z tohto hľadiska však vzniká aj ďalší problém, a to časový 

nesúlad pri vymedzovaní pojmov štúrovské obdobie a štúrovská slovenčina. 

Štúrovské obdobie vymedzuje E. Pauliny (1983, s. 175), a to v lingvistickom 

zmysle slova tridsiatymi a štyridsiatymi rokmi minulého storočia. Za spodnú 

hranicu pokladá rok 1834, resp. 1835, keď sa objavili prvé básne písané zámerne 

strednou slovenčinou (Chalupka 1834, Kuzmány 1835). Hornú hranicu pod- 

157

ĽUBOMÍR KRALČÁK 

ľa neho udáva rok 1852, keď vyšla Hattalova Krátka mluvnica slovenská. Naproti 

tomu napr. J. Furdík (1971, s. 23) ohraničuje štúrovské obdobie štúrovskou 

kodifikáciou – podľa neho rok 1843 (ako spodná hranica) – a koncom 

päťdesiatych rokov, t. j. do r. 1860. 

Uvedené vymedzenia štúrovského obdobia sa teda rozchádzajú v stanovení 

hornej i dolnej hranice, pričom sa pracuje aj s takým výrazným periodizačným 

pojmom, akým je kodifikácia. Lingvistické vymedzenie štúrovského obdobia 

bude teda iné z hľadiska kodifikácie a iné z hľadiska výskytu textov písaných 

v štúrovskej (resp. strednej) slovenčine. Naše riešenie vertikálneho vymedzenia 

pramennej základne smeruje k maximalizácii, teda k vyčleneniu čo najširšieho 

inventára textov, aby sa nestratili niektoré vzácne jazykové prostriedky. 

To predpokladá posunúť predovšetkým dolnú časovú hranicu pred kodifikáciu 

štúrovskej slovenčiny. 

1.1.2 Horizontálne vymedzenie inventára textov 

Pokiaľ ide o vymedzenie šírky pramennej základne, ani tu, ako sa ukazuje 

v predbežných diskusiách, sotva nastane všeobecná zhoda. Ak by aj bola zhoda 

v periodizačnom ohraničení štúrovčiny, zostáva zatiaľ nevyjasnená otázka, či 

do korpusu textov zaradiť aj rukopisné štúrovské texty, teda aj texty nepublikované. 

Vzhľadom na prirodzený dokumentačný charakter zamýšľaného 

slovníka predpokladáme do korpusu zaradiť aj niektoré významnejšie rukopisné 

pamiatky, napr. texty levočských štúrovcov. 

1.2 Informatický aspekt (tvorba korpusu) 

Informatickú stránku zhromažďovania jazykového materiálu predstavuje 

proces, ktorý možno charakterizovať ako vytváranie textového korpusu štúrovskej 

slovenčiny. Ide o kroky, ktoré sme už začali realizovať. Z dvoch možností 

prepisovania textov do elektronickej podoby, a to pomocou textového editora 

alebo pomocou optického snímača znakov, sme zvolili prvý postup, pretože 

optické snímanie strácalo svoju efektivitu pre množstvo chýb, ktoré vznikali 

najmä v dôsledku menej kvalitnej tlače spracovávaného materiálu. Doteraz vytvorený 

elektronický korpus textov má zatiaľ rozsah približne pol milióna 

slovných tvarov, pričom náš plán je vytvorenie cieľového korpusu v rozsahu 

najmenej 15 miliónov slovných tvarov s takýmto členením textov: 

I. umelecký štýl 

158

PROJEKT SLOVNÍKA ŠTÚROVSKEJ SLOVENČINY A JEHO POČÍTAČOVÁ PODPORA 

II. publicistický štýl 

III. odborný štýl. 

Tieto tri sféry predstavujú reálne funkčnoštýlové rozpätie štúrovskej 

spisovnej slovenčiny. Oproti stavu v dnešnej slovenčine je tu zreteľná najmä 

absencia administratívnej a právnej lexiky. 

2. Lexikografická analýza 

V rámci lingvistického prístupu k zostavovaniu SŠS je potrebné riešiť 

viaceré špecifické lexikografické problémy: 

Do rámca špecifickej diskusie zatiaľ patrí otázka, či súčastou lexikálnej 

bázy slovníka majú byť aj také novotvary, ktoré vykazujú znaky okazionálnych 

jazykových prostriedkov. Ide nielen o slová s neprehľadnou slovotvornou 

štruktúrou, resp. s nejasným významom, ale aj o nové slová, ktoré sa objavia 

iba raz alebo iba u jedného autora. V tejto súvislosti ide predovšetkým o niektoré 

texty M. M. Hodžu (porov. napr. Větín o slovenčine, Dobruo slovo Slovákom 

súcim na slovo). Na ilustráciu možno uviesť napr. slová ako majeť (majetok), 

osobňivec (sebec), ťäžkulavať si (ponosovať sa), živoch (živočích) a pod. 

Sem patrí aj pokus M. Godru (porov. 1851, s. 95 – 103, 115 – 121) o zavedenie 

novej slovenskej odbornej terminológie z oblasti logiky, geometrie, 

matematiky a techniky, ale aj pomenovania z oblasti všeobecných abstraktných 

pojmov. Z týchto navrhnutých termínov (spolu okolo 700 odborných výrazov) 

sa v neskoršom vývine ujal iba zlomok, no Godrov „slovníček“ je pozoruhodný 

najmä preto, že sa v ňom nahrádzajú cudzie, zväčša latinské, ale aj české odborné 

termíny slovenskými novotvarmi (napr. rozväzba „analýza“, odlusk „odbor“, 

odsamnina „unikát“ a pod.). 

Ďalšou špecifickou otázkou je výskyt tautoným. Ľ. Štúr pripúšťal obohacovanie 

lexikálneho fondu spisovnej slovenčiny z viacerých slovenských nárečí, 

preto sa napr. v Slovenských národných novinách objavujú nárečové synonymá 

ako zemjaki, švábka, krumple. 

Iným špecifickým problémom je kritika jazykovej kultúry niektorých textov, 

ktorá odmieta už použité výrazy ako nesprávne, napr. Štúrova recenzia 

spisu S. Vozára Hlas od Tatjer (porov. Štúr, 1851, s. 182 – 185). Ľ. Štúr ostro 

odmieta v tomto spise použité cudzie slová ako napr. princíp (namiesto neho 

navrhuje už prijaté slovo zásada), charakter (navrhuje ráz), organizácia (odporúča 

ustrojenosť, ústrojnosť) a pod. 

159

ĽUBOMÍR KRALČÁK 

Informatická stránka tejto etapy spracovania jazykového materiálu predpokladá 

využitie softvéru na vytvorenie kódovanej podoby korpusu textov. V 

rámci nášho projektu sme zatiaľ skúšobne použili program WordCruncher. Za 

významný prínos počítačovej podpory pokladáme napr. aj to, že vzhľadom na 

možnosť pomerne presného vymedzenia inventára textov štúrovskej slovenčiny 

(počet a rozsah textov dovoľuje ich takmer úplné elektronické spracovanie) 

bude možné v hesle uvádzať aj index frekvencie slova, čím by sa vyriešila napr. 

otázka okazionalizmov, resp. málo frekventovaných novotvarov. 

3. Vytvorenie lexikálnej bázy dát 

Táto etapa predstavuje elektronické kódovanie informačných kategórií pri 

súčasnom uplatnení štandardnej lexikografickej analýzy. Na budovanie jednotlivých 

hesiel bude potrebné použiť aj taký špecifický počítačový program, ktorý 

bude umožňovať vstup do databázy cez viaceré parametre hesla, teda napr. cez 

gramatickú charakteristiku, štylistický kvalifikátor a pod., a zároveň bude 

slúžiť na výrazné zefektívnenie prípravy slovníka do tlače. Pri použití tohto 

programu predpokladáme nevyhnutnú spoluprácu s inými pracoviskami – 

predovšetkým s Laboratóriom počítačovej lingvistiky Pedagogickej fakulty UK, 

ale aj s Jazykovedným ústavom Ľ. Štúra SAV. 

Literatúra 

BENKO, Vladimír. 1992. (Neskorá) počítačová podpora lexikografického projektu: Slovník 

slovenských nárečí. In: Zápisník slovenského jazykovedca, roč.11, s. 25 – 26. 

FURDÍK, Juraj. 1971. Zo slovotvorného vývoja slovenčiny. In: Acta Facultatis Philosophicae 

Universitatis Šafarikanae Prešovensis. Spoločenský zošit 7. Bratislava: SPN. 

GODRA, Michal. 1851. Príňesok ku vedecko-slovenskjemu názvoslovú. Slovenskje Pohladi, 

roč. II, č. 3, s. 95 –103 a č. 4, s. 115 – 121. 

JAROŠOVÁ, Alexandra. 1997. Lexikografia a počítače – slovenský variant. In: S. Ondrejovič 

(ed.), Slovenčina na konci 20. storočia, jej normy a perspektívy. Sociolinguistica Slovaca 3. 

Bratislava: Veda, s. 304 – 311. 

PAULINY, Eugen. 1983. Dejiny spisovnej slovenčiny od začiatkov po súčasnosť. Bratislava: 

SPN. 

ŠTÚR, Ľudovít. 1851. Úvahy o spise Hlas od Taťjer. Slovenskje Pohladi, roč. I., č. 5, s. 182 – 

185. 

160

NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE 

Karel Pala: Katedra informačních technologií, Fakulta informatiky 

Masarykovy university, Brno (pala@fi.muni.cz) 

Abstract: In the contribution we describe a framework in which we plan to build a representative 

Czech lexical database (CLD) that could serve as a base for the new representative Czech dictionary. It 

should be also used as a resource for the partial knowledge representation in various NLP applications. 

Within CLD the following basic units have to be considered: single lemmata: dům (house) as well as 

standard collocations like vysoká škola (university). The assumed size of CLD is approximately 60 000 

entries and 105 000 meanings, We intend to pay a special attention to the verbs that should represent 

about one third of all entries. 

1. Úvod 

Cílem příspěvku je představit koncepci české lexikální databáze (CLD), 

z níž by v blízké budoucnosti mohl a měl vzejít i nový reprezentativní slovník 

současné češtiny. Danou koncepci chápeme jako východisko pro budování reprezentativní 

CLD, která by měla sloužit jako zdroj lexikální informace pro češtinu 

a také jako dílčí reprezentace znalostí v různých aplikacích v oblasti počítačového 

zpracování přirozeného jazyka (dále NLP) (Ingria, Boguraev, Pustejovsky, 

1992). 

Základními jednotkami v CLD mohou být buď jednotlivá lemmata jako 

dům, nebo standardní kolokace jako např. vysoká škola (=univers/zita). Předpokládaný 

rozsah navrhované CLD je přibližně 50 000 hesel. Na prvním místě 

bychom se rádi maximálně soustředili na česká slovesa, tj. předpokládáme, že 

počet zpracovávaných sloves by se měl pohybovat kolem 20 000 (podle našeho 

odhadu je v češtině asi 40 000 sloves). Orientace na slovesa vychází z faktu, 

že slovesa reprezentují v přirozených jazycích hlavní relační prvky, které na 

sebe vážou ostatní prvky, většinou substantiva. 

I když jsme si vědomi toho, že víceúčelové, plně univerzální slovníky jsou 

do značné míry problematické, rádi bychom se pokusili o budování databáze, 

která by obsahovala co nejvíce dostupných údajů o současné češtině. 

2. Výchozí struktura CLD 

161

KAREL PALA 

Lze ji popsat pomocí vhodného datového typu, tj. DTD, který bude na základě 

dosavadních zkušeností definován v XML (k tomu např. Pala – Pavelek 

2001) a tvořen následujícími poli (fields, viz např. Faber – Usón 1999): 

a1) o zvukové struktuře výrazů konstituujících 

dané heslo. To ve skutečnosti znamená, že budeme usilovat o vybudování 

(paralelní) řečové databáze pro češtinu, která bude představovat soubor 

dat vhodných pro tvorbu algoritmů schopných zpracovávat řečové signály, tj. 

např. algoritmů pro syntézu a rozpoznávání řeči, včetně rozpoznávání a verifikaci 

mluvčích. Data v řečové databázi lze vhodně napojit na ostatní data v lexikální 

databázi. V tomto směru bude třeba vyřešit některé zajímavé problémy: 

konkrétně, jednotlivé slovní tvary se budou muset generovat modulem pro řečovou 

syntézu, protože je prakticky nemožné charakterizovat všechny tvary všech 

slov v lexikální databázi – v češtině existuje přibližně 5,5 milionů slovních tvarů. 

a2) o struktuře hesla (heslového slova) – představuje 

informaci o slovním druhu a všech příslušných gramatických kategoriích 

s ním spojených plus údaje o základní segmentaci. U substantiv to lze zajistit 

uvedením , protože počítáme 

s tím, že morfologický analyzátor/generátor AJKA bude integrován do CLD 

(Sedláček 1999) tak, že poskytne morfologickou informaci dynamicky na požádání. 

U sloves to standardně zahrnuje 8 kategorií (atributů): , 

, , , , , a . Jejich hodnoty lze získávat dynamicky skrze . Je patrné, že tuto informaci bude možno z morfologického 

analyzátoru/generátoru získávat podobným způsobem jako u substantiv. 

V samostatném podpoli lze mít i relevantní informaci slovotvornou, která zachytí 

relevantní a formálně zachytitelné vazby/vztahy mezi příslušnými heslovými 

slovy včetně zachycení jejich sémantické povahy, vztahů mezi slovními 

druhy a vztahů slovotvorných (včetně směru fundace) jako např. řetězce typu: 

práce pracovat, tj. v konečném úhrnu celé slovotvorné čeledi. Plyne z toho 

potřeba co možná formálně formulovat slovotvorná pravidla (viz níže např. 

Klímová – Pala, 2000). Lze tu vyjít z dřívějších popisů slovotvorných procesů 

(Dokulil 1962), je však potřeba doplnit je a modifikovat tak, aby byly použitelné 

pro reprezentaci znalostí. 

a3) , kde pro každý z významů bychom rádi uvedli následující 

údaje: 

162


a3.1) jež lze přiřadit heslovému slovu – nabízí se možnost 

použít hierarchický soubor sémantických rysů založený např. na vrcholové 

ontologii (Top Ontology) vyvinuté v rámci projektu EuroWordNet a 

hypero/hyponymických (H/H) hierarchických strukturách (stromech či grafech) 

nebo jejich částech (podstromech nebo shlucích) (Vossen 1999). Je třeba zvážit 

a rozhodnout, jak velké části stromů či podstromů lze použít – podle našeho 

odhadu lze počítat, že rozumný počet použitých uzlů se může pohybovat kolem 

5, 

a3.2) a se uvedou ve všech substantivních heslech, u nichž to 

dává dobrý smysl. V dosavadních slovnících představuje informace o genu 

proximum první část slovníkové definice. Rozlišovatele představují jistý problém: 

je velmi obtížné je uchopit formálně. Lze to doložit faktem, že jednotlivé 

slovníky se mezi sebou nejvíce liší právě v tom, jak uvádějí rozlišovatele – existuje 

jen částečná shoda v tom, které rozlišovatele by měly nebo neměly být vybrány 

a začleněny v jednotlivých heslech. 

a3.3) – u sloves se definice typu genus proximum dají 

použít jen pro jejich určitou část, proto u nich navrhujeme uvádět informaci 

o sémantické třídě, do níž dané sloveso patří. V tomto ohledu připravujeme sémantickou 

klasifikaci českých sloves podobnou té, kterou pro angličtinu navrhla 

Levinová (Levin 1995). Je ovšem třeba vzít v úvahu, že v češtině je vybudování 

takové sémantické klasifikace spojeno s některými komplikacemi způsobenými 

primárně existencí kategorie vidu (díky níž se česká slovesa vyskytují ve 

dvojicích. Na druhé straně je ovšem vidět, že sémantické třídy sloves mají těsný 

vztah k valenčním rámcům sloves (a slovesným rámcům obecně). Tyto vztahy 

bychom chtěli v databázi rovněž zachytit. 

a3.4) , které lze najít pro dané heslo (lexikální 

jednotku, lemma). Důvod pro použití synonymických řad (synsets) plyne ze 

skutečnosti, že vztah synonymie (a antonymie) může sloužit jako jeden z mála 

relativně spolehlivých způsobů, jimiž lze charakterizovat význam lexikálních 

jednotek. Proto se s nimi běžně pracuje ve standardních slovnících. 

a4) o kombinatorických vlastnostech hesla a výrazech, 

které se s ním pojí. Je zřejmé, že syntaktické vlastnosti dané lexikální 

jednotky úzce souvisí s jejím konkrétním významem a odlišují je od ostatních 

významů. Informace uvedená v tomto poli bude zachycena prostřednictvím 

pro všechny slovní druhy, u nichž to má smysl, tj. u 

163

KAREL PALA 

sloves, substantiv, adjektiv, číslovek a některých adverbií. Je evidentní, že v 

tomto ohledu musíme rozlišit formálně syntaktické (povrchové) valenční rámce, 

jež v češtině zahrnují kombinatorickou informaci o sedmi (šesti) morfologických 

pádech, případně informaci další, a hloubkové (sémantické) valenční 

rámce obsahující potřebné údaje o sémantických pádech (rolích), které jsou vyjadřovány 

povrchovými pády. Příklad notace propojující syntaktické a sémantické 

valence je uveden níže, je však třeba pokládat ji za předběžnou, dokud 

nebude stanoven finální inventář hloubkových pádů pro češtinu (viz např. Sgall 

et al.1986, též Fillmore – Atkins 1998, s. 417 – 423, ). 

To ale není všechno, podle našeho názoru bude užitečné začlenit do valenčních 

rámců i vhodné konkrétní lexikální údaje. Pro aplikace v oblasti NLP 

nestačí znát jen odpovídající hodnoty morfologických (povrchových) pádů, ale 

i jejich lexikální „obsazení“, což lze doložit např. relevantním rozdílem mezi 

dvěma akuzativy v držet v ruce knihu a držet tvar. Dá se argumentovat, že sémantické 

valence by měly zachytit tyto významové diference, nezachycují ovšem 

přímo, jaké lexikální obsazení se skrývá za jednotlivými sémantickými 

pády. Tento druh informace může být velmi užitečný pro praktické aplikace a z 

tohoto důvodu pokládáme za výhodné mít je v CLD v explicitní podobě. 

a5) , tj. kontexty typické pro dané heslo, např. hezká 

dívka nebo šikovný chlapec apod., jak patrno, lze je získat z korpusu, 

a6) , např. držet nůž v ruce, otočit hlavu, 

obrátit stránku, rovněž je můžeme získat z korpusových textů, 

a7) doplněné o vhodnou subklasifikaci beroucí v úvahu jejich 

sémantické i syntaktické vlastnosti. Např. je vidět, že slovesné kolokace by 

měly být klasifikovány ve shodě s již zmíněnými sémantickými třídami sloves. 

Podobné postupy lze uplatnit i u substantivních kolokací, ale jsme si vědomi 

toho, že tento úkol bude vyžadovat rozsáhlá korpusová data a jejich pracnou 

analýzu. Dobrým východiskem tu může být Slovník české frazeologie a idiomatiky 

(Čermák et al. 1983 – 1994). 

a8) – sem patří dostatečně strukturované údaje 

o stylistických vlastnostech heslového slova včetně informace o regionálním 

výskytu a sociálních aspektech. Počítáme však jen s uvedením základních informací 

tohoto druhu. 

a9) – tj. stručná etymologická informace vztahující se k danému 

heslovému slovu, 

a10) – zde bude uveden údaj o logickém typu heslového 

slova, jak se s ním pracuje v transparentní intensionální logice (TIL) (Materna 

164


2000, Pala 2000). Typy v TIL-u jsou budovány na základě rozvětvené teorie typů 

a mohou tak vést k formálně konzistentnějším sémantickým reprezentacím výrazů 

přirozeného jazyka (češtiny). To podle našeho názoru spolu s hierarchickými 

hypero/hyponymickými strukturami umožní využívat posléze údaje z 

CLD v systémech pro reprezentaci znalostí. Za samostatný úkol pokládáme 

stanovení vztahů mezi vrcholovou ontologií, jak byla definována v projektu 

EuroWordNet 1,2, a typovou ontologií definovanou v rámci TIL. To by mělo 

poskytnout přesnější a méně arbitrární sémantickou klasifikaci, umožnit konzistentnější 

vymezení sémantických hierarchií, sémantických vztahů a sémantických 

rysů. Jsme si vědomi toho, že tyto pokusy budou spojeny s určitými 

problémy, např. mohou být aplikovatelné jen pro některá hesla a jen pro některé 

slovní druhy (slovesa, substantiva, adjektiva, adverbia). 

a12) – mohou být začleněny do CLD zejména 

u hesel, u nichž je to vhodné či přímo potřebné z hlediska možných NLP aplikací. 

To např. platí o heslech, která se vztahují k informačním technologiím, ale i 

mnoha dalším oblastem. Otázka je, zda usilovat o integrování encyklopedických 

informací přímo do CLD nebo zvolit pragmatický postup a jen volně napojit 

současné encyklopedické zdroje (slovníky) na CLD. V příkladech níže uvádíme 

náznaky příkladů, které předpokládají integraci encyklopedických údajů do CLD. 

3. Zdroje pro CLD 

Situace je příznivá v tom, že nyní jsou k dispozici Český národní korpus 

(ČNK na FF UK v Praze) a korpus ESO (na Fakultě informatiky Masarykovy 

university, Brno) – můžeme tedy počítat s tím, že budování CLD bude založeno 

hlavně na těchto dvou zdrojích. Dále počítáme s následujícími zdroji, konkrétně 

s existujícími českými slovníky: 

– akademický Slovník spisovného jazyka českého (1960) (v elektronické 

podobě), , 

– střední Slovník spisovné češtiny (1984) (v elektronické podobě). 

Přirozeně budou použity i další vhodné zdroje, tj. vhodné existující slovníky, 

zejména terminologické. Je také potřeba ustavit skupinu odborníků (readers), 

kteří by spolupracovali na získávání terminologických a zejména dalších 

dat, u nichž je zřejmé, že se nenajdou v korpusu. Má-li se začít pracovat na 

novém slovníku češtiny, práce na něm se bez této skupiny neobejdou. 

4. Nástroje 

165

KAREL PALA 

Nedávné výsledky získané u nás v oblasti NLP na Universitě Karlově 

(v Ústavu Českého národního korpusu, Ústavu formální a aplikované lngvistikyMatematicko-fyzikální 

fakulty a Ústavu teoretické a aplikované lingvistiky 

filozofické fakulty) v Praze a v Laboratoři zpracování přirozeného jazyka na 

Fakultě informatiky MU v Brně poskytují základní soubor nástrojů, jichž lze 

použít při budování CLD. 

Konkrétně jde o morfologický analyzátor a generátor AJKA, syntaktické 

analyzátory (DIS a GT, Žáčková – Popelínský – Nepil 2000, Horák – Smrž 

2000), desambiguátory (Oliva – Petkevič et al. 2000, Hajič 2001), korpusový 

manažer Manatee a grafické rozhraní GCQP využívající architektury klient-server 

(Rychlý 2000), slovníkový prohlížeč a editor využívající XML formátu, jenž 

může pracovat s libovolným slovníkem konvertovaným do XML formátu (Karásek 

2000). Vedle toho je k dispozici editor a prohlížeč VisDic, který je určen pro 

lokální práci s lexikálními databázemi typu WordNet, ale může pracovat i s jakýmikoli 

dalšími slovníky, pokud jsou uloženy ve formátu XML (Pavelek 2001). 

Další nástroje zahrnují různé konverzní programy, programy pro budování, 

údržbu a editování korpusů (Veber 2001), heuristické programy pro získávání 

valenčních rámců z korpusových textů. Samostatným nástrojem je i_par (Veber 

2001), což je automatizovaná morfologická databáze, na niž budou navazovat 

programy pro automatické odvozování slov (Sedláček 2001) schopné v blízké 

budoucnosti pracovat s derivačními řetězy jako učit – učení – učitel – učitelka 

– učený – učenec – výuka atd. Je potřeba rozhodnout, zda data tohoto typu 

mají být zahrnuta do CLD přímo, nebo by se měla získávat dynamicky ze samostatného 

morfologického modulu (viz např. Klímová – Pala 2000). Tento 

bod byl dotčen již výše v souvislosti s morfologickými údaji pro jednotlivá hesla. 

5. Závěry 

V tomto krátkém příspěvku jsme prezentovali výchozí zásady, od nichž se 

může odvíjet budování České lexikální databáze. Jsme si vědomi, že některé 

probírané body bude potřeba propracovat hlouběji a systematičtěji, máme-li dospět 

k plně aplikovatelným výsledkům. Příklady hesel uvedené níže je proto 

třeba v řadě ohledů chápat spíše jako experimentální skeletony než jako úplná 

hesla. Jsme však přesvědčeni, že popsané techniky, zdroje a nástroje nám 

umožní posléze dosáhnout vytčeného cíle. 

5.1 Příklady 

166

Jako příklad uvádíme heslo pro držet (počítáme s formátem XML): 


 

 

 

KAREL PALA 

(roztřídit podle typů) 

 

 

> 

> 

 

 

 

%(ve stylu EWN) 

 

> 

 

 

 

%(Ve stylu EWN) 

 

 

 

 


168


 

 

 

 

%(ve stylu EWN) 

 

 

KAREL PALA 

 

> 

 


 

 


%(příklady z korpusu) 

%(+ sémantická třída kolokace) 

 

 

 

> 

 

 

 

 

%ve stylu EWN 



 

 

 

> 

 

 

 

 

%ve stylu EWN 



 

 

 

 

 

171

KAREL PALA 

%ve stylu EWN 



 

 

 

> 

 

 

 

 

%ve stylu EWN 



 

 

 

 

Literatura 

ČERMÁK, F. et al. 1983 – 1994. Slovník českých frazeologie a idiomatiky. Praha: Academia. 

DOKULIL, M. 1962. Tvoření slov v češtině. Praha, Academia. 

FABER, P. – USÓN R. M. 1999. Constructing a Lexicon of English Verbs, Berlin – New York: 

de Gruyter. 

FILLMORE, Ch. – ATKINS, B. 1998. FrameNet and Lexicographic Relevance, In: A. Rubio – 

N. Gallardo – R. Castro – A. Tejada (eds.), Proceedings of the First National Conference on 

Language Resources and Evaluation, vol. 1, Paris: ELRA, s. 417 – 423. 

HAJIČ, J. et al. 2001. Prague Dependency Tree Bank, CD ROM. v. 1.0, Praha: ÚFAL MFF 

UK. 

INGRIA, R. – BOGURAEV, B. – PUSTEJOVSKY, J. 1992. Dictionary/Lexicon. In: S. C. 

Shapiro (ed.), Encyclopedia of Artifical Intelligence. New York: John Wiley, s. 341 – 365. 

KARÁSEK, L. 2000. Systém pro tvorbu a presentaci vícejazyčných a výkladových slovníků. 

Diplomová práce. Brno: Fakulta informatiky MU. 

KLÍMOVÁ, J. – PALA, K. 2000. Application of WordNet ILR in Czech Word-formation. In: 

Proceedings of LREC Conference. Athens: ELRA, s. 987 – 991. 

LEVIN, Beth. 1995. English Verb Classes and Alternations. Chicago: The University of 

Chicago Press. 

172


MATERNA, P. 2001. Type-theoretical analysis as a preparation of analyzing expressions of a 

natural language. Prague – Brno: Faculty of Informatics MU (manuscript), s. 110. 

OLIVA, K. – PETKEVIČ, V. et al. 2000. The Linguistic Basis of a Rule-Based Tagger of Czech. 

In: Proceedings of TSD 2000. Berlin: Springer Verlag, s. 3 – 8. 

PALA, K. 2000. Word Senses and Semantic Representations - Can We Have Both? In: 

Proceedings of TSD 2000. Berlin: Springer Verlag, s. 109 – 114. 

PALA, K. – PAVELEK, T. 2001. A Proposal of XML Standard for WordNet (and Other 

Dictionaries).In: Senseval Workshop, Conference ACL. Toulouse. 

PAVELEK, T. 2001. VisDic. New Tool for Viewing and Editing WordNets – draft. Brno: Faculty 

of Informatics MU (September 2001). 

RYCHLÝ, P. 2000. Korpusové manažery a jejich efektivní implementace (Corpus Managers 

and their Effective Implementation). Ph.D. Dissertation. Brno: Faculty of Informatics MU. 

SEDLÁČEK, R. 1999. Morfologický analyzátor pro češtinu (Morphological analyser for 

Czech). Master Thesis. Brno: Faculty of Informatics MU. 

SEDLÁČEK, R. 2001. Teze disertační práce. Brno: Fakulta informatiky MU. 

SGALL, P. et al. 1986. Úvod do syntaxe a sémantiky. Praha: Academia. 

Slovník spisovného jazyka českého (Dictionary of Written Czech Language). 1960. Praha: 

Academia. 

Slovník spisovné češtiny (Dictionary of Written Czech). 1984. Praha: Academia. 

VEBER, M. 2001. Teze disertační práce. Brno: Fakulta informatiky MU. 

VOSSEN, P. et al. 1999. Final Report on EuroWordNet-2, 2D041. CD ROM, v. 1, Amsterdam: 

University of Amsterdam. 

ŽÁČKOVÁ, E. – POPELÍNSKÝ, L. – NEPIL, M. 2000. Recognition and Tagging of 

Compound Verb Groups in Czech. In: Proceedings of CoNLL-2000 and LLL-2000, Lisbon, ACL New 

Brunswick. s.219 – 225. 

HORÁK, A. – SMRŽ, P. 2000. Large Scale Parsing of Czech. In: Proceedings of Efficiency in 

Large-Scale Parsing Systems Workshop, COLING'2000. Saarbruecken: Universitat des Saarlandes, s. 

43 – 50. 

173

KAREL PALA 

174

SLOVNÍKOVÁ DATA VE FORMÁTU XML 

Pavel Smrž: Fakulta informatiky Masarykovy univerzity, Brno 

Abstract: This paper deals with transformation, storage and processing of dictionaries in an electronic 

form. Various aspects of the XML format are discussed first. Then, a transformation of source data into 

a target format is taken into consideration. Such a process is called up-translation. The next section summarizes 

our experience with the transformation of large dictionaries, especially of the Dictionary of Literary 

Czech (SSJČ). The last section brings recommendations for those who will be engaged in similar 

projects. 

1. Úvod 

Slovníky jsou nejvýznamnějším zdrojem informací o slovní zásobě jazyka. 

Jejich užitečnost se však v současnosti neomezuje jen na lidské uživatele – aplikace 

v oblasti zpracování přirozeného jazyka potřebují slovníkové informace 

téměř pro všechny úkoly, které řeší. Stovky, a snad i tisíce různých slovníků 

jsou používány pro podporu vyhledávání informací, automatického vytváření 

abstraktů, strojového překladu atd. 

Většina v současnosti používaných slovníkových dat nebyla původně určena 

pro počítačové aplikace. Mnoho tištěných slovníků bylo v posledních 

desetiletích převedeno do elektronické podoby zejména s cílem snížit náklady 

spojené s editorskými úpravami, kontrolou konzistence a modifikacemi při 

přípravě nových verzí. Ani ryze elektronický slovník, jakým je WordNet (Miller 

et al. 1990), nebyl zprvu určen pro aplikační použití – jednalo se o experiment 

zaměřený na modelování mentálního slovníku. 

Nehledě na historii vzniku jsou dnes dostupné elektronické slovníky, resp. 

elektronické lexikální databáze, z aplikačního pohledu nesmírně cenné, neboť 

získávání lexikální informace je obyčejně drahé a představuje i dosti obtížný intelektuální 

výkon. Výhodnost používání existujících zdrojů platí i přes nutné 

investice do nalézání relevantní informace, která je do jisté míry skryta díky 

slabé strukturovanosti, nevyhnutelným chybám, nekonzistencím a opomenutím. 

Rozumným cílem je potom ovšem uchovávání slovníků v univerzálním, široce 

dostupném a znovupoužitelném formátu. Takové prostředí poskytuje rodina formátů 

a nástrojů sdružená kolem jazyka XML. 

Následující oddíl je věnován stručnému seznámení s formátem XML a souvisejícími 

standardy. Dále se budeme zabývat vlastním převodem dat z vý- 

175

PAVEL SMRŽ 

chozích formátů do cílového XML, tzv. procesem zvyšování informačního obsahu. 

Poté uvedeme několik vybraných projektů, které se na různých místech 

světa zabývaly tématy příbuznými naší problematice a jejichž výsledky v menší 

či větší míře ovlivnily naše postupy. V dalším oddíle potom jako případovou 

studii zmíníme převod SSJČ (Slovníku spisovného jazyka českého) do formátu 

XML odpovídajícího doporučením TEI (Text Encoding Initiative). Závěrečná 

kapitola shrne získané zkušenosti. 

2. Formát XML 

XML (eXtensible Markup Language; (Bray et al. 2000) je standardem pro 

reprezentaci a výměnu dat. Jde o silný nástroj dovolující obecný způsob značkování 

všech forem struktury, vzájemné odkazy a víceúrovňové zanoření struktur. 

XML je tedy velmi vhodným formátem pro reprezentaci silně strukturované 

informace. 

V posledních letech vzneslo mnoho uživatelů požadavek převoditelnosti 

mezi různými reprezentacemi dat. Dodavatelé programových produktů byli nuceni 

reagovat a akceptovat standardizovaný, neproprietární formát kódování 

dat. Vývoj, přijetí a postupné nasazování technologií opírajících se o XML tak 

souvisí zejména s možnostmi větší interoperability aplikací umožňujících výměnu 

dat ve formátu XML. Právě nemožnost převodu mezi formáty je často 

důvodem používání starších programových produktů, které již nesplňují nové 

požadavky. Je výhodnější použít široce podporovaný formát než navrhovat 

vlastní, omezený. Oproti běžným binárním formátům získáváme také výhodu 

deklarativnosti a transparentnosti reprezentace dat. 

Jazyk XML, vyvinutý zejména s ohledem na použití ve webových aplikacích, 

je zjednodušeným dialektem SGML (Standard Generalized Markup Language). 

Teoreticky je tedy v některých ohledech méně silný, avšak díky celé 

škále navazujících technologií, které např. dovolují transformace mezi dokumenty, 

definice omezujících podmínek, ověřování struktury a odkazy uvnitř 

jednoho dokumentu i vzájemné odkazy mezi dokumenty, případně jejich částmi 

(viz dále), je právě XML nástrojem umožňujícím udržet krok s rychlým tempem 

vývoje v oblasti informačních technologií. 

Dokumenty založené na XML smazávají rozdíly mezi daty a klasickými 

dokumenty. Některé dokumenty ve formátu XML nejsou ničím jiným než AS- 

CII reprezentací dat, která jsou typicky ukládána např. do databází. Jiné dokumenty 

XML obsahují velmi málo struktury, vyznačeny jsou např. jen hranice 

176


odstavců, jinak jde o volný text. Slovníková data jsou někde uprostřed mezi 

těmito dvěma póly – obsahují složité hierarchické struktury, ale také relativně 

nestrukturovaný volný text. XML dovoluje definovat přesnou sémantiku obsahu 

slovníku a přitom nespecifikovat formát prezentace. Dovoluje tedy měnit 

způsob, jakým jsou jednotlivé části textu tisknuty nebo zobrazovány. 

Při práci se slovníkovými daty ve formátu XML můžeme využít mnoha 

existujících mechanismů pro přístup k datům a manipulaci s nimi. Budeme 

mluvit o rodině standardů XML. V základní formě je XML jazykem pro značkování 

dokumentů, který tudíž dovoluje vyznačit jednotlivé elementy textu, 

hierarchickou strukturu a odkazy. Strukturu textu kódovaného v XML popisuje 

tzv. DTD (Document Type Definition), objevující se již u standardu SGML. 

DTD definuje zobecněná pravidla pro strukturu a určuje tak, co je v kódování 

příslušného dokumentu dovoleno. 

Schopnosti validace formy i obsahu dokumentu nabízené DTD rozšiřuje 

definiční jazyk XML Schema (Thompson et al. 2001, Biron, Malhotra 2001). 

Dovoluje omezit a dokumentovat význam, použití a vztahy jednotlivých částí 

dokumentů XML. Mohou být zadávány např. předdefinované hodnoty pro 

atributy a elementy. Z koncepčního pohledu lze definici XML Schematu chápat 

jako abstraktní datový model popisované třídy dokumentů (Ide 2000). 

Dalším členem „rodiny XML“ jsou formátovací jazyky XSL (eXtensible 

Stylesheet Language; Adler et al. 2000) a XSLT (eXtensible Stylesheet Language 

for Transformations; Clark 1999, Clark 2001). Jde o deklarativní (neprocedurální) 

jazyky, kde „stylesheet“ udává, za jakých podmínek se vykoná jaká 

akce. Tzv. procesory XSLT pracují s dokumentem XML, reprezentovaným 

stromovou strukturou zanořených elementů, a mohou tento dokument transformovat 

do libovolného jiného formátu pomocí výběru, přeuspořádání nebo přidávání 

informací. Jazyk XSLT podporuje výběr obsahu elementů nebo jejich 

částí z jednoho nebo více XML dokumentů a transformaci obsahu i názvů 

elementů. 

Pro efektivní přístup k obsahu rozsáhlých dokumentů v XML je potřeba 

výkonný dotazovací mechanismus. V uplynulém období vzniklo hned několik 

návrhů dotazovacích jazyků pro XML. K nejznámějším patří XQuery (XML 

Query Language; Chamberlin et al. 2001) umožňující zadávat složité dotazy na 

XML dokumenty ve formě snadno čitelné člověkem (alternativou je XqueryX 

odpovídající syntaxi jazyka XML). 

Bylo navrženo i několik standardů pro definici odkazů mezi dokumenty 

XML. Základní mechanismus XLink (DeRose 2001a) dovoluje specifikovat 

177

PAVEL SMRŽ 

propojení mezi dvěma a více zdroji nebo jejich částmi. Jazyk XPath (XML Path 

Language) (Clark, DeRose 1999) rozšiřuje syntaxi adresace o predikáty pro 

manipulace s řetězci znaků, takže je možné odkazovat přímo na části jednotlivých 

elementů. Ještě propracovanějším je standard Xpointer (DeRose 2001a), 

který rozšiřuje syntaxi XPath směrem k adresaci rozsahů, lokalizace informace 

pomocí porovnávání řetězců a použití výrazů v odkazech jako identifikátorů 

částí dokumentů. 

Existuje ještě celá řada nejrůznějších standardů, které rozšiřují „rodinu 

XML“ o více či méně specifickou funkcionalitu. Zmiňme na závěr za všechny 

ještě alespoň XML Namespaces (Bray et al. 1999) – mechanismus povolující 

stejná jména v různých kontextech pomocí definice tzv. prostorů jmen. 

Přes všechny výše zmíněné výhody přetrvává i dnes při řešení zásadní otázky, 

zda se vyplatí převod již existujících zdrojů, určitá nedůvěra k formátu 

XML. Na tomto postoji se jistě podepsal historický vývoj, kdy byly, nikoliv neoprávněně, 

technologie spjaté se standardem SGML považovány za příliš drahé. 

Dobře placení poskytovatelé programových nástrojů manipulujících s SGML 

pracovali pro ministerstva (zejména americké Ministerstvo obrany), mamutí 

podniky typu Boeing (má svoji dokumentaci v SGML), pojišťovny a velké vydavatelské 

domy a menší firmy nebyly schopny výhod lépe strukturovaných dokumentů 

využít. Ne nadarmo byla zkratka SGML v této době vysvětlována jako 

„Sounds Great! Maybe Later!“. 

S příchodem formátu XML a jeho masivní popularizací se však situace výrazně 

zlepšila a tento příznivý vývoj neustále pokračuje. Formát XML je dnes 

široce podporován, existuje mnoho komerčních i nekomerčních programů pracujících 

s XML. XML přímo podporují poslední verze webových prohlížečů, i když 

zatím ne v plné šíři. Každopádně vše mluví pro použití technologií spojených s 

XML v mnoha oborech informačních technologií a byla by samozřejmě škoda nevyužít 

nabízených možností i pro oblast reprezentace a výměny slovníkových dat. 

3. Zvyšování informačního obsahu 

Slovníky obsahují celou škálu různých typů informací, kódovaných různými 

způsoby. Jsou aplikovány různé strukturální a typografické normy pro reprezentaci 

homografů, lexikalizovaných flektivních variant, složených slov, frází 

atd. Často se liší i taxonomie informací. Standardizovaný formalismus lexikální 

databáze musí definovat jednoznačný způsob reprezentace všech těchto entit. 

178


Nehledě na nejednoznačnost kódování informací lidem obyčejně stačí 

podívat se na slovníkové heslo a okamžitě pochopí, z jakých je složeno částí a 

co tyto části znamenají. Zapojí tak ovšem znalost o tom, k čemu slovníky 

slouží, jak jsou obecně používány. Aby byly stejné informace bez větší námahy 

dostupné stroji, musí být z původně implicitní formy převedeny do explicitně 

zaznamenaných údajů, s nimiž si počítačové programy snadno poradí. 

Hodnota elektronických slovníků se dramaticky zvyšuje, pokud sdílí 

společné značkování. Dosažení tohoto stavu je však nesmírně obtížné, neboť 

dostatečně rozsáhlé zdroje jsou získávány obyčejně z existujících slovníků, které 

mají v převážné většině vlastní strukturu. Převod dat ze zdrojového do cílového 

formátu bývá označován jako proces zvyšování informačního obsahu (uptranslation). 

Z aplikačního pohledu se jedná o cestu k použitelnějšímu tvaru 

slovníkových dat. 

Jak vyplývá z předchozí kapitoly, bude naším cílem převod slovníkových 

dat do formátu XML, takže procesem zvyšování informačního obsahu zde budeme 

rozumět konverzi z libovolného zdrojového formátu do platné instance 

XML odpovídající nějakému cílovému DTD. Přitom se samozřejmě snažíme 

nalézt (alespoň částečně) automatické metody převodu. Vývoj takových automatických 

metod má samozřejmě ekonomické opodstatnění. 

Vzhledem k různorodosti zdrojových formátů je velmi obtížné definovat 

obecný model procesu zvyšování informačního obsahu. Obecně lze nicméně 

identifikovat 3 základní podprocesy (Chahuneau 1994): 

1. identifikace skupin objektů zdrojového dokumentu, sdílejících společné 

formátovací vlastnosti (typografické charakteristiky a typické textové vzory); 

2. mapování nalezených tříd na typy elementů XML odpovídající cílovému 

DTD; 

3. generování cílové struktury, případná reorganizace dat a přidání chybějících 

struktur (elementů i atributů) tak, aby vše odpovídalo DTD. 

Přestože lze v zásadě provést celý převod v jednom průchodu, má tento 

postup mnoho nevýhod. Většinou je obtížné rozdělit úkoly tak, aby bylo možné 

zapojit více programátorů. Monolitický tvar převodních programů navíc nepřispívá 

k čitelnosti kódu a problematické jsou rovněž nutné manuální opravy chyb 

kódování, případně i chyb obsahu. 

Řešením těchto problémů je postupný, víceprůchodový převod, kdy jsou 

navíc již pro výstupy z jednotlivých fází definována příslušná DTD, jimž odpovídá 

výsledek ve formátu XML. Výhodou je vstup do „arény XML“ již v prv- 

179

PAVEL SMRŽ 

ních fázích transformace, což přináší výhodu explicitního modelu informačního 

obsahu pomocí DTD a dovoluje použití propracovaných nástrojů pro zpracování 

struktur XML. Snadněji lze také postihnout případy, kdy se zdrojový formát 

silně vymyká požadavkům cílového DTD. 

Dekompozici procesu zvyšování informační úrovně na sérii postupných 

kroků lze z teoretického pohledu chápat jako proces navazujících transformací 

stromových struktur zanořených elementů, probíhajících při převodu z jednoho 

stavu do stavu následujícího. Dnes jsou dokonce k dispozici nástroje nabízející 

odvozování DTD z výstupů jednotlivých kroků. 

Výše popsané transformace lze implementovat různými metodami. Výhodné 

je využít některý z řady populárních skriptovacích jazyků, jakými jsou Perl či 

Python. Existují však i nástroje přímo specializované pro tento úkol. K nejznámějším 

patří produkt OmniMark (http://www.omnimark.com). Ten nabízí 

mechanismus porovnávání vzorů podporující událostmi řízené programování, 

založené na lexikálních událostech. Naproti méně specializovaným nástrojům je 

úzce provázán se začleněným analyzátorem XML (SGML), takže výsledek 

porovnávání vzorů může být závislý na kontextu XML. Vzory mohou být pojmenované, 

čímž lze zachytit i velmi složité konstrukce. Propracované je také zotavování 

z chyb analýzy dokumentu XML, které může sloužit k opravě generovaného 

XML tak, aby vznikla platná instance cílového DTD. Tento mechanismus 

funguje výborně tam, kde je zdrojová podoba vzhledem k požadované cílové 

struktuře jen mírně deformovaná. Mnohem obtížnější je naopak podchycení případů, 

kdy zjednoznačňování struktury dokumentu vyžaduje časté pohledy dopředu, 

začlenění dalších zdrojů a intenzivní generování přídavných struktur (Chahuneau 

1994). 

4. Obdobné a příbuzné projekty 

Převodem slovníků do formátu XML se zabývala celá řada projektů v různých 

koutech světa. Přitom je nesmírně zajímavé a cenné sledovat, jak se v 

rámci různých projektů řeší obdobné problémy, především nedostatky spojené s 

nekonzistentní strukturou hesel. Uveďme tedy alespoň několik případů. 

Jako typického zástupce převodu rozsáhlého výkladového slovníku zmiňme 

projekt OED (Oxford English Dictionary) Online (Elliott 2001). Převod do 

strojově čitelné podoby začal již v polovině 80. let, kdy se nakladatelství OUP 

(Oxford University Press) rozhodlo vydat druhé vydání svého největšího slovníku, 

zahrnující originální 12 svazkový soubor se všemi pozdějšími dodatky. Bez- 

180


prostředním důvodem vzniku elektronické verze byla tehdy snaha o ekonomizaci 

nezbytných pozdějších revizí. Přibližně 150 písařek přepsalo celý obsah a 

po sérii mnoha oprav byl slovník nakonec v roce 1989 úspěšně vydán. 

Kódování OED neodpovídalo plně SGML, protože se autorům zdálo nemožné, 

„vzhledem k unikátnímu obsahu a dlouhému vývoji editorského stylu“, 

svázat celý slovník jednotným formátem. Dokonce i dnes je OED revidován pomocí 

vlastního značkování, což vyžaduje speciální softwarové nástroje vyvinuté 

na zakázku. Při analýze potřeb OED Online bylo však konstatováno, že by celý 

projekt nesmírně komplikovalo, jestliže by nebyl text poskytnut ve standardní 

formě. Všichni dodavatelé software by totiž byli nuceni proniknout do zvláštností 

interního formátu a nebylo by možné použít dostupná obecná řešení. 

Proto bylo z interního formátu odvozeno standardní DTD, nepokrývající sice 

všechny informace obsažené v OED, zahrnující však všechny hlavní vlastnosti 

slovníku. Jasně jsou identifikovány definice výrazů, výslovnost, variantní ortografie, 

etymologie, doklady a jejich datace, včetně jmen autorů a názvů děl, z 

nichž je citováno. Definice speciálního DTD pro výběr dat je v (Elliott 2001) 

komentována slovy „ ...archeologové v roce 3000 nebudou moci rekonstruovat 

všechny aspekty elektronického textu OED z tohoto DTD a úlomků tištěné verze. 

Jde o kompromisní řešení.“ 

Zajímavé jsou rovněž informace o finanční náročnosti celého projektu, které 

příliš neodpovídají výše zmiňované dostupnosti příslušných technologií v dnešní 

době. Cena za vývoj programových produktů OED Online činila 400.000 

amerických dolarů a nakladatelství OUP utratilo přibližně další milion dolarů 

za výzkum trhu, konzultace atd. 

Jiným projektem, cenným zejména díky praktickým výstupům ve formě 

návrhu vhodného univerzálního DTD (Erjavec et al. 2000), byl grantový 

projekt CONCEDE (Evans 1999), jehož cílem bylo vytvoření lexikálních databází, 

založených na informacích z tištěných slovníků, pro šest středoevropských 

a východoevropských jazyků, konkrétně bulharštinu, češtinu, estonštinu, 

maďarštinu, rumunštinu a slovinštinu. Formátem lexikální databáze bylo 

SGML odpovídající doporučením TEI. Vzhledem ke skutečnosti, že návrhy TEI 

pro kódování slovníků podporují přesný popis existujících slovníků, spíše než 

vytváření nových zdrojů ve formě přímo uzpůsobené pro použití v aplikacích 

zpracování přirozeného jazyka, bylo druhým cílem projektu vyvinout silně 

redukovanou variantu DTD, vhodnou pro tyto účely. Projekt se do značné míry 

opíral o korpus Orwell“, vytvořený v rámci projektu EU MULTEXT-EAST (Erjavec 

– Ide 1998; většina partnerů byla i partnery CONCEDE), tvořený romá- 

181

PAVEL SMRŽ 

nem George Orwella 1984 v angličtině a překlady tohoto díla ve všech šesti 

jazycích. Výběr zpracovávaných slov v projektu CONCEDE např. vycházel z 

frekvenčního slovníku získaného z tohoto románu. Zajímavou informací o výstupech 

projektu je zmínka o nemožnosti převést veškeré informace do formátu 

odpovídajícího cílovému DTD v důsledku limitovaných zdrojů (Kilgarriff 

1999). 

Historicky starším projektem je systém LDB, vytvořený v počítačové laboratoři 

Cambridgeské university jako součást projektu EU ESPRIT ACQU- 

ILEX (Copestake 1995). Systém podporuje uživatele při formulování dotazů a 

vyhledávání částí hesel z jednoho a více slovníků, implementuje efektivní vyhledávání 

a dovoluje definovat subslovníky, tvořené výběrem hesel rozšířených 

o doplňující informace, které nejsou dostupné pro ostatní hesla. Implementačním 

nástrojem byl v tomto případě jazyk Common Lisp. 

5. Převod Slovníku spisovného jazyka českého 

Projekt převodu SSJČ (osmisvazkového Slovníku spisovného jazyka českého) 

do formátu XML je realizován v rámci komplexního grantového úkolu 

GAČR 405/96/K214 (Čeština ve věku počítačů). Laboratoři zpracování přirozeného 

jazyka na Fakultě informatiky Masarykovy univerzity v Brně, která se na 

projektu podílí, byla předána již data ve formátu dokumentů aplikace MS 

Word, vždy deset stran textu v jednom souboru. Data byla v předchozí fázi naskenována, 

pomocí OCR převedena a dále zkontrolována, aby byly odstraněny 

okamžitě viditelné chyby rozpoznávání. To vše bylo provedeno na Ústavu pro 

jazyk český na Akademii věd ČR. 

Naším prvním úkolem byl tedy převod z formátu MS Word. Aplikace MS 

Word 2000 slibuje uložení do HTML, které zachovává vše potřebné pro transformaci 

do prvotní verze XML. Zkušenosti však ukazují, že převod do formátu 

XML odpovídajícího normě by vyžadoval enormní množství práce a že výsledek 

i potom nabízí malou podporu pro odvození struktury dokumentu ze 

značkování. Jinou možností by bylo využití aplikací dostupných v rámci balíku 

OpenOffice, který používá pro ukládání dokumentů přímo formát XML a v posledních 

verzích (které však nebyly dostupné v době převodu) by měl být 

schopen korektně načíst i dokumenty české verze aplikace MS Word. My jsme 

nakonec zvolili přímý převod dat za pomoci speciálně vyvinutého kódu v jazyce 

Visual Basic for Application, který MS Word dokáže zpracovávat ve formě 

182


maker. Vzhledem k jednorázovosti celého procesu nepředstavovala časová 

náročnost tohoto postupu větší problém. 

Další fáze představovala vyhledání anomálií ve vstupním formátu, vyřešení 

některých nejednoznačností a opravy chyb kódování. Přitom jsme si velmi 

silně uvědomili, že definování kompletní gramatiky pro rozpoznání textových 

vzorů a převod struktury je téměř nekonečný proces, kterým je možné projít 

pravděpodobně pouze postupným úpravami kódu, časově velmi náročnými. V 

této etapě se jedná ještě převážně o dosti mechanický převod dat, který se příliš 

nesnaží „zvyšovat informační úroveň“. Pokud je tedy dostatečná pozornost 

věnována odhalování a opravám chyb převodního kódu, může jít o přímočarý, 

deterministický, a tudíž i spolehlivý proces. 

Závěrečnou a nejobtížnější úlohou je transformace mezivýsledku do formátu 

XML odpovídajícího cílovému DTD (Petkevič 2000). V ideálním případě 

odpovídá typ elementu přímo některému typu písma, jindy stačí uvažovat 

jednoduchý, unikátní kontext (např. v hranatých závorkách je uváděna výslovnost), 

někdy je výhodné uvažovat omezení určitého typu informací, kdy 

hodnota musí být v předem daném seznamu (výčty zkratek, jména autorů). 

Úspěšnost převodu samozřejmě závisí podstatnou měrou na kvalitě zdrojových 

dat, v našem případě především na konzistenci zpracování slovníku. Většina 

těžkostí je spojena právě s nekonzistencí struktury hesel, která je potom nesmírně 

obtížné převést plně automaticky. 

V současné fázi tedy pracujeme s dvěma variantami XML. Nízkoúrovňové 

kódování (příklad 1) je výhodnější pro zanášení oprav nalezených chyb, forma 

odpovídající cílovému DTD (příklad 2) je i přes dosud velké množství nesprávně 

rozpoznaných elementů vhodná pro některé typy dotazů na konkrétní 

části hesel, např. pouze na doklady výskytu či původ hesla. Postupně jsou 

opravovány nalezené chyby, zejména nesprávně rozpoznané typy písma, jejichž 

výskyt by znemožňoval automatický převod do cílového tvaru. Speciální kategorii 

tvoří chyby a nekonzistence, které se vyskytují již v tištěné verzi slovníku. 

Ty jsou zaznamenávány odděleně, aby bylo možné kdykoliv konfrontovat 

původní podobu dat. 

 

terorismus 

způsob vlády vymáhající terorem poslušnost; hrůzovláda, krutovláda, 

despotismus: 

vojenský t.; nesnesitelný t.; demagogie a t.; 

183

PAVEL SMRŽ 

přen. expr. 

to je t., nedejte si to líbit 

 

 

 

Příklad 1: Nízkoúrovňové kódování dat – jsou vyznačeny jen různé typy písma 

terorismus 

 

 

socialismus 

 

 

 

způsob vlády vymáhající terorem poslušnost 

hrůzovláda 

krutovláda 

despotismus 

vojenský terorismus 

nesnesitelný terorismus 

demagogie a terorismus 

 

přen. expr. 

to je terorismus, nedejte si to líbit 

 

 

 

 

Příklad 2: Formát kódování hesla SSJČ odpovídající cílovému DTD 

Pro efektivní uložení slovníkových dat využíváme systém MAXXL, který 

vznikl na Fakultě informatiky jako výsledek diplomové práce (Karásek 2000). 

Základní charakteristikou je absolutní nezávislost na konkrétním formátu XML, 

systém pracuje s daty na podkladě zadaného DTD a s využitím doplňující informace 

o typech jednotlivých elementů, především o elementu, který má sloužit 

184


jako klíč při vyhledávání, vytváří indexy pro velmi výkonné vyhodnocování dotazů. 

Systém MAXXL také definuje vlastní dotazovací jazyk, který dovoluje zadávat 

specializované dotazy potřebné pro přístup k slovníkovým datům 

(spojené např. s propojením na morfologický analyzátor a expanzí dotazu na 

všechny slovní tvary odpovídající příslušnému morfologickému vzoru). Nad 

serverovou částí je vystavěno klientské grafické uživatelské rozhraní DictView, 

zjednodušující zadávání nejčastějších typů dotazů. 

Systém MAXXL je masivně využíván při přípravě dat pro nový morfologický 

analyzátor češtiny (Sedláček, Smrž 2001), kdy je vedle dat ze SSJČ prezentován 

rovněž obsah SSČ (Slovníku spisovné češtiny pro školu a veřejnost) 

a SCS (Akademického slovníku cizích slov). Během tohoto používání již systém 

prokázal svoje kvality, především spolehlivost a rychlost vyhledávání. 

Předpokládá se rovněž využití při práci na české části projektu Balkanet, jehož 

cílem je rozšířit stávající lexikální databáze typu WordNet. 

6. Závěrečná doporučení pro řešitele obdobných projektů 

Shrňme na závěr tohoto článku naše zkušenosti získané během převádění 

slovníků do formátu XML. Tato část může být chápána jako snaha o formulaci 

jednoduchých doporučení, která by mohla pomoci řešitelům obdobných projektů. 

Při převodu slovníkových dat, ať už z papírové podoby či z elektronické 

verze v jiném formátu, se často nevyhneme použití WYSIWYG textových editorů 

typu MS Word (např. i díky přímému vstupu z aplikace OCR). Tyto prostředky 

obyčejně skrývají logickou strukturu textu, kterou je potom obtížné oddělit 

od konkrétní formy prezentace. Proto je vždy velmi výhodné: 

1. Detailně rozmyslet a předem si uvědomit, které elementy bude třeba 

identifikovat, aby byla respektována požadovaná cílová struktura dat. 

2. Pokud jsou data převáděna z tištěné podoby, např. pomocí technologií 

OCR, je nanejvýš vhodné, nejlépe ještě před započetím práce, rozhodně 

však před provedením vizuálních kontrol, probrat tuto fázi s těmi, kdo 

budou vlastní převodní programy implementovat. Předejde se tak totiž 

zbytečné práci, kterou bylo možné provést již při prvotní kontrole a která 

zdržuje všechny následné činnosti. 

3. Používat přímo v editoru značkování, dovolující člověku snadno postřehnout 

i drobné nedostatky, např. chybně rozpoznaný řez písma, párové 

185

PAVEL SMRŽ 

znaky neodpovídající si typem písma atd. Nanejvýš vhodné je vedle typů 

písma využít barevného rozlišení různé informace obsažené v heslech. 

Například aplikace MS Word dovoluje takové náhrady pomocí definovaných 

maker, vše lze tedy provést stiskem jediného tlačítka a u kratších 

dokumentů (např. výše zmíněná kontrola vždy po deseti stranách textu) 

není záměna nijak časově náročná. 

Aby se předešlo problémům spojeným s nejednoznačností obsahu slovníkových 

hesel, měly by být pro vytváření nových a rozsáhlejší úpravy existujících 

zdrojů používány pokud možno nástroje dovolující pracovat přímo s cílovou 

podobou XML. Takové nástroje často teprve vznikají a je otázkou, jak má 

vypadat vizuální podoba vlastní editace složitějších struktur. Nabízí se možnost 

vyplňování určitého formuláře a současné vytváření definované vizuální podoby, 

či přímá editace vizualizované podoby se striktní kontrolou konzistence dat, 

odpovídající definovaným podmínkám. Toto je dosud otevřený problém, který 

tak nabízí prostor pro další výzkum. 

Na úplný závěr dovolte zopakovat ne příliš optimistické konstatování 

z textu, totiž, že převod slovníkových dat do „vysněné“ zamýšlené struktury je 

téměř nekonečný proces, kterým je možné projít pouze postupnými, časově velmi 

náročnými kroky. 

Literatura 

ADLER, S. et al. 2000. Extensible Stylesheet Language (XSL). Version 1.0. W3C Proposed 

Recommendation. http://www.w3.org/TR/xsl/. 

BIRON, P. – MALHOTRA, A. 2001. XML Schema Part 2: Datatypes. W3C Recommendation. 

http://www.w3.org/TR/xmlschema-2/. 

BRAY, T. et al. 1999. Namespaces in XML. W3C Recommendation. 

http://www.w3.org/TR/REC-xml-names/. 

BRAY, T. et al. 2000. Extensible Markup Language (XML) 1.0 (Second Edition). W3C 

Recommendation. http://www.w3.org/TR/1998/REC-xml. 

COPESTAKE, A. 1995. ACQUILEX. http://www.cl.cam.ac.uk/Research/NL/acquilex/. 

CHAHUNEAU, F. 1994. Current Approaches to SGML Up-translation. http://www.oasisopen.org/cover/fcha.html. 

CHAMBERLIN, D. et al. 2001. XQuery 1.0: An XML Query Language. W3C Working Draft. 

http://www.w3.org/TR/xquery/. 

CLARK, J. 1999. XSL Transformations (XSLT). Version 1.0. W3C Recommendation. 

http://www.w3.org/TR/xslt/. 

CLARK, J. 2001. XSL Transformations (XSLT). Version 1.1. W3C Working Draft. 

http://www.w3.org/TR/xslt11/. 

186


CLARK, J. – DEROSE, S. 1999. XML Path Language (XPath). Version 1.0. W3C 

Recommendation. http://www.w3.org/TR/xpath/. 

DEROSE, S. et al. 2001a. XML Linking Language (XLink). Version 1.0. W3C 

Recommendation. http://www.w3.org/TR/xlink/. 

DEROSE, S. et al. 2001b. XML Pointer Language (XPointer). Version 1.0. W3C Last Call 

Working Draft. http://www.w3.org/TR/xptr/. 

ELLIOTT, L. 2001. How the Oxford English Dictionary Went Online. Ariadne, č. 24. 

http://www.ariadne.ac.uk/issue24/oed-tech/. 

ERJAVEC, T. – IDE, N. 1998. The MULTEXT-East Corpus. In: Proceedings of the 1 st 

International Conference on Language Resources and Evaluation, s. 971 – 974. 

ERJAVEC, T. et al. 2000. The Concede Model for Lexical Databases. In: Proceedings of the 2 nd 

International Conference on Language Resources and Evaluation, s. 355 – 362. 

http://nl.ijs.si/et/Bib/LREC00/lrec-cnc.ps.gz 

EVANS, R. 1999. CONCEDE: Consortium for Central European Dictionary Encoding. 

http://www.itri.bton.ac.uk/projects/concede/. 

IDE, N. 2000. The XML Framework and Its Implications for the Development of Natural 

Language Processing Tools. In: Proceedings of the COLING Workshop on Using Toolsets and 

Architectures to Build NLP Systems. 

KARÁSEK, L. 2000. Systém pro tvorbu a presentaci vícejazyčných a výkladových slovníků. 

Diplomová práce. Brno: Fakulta informatiky Masarykovy univerzity. 

KILGARRIFF, A. 1999. Public Progress Report: Deliverable 0.2.1, CONCEDE Project. 

http://www.itri.bton.ac.uk/projects/concede/DR0.2.1_no_pointers.html. 

MILLER, G. 1990. Five Papers on WordNet. CSL Report 43. Princeton: Cognitive Science 

Laboratory, Princeton University. 

PETKEVIČ, V. 2000. Návrh DTD pro SSJČ – 1. verze. 

SEDLÁČEK, R. – SMRŽ, P. 2001. A New Czech Morphological Analyser ajka. In: 

Proceedings of the 4 th International Conference on Text, Speech and Dialogue. 

THOMPSON, H. S. et al. 2001. XML Schema Part 1: Structures. W3C Recommendation. 

http://www.w3.org/TR/xmlschema-1/. 

187

POČÍTAČOVÁ PODPORA SLOVENSKÝCH 

LEXIKOGRAFICKÝCH PROJEKTOV – 

RETROSPEKTÍVNY POHĽAD 

Vladimír Benko: Laboratórium počítačovej lingvistiky Pedagogickej 

fakulty Univerzity Komenského; Jazykovedný ústav Ľudovíta 

Štúra Slovenskej akadémie vied, Bratislava (Vladimir.Benko@fedu. 

uniba.sk) 

Abstract: A short case history of several computationally supported Slovak lexicographical projects is 

presented. A proprietary Markup Language MOM is introduced, with examples of entry representiations 

of the dictionaries in question, and also some technological problems of our approach are discussed. 

1. Úvod 

Lexikografia ako aplikovaná jazykovedná disciplína je oblasťou, ktorá sa 

príchodom počítačov zmenila v rámci lingvistiky azda najviac. Myšlienka nahradenia 

tradičných lexikografických nástrojov – ceruzky, papiera a škatúľ s 

excerpčnými lístkami – klávesnicou, obrazovkou a diskom počítača je natoľko 

priamočiara, že pokusy o aplikáciu počítačov v lexikografii začali hneď, keď 

ich cena poklesla na úroveň, ktorú si aj naše lexikografické pracoviská mohli 

dovoliť zaplatiť. Dnes síce parametre počítačov toho obdobia vyvolávajú úsmev 

(PC XT, 640 MB operačnej pamäte, pevný disk s kapacitou 20 MB, grafická 

karta EGA), podstatné však bolo, že sa na nich dal spustiť textový procesor 

schopný vytvoriť text so všetkými slovenskými diakritickými znamienkami a vytlačiť 

ho pomocou (rachotiacej 9-ihličkovej) tlačiarne na papier. Bolo to v roku 

1990. 

V skutočnosti sa počítače aj v našich podmienkach dotkli procesu zrodu 

slovníka ešte o niečo skôr – v tlačiarňach sa už v polovici 80. rokov používali na 

sadzbu počítačové terminály a počítačom ovládané osvitové jednotky. Tieto počítače 

však boli veľké („sálové“) a drahé a práce lexikografov sa priamo nedotkli. 

Je zrejmé, že použitie počítačov pri tvorbe slovníka sa nemôže obmedziť 

len na prípravu tlačových podkladov – právom sa očakáva, že pomôžu zefektívniť 

a skvalitniť všetky etapy životného cyklu lexikografického diela. V našom 

príspevku chceme podať stručný pohľad na nedávnu históriu i súčasnosť niekoľkých 

počítačom podporovaných lexikografických projektov, ktorých výsled- 

188

POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD 

kom bola publikácia slovníkov, či už nových alebo vydaných v opravených a 

doplnených vydaniach. Príspevok má formu stručných prípadových štúdií 

obohatených o niekoľko osobných postrehov. 

2. Prvé kroky: Krátky slovník slovenského jazyka 

Náš prvý kontakt s lexikografickým dielom v počítačovej podobe sa 

uskutočnil v roku 1988. Bolo to v bratislavskej tlačiarni Svornosť, kde sme sa 

náhodou a s úžasom dozvedeli, že sadzbu 1. vydania Krátkeho slovníka slovenského 

jazyka (1987, ďalej len KSSJ) bude pravdepodobne treba vymazať (tak, 

ako sa to rutinne robilo aj s inými textami) pre nedostatok miesta na disku... 

Príbeh „záchrany“ tohto cenného lexikálneho materiálu a jeho prevodu do tvaru 

spracovateľného na štandardnom osobnom počítači sme podrobnejšie opísali 

na inom mieste (Benko – Kostolanský 1997). Tu sa obmedzíme len na konštatovanie, 

že toto dielo vlastne iniciovalo našu spoluprácu s Jazykovedným ústavom 

Ľudovíta Štúra SAV (ďalej len JÚĽŠ), ktorá pretrváva až dodnes. 

Naším cieľom pri tomto projekte bolo jednak to, aby autori slovníka mohli 

v budúcnosti jednoduchšie a rýchlejšie pripraviť nové vydanie KSSJ, ako aj to, 

aby sa materiál z diela mohol zužitkovať ako zdroj údajov do pripravovanej 

lexikálnej databázy slovenského jazyka. Z dnešného pohľadu však za jeho hlavný 

výsledok možno považovať návrh značkovacieho jazyka MOM 1 , ktorý sa 

osvedčil natoľko, že bol následne (s niektorými malými zmenami a rozšíreniami) 

použitý v niekoľkých ďalších lexikografických projektoch realizovaných 

v JÚĽŠ. Tento jazyk vznikal postupne počas analýzy typografického formátu 

KSSJ a pôvodne mal slúžiť len na vizualizáciu typografických povelov, ktoré v 

pôvodnom formáte mali netlačiteľnú reprezentáciu. Nakoniec sa však podarilo 

pomocou automatizovaných procedúr prekonvertovať do takejto formy celý text 

KSSJ, pričom sa v plnej miere zachovali informácie o štruktúre slovníka z 

hľadiska typografickej reprezentácie a vznikol materiál, ktorý sa mohol stať základom 

pre ručné opravy a modifikácie textu. 

Zápis textu v jazyku MOM vychádza z týchto základných pravidiel: 

1. Text slovníka sa reprezentuje pomocou štandardnej množiny tlačiteľných 

znakov na danej počítačovej platforme, napr. v prostredí systému MS-DOS 

1 Názov pochádza z odpovede na otázku, ktorú sme často dostávali na odborných podujatiach: 

„Are you using SGML?“ – „No, I am using My Own Markup.“ 

189

VLADIMÍR BENKO 

sa použilo tzv. kódovanie Kamenických, ktoré bolo v tom čase (1989) 

u nás na osobných počítačoch de facto štandardom. 

2. Základnou spracúvanou jednotkou textu je heslová stať, ktorú tvorí súvislý 

blok textu ukončený prázdnym riadkom. 

3. Riadky začínajúce znakom „!“ sa považujú za identifikačné (môže to byť 

napr. číslo kartotečného lístka, z ktorého bolo heslo prepísané do počítača, 

prípadne číslo hesla vytvorené ľubovoľným spôsobom). 

4. Riadky začínajúce znakom „?“ sa považujú za komentár. 

5. Typografické vlastnosti textu sa reprezentujú takto: 

a) Text v "úvodzovkách" reprezentuje (polo)tučné písmo. 

b) Text v 'apostrofoch' predstavuje kurzívu. 

c) Text v |zvislých paliciach| reprezentuje zmenšené písmo (obyčajne 

nonpareille). 

d) Ďalšie typy, rezy, prípadne veľkosti písma možno reprezentovať pomocou 

dvojíc znakov percento (%), tilda (~), plus (+), rovná sa (=), 

zavináč (@) alebo ampersand (&). 

e) Pred horným indexom sa píše znak strieška (^). 

f) Znaky s vysokou frekvenciou v texte, ktoré nie sú obsiahnuté v základnom 

súbore (napr. grafická značka pred frazeológiou, odkazová 

šípka), sa zapisujú pomocou dvojice znakov, z ktorých prvý je znak 

dolár ($). 

g) Znaky s diakritikou, ktoré nie sú obsiahnuté v miestnom súbore 

znakov a majú vysokú frekvenciu, sa reprezentujú pomocou trojice 

znakov, z ktorých prvý je znak bez diakritického znamienka a druhý 

je znak opačná lomka (\). 

h) Na všetky ostatné typografické situácie (napr. grécke písmo, dolné indexy, 

špeciálne grafické symboly) je možné ad hoc zaviesť skratku 

uzavretú v dvojici uhlových zátvoriek (< a >). 

6. Na zvýšenie čitateľnosti textu sa odporúča členiť heslovú stať na odseky 

predstavujúce štruktúrne jednotky textu (jednotlivé významy heslového 

slova, prihniezdované heslové slová). Toto členenie sa však pri ďalšom 

spracovaní ignoruje. 

190 

Ako príklad zápisu vo formáte MOM uvádzame úryvok textu KSSJ: 

!041a03_ 

"baba^1" -y báb |ž.|


"1." |hovor.| stará žena: ’stará b.’ 

"2." |pejor.| nepríjemná, zlá, protivná žena: 

’klebetná, zlostná b.’ 

"3." |slang.| mladá žena, dievča: ’b-y z 

internátu’ 

"4." |hovor.| pôrodná asistentka: ’pôrodná b.’ 

"5." |pejor.| zbabelec, bojazlivec, slaboch: 

’nebuď b.!’ 

"6." ’slepá b.’ det. hra: ’hrať sa na slepú b-u’ 

|i fraz.| pretvarovať sa 

$@ ’čo sa b-e (za)chcelo, to sa b-e (pri)snilo’; 

"babský" |príd. k 1-5|: ’b-é lieky’ domáce, 

ľudové; ’b-é klebety, reči’; |slang. pejor.| ’b. 

internát’ dievčenský; ’b-é správanie’ zbabelé, 

slabošské; 

"babsky" |prísl.|; 

"babisko" -a -bísk |s., N a A jedn. i ž. zvel. 

pejor. k 1, 2| 

!041a04_ 

"baba^2" -y báb |ž. hovor.| 

"1." prázdny koláč 

"2." haruľa: ’zemiaková b.’ 

"3." pandrava chrústa 

"4." jaternica z hrubého čreva 

!041a05_ 

"bába" -y báb |ž. det.| báb(i)ka: ’hrať sa s b-ou’ 

!041a06_ 

"bábä" -äťa |mn.| -ätá/-ence -bät/-beniec, "bábo" 

-a báb |s. hovor.| novorodeniatko: ’budú mať b.’; 

"bábätko" -a -tiek |s. zdrob.| 

!041a07_ 

"babí" |príd.|: ’b-ie leto’ slnečné dni na konci 

leta; pavučinkové vlákna poletujúce vo vzduchu v 

tomto období; 

|pren.| začiatok staroby 

Ako sme už spomenuli, v čase spracovania textu KSSJ sa ešte vôbec neuvažovalo 

o ďalšom vydaní slovníka, takže sme údaje použili „len“ ako materiál 

pre morfologickú databázu slovenského jazyka (Benko – Hašanová – 

Kostolanský 2001), ktorá neskoršie vznikla v Laboratóriu počítačovej lingvisti- 

191


ky Pedagogickej fakulty UK. Skúsenosti a nástroje vytvorené počas tohto 

projektu sa však veľmi rýchlo uplatnili už v nasledujúcom slovníkovom diele. 

3. Na konci životného cyklu slovníka: Slovník slovenských nárečí (I. zväzok) 

Začiatkom 90-tych rokov pretrvávali pri vydávaní slovníkov ešte staré „socialistické“ 

pomery, kde nebolo nezvyčajné, že publikácia pripravená do tlače 

čakala na svoje vydanie aj niekoľko rokov. Autori lexikografických diel tomu 

čiastočne čelili (a čiastočne to aj zneužívali) tým, že koniec prác na slovníku 

deklarovali v predstihu, pričom sa mlčky predpokladalo, že záverečné redakčné 

práce sa vykonajú počas „čakacieho“ obdobia a dlhých intervalov tlačiarenských 

korektúr. 

Tak to bolo aj v prípade prvého zväzku Slovníka slovenských nárečí 

(1994, ďalej len SSN): čistopis textu prepísaný na písacom stroji s (ručne) farebne 

vyznačenými typmi písma bol podľa vtedajších zvyklostí pripravený na 

štítkoch v škatuliach a čakal na odvezenie do tlačiarne. Tak vznikla myšlienka 

uskutočniť v tomto medzičase (nešpecifikovanej dĺžky) experiment, 2 ktorý by 

overil možnosť využitia počítača pri ďalšom koncipovaní textu slovníka. Počas 

experimentu bolo prepísaných niekoľko strán skoncipovaného diela vo formáte 

MOM a bol vytvorený program na jeho prevod do formátu vhodného na import 

do zalamovacieho systému FERRANTI-TRACT, ktorý sa vtedy používal v 

tlačiarňach Svornosť na sadzbu slovníkov. Išlo vlastne o opačný smer prenosu 

dát, ako sa predtým uskutočnil s textom KSSJ, takže získané skúsenosti boli veľmi 

cenné. 

Experiment sa vydaril – autori slovníka po prvýkrát uvideli návrh grafickej 

podoby diela, na ktorom už veľa rokov pracovali, ale výsledok sa zdal byť 

ešte v nedohľadne. Ukázalo sa tiež, že formát MOM sa dá dobre použiť nielen na 

reprezentáciu textu získaného prevodom z iného systému, ale je vhodný aj na 

prvotné písanie textu. „Prepisovači“ (a neskoršie aj autori) si na značkovanú 

podobu textu veľmi rýchlo zvykli a prijali ju za svoju a neskoršie, keď sa robili 

experimenty so systémami typu WYSIWYG, vyhlásili značkovanú podobu za výhodnejšiu 

pre prácu lexikografa. (Len malý príklad: na počítačovom termináli je 

dosť ťažké rozlíšiť, či spojka „i“ je alebo nie je napísaná kurzívou.) 

2 Treba poznamenať, že táto iniciatíva pochádzala od dvoch vtedajších mladých doktorandiek 

Gabriely Barančokovej-Múcskovej a Ľubice Dvornickej z nárečového oddelenia JÚĽŠ, ktoré sa ujali 

prvotného prepisovania textu na jednom z troch vtedajších počítačov v JÚĽŠ – na PC XT. 

192


Dôsledkom tohto experimentu bolo rozhodnutie prepísať na počítači časť 

textu skoncipovaného slovníka pochádzajúceho od autorov, ktorí už kolektív 

opustili, a vykonať s týmto textom ešte jedno kolo redakčných prác. Neskoršie, 

keď sa tlačiarenský termín stále odďaľoval, sa takto spracoval aj zvyšok textu 

slovníka. 

Z hľadiska štruktúry heslovej state a zvolenej grafickej reprezentácie 

jednotlivých jej prvkov sa SSN veľmi podobá na KSSJ. Na prvý pohľad udrie 

do očí len pravopis používaný pri zápise nárečových dokladov, ktorý obsahuje 

niektoré znaky neznáme v spisovnom pravopise (napr. ć alebo ś), a informácia 

o lokalite, z ktorej daný doklad pochádza. Na zápis uvedených znakov sa použila 

notácia so znakom „opačná lomka“, čiže napr. znak ć sa zapísal ako c\’, a na 

lokality sa zaviedol „nový pár“ operátorových zátvoriek (hranatých) s tým, že 

ich výsledná grafická podoba sa určí neskôr. Príklad časti textu SSN vo formáte 

MOM je na nasledujúcom obrázku: 

!1 

"čaba" |ž.| i "čabiak" |m. vin.| sorta skorého bieleho stolového hrozna, 

čabianska perla: ’Bola čaba, malaga, to boli skoré hrozni na jedzení’ 

[Limbach MOD]; ’To boli záliskové hrozni, na čabe ešče dozráli’ [Vinosady 

MOD]; ’V águste uš čabág zraje’ [Jur p. Brat. BRA]; ’Bol bílí, červení tokaj, 

portogézija, čabák’ [Bernolákovo BRA] 

!2 

"čabaňa^1" i "čabanka" |ž. trn, pov, jtrenč| malá nádoba s uškom (obyč. 

porcelánová al. hlinená), z ktorej sa pije: ’Vipila sis kávu s čabani?’ [Vaďovce 

MYJ]; ’Boli také kamené hrnčeki, kamenáčki, aj čabanka sa im hovorilo’ 

[Vinosady MOD]; ’čabaňa’ [Bošáca TRČ]; ’čabanka’ [Ružindol 

TRN] 

!3 

"čabaňa^2" i "čabianka" |ž.| (’čabanka’) |vin.| sorta skorého bieleho 

stolového hrozna, čabianska perla: ’Stolové hrozne boli strapág aj čabana’ 

[Vištuk MOD]; ’Mán tam rizlink, portugal, mán tan čabanu’ [Bučany HLO]; ’Je 

čabaňa a bílí samorodák, kerí má velice slatkú chuť podobnú čabaňe’ 

[Nitra]; ’Mávali zme skorú sortu čabanku’ [Trakovice HLO]; ’čabianka’ 

[Pukanec LVI] 

!4 

"čabarok" |m.| druh chrobáka obžierajúceho lístie stromov, |zool.| chrúst 

obyčajný (Melolontha vulgaris): ’Čabarog vľecel do chiži’ [Medzany SAB] 

!6 

"čabda" |ž. gem| pasca na vtáky: ’čabda’ [Revúca] 

193


Hlavným problémom reprezentácie slovníkového textu vo formáte MOM 

bolo to, že sa pri prepise často zabudlo na otváraciu alebo zatváraciu operátorovú 

zátvorku. Rozhodli sme sa preto vytvoriť kontrolný program, ktorý zhodu 

zátvoriek kontroluje a upozorňuje na všetky „nevyváženosti“ výpisom riadkov 

textu, v ktorom sa problém vyskytol. Tento program sa neskôr stal základom 

validačného parsera, ktorý kontroluje správnosť syntaxe heslových statí a štandardne 

upozorňuje na tieto chyby: 

1. nevyváženosť nepárových operátorových zátvoriek; 

2. nevyváženosť párových zátvoriek (pričom tieto môžu byť aj vnorené); 

3. chýbajúce alebo nadbytočné medzery okolo interpunkčných znamienok 

(ide o bodku, čiarku, dvojbodku, bodkočiarku, výkričník, otáznik a operátorové 

zátvorky); 

4. viacnásobné medzery v texte (často indikujúce napr. chýbajúce jednoznakové 

predložky alebo spojky); 

5. postupnosť čísel významov (označených polotučným písmom; algoritmus 

je tu veľmi jednoduchý: ak sa vyskytne polotučná číslovka, musí to 

byť buď jednotka, alebo číslo o jednotku väčšie, ako bol jej predchádzajúci 

výskyt v danej heslovej stati); 

6. postupnosť písmen „a)“ až „z)“ v rôznych zoznamoch (berie sa do úvahy 

aj možnosť „ch)“). 

Voliteľne možno navyše žiadať o tieto kontroly: 

7. postupnosť čísel v identifikačných riadkoch začínujúcich výkričníkom 

(takto sa často objaví vynechanie kartičky pri prepisovaní); 

8. prítomnosť nadbytočných medzier na začiatku riadka. 

Možno povedať, že pomocou validačného parsera sa hneď v zárodku dá 

odstrániť veľké množstvo chýb, ktoré sa pri klasickom spôsobe práce zdĺhavo 

hľadali v korektúrach. Zároveň sa postupne zlepšujú aj pisárske návyky autorov 

textu s tým, že časom sa počet chýb kontrolovaných typov už pri prvotnom 

vstupe podstatne zníži. 

V prvých projektoch sme procedúru validačného parsera modifikovali pre 

každý nový kontrolovaný slovník, dnešná podoba programu je už rovnaká pre 

viacero projektov, pričom odlišnosť vo funkcii sa špecifikuje pomocou vstupných 

parametrov. 

194


Celkovo možno konštatovať, že použitie počítača v projekte SSN síce neprinieslo 

skrátenie prác, zato však kvalita textu podstatne stúpla. 

4. Recyklácia skúseností a nástrojov: Historický slovník slovenského jazyka 

(III. a IV. zväzok) 

V čase dokončovania prác na 1. zväzku SSN mal iný slovníkový projekt – 

Historický slovník slovenského jazyka (ďalej len HSSJ) – za sebou už dva zväzky: 

HSSJ I (1992) a HSSJ II (1993), ktoré boli vytlačené tradičnou technológiou. 

Po skúsenostiach so SSN sa vedenie JÚĽŠ rozhodlo využiť počítačovú 

technológiu aj pri tomto projekte, ktorý bol v podobnej etape rozpracovania ako 

SSN I. Vzhľadom na nedostatok pisárskej kapacity na pracovisku sa však text 

prepisoval externe, pričom dodávateľ bol schopný pracovať len vo formáte textového 

procesora T602, na ktorý boli jeho pracovníčky zvyknuté. Keďže program 

T602 neumožňuje pracovať s rôznymi veľkosťami písma, bolo toto písmo 

zapisované pomocou písma podčiarknutého. 

Štruktúra heslovej state HSSJ je veľmi podobná s predchádzajúcimi, pričom 

rozdiely sú dané jednak charakterom dokladového materiálu (zapisovaného 

v historickom pravopise) a jednak tým, že bola zvolená „opačná“ konvencia 

pri reze písma v zápise výkladov a dokladov: výklady sú v HSSJ zapísané kurzívou 

a doklady obyčajným stojatým písmom. 3 

!2774d 

"oťažiť" [otíž-] |dk práv| 

"1." |koho| ’zaťažiť obžalobou, obžalovať niekoho’: kdyz gemu to bude 

nagdeno, ze on to dobrze muoz vdielati, tehdy otižes (!) geho podle prawa, 

kterak sie gma geho podgiti, ze by gemu mohlo ku pomoczy przigiti k geho 

prawu |ŽK 1473| 

"2." |komu čo| ’priťažiť niekomu (v súdnom spore)’: kterzyz z nich nagprwe 

vmrze, ten obdrzy zalobu a onomu geho rany obtizy |ŽK 1473| 

!2774d 

"otcovizeň" |p.| "otčizeň" 

!2775a 

"otcovsko-materinský" |príd| ’týkajúci sa otca i matky’: z običajuv, vúle, 

zádosti a činuv otcovskomaterinskích mnoho do dítek prelívano bíva 

|BR 1785| 

3 Takáto konvencia je obvyklá v niektorých českých lexikografických dielach. 

195


!2775b 

"otcovský" |p.| "otec" 

!2775c 

"otcovstvo" [-o, -í] |s| ’stav toho, kto je otcom’: klekam na swá kolena k Otcy 

Pana nasseho Gežjsse Krysta, z kterehožto každe otcowstwo na neby y na 

zemy gmenuge se |SK 1697|; nagmilostiwegšý ten Pán i w panstwú swém 

na otcowstwj swé |BN 1790|; otcoustvi zalezi v tom, že gich za svich 

uznava, duszi telem opatruge, wiučuge, napomina, pokutuge |SS 18. st| 

!2775d 

"otcozabíjač" |m| ’otcov vrah’: pribyhagú wogáci, publikáni, kúrwi, 

modloslužebnjci, otcúwzabigaci, čzarodewnjci, swodnjci |BlR 18. st| 

Pri spracovaní textu slovníka sa už do značnej miery dosiahla úspora 

programátorskej práce – využili sa hotové nástroje, ktoré bolo treba len mierne 

upraviť – a ako úplne nová vznikla len procedúra konverzie z formátu programu 

T602 do formátu MOM. Ukázalo sa, že je to proces vcelku priamočiary. 

Jediným vážnejším problémom bola iná konvencia pri zápise „typu písma“ pri 

znaku „medzera“: formát MOM predpokladá, že úvodná a koncová medzera 

pri vyznačenom type písma je zapísaná obyčajným písmom, zatiaľ čo vo formáte 

T602 medzera vždy má rovnaký typ písma ako predchádzajúci text. Na elimináciu 

tohto problému sa však dala pomerne ľahko vytvoriť automatizovaná 

procedúra, takže redakčné práce už mohli počítať s textom v štandardnej podobe. 

Pri príprave tlačových podkladov sa ukázala ešte jedna výhoda toho, že 

text je v počítačovej podobe: pri odhade počtu vytlačených strán vysvitlo, že 

pripravený text bude potrebné rozdeliť do dvoch zväzkov (HSSJ III 1994 

a HSSJ IV 1995) – počas celého obdobia koncipovania textu autori mali značne 

skreslenú predstavu o tom, koľko ho vlastne je. 

5. Trochu iný slovník: Synonymický slovník slovenčiny 

Projekt Synonymického slovníka slovenčiny (1995, ďalej len SSS) sa z 

pohľadu autorov líšil od predchádzajúcich najmä v spôsobe rozdelenia materiálu 

medzi jednotlivých členov kolektívu. Na rozdiel od tradičného členenia 

textu na „písmená“ tu autori pracovali „podľa slovných druhov“ – táto taktika 

bola asi jediná možná vzhľadom na to, že synonymia predstavuje vzťahy medzi 

slovami toho istého slovného druhu, a tiež vzhľadom na veľké množstvo odka- 

196


zov, ktoré museli autori pri tvorbe synonymických radov zohľadniť a spracovať. 

O tomto projekte podrobnejšie porov. Pisárčiková – Benko (1996). Tu sa 

obmedzíme len na niekoľko poznámok. Nasledujúci obrázok obsahuje príklad 

textu SSS: 

!a69 

"čudácky" |p.| čudný 

!s115 

"čudák" človek, ktorého správanie, prejavy sa vymykajú norme: ’v mladosti 

bol čudák’, |hovor. expr.| "patrón": ’je to čudný patrón, nechodí do 

spoločnosti’, |expr.:| "odľud, čudo" [J. Horák], |zastar.| "podivín" 

!a70 

"čudesný" |p.| čudný 

!s116 

"čudeso" |p.| zázrak 

!a71 

"čudný" ktorý sa vyznačuje mimoriadnosťou, zriedkavosťou; ktorý je málo 

známy, ktorý sa nedá presne pomenovať, určiť, "neobyčajný, nezvyčajný, 

nevšedný, zvláštny" (|op.| obyčajný, bežný, všedný): ’čudný, neobyčajný 

príbeh; čudné, nezvyčajné správanie; nezvyčajný, nevšedný, zvláštny 

strom’, "divný, podivný, podivuhodný, podozrivý, znepokojujúci" 

(vzbudzujúci údiv, počudovanie, znepokojenie): ’začuť divné, podivné, 

podivuhodné zvuky; podozrivé, znepokojujúce ticho’, "čudácky" (typický pre 

čudáka): ’vedie čudácky život’, |kniž.:| "bizarný, pitoreskný": ’bizarné, 

pitoreskné tvary’, |expr.:| "čudesný, prečudesný, prečudný, predivný, 

prepodivný, prapodivný, prazvláštny", |expr. zried.| "pračudný" (veľmi 

čudný): ’čudesná, prečudesná, prečudná krajina; prepodivný, pračudný 

pocit’, "nepochopiteľný, záhadný, tajomný" (plný tajomstva, nepoznaný, 

nepreskúmaný): ’nepochopiteľná, záhadná osoba; tajomné symboly’, 

"nevysvetliteľný": ’nevysvetliteľná záhada, nevysvetliteľný úkaz’ 

!s117 

"čudo" "1." |p.| zázrak "2." |p.| strašidlo 1 "3." |p.| čudák 

!v78 

"čudovať sa" pociťovať a prejavovať prekvapenie, údiv, "diviť sa, byť 

prekvapený": ’diváci sa čudujú, divia, sú prekvapení, že sa predstavenie 

ešte nezačalo’, "žasnúť, byť ohromený" (čudovať sa vo veľkej miere): ’žasli 

sme nad výkonmi športovcov’, |expr.:| "vyvaľovať oči, otvárať oči, híkať, 

ochkať, achkať": ’čudujem sa toľkej odvahe, otváram oči nad toľkou 

odvahou; čuduje sa, híka, achká nad toľkou krásou’, "prekvapuje ma" (iba v 

3. os.): ’čudujem sa tomu, prekvapuje ma to’, |fraz. expr.| "oči mu vyliezajú 

z jamiek/jamôk" (pri veľkom prekvapení) 

197


Aj keď sme sa o tom pri predchádzajúcich projektoch nezmieňovali, 

jedným z nástrojov vytvorených na výsledné spracovanie textu slovníka bol 

program na abecedné usporiadanie hesiel vo formáte MOM. Vzhľadom na to, 

že autori dodávali jednotlivé úryvky textu už abecedne usporiadané, poslúžil 

tento program „len“ na zisťovanie drobných chýb, ktorých sa autori pri ručnom 

usporadúvaní dopustili. V projekte SSS však existencia takéhoto nástroja bola 

takmer nevyhnutnosťou – ručné usporiadanie takto rozsiahleho textu je síce 

možné uskutočniť, ale bola by to obrovská práca. 

Nebudeme sa tu zmieňovať o nuansách a teoretických i praktických problémoch 

implementácie programu na abecedné usporadúvanie, spomenieme len, že 

na danom projekte prešiel skúškou ohňom a že je to z celého balíka vytvorených 

nástrojov pravdepodobne „najotestovanejší“ program. Jeho použitie umožňovalo 

autorom, aby až do posledného momentu mohli pracovať len so „svojím“ textom, 

ktorý sa stal súčasťou výsledného tvaru slovníka pri každom korektúrnom cykle 

nanovo. 

Druhou oblasťou problémov bola verifikácia správnosti odkazov: v heslových 

statiach sú jednotlivé členy synonymických radov uvádzané v poradí 

klesajúcej zhody významu s tzv. dominantou, t. j. základným členom synonymického 

radu. Aby mohol používateľ slovníka nájsť príslušnosť jednotlivých 

členov synonymického radu k dominantám, musí byť každý člen radu uvedený 

v slovníku na správnom mieste podľa abecedného poradia vo forme odkazu. 

V ideálnom prípade by sa všetky takéto odkazy dali vygenerovať automaticky 

– v praxi to však nebolo možné z viacerých dôvodov. Prvým je skutočnosť, 

že ak sa heslové slovo vyskytuje vo viacerých synonymických radoch, 

musia byť aj odkazy členené podľa jednotlivých významov slova, t. j. autor 

musí pri spracúvaní odkazov zohľadňovať polysémiu. Ďalej, koncepcia slovníka 

predpokladala, že členy radov s učitými charakteristikami (napr. nespisovné 

alebo nárečové slová) sa vo forme odkazov uvádzať nebudú, pretože sa neočakáva, 

že by používateľ slovníka takúto informáciu v diele hľadal. A nakoniec, 

technológia práce autora bola v skutočnosti iteratívna – v niekoľkých kolách sa 

pre každý význam polysémického slova autor rozhodoval, či ho spracuje ako 

dominantu synonymického radu alebo len vo forme odkazu. Tieto dôvody viedli 

k tomu, že odkazy nebolo možné vytvoriť automaticky, ale bolo ich potrebné 

verifikovať. Navrhnutá procedúra zaradila každý odkaz a každý výskyt slova v 

synonymickom rade do jednej z kategórií: 

198


1. Správny odkaz: pre člen synonymického radu existuje odkazová položka 

na správnom mieste v abecede. 

2. Chýbajúci odkaz: pre člen synonymického radu neexistuje odkazová 

položka – príčinou môže byť buď rozhodnutie autora, alebo omyl. 

3. Nadbytočný odkaz: pre danú položku neexistuje buď daná dominanta, 

na ktorú slovo odkazuje, alebo pri existujúcej dominante dané slovo 

nefiguruje ako člen synonymického radu. 

Okrem toho procedúra umožnila odhaliť duplicity v synonymických radoch, 

t. j. situácie, keď sa dané slovo vyskytuje v synonymickom rade viackrát 

(obyčajne na rôznych miestach), ktorých bolo na počudovanie niekoľko 

desiatok. Chyby druhého a tretieho typu boli buď „čisté“, t. j. autorské omyly 

v zmysle definície, alebo sa často vyskytovali aj v dôsledku preklepov v zápise 

príslušných slov – takéto prípady boli indikované dvojicou chybových zápisov 

(druhého a tretieho typu) týkajúcou sa tej istej chyby. Vlastné opravy chýb v odkazoch 

si síce vždy vyžadovali autorskú prácu, táto však bola uľahčená presnou 

informáciu o lokalizácii problému v dvojici synonymický rad – odkaz. 

Procedúra verifikácie a ručných opráv prebehla v niekoľkých cykloch, pričom 

po každom jej kole počet nájdených chýb podstatne poklesol: z pôvodných 

niekoľko tisícok až na niekoľko desiatok na konci opravného procesu. Pri 

prvom kole bolo z rôznych dôvodov označených za chybné takmer 10 % odkazov 

– táto skutočnosť jasne demonštruje, že bez použitia automatizovaných verifikačných 

procedúr by takýto slovník v rozumnej kvalite ani nebolo možné 

pripraviť. 

6. Kruh sa uzatvára: tretie vydanie Krátkeho slovníka slovenského jazyka 

Práca na novom vydaní KSSJ bola pre nás značnou satisfakciou – pri autorských 

zásahoch bolo možné použiť elektronickú verziu druhého vydania, čo 

celý proces skrátilo podľa našich odhadov minimálne o jeden rok. Súbor nástrojov 

na spracovanie textu bol už v podstate uzavretý a organizácia práce prebiehala 

rutinným spôsobom. Zmienime sa tu preto len o jednom novom prvku 

použitom pri redakčných prácach – o prezentácii zmien urobených v slovníku. 

Porovnávanie dvoch textov pomocou počítača je pomerne priamočiary proces, 

problematické je však efektívne zobrazenie nájdených rozdielov. Ako príklad 

nášho riešenia uvedieme vizualizáciu rozdielov v heslároch obidvoch vydaní 

KSSJ, ktorá sa osvedčila v takejto dvojstĺpcovej podobe: 

199


2c-056c18 "celieť sa" 

2c-058b04 "CGT" 

2c-058b05 "CIA" 

2c-058b15 "CIC" 

2c-059a01 "cigánčina" 

3c-003___ "celebrovať" 

3c-056c70 "celiť" 

3c-056c70 "celiť sa" 

3c-004___ "celoplošne" 

3c-004a__ "celosieťový" 

3c-057a73 "celulózovo-papiernický" 

3c-005___ "centiliter" 

3c-006___ "certifikácia" 

3c-006___ "certifikačný" 

3c-007___ "cestovka" 

3c-008___ "cezhraničný" 

3c-009___ "ciachovné" 

3c-009a__ "cicavý" 

3c-059a01 "cigánčina^1" 

3c-059a51 "cigánčina^2" 

V ľavom stĺpci sa nachádzajú heslové slová, ktoré sa vyskytujú v 2. vydaní 

KSSJ a v 3. vydaní boli vynechané, v pravom stĺpci sú novopridané heslové slová 

v 3. vydaní. Ako vidíme, v novom vydaní boli vynechané iniciálové skratky, pribudlo 

veľa nových hesiel a k niektorým heslám boli pridané homonymá. 

Takýto spôsob prezentácie rozdielov si autori veľmi obľúbili, a preto sme 

ho použili aj v iných projektoch, ako aj na vizualizáciu rozdielov medzi heslármi 

rôznych slovníkov. 

7. Záver: O čom sme nehovorili a čo nás ešte čaká 

Predchádzajúce kapitoly sa stručne dotkli počítačového spracovania niekoľkých 

slovenských slovníkov. V štúdii daného rozsahu sme sa jednotlivým 

projektom nemohli venovať podrobnejšie, a tak sme nespomenuli napr. pomerne 

efektívnu metódu vyhľadávania chybných zápisov jednotlivých prvkov metajazyka 

slovníka (akými sú napr. rôzne kvalifikátory a údaje o prameňoch, citáciách 

a lokalitách), ako aj metodiku na unifikáciu výkladových parafráz pri 

heslách patriacich do rovnakej lexikálnej skupiny. Nezmienili sme sa o ostatných 

lexikografických projektoch využívajúcich uvedenú technológiu – ide o 

niekoľko prekladových slovníkov na jednej strane spektra, ktoré na druhej 

200


strane siaha až po nový projekt viaczväzkového slovníka súčasnej slovenčiny. 

Predpokladáme, že tieto údaje budeme môcť uviesť v budúcej monografii. 

Všetky naše doterajšie práce sa vykonávali nad tzv. slabo štruktúrovaným textom, 

kde je text slovníka reprezentovaný pomocou značkovacieho jazyka blízkeho 

typografickej reprezentácii. Má to viacero príčin. Na prvom mieste treba 

uviesť stav technického a programového zabezpečenia v čase, keď sa naše 

projekty začínali – v roku 1989 sa ešte vôbec nedalo uvažovať ani o systémoch 

typu WYSIWYG, ani o platforme schopnej spracúvať text reprezentovaný v jazyku 

SGML. Počas celého uvažovaného obdobia sme pociťovali akútny nedostatok 

programátorskej kapacity – realizovateľné boli len tzv. „lacné riešenia“. No a nakoniec 

tu bol tlak bežiacich projektov: v časovej tiesni sa obyčajne dáva prednosť 

„vrabcovi v hrsti“ (MOM) pred „holubom na streche“ (SGML a všetko, čo s tým 

súvisí). 

Nechceme však povedať, že sme túto cestu zavrhli. S počítačmi so stále 

rastúcou výkonnosťou, dostupnejšími nástrojmi pre prácu s jazykmi SGML 

a XML a s črtajúcim sa projektom nového korpusového pracoviska v JÚĽŠ SAV 

dúfame, že ono – v tomto zborníku už citované (Smrž 2001) – „... Maybe Later“ 

bude aj u nás hovoriť o budúcnosti nie príliš vzdialenej. 

Literatúra 

BENKO, Vladimír – HAŠANOVÁ, Jana – KOSTOLANSKÝ, Eduard. 2001. Morfologická 

databáza ohybných slovných druhov slovenčiny na účely algoritmického spracovania textov. In: Jazykovedný 

časopis, roč. 52, č. 1, s. 3 – 23. 

BENKO, Vladimír – KOSTOLANSKÝ, Eduard. 1997. Počítačová verzia Krátkeho slovníka 

slovenského jazyka. In: Jazykovedný časopis, roč. 48, č. 1, s. 9 – 20. 

KAČALA, Ján – PISARČÍKOVÁ, Mária (eds.). 1987. (1. vydanie). Krátky slovník slovenského 

jazyka. Bratislava: Veda. 

KAČALA, Ján – PISARČÍKOVÁ, Mária – POVAŽAJ, Matej (eds.). 1997. (3. vydanie). Krátky 

slovník slovenského jazyka. Bratislava: Veda. 

MAJTÁN, Milan (ed.). 1992. (1. vydanie). Historický slovník slovenského jazyka. I. zv. Bratislava: 

Veda. 

MAJTÁN, Milan (ed.). 1993. (1. vydanie). Historický slovník slovenského jazyka. II. zv. Bratislava: 

Veda. 

MAJTÁN, Milan (ed.). 1994. (1. vydanie). Historický slovník slovenského jazyka. III. zv. Bratislava: 

Veda. 

MAJTÁN, Milan (ed.). 1995. (1. vydanie). Historický slovník slovenského jazyka. IV. zv. Bratislava: 

Veda. 

201


PISÁRČIKOVÁ, M. – BENKO, V. 1996. Slovak Synonym Dictionary. In: Gallerstam, M. et al. 

(eds.), EURALEX ’96. Proceedings of the Seventh EURALEX International Congress on Lexicography. 

Göteborg: Götebog University, s. 689 – 696. 

RIPKA, Ivor (ed.). 1994. (1. vydanie). Slovník slovenských nárečí. I. zv. Bratislava: Veda 

SMRŽ, Pavel 2001. Slovníková data ve formátu XML. In: Alexandra Jarošová (ed.), Slovenčina 

a čeština v počítačovom spracovaní. Bratislava: Veda, s.168. 

202

203

S L O V E N Č I N A 

A Č E Š T I N A 

V P O Č Í T A Č O V O M 

S P R A C O V A N Í 

Návrh obálky Hana Kohútová (s použitím grafického motívu P. Kleeho) 

Zodpovedná redaktorka Jitka Madarásová 

Prvé vydanie. Vydala VEDA, vydavateľstvo Slovenskej akadémie vied, v Bratislave 

roku 2001 ako svoju 3378. publikáciu, z tlačových podkladov Jazykovedného 

ústavu Ľudovíta Štúra SAV. 196 strán. 

ISBN 80-224-0692-9

Slovenčina a čeština v počítačovom spracovaní - Slovenský národný ...

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?