18.07.2013 Views

Slovenčina a čeština v počítačovom spracovaní - Slovenský národný ...

Slovenčina a čeština v počítačovom spracovaní - Slovenský národný ...

Slovenčina a čeština v počítačovom spracovaní - Slovenský národný ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

VEDA<br />

VYDAVATEĽSTVO SLOVENSKEJ AKADÉMIE VIED


JAZYKOVEDNÝ ÚSTAV ĽUDOVÍTA ŠTÚRA SLOVENSKEJ AKADÉMIE VIED<br />

PEDAGOGICKÁ FAKULTA UNIVERZITY KOMENSKÉHO<br />

RECENZENTI<br />

Ing. Vladimír Benko<br />

PhDr. Mária Šimková


S L O V E N Č I N A<br />

A Č E Š T I N A<br />

V P O Č Í T A Č O V O M<br />

S P R A C O V A N Í<br />

VEDA<br />

vydavateľstvo<br />

Slovenskej<br />

akadémie<br />

vied<br />

Bratislava 2001<br />

Zborník referátov zo seminára<br />

Bratislava 26. – 27. októbra 2001<br />

EDITORKA<br />

ALEXANDRA JAROŠOVÁ


© Vladimír Benko, František Čermák, Sachia Daržágín, Peter Ďurčo, Karol<br />

Furdík, Jan Hajič, Jana Hašanová, Jozef Ivanecký, Alexandra Jarošová,<br />

Eduard Kostolanský, Ľubomír Kralčák, Vlasta Křečková, Michal Křen,<br />

Karel Pala, Milan Rusko, Pavel Smrž, Marián Trnka 2001.<br />

Tento zborník je jedným z výsledkov účasti Jazykovedného ústavu Ľudovíta Štúra<br />

Slovenskej akadémie vied a Pedagogickej fakulty Univerzity Komenského v<br />

mnohonárodnom projekte Transeurópska infraštruktúra jazykových zdrojov II<br />

(Trans--European Language Resources Infrastructure II – TELRI II, PL 97-<br />

7085), ktorý sa ako súbor koordinovaných podujatí (coordinated action)<br />

uskutočnil v rámci programu Európskej komisie INCO-COPERNICUS v<br />

rokoch 1999 – 2001. Aktivity slovenských partnerov v tomto projekte boli čiastočne<br />

financované z prostriedkov štátneho rozpočtu Slovenskej republiky (grant<br />

SAV pridelený na riešenie projektu medzinárodnej vedecko-technickej spolupráce<br />

č. 51-98-9205-00/1999 a grant Ministerstva školstva Slovenskej republiky<br />

č. PL 97-7085)


ISBN 80-224-0692-9<br />

OBSAH<br />

OBSAH.............................................................................................................5<br />

Malá inventúra pred hľadaním spoločného jazyka..........................................7<br />

Statistické modelování<br />

a automatická analýza<br />

přirozeného jazyka<br />

(morfologie, syntax, překlad)..........................................................................11<br />

Jan Hajič: Ústav formální a aplikované lingvistiky a Centrum komputační lingvistiky,<br />

Matematicko-fyzikální fakulta Univerzity Karlovy (hajic@ufal.mff.cuni.cz)..............................................................................................................11<br />

Identifikácia paradigmatických<br />

a syntagmatických vzťahov v texte.................................................................35<br />

Karol Furdík: Juvier, s.r.o., Košice.....................................................................35<br />

Spracovanie morfologickej<br />

roviny slovenčiny počítačom..........................................................................51<br />

Eduard Kostolanský – Jana Hašanová: Laboratórium počítačovej lingvistiky,<br />

Pedagogicka fakulta Univerzity Komenského, Bratislava.................................51<br />

Databases for Speech Recognition and Synthesis in Slovak..........................92<br />

Milan Rusko – Sachia Daržágín – Marián Trnka: Institute of Informatics,<br />

Slovak Academy of Sciences, Bratislava............................................................92<br />

SAMPA V SLOVENČINE A JEJ VÝZNAM<br />

Z POHĽADU VIACJAZYČNÝCH<br />

SYSTÉMOV NA ROZPOZNÁVANIE REČI .............................................102<br />

Jozef Ivanecký: IBM Voice Systems, European Speech Research; Katedra kybernetiky<br />

a umelej inteligencie, Fakulta elektrotechniky a informatiky Technickej<br />

univerzity Košice (ivanecky@de.ibm.com)................................................102<br />

AUTOMATICKÁ TRANSKRIPCIA<br />

SLOVENČINY V POČÍTAČOVOM<br />

ROZPOZNÁVANÍ REČI .............................................................................114<br />

Jozef Ivanecký: IBM Voice Systems, European Speech Research; Katedra kybernetiky<br />

a umelej inteligencie, Fakulta elektrotechniky a informatiky Technickej<br />

univerzity Košice (ivanecky@de.ibm.com)...........................................114<br />

viacjazyčný výslovnostný<br />

slovník vlastných mien a názvov lokalít......................................................122<br />

Peter Ďurčo: Akadémia Policajného zboru, Bratislava (durco@ minv.sk)......122


ČESKÝ NÁRODNÍ KORPUS:<br />

Stav v roce 2001............................................................................................126<br />

František Čermák: Ústav Českého národního korpusu, Filozofická fakulta University<br />

Karlovy, Praha (Frantisek.Cermak@ff.cuni.cz)...................................126<br />

Český národní korpus –<br />

počítačová demonstrace................................................................................142<br />

Michal Křen: Ústav Českého národního korpusu, Filozofická fakulta University<br />

Karlovy, Praha..................................................................................................142<br />

Informácie v terminologických databázach a ich využívanie pri preklade odborných<br />

textov...............................................................................................148<br />

Vlasta Křečková: Fakulta humanitných vied Univerzity Mateja Bela, Banská<br />

Bystrica.............................................................................................................148<br />

Projekt slovníka štúrovskej<br />

slovenčiny a jeho počítačová podpora..........................................................156<br />

Ľubomír Kralčák: Katedra slovenského jazyka, Filozofická fakulta Univerzity<br />

Konštantína Filozofa, Nitra..............................................................................156<br />

Návrh české lexikální databáze....................................................................161<br />

Karel Pala: Katedra informačních technologií, Fakulta informatiky Masarykovy<br />

university, Brno (pala@fi.muni.cz)..................................................................161<br />

Slovníková data ve formátu XML................................................................175<br />

Pavel Smrž: Fakulta informatiky Masarykovy univerzity, Brno......................175<br />

počítačová podpora SLOVENSKÝCH lexikografických projektov – retrospektívny<br />

pohľad............................................................................................188<br />

Vladimír Benko: Laboratórium počítačovej lingvistiky Pedagogickej fakulty<br />

Univerzity Komenského; Jazykovedný ústav Ľudovíta Štúra Slovenskej akadémie<br />

vied, Bratislava (Vladimir.Benko@fedu. uniba.sk)..................................188


MALÁ INVENTÚRA PRED HĽADANÍM<br />

SPOLOČNÉHO JAZYKA<br />

Seminár <strong>Slovenčina</strong> a <strong>čeština</strong> v <strong>počítačovom</strong> <strong>spracovaní</strong> sme organizovali<br />

so zámerom zlepšiť vzájomnú informovanosť ľudí zaoberajúcich sa na Slovensku<br />

problematikou počítačov vo vzťahu k jazyku a naopak, jazyka vo vzťahu<br />

k počítačom. V tejto oblasti sú u nás značne izolované ostrovčeky aktivít prebiehajúcich<br />

v odlišných vedných odboroch a teoreticko-aplikačných kontextoch.<br />

Tieto sa zameriavajú len na neveľké úseky a komponenty odboru počítačová<br />

lingvistika, pod ktorým možno chápať spolu s automatizovaným <strong>spracovaní</strong>m<br />

jazykových dát (vývoj a použitie príslušných programových nástrojov) aj<br />

teoretickú výstavbu jazykovedy v podobe modelov založených na využívaní<br />

jazykových znalostí v procedurálnej aj deklaratívnej podobe (gramatické<br />

pravidlá a počítačové lexikóny vybavené vysoko štruktúrovanou explicitnou informáciou,<br />

ako aj procedúry túto informáciu využívajúce), alebo v podobe<br />

modelov založených na pravdepodobnosti (stochastické gramatiky). V tomto<br />

zmysle môžu byť pre nás relevantné aj aktivity v oblasti umelej inteligencie a<br />

niektoré komponenty kognitívnej lingvistiky (scenáre, rámce a prototypy). Rozšírenie<br />

záberu má svoje opodstatnenie, pretože v pozadí formalizovaných a explicitných<br />

modelov stojí zreteľ k možným aplikáciám a naopak, technické aplikácie<br />

implementujú modely a výrazne stimulujú pohyb v teoretickej jazykovede<br />

vo všeobecnosti.<br />

Na rozdiel od Slovenska je situácia v Českej republike diametrálne odlišná.<br />

Keďže česká počítačová lingvistika je cieľavedome budovaná ako samostatný<br />

odbor už viac ako tridsať rokov, predstavuje dnes široké spektrum bádateľských<br />

a aplikovaných aktivít od formálnej (matematickej) lingvistiky cez počítačovú<br />

lexikografiu, strojový preklad, spracovanie rečového signálu až po<br />

korpusovú lingvistiku. Druhým cieľom nášho seminára je preto poskytnúť<br />

slovenskej odbornej verejnosti a študentom z lingvistických aj nelingvistických<br />

odborov ucelenejší pohľad na výsledky práce v oblasti počítačového spracovania<br />

češtiny, ktorá patrí v tomto smere medzi európsku a vo viacerých parametroch<br />

aj medzi svetovú špičku. Tento prehľad nám sprostredkujú vedúce osobnosti<br />

v danom teoretickom alebo aplikovanom úseku.<br />

Naším seminárom by sme chceli nadviazať na vedeckú, pedagogickú a organizačnú<br />

prácu Jána Horeckého, ktorý sa od začiatku šesťdesiatych rokov<br />

20. storočia usiloval uplatňovať princípy a metódy matematickej lingvistiky na<br />

7


materiáli slovenského jazyka (v jeho bibliografii možno nájsť vyše päťdesiat<br />

štúdií a článkov s danou problematikou). Tieto poznatky sprostredkoval aj svojim<br />

študentom a ašpirantom v prednáškach z matematickej lingvistiky a základov<br />

jazykovedy (skriptum Úvod do matematickej lingvistiky, Bratislava<br />

1969 a učebnica Základy jazykovedy, Bratislava 1978). J. Horecký sa usiloval<br />

zakotviť matematickú jazykovedu aj inštitucionálne, keď v roku 1962 založil<br />

oddelenie matematickej lingvistiky a fonetiky v bývalom Ústave slovenského<br />

jazyka SAV. V oddelení, ktoré viedol do roku 1970, pripravovali mladí adepti<br />

vedy K. Buzássyová, J. Bosák a R. Gedeon pomocou diernoštítkového stroja<br />

slovník tvarov a morfém a publikovali rad štúdií z oblasti štatistickej lingvistiky.<br />

V roku 1970 sa z iniciatívy J. Horeckého v uskutočnilo v Smoleniciach<br />

medzinárodné sympózium o algebraickej lingvistike, na ktorom sa zúčastnili vedúce<br />

osobností pôsobiace v tomto odbore (materiály zo sympózia boli uverejnené<br />

v Recueil Linguistique de Bratislava, vol. IV, Bratislava 1973). Matematická<br />

jazykoveda v tom čase zahŕňala aj staršiu kvantitatívnu (štatistickú) lingvistiku,<br />

zaoberajúcu sa najmä skúmaním frekvencie jazykových jednotiek v textoch,<br />

a algebraickú jazykovedu ako súhrn teórií vypracovaných s použitím<br />

matematickej logiky, teórie množín, teórie grafov a iných súčastí teoretického<br />

aparátu matematiky.<br />

Ak sme vyššie spomínali kvantitatívnu analýzu textov vyúsťujúcu do tvorby<br />

abecedných a konkordančných indexov a frekvenčných slovníkov, nemôžeme<br />

nespomenúť priekopníka kvantitatívnych metód v jazykovede a literárnej<br />

vede na Slovensku G. Altmanna a tiež autora frekvenčného slovníka slovenčiny<br />

(Frekvencia slov a tvarov, Bratislava 1969) a publikácie Frekvencia tvarov a konštrukcií<br />

v slovenčine (Bratislava 1985) J. Mistríka.<br />

Počítačovú lingvistiku chápanú podľa J. Horeckého ako aplikovaná matematická<br />

lingvistika, predstavovali v tom čase vlastne len zahraničné práce na<br />

strojovom preklade. Začiatkom sedemdesiatych rokov viaceré administratívne<br />

rozhodnutia sčasti externé (vo vzťahu k odboru), sčasti vnútorné (súvisiace s<br />

organizačnými zmenami v Jazykovednom ústave Ľudovíta Štúra) spôsobili, že<br />

sa matematická lingvistika nemohla na Slovensku rozvíjať ako samostatný odbor.<br />

J. Horecký v nasledujúcich rokoch spolupracoval na niektorých problémoch<br />

automatizovanej morfologickej analýzy slovenčiny s českými kolegami z<br />

Ústavu formální a aplikované lingvistiky na Matematicko-fyzikálnej fakulte Karlovej<br />

univerzity v Prahe.<br />

Vybrané lingvistické problémy (napr. lematizácia, tvorba sémantických<br />

sietí, rozpoznávací slovník) boli v osemdesiatych rokoch súčasťou riešenia úlohy<br />

8


spracovania textu pre potreby informačných (najmä knižničných) systémov (M.<br />

Cigánik, A. Appelová).<br />

Absencia inštitucionálnej a personálnej základne počítačovej lingvistiky<br />

sa odrazila na malej pripravenosti slovenskej jazykovedy vyrovnať sa s búrlivým<br />

zahraničným vývojom v oblasti automatizovaného spracovania prirodzeného<br />

jazyka (Natural Language Processing – NLP). Tento typ výskumu nahradil<br />

koncom šesťdesiatych rokov problematiku strojového prekladu (stiahnutú<br />

z agendy administratívnym zásahom). Bádanie sa začalo orientovať na<br />

dostatočne presný opis základných prvkov a vzťahov jazykovej štruktúry vhodný<br />

na spracovanie do podoby počítačového programu. Mohlo preto slúžiť ako<br />

vhodná základňa na etablovanie počítačovej lingvistiky ako samostatnej vednej<br />

disciplíny a nie ako aplikácie matematickej lingvistiky.<br />

Trocha lepšie je slovenská jazykoveda pripravená na novú empirickú orientáciu<br />

jazykovedy, ktorá sa prejavuje v budovaní reprezentatívnej materiálovej<br />

základne jazykovedného výskumu. Tieto rozsiahle zdroje autentického materiálu<br />

majú podobu textových databáz – korpusov. Korpusová lingvistika, ktorá<br />

sa zaoberá problematikou budovania a využívania textových korpusov, nie je<br />

len súborom progresívnych metód zhromažďovania a spracúvania materiálu,<br />

ale predstavuje v zásade iný pohľad na jazyk a jeho jednotky. Tu treba opäť<br />

spomenúť osobnosť J. Horeckého, ktorý stál aj pri revitalizácii počítačovej lingvistiky<br />

v Jazykovednom ústave, keď v rokoch 1988 – 1989 pripravil projekt<br />

bázy dát slovenského jazyka, v rámci ktorej sa začalo uvažovať aj o budovaní<br />

korpusu. Vďaka ústretovému prístupu riaditeľa Informačného centra SAV E.<br />

Kostolanského a jeho spolupracovníkov V. Benka a C. Belicu sa uskutočnilo<br />

niekoľko pracovných stretnutí, na ktorých sa prerokúvali možnosti vytvorenia<br />

spoločnej pracovnej skupiny počítačovej lingvistiky. V roku 1990 táto skupina<br />

(J. Horecký, V. Benko, A. Jarošová, E. Páleš) vznikla v Jazykovednom ústave<br />

Ľ. Štúra SAV a začala koncepčne pripravovať korpus a lexikálnu bázu dát.<br />

Tento zámer sa začal v roku 1992 realizovať ako grantový projekt, bol však natoľko<br />

finančne a personálne poddimenzovaný (V. Benko, A. Jarošová, M. Šimková;<br />

všetci traja s polovičnou a menšou časovou kapacitou), že sa podarilo vybudovať<br />

len interný korpus Jazykovedného ústavu Ľ. Štúra. Ide zatiaľ o pomerne<br />

nevyvážený súbor textov (bez anotácií), rozdelený na niekoľko fragmentov,<br />

ktoré doteraz nie sú spojené do jedného celku najmä preto, že používaný vyhľadávací<br />

program nedokáže naraz spracovať väčší objem textu.<br />

Začiatkom deväťdesiatych rokov E. Páleš teoreticky a aplikačne dopracúval<br />

počítačový model slovenčiny, ktorý v roku 1994 publikoval v monografii<br />

9


SAPFO – parafrázovač slovenčiny – počítačový nástroj na modelovanie v jazykovede.<br />

Začiatok deväťdesiatych rokov priniesol aj založenie Laboratória počítačovej<br />

lingvistiky na Pedagogickej fakulte Univerzity Komenského, kde sa<br />

pripravuje morfologická databáza slovenčiny (E. Kostolanský, J. Hašanová, V.<br />

Benko) a budúci učitelia a prekladatelia dostávajú v kurze prednášok informáciu<br />

o počítačovej podpore prekladu, o jazykových zdrojoch a počítačovej podpore<br />

výučby cudzieho jazyka. Nemáme presnú predstavu o mieste lingvistickej problematiky<br />

v štruktúre učebných predmetov v našich vzdelávacích inštitúciách<br />

prírodovedného a technického smeru, ale aktívna účasť študentov Technickej<br />

univerzity v Košiciach na medzi<strong>národný</strong>ch kolokviách mladých jazykovedcov,<br />

ktoré už desať rokov organizuje pracovníčka Jazykovedného ústavu Ľ. Štúra M.<br />

Nábělková, svedčia o dobrých výsledkoch košických kolegov pracujúcich v odbore<br />

umelá inteligencia. Témy viacerých diplomových prác a tímových projektov<br />

študentov Matematicko-fyzikálnej fakulty a Fakulty elektrotechniky a informatiky<br />

Univerzity Komenského nás presviečajú o tom, že na týchto pracoviskách<br />

nám vyrastajú partneri pre efektívny dialóg.<br />

V roku 1999 sa v Bratislave uskutočnil medzi<strong>národný</strong> seminár o inovačných<br />

prístupoch k viacjazyčným zdrojom a jazykovým technológiám Text Corpora<br />

and Multilingual Lexicography (Textové korpusy a viacjazyčná lexikografia).<br />

Toto podujatie, ktoré v spolupráci s Inštitútom nemeckého jazyka v<br />

Mannheime (W. Teubert, A. Lawson) organizovali Jazykovedný ústav Ľ. Štúra<br />

(A. Jarošová) a Pedagogická fakulta fakulta Univerzity Komenského (V. Benko),<br />

bolo súčasťou medzinárodného projektu Európskej komisie Trans-European<br />

Language Resources Infrastructure – COPERNICUS (Transeurópska štruktúra<br />

jazykových zdrojov). V týchto dňoch vrcholia organizačno-legislatívne aktivity<br />

smerujúce k založeniu korpusového pracoviska v rámci Jazykovedného ústavu<br />

Ľ. Štúra.<br />

Veľmi si vážime záujem všetkých, ktorí sem prišli prednášať aj počúvať,<br />

diskutovať a hľadať riešenia. Vitajte!<br />

10<br />

Alexandra Jarošová


STATISTICKÉ MODELOVÁNÍ<br />

A AUTOMATICKÁ ANALÝZA<br />

PŘIROZENÉHO JAZYKA<br />

(MORFOLOGIE, SYNTAX, PŘEKLAD)<br />

Jan Hajič: Ústav formální a aplikované lingvistiky a Centrum<br />

komputační lingvistiky, Matematicko-fyzikální fakulta Univerzity<br />

Karlovy (hajic@ufal.mff.cuni.cz)<br />

Abstract: Statistical modeling is now the prevailing method used in automatic procedures of analysis of<br />

a natural language. Such an analysis can be performed at various levels, from phonetics to semantics. Two<br />

levels of representation are described: a morphological one and a syntactic one that is further subdivided<br />

into surface syntax and deep syntax (tectogrammatics). The role of linguistically annotated corpora will be<br />

stressed as a necessary prerequisite for any supervised machine learning algorithms, showing examples<br />

from the Prague Dependency Treebank (PDT) being developed at Charles University, Prague. A possible<br />

application of some of the tools created during (and thanks to) the development of the PDT will be shown,<br />

namely, a machine translation system translating from Czech to Slovak.<br />

1. Úvod<br />

Automatická analýza přirozeného jazyka 1 počítačem vyžaduje – koneckonců<br />

jako každý problém, který řešíme – rozdělit práci na několik<br />

menších, dobře definovaných podproblémů, které pak řešíme (pokud možno)<br />

nezávisle. V oblasti zpracování přirozeného jazyka se mluví o tzv. rovinách popisu<br />

(a zpracování) jazyka. Tyto roviny jsou uspořádány zdola nahoru (pro účely<br />

analýzy jazyka), od roviny nejjednodušší (zabývající se ortografií či<br />

akustickou stránkou věci) po rovinu nejsložitější, rovinu významu. Každá rovina<br />

má své jednotky popisu, definice vztahů na této rovině, a navazuje bezprostředně<br />

na rovinu nižší a vyšší. Obvykle se hovoří o pěti až šesti rovinách<br />

(akustika/ortografie, fonetika, fonologie, morfologie, syntax, sémantika), ale<br />

často se (například z praktických důvodů) některé roviny slučují dohromady<br />

1 V tomto příspěvku se omezíme na zpracování textu. Rozpoznávání (a syntéza) mluvené řeči je<br />

sice ve smyslu „porozumění“ jazyku podobný problém, avšak tradičně se soustředí zejména na zpracování<br />

akustického signálu, a v jistém smyslu – aspoň z dnešního pohledu, s existujícími aplikacemi a<br />

systémy v ruce – se na něj lze dívat jako na přídavný krok, ve kterém nejprve převedeme řečené na text,<br />

který dále zpracováváme.<br />

11


JAN HAJIČ<br />

(např. při zpracování textu je rovina ortografická a fonetická téměř vždy sloučena,<br />

často i s rovinou fonologickou). Syntax a sémantika rovněž úzce souvisí a<br />

ne náhodou se analýza na strukturní úrovni často nazývá syntakticko-sémantická,<br />

přičemž se zde opět slučují dvě roviny. Naopak, někdy je výhodné (nebo<br />

technicky lépe proveditelné) vložit mezi morfologii a syntax ještě jednu rovinu,<br />

a to rovinu tzv. povrchové syntaxe. V zahraničních pojetích se obvykle setkáváme<br />

jen se dvěma rovinami, a to rovinou morfologickou a povrchově-syntaktickou.<br />

V tomto příspěvku budeme mluvit jednak o rovině morfologické, která<br />

v našem případě zahrnuje všechny roviny nižší, s výjimkou té části roviny ortografické,<br />

která se zabývá identifikací slov a interpunkce, a jednak o rovině syntaktické,<br />

a to jak o její povrchové podobě, tak i o tzv. hloubkové syntaxi, která<br />

se zabývá reprezentací jazykového významu. Nebudeme však zde tyto roviny<br />

popisu jazyka rozebírat z lingvistického pohledu, nýbrž se zaměříme na to, jak<br />

se tyto roviny promítají do práce s textovými korpusy, zejména pro účely jejich<br />

anotování a následného automatického zpracování.<br />

V poslední části příspěvku popíšeme jednu zajímavou aplikaci, systém automatického<br />

překladu z češtiny do slovenštiny, který (trochu překvapivě)<br />

funguje velmi dobře i přesto, že analýza jazyka je v něm omezena vlastně jen<br />

na rovinu morfologickou.<br />

2. Morfologická analýza a značkování textu<br />

V úvodu jsme řekli, že v našem pojetí morfologická (tvaroslovná) analýza<br />

spojuje všechny nižší roviny až k rovině tradičně nazývané morfématická. Nezabývá<br />

se však prvotním zpracováním textu, kterému se v počítačové analýze<br />

nemůžeme vyhnout, a to tzv. tokenizací. Morfologická analýza tedy vstupuje<br />

do hry až v okamžiku, kdy ve vstupním textu jsou identifikována slova, mezery,<br />

interpunkce, a pokud možno i začátky a konce vět. Jakkoli triviální se tento<br />

úvodní problém může zdát, není tomu tak; již jen definice toho, co to je<br />

„slovo“ 2 je někdy nejasná: je byl-li, pracovals, technicko-hospodářský nebo<br />

naň jedno slovo, nebo dvě? Je New York nebo Kostelec n./Č. lesy jedno slovo,<br />

nebo dvě (resp. pět slov)? Obvykle se volí nějaký relativně dobře definovatelný<br />

kompromis. Zdá se, že z hlediska dalšího zpracování je vhodné v nejasných<br />

2 „Slovem“ se zde myslí slovo v tom tvaru, ve kterém se v textu vyskytuje, takže korunou a ko-<br />

runami jsou dvě různá slova.<br />

12


STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)<br />

případech za slovo brát jednotku co nejkratší. V každém případě ale tokenizace<br />

není vlastní součástí morfologické analýzy, v této kapitole tedy předpokládáme,<br />

že tokenizace je již dokončena a jednotka zpracování pro morfologickou analýzu<br />

je tedy již jednoznačně určena 3 . Tento předpoklad je i z praktického hlediska<br />

nepříliš omezující, neboť většina existujících textových korpusů je tokenizována,<br />

jako např. pro nás důležitý Český národní korpus (Čermák 2001).<br />

2.1 Co je to morfologická analýza?<br />

Na střední škole se učí, že úkolem morfologické analýzy slova 2 je určit<br />

morfologické kategorie danému slovu v textu příslušné. Pro člověka je tato definice<br />

přijatelná, a koneckonců každý z nás na oné střední škole nakonec nějak<br />

uspěl. Při počítačovém zpracování je však situaci třeba definovat a popsat<br />

mnohem přesněji.<br />

Především je třeba jasně rozlišovat mezi morfologickou kategorií a její<br />

hodnotou. Číslo je morfologickou kategorií, singulár (jednotné číslo) její<br />

hodnotou. V češtině a slovenštině je možno rozlišovat mnoho kategorií, v našem<br />

systému jich používáme celkem 13: slovní druh, slovní „poddruh“, rod,<br />

číslo, pád, přivlastňovací rod, přivlastňovací číslo, osobu, čas, slovesný rod,<br />

negaci, stupeň a variantu. Hodnotami jsou např. čísla 1 až 7 pro české pády,<br />

„aktivní“ a „pasívní“ pro slovesný rod, atd. Nejbohatší kategorií je slovní poddruh,<br />

který má celkem 75 možných hodnot, nejvíce z nich pro zájmena.<br />

Pozornému čtenáři jistě neunikne, že v seznamu kategorií není nejen kategorie<br />

vzoru (vzor má v systému pouze pomocnou úlohu, a je zcela nepotřebný<br />

pro navazující analýzu jazyka), ale ani např. kategorie způsobu; důvod je však<br />

prostý: morfologická analýza v našem systému pracuje bez ohledu na kontext,<br />

tj. zpracovává izolovaně vždy jen jedno slovo (slovní tvar). Tím „odsouvá“ řešení<br />

některých problémů na pozdější dobu, a jakkoli je to z lingvistického pohledu<br />

bolestné, je tento přístup (vyplývající z dělení popisu a zpracování jazyka<br />

na jednotlivé roviny) jediný možný, neboť umožňuje nemíchat dohromady věci,<br />

3 Mluvíme-li o jednoznačném určení (zde slovních jednotek, tokens), musíme zároveň říci, jak je<br />

toto určení realizováno v textu. K tomu se používají dnes už téměř výhradně tzv. markup jazyky, definované<br />

na základě standardu SGML, který je dnes nahrazován jednodušším a pro počítačové zpracování<br />

příhodnějším XML (jež je svým způsobem podmnožinou SGML). (Známý jazyk pro popis<br />

webových stránek, HTML, je rovněž specifikován pomocí SGML.) Zjednodušeně lze říci, že každá<br />

značka – zde samozřejmě mluvíme o značce v technickém smyslu, nikoli o značce morfologické – má<br />

své jméno, a pro účely rozlišení mezi textem a značkami je jednotně ohraničena symboly ‚‘.<br />

13


JAN HAJIČ<br />

které k sobě nepatří a byly by tudíž těžko formalizovatelné a zpracovatelné. Ze<br />

stejných důvodů je nutno brát kategorii slovesného času jako kategorii příslušnou<br />

k analyzovanému participiu (pracoval), nikoli k celému analytickému<br />

tvaru (který v uvedeném příkladu může být jak času minulého pracoval jsem,<br />

tak i času přítomného v podmiňovacím způsobu pracoval bych).<br />

Vzhledem k tomu, že morfologická analýza pracuje s jednotlivými slovy<br />

z textu izolovaně, bez ohledu na kontext, tak se na rozdíl od úloh řešených na<br />

střední škole nezabývá ani jednoznačnou identifikací hodnot morfologických kategorií.<br />

Pochopitelně, ani nemůže: bez větného kontextu není možno mezi<br />

jednotlivými možnostmi vůbec vybírat. Problémem jednoznačného určení hodnot<br />

morfologických kategorií se zabývá tzv. značkování, ke kterému se vrátíme za<br />

chvíli.<br />

Pro počítačové zpracování se zavádí tzv. množina morfologických značek<br />

(tagset). Každá značka shrnuje hodnoty morfologických kategorií pro jeden<br />

slovní tvar. Pro vlastní zpracování se používá několik typů notací, z nichž nejrozšířenější<br />

je notace tzv. poziční. V této notaci se každé kategorii přiřadí pozice<br />

ve značce, a každé hodnotě jeden znak, který se zapisuje na příslušnou pozici.<br />

Slovní druh je tedy např. na první pozici, a jeho hodnoty jsou reprezentovány<br />

např. znaky N (pro podstatné jméno, noun), A (pro adjektivum) atd. Hodnoty<br />

pro daný slovní tvar irelevantních kategorií jsou označeny speciálním znakem,<br />

obvykle pomlčkou. Např. tedy pro obyčejné podstatné jméno rodu mužského<br />

neživotného ve 4. pádě jednotného čísla v pozičním systému s 15 kategoriemi<br />

má příslušná značka tvar NNIS4-----A---- (první pozice je slovní druh<br />

(N), druhá slovní poddruh (zde N), třetí rod (I pro mužský neživotný, masc.<br />

inanim.), čtvrtá číslo (S pro singulár), pátá pád (4 pro akuzativ), atd. (A na jedenácté<br />

pozici specifikuje, že dané slovo není negováno příslušnou předponou).<br />

Co tedy (počítačová) morfologická analýza vlastně dělá? Po výše uvedeném<br />

výčtu toho, co nedělá, by se zdálo, že nedělá téměř nic; samozřejmě, že tak tomu<br />

není. Morfologická analýza pro každý slovní tvar určí všechny možnosti kombinací<br />

hodnot morfologických kategorií, které danému tvaru vůbec mohou příslušet.<br />

Že i to je obrovská pomoc pro další zpracování, je vidět z prostého číselného<br />

srovnání: zatímco všech možných značek (kombinací hodnot morfologických kategorií)<br />

je v našem systému pro češtinu přes 4400, průměrný počet značek po<br />

morfologické analýze je menší než 5 (na jedno slovo v běžném textu).<br />

Počítačová morfologická analýza však musí řešit ještě jeden problém, na<br />

zmiňované střední škole probíraný pouze okrajově: tzv. problém lematizace.<br />

Lematizace určuje pro každý slovní tvar jeho základní podobu (obvykle tvar, ve<br />

14


STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)<br />

kterém slovo najdeme ve slovnících). Ani lematizace není obecně při zpracování<br />

izolovaného slova jednoznačná. Navíc je nutno rozlišovat mezi slovy,<br />

která jsou v základním tvaru homonymní – např. stát (jako státní útvar) a stát<br />

(jako sloveso). Počítačová lematizace proto ještě navíc tato slova rozlišuje a<br />

jednoznačně identifikuje (např. připojením číselného indexu k základnímu tvaru<br />

slova, např. stát-1, stát-2 atd.).<br />

Formálně tedy můžeme popsat morfologickou analýzu jako matematickou<br />

funkci, která posloupnosti znaků (písmen) jazyka přiřazuje množinu možných<br />

výsledků, složených vždy z dvojic :<br />

Ma(f) → { ; l ∈ L, t ∈ T },<br />

kde f ∈ A + je slovní tvar složený z písmen abecedy A analyzovaného<br />

jazyka (např. stát), L je množina identifikací lemat (obvykle ve formě řetězce<br />

nějakých znaků, považovaného ovšem za nedělitelný) v daném případě bude<br />

jedním z možných výsledků např. stát-1), a T je množina značek používaná pro<br />

daný jazyk (jako např. NNIS4-----A----; opět jde o řetězec znaků, považovaný<br />

z hlediska definice za atomický).<br />

Prakticky morfologická analýza pracuje s (tokenizovaným) textem, v dohodnutém<br />

formátu, a na výstupu je tentýž text obohacený o lemata a morfologické<br />

značky (obr. 1 a 2).<br />

Pekař<br />

peče<br />

housky<br />

<br />

.<br />

Obr. 1: Vstup do morfologické analýzy – tokenizovaný text<br />

PekařpekařNNMS1----A----<br />

pečepéciVeYS------A----VB-S---3P-AA---<br />

houskyhouskaNNFP1-----A----NNFP4-----A----<br />

NNFS2-----A----<br />

<br />

..Z:-------------<br />

Obr. 2: Výstup z morfologické analýzy (zjednodušeno)<br />

15


JAN HAJIČ<br />

2.2 Proces morfologické analýzy<br />

Morfologická analýza, jejíž definici jsme uvedli v předchozí sekci, je<br />

ovšem realizována v počítači nikoli jako matematická funkce, ale jako výpočetní<br />

procedura. Jako základní datová struktura slouží pro daný přirozený jazyk<br />

jeho morfologický slovník, který je používán vlastním algoritmem morfologické<br />

analýzy (v zásadě pak již na jazyce nezávislým). Způsobů, jak efektivně<br />

provádět morfologickou analýzu, se používá několik (Koskenniemi 1983,<br />

Mohri 1998), my zde popíšeme náš systém „přímé“ analýzy. Ten potřebuje ke<br />

své práci morfologický slovník a samozřejmě i příslušný algoritmus, který<br />

vlastní morfologickou analýzy na základě slovníku realizuje. Na základě stejného<br />

slovníku pak může probíhat i morfologická syntéza, o té se ale zmíníme až v<br />

sekci 4 o strojovém překladu.<br />

2.2.1. Morfologický slovník<br />

Morfologický slovník obsahuje ke každému lematu informaci o kmeni<br />

slova (v našem případě, kvůli sloučení nejnižších rovin popisu jazyka do jedné,<br />

je za kmen slova považována ta část slova, která se při ohýbání nemění), a o<br />

přípustných koncovkách. Množina koncovek tvoří vzor. U každé koncovky je<br />

navíc informace o tom, které značky (kombinace hodnot morfologických kategorií)<br />

jí pro daný vzor odpovídají.<br />

Příkladem vzoru je např. následující množina koncovek a jejich značek:<br />

„„ NNIS1-----A----, NNIS4-----A----<br />

„u“ NNIS2-----A----, NNIS3-----A----, NNIS6-----A---1<br />

„e“ NNIS5-----A----<br />

„ě“ NNIS6-----A----<br />

„em“ NNIS7-----A----<br />

„y“ NNIP1-----A----, NNIP4-----A----, NNIP5-----A----, NNIP7-----A----<br />

„ů“ NNIP2-----A----<br />

„ům“ NNIP3-----A----<br />

„ech“ NNIP6-----A----<br />

Tento vzor je v našem systému označen hd2x. Tedy k lematu stát-1 bude<br />

v morfologickém slovníku uveden kmen „stát“ a vzor hd2x.<br />

16


STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)<br />

Pro každý vzor je dále ve slovníku uvedeno, zda připouští negaci slova pomocí<br />

předpony „ne-“ (tj. negaci) a u každé koncovky dále informace o tom, zda<br />

připouští připojení předpony „nej-“ (stupňování).<br />

Pro velmi nepravidelná slova jsou pak ve slovníku uvedeny všechny jejich<br />

tvary i s příslušnými značkami.<br />

2.2.2 Algoritmus morfologické analýzy<br />

Tzv. „přímá“ analýza slovních tvarů je založena na vyčerpávající analýze<br />

slova z hlediska možné segmentace na kmen a koncovku (případně i předpony<br />

ne- a nej-). Pro každou takto získanou dvojici kmene a koncovky je nutno ověřit,<br />

zda se ve slovníku vyskytuje jak kmen, tak i koncovka a zda kmen i koncovka<br />

náleží ke stejnému vzoru. Všechny dvojice lemat (příslušných ke<br />

kmeni/kmenům) a značek (nalezených ve slovníku u příslušných koncovek)<br />

jsou pak prohlášeny za výsledek morfologické analýzy. Podrobněji o v současnosti<br />

používané morfologické analýze češtiny viz Hajič (2001).<br />

Příkladem může být slovo (slovní tvar) housky. Toto slovo je možno rozdělit<br />

na kmen housky + nulovou koncovku, nebo na housk + y, nebo na hous +<br />

ky, atd. až k h + ousky (kmen nulové délky se nepřipouští). Z těchto možností<br />

nakonec bude správná jen možnost hous + ky, neboť ve slovníku je neměnná<br />

část základu (zde jen hous, neboť 2. p. mn. čísla je hous+ek). Koncovky y, sky<br />

a nulová koncovka jsou sice ve slovníku koncovek uvedeny také, ale kmen<br />

housk (hou) je nepřipouští (resp. nejsou uvedeny v seznamu koncovek pro vzor<br />

příslušný danému kmeni).<br />

Modernější systémy používají pro jádro systému morfologické analýzy<br />

aparát konečných automatů, resp. v kombinaci s fonologií aparát tzv. sekvenčních<br />

strojů (konečných převodníků) 4 . Prvním takovým systémem byla tzv.<br />

„Two-level morphology“ (Koskenniemi 1983), následovníky pak Xerox<br />

Language Tools (XLT, zpracována je i <strong>čeština</strong>, viz Skoumalová 1997), a v poslední<br />

době je volně k dispozici univerzální soubor nástrojů pro konečné automaty<br />

a převodníky (nejen pro morfologii) FSM od AT&T Research (Mohri et<br />

al. 1998). Je však nutno podotknout, že v dnešní době už vnitřní struktura<br />

(implementace) morfologického analyzátoru nehraje prvořadou roli – důležitá<br />

je spíše udržovatelnost a rozšiřitelnost systému.<br />

4 Podrobněji o konečných automatech a sekvenčních strojích viz např. (Chytil 1984).<br />

17


JAN HAJIČ<br />

2.3 Značkování (zjednoznačňování morfologické analýzy)<br />

Značkování (anglicky poněkud nevhodně nazývané „Part-of-Speech tagging“)<br />

je v rámci popisu a zpracování jazyka pomocí rovin jakýsi „krok<br />

stranou“: snažíme se totiž na úrovni morfologické analýzy o něco, co alespoň<br />

teoreticky přísluší až rovině syntaktické (ať už povrchové nebo hloubkové).<br />

Nicméně je to problém velmi praktický, jehož výsledky jsou použitelné ve třech<br />

směrech: jednak jako (zatím) finální krok při značkování korpusů pro lexikografické<br />

účely, dále jako krok výrazně zrychlující syntaktickou analýzu (byť do<br />

ní vnáší jistou míru chyb, jak uvidíme dále), a v neposlední řadě i pro některé<br />

aplikace, které mohou s výhodou využít i jen částečnou jazykovou analýzu<br />

(např. pro vyhledávání v elektronických slovnících, pro vyhledávání informací<br />

obecně, a dokonce i pro strojový překlad pro blízké flektívní jazyky – viz dále<br />

sekce 4).<br />

Značkování již může využít pro zjednoznačnění výstupu morfologické<br />

analýzy (na rozdíl od ní samé) kontext, ve kterém se analyzované slovo nachází.<br />

Dnes se téměř výhradně používají pro značkování metody statistické, založené<br />

na strojovém učení. Počítač se tedy naučí, že po určitých předložkách<br />

následují jen některé pády, že na začátku věty nalezneme spíše pád první než<br />

jakýkoliv jiný, nebo že slovo při je téměř vždy předložka, jen velmi málokdy<br />

tvar slova pře, a téměř nikdy rozkazovací způsob od slovesa přít (a k tomu se,<br />

doufejme, naučí i to, kdy jde přeci jen o (soudní) při).<br />

Jak se však může počítač takovou věc naučit? Potřebuje k tomu (alespoň<br />

v dosud nejúspěšnějších metodách) předem ručně označkovaný korpus. Takový<br />

korpus je samozřejmě velmi pracnou záležitostí; pro spolehlivé naučení, kdy<br />

procento chyb klesá (pro češtinu) pod 5 %, bylo třeba označkovat přes 1.5 miliónu<br />

výskytů slov v textu (přitom každé zdvojnásobení tohoto počtu přinese jen<br />

několik desetin procenta zlepšení, a jistou hranici úspěšnosti zřejmě nelze překročit<br />

vůbec). Označkované korpusy jsou proto velmi cenným zdrojem lingvistických<br />

informací (nejen pro automatické strojové učení, ale samozřejmě i pro<br />

vyhodnocování jiných metod, použitých pro značkování). Příkladem takových<br />

korpusů jsou např. Brown Corpus (první značkovaný korpus na světě z konce<br />

60. let), Penn Treebank (Marcus 1993) a pro češtinu čerstvě vydaný Pražský<br />

závislostní korpus (Hajič et al. 2001b).<br />

Učení z ručně označkovaného korpusu (takovému korpusu se říká trénovací<br />

data) může probíhat několika způsoby. Velmi jednoduchý a účinný (a<br />

dosud prakticky nepřekonaný) je postup, při kterém se spočítají relativní<br />

18


STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)<br />

četnosti značek následujících po dvojici bezprostředně předcházejících značek<br />

v textu (takový způsob se nazývá HMM tagging: viz (Church 1992, Hladká<br />

1994, Mírovský 1999, Hladká 2000, Hajič et al. 2001a). Pro každou dvojici<br />

značek (tzv. historii) se tak vytvoří menší či větší tabulka, ve které jsou uvedeny<br />

relativní četnosti značek po ní následujících v trénovacích datech. Jakkoli je<br />

tento systém lingvisticky jasně neadekvátní, značkování založené na efektivním<br />

algoritmu aplikace těchto tabulek (virtuálně rozšiřujícím délku historie<br />

(kontextu) na mnoho slov na obě strany od analyzovaného slova) na kontinuální<br />

text (Jelinek 1998) dává velmi dobré výsledky: pro angličtinu se dosahuje<br />

i méně než 3 % chyb na prakticky libovolném textu, pro češtinu pak<br />

okolo 5 %.<br />

Pro češtinu vyvíjíme při její bohatosti značek ještě jeden systém (Hajič<br />

2001), který, jak doufáme, přiblíží úspěšnost značkování angličtině. Tento systém<br />

je založen na individuálním „předpovídání“ hodnot jednotlivých morfologických<br />

kategorií. Statisticky, automaticky vybraná vhodná „pravidla“ (features<br />

neboli rysy) se ohodnotí váhami (opět zcela automaticky v procesu učení z předem<br />

ručně označkovaných dat). Takto ohodnocená „pravidla“ se pak používají<br />

v procesu automatického značkování tak, že se pro každou hodnotu spočítá její<br />

pravděpodobnost v daném kontextu, a výsledná značka je pak „kompromisem“,<br />

neboť se pochopitelně vybírá pouze mezi značkami nabídnutými morfologickou<br />

analýzou. Tato metoda je nyní stejně úspěšná jako výše uvedená metoda HMM<br />

taggingu, potřebuje však méně statistických dat při vlastním značkování (avšak<br />

je velmi náročná v průběhu učení na čas výpočtu).<br />

Kromě čistě statistických přístupů uvažujeme rovněž o možné kombinaci<br />

s metodami „nestatistickými“, tj. tradičně lingvistickými, které především<br />

pracují s ručně vytvořenými pravidly s komplexními podmínkami. Tato<br />

pravidla použitá samostatně vykazují poměrně malou úspěšnost z hlediska počtu<br />

víceznačností, které jsou schopny řešit, avšak jsou poměrně přesná (v případech,<br />

které řešit umějí). Systém pak pracuje tak, že tato „lingvistická“ pravidla<br />

jsou aplikována nejdříve, čímž se víceznačnost zredukuje (aniž by byla ovšem<br />

odstraněna správná varianta), a pak „statistická“, tj. automaticky naučená<br />

„pravidla“ zjednoznačňování dokončí (Hajič et al. 2001a).<br />

Jako konkrétní příklad uveďme opět větu Pekař peče housky. Funguje-li<br />

disambiguace správně, na základě vstupu z obr. 2 obdržíme následující výstup<br />

(obr. 3), ve kterém je pro každé vstupní slovo už jen jedna značka a jedno lema:<br />

PekařpekařNNMS1----A----<br />

19


JAN HAJIČ<br />

pečepéciVB-S---3P-AA---<br />

houskyhouskaNNFP4-----A----<br />

<br />

..Z:-------------<br />

Obr. 3: Zjednoznačněný výsledek morfologické analýzy<br />

U slova Pekař nebylo nutno rozhodovat o ničem, neboť již bylo jednoznačně<br />

určeno morfologickým analyzátorem 5 . Slovo peče je samozřejmě v této<br />

větě v přítomném čase a 3. osobě (nikoli jako přechodník!) a housky jsou zde<br />

ve 4. pádě množného čísla.<br />

3. Syntaktická závislostní analýza<br />

Jakkoli jsou morfologická analýza a (morfologické) značkování zajímavé<br />

a užitečné, nedotýká se přímo struktury věty. Z hlediska skladby věty potřebujeme<br />

zjišťovat, která slova jsou ve vztahu gramatické závislosti: řídící slovo je<br />

„důležitější“, ve větě jej obvykle nelze vynechat bez narušení gramatické skladby<br />

věty, a obyčejně určuje většinu gramatických kategorií slova závislého (např.<br />

na základě shody).<br />

Přímo zjišťovat skladbu věty je však velmi obtížné: důvodem jsou kromě<br />

již známé nejednoznačnosti jazyka i např. elipsy (slova ve větě vynechaná, byť<br />

z hlediska významu a standardní definice syntaxe nezbytná), konstrukce bez<br />

slovesa, koordinace a apozice, parenteze (vsuvky) apod. Proto jsme se rozhodli<br />

vložit mezi rovinu morfologickou a syntaktickou tzv. rovinu analytickou, která<br />

zhruba odpovídá rovině povrchové syntaxe známé z jiných teoretických přístupů.<br />

Pracujeme tedy se dvěma syntaktickými rovinami: rovinou analytickou<br />

a rovinou vlastní syntaxe, tzv. rovinou tektogramatickou (Sgall et al. 1986).<br />

3.1 Analytická rovina syntaxe<br />

Na analytické rovině se reprezentace věty zachycuje závislostním stromem<br />

6 s vrcholy, případně i hranami ohodnocenými jedním nebo několika<br />

atributy. Ke každému slovu z analyzované věty (token, tj. i interpunkce) příslu-<br />

5 Lze ovšem oprávněně namítnout, že slovo Pekař mělo být morfologickým analyzátorem určeno<br />

též jako první pád jednotného čísla rodu mužského životného od vlastního jména Pekař. To je samozřejmě<br />

nedostatek slovníku, ovšem jen těžko řešitelný v plném rozsahu.<br />

20


STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)<br />

ší právě jeden vrchol závislostního stromu. Závislostní vztahy jsou určeny hranami<br />

takového stromu a hodnoty příslušné k jednotlivým hranám určují (povrchově)<br />

syntaktickou funkci závislého uzlu vzhledem k uzlu řídícímu. Hodnotami<br />

u vrcholů jsou pak dva údaje: příslušné lema (pro interpunkci se definuje jako<br />

identické s původní formou interpunkce) a morfologická značka (soubor značek –<br />

tagset – se rovněž vhodně rozšiřuje kvůli interpunkci, podobně jako na rovině<br />

morfologické). Pro lepší čitelnost se u každého vrcholu zaznamenává i původní<br />

tvar daného slova (ačkoli jej lze jednoznačně vyvodit z lematu a morfologické<br />

značky) a je zde i řada dalších, technických a pomocných atributů. Z technických<br />

důvodů se rovněž hodnota hrany (tj. povrchově-syntaktická funkce závislého<br />

slova) uvádí u závislého uzlu.<br />

Jako příklad lze uvést jednoduchou větu Kominík vymetá komíny (obr. 4).<br />

Obr. 4: Analytická reprezentace věty Kominík vymetá komíny.<br />

Vidíme, že Kominík je podmětem věty (Sb), vymetá je predikát (řídící<br />

sloveso hlavní věty, Pred), a komíny je předmět (Obj). Závěrečná interpunkce<br />

podle zásady co slovo (token) to vrchol stromu je rovněž přítomna, a to s funkcí<br />

AuxK (speciální funkce pro koncovou interpunkci).<br />

Lze tedy říci, že analytická rovina je velmi podobná tomu, co jsme se<br />

všichni učili na základní a střední škole, snad s výjimkou postavení podmětu<br />

6 Strom je matematicky definován jako souvislý acyklický orientovaný graf s jedním kořenem<br />

(tj. vrcholem, do kterého nevede žádná hrana). Obvykle se znázorňuje „vzhůru nohama“, tj. kořen se<br />

kreslí nahoře a orientace hran se zachycuje pomocí šipek, které vedou shora dolů, od řídícího k závislému<br />

vrcholu. Z technických důvodů se ovšem v elektronické podobě využívá s výhodou toho, že do každého<br />

vrcholu (někdy nazývaného podle angličtiny též „uzlem“) vede pouze jedna hrana, a směr závislosti<br />

se uchovává obráceně – to však nemá žádný vliv na skutečný směr závislosti.<br />

21


JAN HAJIČ<br />

(podmět není na stejné úrovni jako predikát) a toho, že na analytické rovině<br />

jsou přítomna všechna slova z věty (to se týká nejen interpunkce, ale samozřejmě<br />

i předložek, spojek, pomocných a sponových sloves atd.).<br />

Účelem analytické anotace jako předstupně k rovině tektogramatické (sekce<br />

3.2) je zachytit základní závislostní vztahy (tj. vybudovat kompletní závislostní<br />

strom s analytickými funkcemi), označit pomocná slova a jejich vztah k<br />

jiným jednotkám na této rovině (i když jistě nejde o skutečnou závislost v obvyklém<br />

smyslu), označit elipsu, pospojovat koordinované a aponované členy<br />

věty, označit vsuvky apod.<br />

Podmínka, že každému slovu ze vstupního textu odpovídá právě jeden vrchol<br />

závislostního stromu, není náhodná. Umožňuje totiž vytvořit relativně<br />

efektivní nástroj pro automatickou povrchově-syntaktickou analýzu vět přirozeného<br />

jazyka (tj. v našem případě češtiny). Obecný postup je zde podobný jako<br />

při morfologickém značkování (sekce 2.3): používají se primárně statistické metody<br />

založené na strojovém učení parametrů (pravděpodobností), používaný pravděpodobnostní<br />

model pro takovou analýzu je však mnohem komplikovanější. V<br />

našem případě používáme analyzátor (Collins 1997) adaptovaný pro češtinu na<br />

letním Workshopu na Johns Hopkins University v roce 1998 (Hajič 1998), který<br />

dokáže správně určit kolem 80 % všech závislostí v testovacím textu.<br />

Pochopitelně i pro učení syntaktického analyzátoru jsou třeba trénovací data<br />

(tj. ručně syntakticky anotovaný korpus). Práce na ručním syntaktickém<br />

anotování je mnohem náročnější než obdobná práce na zjednoznačňování morfologickém,<br />

a to jak z hlediska softwarové přípravy (anotovací nástroje musí pracovat<br />

s grafickým obrázkem analyzovaného stromu, tak, jak jsou na to lingvistéanotátoři<br />

zvyklí), z hlediska přípravy pokynů pro anotování (s trochou nadsázky<br />

lze říci, že jsme museli přepsat, či snad explicitně dopracovat povrchovou syntax<br />

češtiny, viz Hajič et al. 1997), i z hlediska vlastní anotovací práce. Pro češtinu<br />

jsou taková data obsažena na CDROM Pražský závislostní korpus (Hajič 1998,<br />

Hajič et al. 2001b), spolu se všemi potřebnými nástroji na (ruční) syntaktické<br />

anotování korpusu. Na tomto CD je anotováno téměř 1.5 miliónu slov (asi 90 tisíc<br />

vět) na analytické rovině.<br />

3.2 Tektogramatická rovina syntaxe<br />

Naším cílem však není zastavit se na rovině povrchové syntaxe. Připravujeme<br />

proto anotaci na rovině tektogramatické, kde se používá jiný repertoár<br />

závislostních funkcí (které označují význam, nikoli jen povrchový vztah), kde<br />

22


STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)<br />

odpadají vrcholy s pomocnými slovy a částečně i s interpunkcí, naproti tomu<br />

přibývají na povrchu vypuštěné, leč z významového hlediska přítomné elipsy.<br />

Navíc zde přibývá označení koreference a aktuální členění. Příklad věty<br />

anotované na této rovině je na obr. 5.<br />

Obr. 5: Anotace věty na tektogramatické rovině<br />

Bližší popis tektogramatické roviny je možné nalézt z teoretického hlediska<br />

v (Sgall et al. 1986, Petkevič 1995) a pak přímo ve formě příručky pro<br />

anotátory (Hajičová et al. 2000).<br />

Tektogramatická rovina je jakýmsi mezičlánkem mezi lingvistickou analýzou<br />

a další analýzou sémantickou, logickou, analýzou textu apod., vedoucí ke<br />

skutečnému porozumění přirozenému jazyku. Předpokládáme, že pro češtinu<br />

dokážeme na této rovině anotovat řádově obdobný počet vět jako na rovině<br />

analytické (cca 60 tisíc) do konce r. 2004.<br />

4. Strojový překlad mezi blízkými jazyky<br />

4.1 Základní idea a její zjednodušení<br />

23


JAN HAJIČ<br />

Ačkoli reprezentaci věty na tektogramatické rovině, jak byla popsána<br />

v předchozí sekci, považujeme za hlavní formální nástroj k popisu lingvistického<br />

významu, který by měl být jádrem každé aplikace vyžadující porozumění<br />

přirozenému jazyku, někdy se obejdeme s prostředky mnohem jednoduššími.<br />

Takovou aplikací je například strojový překlad mezi velmi blízkými<br />

jazyky, jako je <strong>čeština</strong> a slovenština, a jistě by se našly další příklady (někdy<br />

nejde jen o blízké jazyky, ale může jít i o varianty jednoho jazyka, ať už<br />

pravopisné, nářeční apod.). Pro jazyky vzdálenější (jako např. <strong>čeština</strong> a ruština,<br />

viz Hajič et al. 1987) je otázka složitější: je jasné, že syntax je v jistých okamžicích<br />

potřebná, avšak není jasné, zda chyby, jichž se nutně v syntaktické analýze<br />

dopustíme, vyváží tuto výhodu.<br />

I při zjednodušené analýze ve strojovém překladu mezi češtinou a slovenštinou<br />

(podrobněji viz Hajič et al. 2000) zachováváme tradiční scénář strojového<br />

překladu (obr. 6).<br />

Zdrojový jazyk Cílový jazyk<br />

Obr. 6: Obecné schéma strojového překladu<br />

4.2 Tři fáze překladu: analýza, transfer, syntéza<br />

Při analýze zdrojového jazyka se jednotlivé věty analyzují bez ohledu na<br />

to, do kterého jazyka se překládá. Buduje se reprezentace věty vhodná pro fázi<br />

transferu („vlastního překladu“). Ve složitých systémech touto reprezentací<br />

může být hloubková syntaktická reprezentace, nebo dokonce logická struktura<br />

užité věty, avšak v našem zjednodušeném případě bude touto analýzou pouze<br />

analýza morfologická, zjednoznačněná pomocí statistického modulu (taggeru,<br />

viz sekce 2).<br />

Transfer pak bude zcela deterministický proces, který nahradí každé<br />

zdrojové (české) slovo (resp. jeho lemma) jeho cílovým (slovenským)<br />

ekvivalentem, a českou morfologickou značku značkou slovenskou (ve většině<br />

případů bude tato značka zcela stejná, nebo jen formálně odlišná). V některých<br />

případech však musíme slovenskou značku poněkud zobecnit, neboť se výji-<br />

24<br />

Analýza<br />

Transfer<br />

Syntéza


STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)<br />

mečně mění rod substantiva, zvláštní varianta koncovky v určitém pádě se překládá<br />

standardně, apod.<br />

Ve fázi syntézy (generování) se pak ze slovenských lemat a slovenských<br />

morfologických značek vytvoří výsledná forma slovenského slova. Na závěr se<br />

pak doplní velká písmena podle pravidel pravopisu a věta se zformátuje, případně<br />

se do textu vloží zpět původní formátování české věty, bylo-li v ní přítomno.<br />

4.3 Analýza<br />

Ve fázi analýzy proběhne tokenizace textu (pokud již vstupní text není<br />

takto zpracován, což obvykle není), uchování formátovací informace (to je důležité<br />

např. tehdy, je-li původní text např. v HTML, RTF a chceme původní formátování<br />

pokud možno zachovat) a převedení do jednotného formátu pro další<br />

zpracování, což je SGML formát obdobný formátu uchovávání textů v ČNK,<br />

neboť se pochopitelně používají podobné nástroje (morfologie, tagger, atd.).<br />

Proběhne i identifikace hranic vět, a speciálně se označí úseky, které je třeba<br />

překládat (na rozdíl od např. formátovacích značek).<br />

Příklad:<br />

Věta Transakce slouží k zobrazení zamčených záznamů v databázi. bude<br />

po tokenizaci a převodu do SGML vypadat takto:<br />

<br />

Transakce<br />

slouží<br />

k<br />

zobrazení<br />

zamčených<br />

záznamů<br />

v<br />

databázi<br />

<br />

.<br />

Obr. 7: Tokenizovaný vstup do systému překladu<br />

SGML značkou jsou označeny hranice vět, označuje slova, <br />

interpunkci, a je značka pro nepřítomnost mezery.<br />

25


JAN HAJIČ<br />

Po tokenizaci se text zpracuje morfologickou analýzou a značkovačem<br />

(taggerem) (viz sekce 2). Na výstupu bude u každého slova uvedeno lemma a<br />

tag po zjednoznačnění (jen připomínáme, že zjednoznačnění probíhá na základě<br />

kontextu, a to kontextu v české větě). Tato část systému je posledním<br />

krokem ve zjednodušeném systému překladu, neboť další analýza (syntaktická)<br />

již v systému není. Je tedy možné říci, že morfologické zjednoznačnění je<br />

jádrem lingvistické analýzy celého systému překladu. Tato fáze je zároveň zcela<br />

nezbytná, neboť i když <strong>čeština</strong> a slovenština mají prakticky shodnou syntax, liší<br />

se výrazně právě ve slovníku a morfologii (v paradigmatech), a ve z toho vyplývajících<br />

typech homonymie. Např. české slovo zobrazení z výše uvedené věty<br />

může být použito ve 12 různých morfologických interpretacích, řada z nich pak<br />

má různý slovenský překlad: zobrazení, zobrazenia, zobrazenie, zobrazeniu atd.<br />

Překlad „(slovní) tvar za tvar“ tedy evidentně není možný (i kdybychom vyřešili<br />

technické obtíže s milióny slovních tvarů, které by musely být ve slovníku takového<br />

systému).<br />

Příklad:<br />

Výsledek po morfologické analýze a jejím zjednoznačnění je na obr. 8.<br />

TransakcetransakceNNFS1-----A----<br />

sloužísloužitVB-S---3P-AA---<br />

kk-1RR--3----------<br />

zobrazenízobrazeníNNNS3-----A----<br />

zamčenýchzamčenýAAIP2----1A------1A----<br />

záznamůzáznamNNIP2-----A----<br />

vv-1RR--6----------<br />

databázidatabázeNNFS6-----A----<br />

<br />

..Z:-------------<br />

Obr. 8: Zjednoznačněný výsledek morfologické analýzy<br />

SGML značky slouží k označení lematu, uvádí morfologickou<br />

značku. Slovo zobrazení se zde tedy jednoznačně určilo (velmi pravděpodobně<br />

díky předcházející předložce k, která vyžaduje třetí pád) jako neutrum v<br />

dativu; jeho určení jako singuláru pak plyne spíše z faktu, že v obdobných konstrukcích<br />

se používá spíše singulár (kontext nic takového nevyžaduje).<br />

26


STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)<br />

Věta je nyní připravena pro vlastní překlad, který nazýváme tradičně<br />

transferem.<br />

4.4 Transfer<br />

Ve fázi transferu se nahradí česká lemata slovenskými a značky se rovněž<br />

„přeloží“ do zobecněné formy, vyhovující slovenskému systému morfologických<br />

značek. V této fázi tedy teprve do hry vstupuje slovenština (dosud se systém zabýval<br />

pouze zpracováním češtiny jako zdrojového jazyka). Podobně teprve zde<br />

by se zapojila např. polština, pokud bychom chtěli překládat právě do ní.<br />

Překlad značek lze zařídit poměrně snadno. Překlad je řízen tabulkou, ve<br />

které je ke každé české morfologické značce přiřazena jedna nebo více zobecněných<br />

slovenských morfologických značek, v prioritním pořadí.<br />

Zobecněnou morfologickou značkou se myslí morfologická značka, která<br />

není plně specifikována. Modul generování (viz dále sekce 4.5) je přizpůsoben<br />

tak, že za nespecifikovanou hodnotu určité morfologické kategorie (např.<br />

rodu) dosadí všechny možnosti, které přicházejí pro dané slovo v úvahu. (V případě<br />

více možností vybere první, která zpracováním projde.) V námi používaném<br />

pozičním systému se pro nespecifikovanou hodnotu používá znak tečka<br />

(‚.‘). Tedy například morfologická značka pro třetí pád (dativ) jednotného čísla<br />

(sg.) obyčejných substantiv s nespecifikovaným rodem vypadá takto:<br />

NN.S3-----A----<br />

Prioritní seznam cílových morfologických značek pak ve spolupráci s modulem<br />

generování zajistí, že na výstupu se objeví první vytvořený slovní tvar<br />

(za použití morfologické značky s nejvyšší prioritou). Tím se ošetřují jednotně<br />

jak případy změny rodu u substantiv, tak i případy, kdy rod je nejednoznačný a<br />

je třeba dát přednost rodu použitému v češtině.<br />

Příkladem takového seznamu je např. posloupnost dvou značek:<br />

NNNS3-----A---- NN.S3-----A----<br />

která říká, že nejprve je třeba zkusit rod střední, ale pokud taková<br />

značka s daným lematem nic nevygeneruje, má se použít libovolný rod.<br />

Prioritní systém spolu s ideou zobecněných morfologických značek<br />

umožňuje elegantně a bez dalších zásahů do slovníku řešit i případy, kdy některé<br />

gramatické charakteristiky slovenštiny neodpovídají češtině.<br />

27


JAN HAJIČ<br />

Vlastní slovník (tj. překladový slovník lemat) je vytvořen tak, že může zpracovávat<br />

i víceslovnou terminologii. Pomocí pravidla „delší vyhraje“ pak<br />

umožňuje řešit i nejednoznačné případy, kdy ve slovníku je zvlášť uveden jak<br />

několikaslovný termín, tak i jeho počátek.<br />

Terminologický slovník však znamená jednu nevyhnutelnou komplikaci:<br />

ve flektívních jazycích může být část termínu skloňovaná spolu s řídícím<br />

slovem termínu, ale část může být fixní a tedy i ve slovníku uvedená v příslušném<br />

pádě (nebo i čísle). Při analýze češtiny však ještě nevíme, a ani nemůžeme<br />

vědět, zda určité slovo je součástí nějakého termínu nebo ne, a proto všechna<br />

slova jsou lematizována jednotlivě. Potřebujeme proto, aby slovník obsahoval<br />

ve formě lemat i ty části termínů, které nepodléhají ohýbání.<br />

Například termín daň z příjmů je třeba ve slovníku uvést jako daň z příjem,<br />

jinak by se v textu nemohlo najít poslední slovo termínu (příjmů).<br />

Abychom vyloučili pracné ruční zpracování slovníku, používáme naprosto<br />

stejný morfologický analyzátor a značkovač i pro předzpracování slovníku, a to<br />

na obou jeho stranách (české i slovenské). Tím je zaručena naprostá shoda lemat<br />

s morfologickými moduly, a to i tehdy, jestliže lemata obsahují nějakou<br />

vnější identifikaci, jako např. číslo významu (viz k-1, k jako předložka).<br />

Transfer tedy vydá posloupnost slovenských lemat s morfologickými značkami;<br />

v této posloupnosti už česká slova ani značky nemusí být (obr. 9).<br />

transakciaNNFS1-----A----NN.S1-----A----<br />

slúžiťVB-S---3P-AA---<br />

k-1RR--3----------<br />

zobrazenieNNNS3-----A----NN.S3-----A----<br />

zamknutýAAIP2----1A----<br />

záznamNNIP2-----A----NN.P2-----A----<br />

v-1RR--6----------<br />

databázaNNFS6-----A----NN.S6-----A----<br />

<br />

.Z:-------------<br />

Obr. 9: Výsledek transferu (vlastního překladu lemat a morf. značek)<br />

SGML značky označují slovenské lema, pak každou slovenskou<br />

morfologickou značku, a to jak v případě, že je uvedena značka jediná,<br />

tak i v prioritním seznamu.<br />

28


4.5 Syntéza (Generování)<br />

STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)<br />

Vzhledem k tomu, že na české straně je analýza ukončena po morfologické<br />

analýze a značkování, je i syntéza na slovenské straně výlučně morfologickou<br />

(a formátovací) záležitostí. Morfologický generátor (program, jehož funkce je inverzní<br />

k funkci morfologického analyzátoru) pak z každého lematu a prioritního<br />

seznamu zobecněných značek vytvoří posloupnost slovenských slov v odpovídajících<br />

formách.<br />

Morfologický generátor slovenštiny používá stejná data jako morfologický<br />

analyzátor slovenštiny použitý pro předzpracování slovníku pro transfer (viz<br />

sekce 4.4), automaticky zkonvertovaný pro efektivní vyhledávání mezi kmeny,<br />

vzory a koncovkami pro účely morfologické syntézy.<br />

V našem příkladu je tedy výsledkem věta na obr. 10.<br />

transakcia<br />

slúži<br />

k<br />

zobrazeniu<br />

zamknutých<br />

záznamov<br />

v<br />

databáze<br />

<br />

.<br />

Obr. 10: Výsledek překladu do slovenštiny<br />

Po závěrečném formátování pak dostaneme konečný výsledek Transakcia<br />

slúži k zobrazeniu zamknutých záznamov v databáze.<br />

4.6 Použití v praktických systémech<br />

Strojový překlad sám o sobě nemá valnou praktickou hodnotu, není-li použit<br />

ve vhodně koncipovaném softwarovém systému, ať už pro malé „domácí“<br />

nebo on-line použití, nebo pro profesionální překlad ve velkém.<br />

4.6.1 Systémy s překladovou pamětí<br />

29


JAN HAJIČ<br />

Nejefektivnější systémy pro profesionální strojový překlad jsou založeny<br />

na využití tzv. překladových pamětí. Překladová paměť si pamatuje veškerý již<br />

jednou přeložený text (ukládá si vždy dvojici zdrojová věta → její překlad)<br />

a při překladu dalšího, nového textu je schopna porovnat nově překládanou větu<br />

s touto pamětí, a nabídnout překladateli překlad, který je u příslušné zdrojové<br />

věty uložen. Přitom tyto věty nemusí být zcela identické, mohou se lišit v<br />

jednom nebo několika slovech, v číselné hodnotě, interpunkci apod. Efektivnost<br />

systémů strojového překladu založených na překladových pamětech pak plyne z<br />

faktu, že většina „průmyslově“ prováděných překladů se týká jen málo změněných<br />

verzí toho, co již jednou bylo přeloženo (např. příručka k textovému editoru<br />

se jistě změní od verze k verzi jen málo, zvlášť při vysoké frekvenci „upgradů“<br />

takových softwarových produktů).<br />

Do tohoto systému je velmi jednoduché zapojit strojový překlad tak, že vytvoříme<br />

„překladovou paměť“ a naplníme ji všemi překládanými větami spolu se<br />

strojově vytvořeným překladem. Překladatel pak ke každé jím překládané větě<br />

dostane pro něj obvyklým způsobem návrh překladu, jako kdyby daná věta byla<br />

již někým v minulosti přeložena. Je samozřejmé, že překladatel musí být varován,<br />

že se jedná o strojový překlad, a ne o překlad „lidský“. Navíc je třeba zajistit<br />

(technickými prostředky), aby tatáž věta, byla-li dříve již přeložena<br />

člověkem, dostala při výběru z překladové paměti přednost před větou přeloženou<br />

strojově.<br />

4.6.2 Vícejazyčný překlad<br />

Jednoduchý, rychlý a relativně kvalitní překlad mezi blízkými jazyky pomocí<br />

popsané metody vede i k návrhu organizace překladu v případech, kdy<br />

z textu v jednom jazyce je třeba vytvořit překlad v mnoha dalších jazycích. To<br />

je případ návodů k domácím spotřebičům, příruček k softwarovým systémům,<br />

a vůbec všech příruček, které doprovázejí výrobky nebo služby exportované do<br />

mnoha různých jazykových oblastí.<br />

Základní schéma je na obr. 11. Z původního jazyka se text přeloží ve vysoké<br />

kvalitě (tj. profesionálními překladateli) jen do několika „centrálních“<br />

jazyků („bridge languages“), a z těch se při překladu do jazyků jim blízkých<br />

použije automatický překlad (jen s manuální postredakcí).<br />

30


STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)<br />

Obr. 11: Využití „centrálního“ jazyka při vícejazyčném překladu<br />

4.7 Výsledky experimentů s překladem do slovenštiny a polštiny, další<br />

výhled<br />

Experimenty s úplným systémem překladu z češtiny do slovenštiny jsme<br />

prováděli s technickými příručkami pro použití databázového software.<br />

Úspěšnost jsme měřili s použitím software pro podporu překladu TRADOS,<br />

resp. jeho části, která počítá tzv. „match“ (souhlas) mezi ručně „dopřeloženou<br />

větou“ a její předchozí variantou (v našem příkladě touž větou přeloženou automaticky).<br />

Systém evaluace systému TRADOS je velmi přísný, neboť evaluační<br />

systém se v tomto systému používá k určení obtížnosti překladu (obecně platí,<br />

že překladatelské firmy účtují podstatně více, je-li shoda s předcházející verzí<br />

(tj. v našem případě s výsledkem automatického překladu) menší než 90 %).<br />

Shoda se počítá na základě modifikované Loewensteinovy vzdálenosti (zhruba<br />

řečeno, jde o počet editačních zásahů, které je nutno udělat, aby věta byla v<br />

„definitivně správné“ podobě).<br />

Pro slovenštinu jsme tohoto cíle dosáhli (shoda se pohybovala těsně nad<br />

hranicí 90 %, pro polštinu jsme však zůstávali na úrovni 75 % (na tomtéž textu).<br />

Texty použité pro testování byly texty, z nichž byl částečně zapracován<br />

slovník, ale např. česká morfologická analýza a český značkovač (coby jádro<br />

systému) pracovaly na nich nezávisle, tj. testy byly dostatečně realistické a<br />

„férové“.<br />

Předpokládáme, že systém budeme dále vyvíjet (zejména systém překladu<br />

do slovenštiny) jak zvětšováním slovníku, tak i zlepšováním českého značkovače<br />

(a morfologie, pochopitelně). Polský systém bude nutno zdokonalit podstatněji,<br />

zejména s ohledem na jisté rozdíly v syntaxi – zdá se, že alespoň základní<br />

analýza jmenných frází bude nutná pro podstatnější zlepšení. Pak by<br />

ovšem bylo možno uvažovat i o ruštině, ukrajinštině a dalších jazycích podobně<br />

„vzdálených“ od češtiny.<br />

5. Závěr<br />

V tomto příspěvku jsme se snažili popsat metody počítačového zpracování<br />

dvou klíčových rovin (morfologie a syntaxe) přirozeného jazyka, a také přiblížit<br />

možnou aplikaci těchto metod na reálný problém. Ukazuje se, že ač v některých<br />

aplikacích je možné použít i analýzu jen částečnou (a to nemluvíme o takových<br />

31


JAN HAJIČ<br />

z jazykového hlediska velmi jednoduchých aplikacích, jako je vyhledávání nebo<br />

extrakce informací z textu), je jasné, že úplné porozumění vyžaduje analýzu<br />

jazyka dost hlubokou. Právě pro tyto účely budujeme jazykové zdroje, jako jsou<br />

morfologicky a důkladně syntakticky anotované texty.<br />

Podrobnější informace o budování anotovaných korpusů je možno nalézt na<br />

webových stránkách Ústavu aplikované a komputační lingvistiky a Centra komputační<br />

lingvistiky na MFFUK v Praze (http://ufal.mff.cuni.cz a http://ckl.<br />

mff.cuni.cz). Pro hlubší studium statistických a pravděpodobnostních metod<br />

v lingvistice, které jsou s danou problematikou úzce svázány, lze doporučit<br />

zejména publikace Manning a Schuetze (2001), Jurafsky a Martin (2000),<br />

Charniak (1998) a Jelinek (1998). Kompletní materiály k vlastnímu studiu této<br />

problematiky jsou umístěny na volně dostupné adrese http://ufal.mff.cuni.cz/<br />

~hajic/courses/pfl043/0102/syllabus.html. Téměř kompletní bibliografie jak k<br />

problematice tvorby anotovaných korpusů, tak jejich zpracování a využití, je<br />

pak na již zmíněném CD „Prague Dependency Treebank 1.0“ (Hajič et al.<br />

2001b), ve většině případů s plnými texty článků, příruček a manuálů (a samozřejmě<br />

i s kompletními českými korpusy!); kopii dokumentace k tomuto CD je<br />

pak možné nalézt i na webu na http://ufal.mff.cuni.cz/pdt.<br />

Literatura<br />

COLLINS, Michael. 1997. Three Generative, Lexicalised Models for Statistical Parsing. In:<br />

Proceedings of the 35th ACL/EACL. Madrid, s. 16-23.<br />

COLLINS, Michael – HAJIČ, Jan – BRILL, Eric – RAMSHAW, Lance – TILLMANN,<br />

Christopher. 1998. A Statistical Parser for Czech. In: Proceedings of the 37th ACL. College Park, MD,<br />

USA, s. 505 – 512.<br />

ČERMÁK, František. 2001. Český národní korpus. In: Alexandra Jarošová (ed.). <strong>Slovenčina</strong> a<br />

<strong>čeština</strong> v <strong>počítačovom</strong> <strong>spracovaní</strong>. Bratislava: Veda, s.168.<br />

HAJIČ, Jan. 1998. Building a Syntactically Annotated Corpus: The Prague Dependency<br />

Treebank. In: Eva Hajičová (ed.): Issues of Valency and Meaning. Studies in Honor of Jarmila<br />

Panevová. Praha: Karolinum, Charles University Press, s. 12 – 19.<br />

HAJIČ, Jan. 2001. Disambiguation of Rich Inflection (Computational Morphology of Czech).<br />

Praha: Karolinum, Charles University Press.<br />

HAJIČ, Jan – ROSEN, Alexandr – SKOUMALOVÁ, Hana. 1987. RUSLAN – systém strojového<br />

překladu z češtiny do ruštiny. Výzkumná zpráva. Praha: Výzkumný ústav matematických strojů.<br />

HAJIČ, Jan – PANEVOVÁ, Jarmila – BURÁŇOVÁ, Eva – UREŠOVÁ, Zdeňka – BÉMOVÁ,<br />

Alla- ŠTĚPÁNEK, Jan – PAJAS, Petr – KÁRNÍK, Jiří. 1997. Anotace na analytické rovině (manuál<br />

pro anotátory). Technická zpráva TR-1997-03. Praha: ÚFAL MFF UK.<br />

32


STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)<br />

HAJIČ, Jan – BRILL, Eric – COLLINS, Michael – HLADKÁ, Barbora – JONES, Douglas –<br />

KUO, Cynthia – RAMSHAW, Lance – SCHWARTZ, Oren – TILLMANN, Christopher – ZEMAN,<br />

Daniel. 1998. Core Natural Language Processing Technology Applicable to Multiple Languages.<br />

Research Note 37. Center for Language and Speech Processing, Johns Hopkins University, Baltimore,<br />

MD, USA. http://www.clsp.jhu.edu.<br />

HAJIČ, Jan – HRIC, Jan – KUBOŇ, Vladislav. 2000. Česílko: Machine Translation Between<br />

Closely Related Languages. In: Proceedings of the 6th Applied NLP, Seattle, WA, USA. ACL / MIT<br />

Press, s. 7 – 12.<br />

HAJIČ, Jan – KRBEC, Pavel – KVĚTOŇ, Pavel – OLIVA, Karel – PETKEVIČ, Vladimir.<br />

2001a. Serial Combination of Rules and Statistics: A Case Study in Czech Tagging. In: Proceedings of<br />

ACL'01, Toulouse, France, s. 160 – 167.<br />

HAJIČ, Jan – HAJIČOVÁ, Eva – PAJAS, Petr – PANEVOVÁ, Jarmila – SGALL, Petr –<br />

VIDOVÁ HLADKÁ, Barbora. 2001b. The Prague Dependency Treebank 1.0. CDROM. Philadelphia:<br />

Linguistic Data Consortium LDC2001T10. ISBN 1-58563-212-0.<br />

HAJIČOVÁ, Eva – PANEVOVÁ, Jarmila – SGALL, Petr. 2000. Anotace na tektogramatické<br />

rovině (manuál pro anotátory). Technická zpráva TR-2000-09. Praha: ÚFAL MFF UK.<br />

HLADKÁ, Barbora. 2000. Czech Language Tagging. PhD thesis, Praha: ÚFAL MFF UK.<br />

CHARNIAK, Eugene. 1996. Statistical Language Learning. Cambridge: The MIT Press.<br />

CHURCH, Kenneth. 1992. Current Practice in Part of Speech Tagging and Suggestions for the<br />

Future. In: Simmons (ed.), Studies in Slavic Philology and Computational Linguistics: In Honour of<br />

Henry Kučera. Michigan Slavic Publications, s. 13 – 48.<br />

CHYTIL, Michal. 1984. Automaty a gramatiky. Praha: SNTL. Matematický seminář, roč. 19.<br />

JELINEK, Frederick. 1998. Statistical Methods for Speech Recognition. Cambridge: The MIT<br />

Press.<br />

JURAFSKY, Daniel – MARTIN, James. 2000. Speech and Language Processing. Prentice-<br />

Hall.<br />

KOSKENNIEMI, Kimmo. 1983. Two-level morphology. PhD thesis. Technical reports No. 11.<br />

Helsinki: Dept. of Linguistics, University of Helsinki.<br />

MANNING, Christopher – SCHUETZE, Heinrich. 1999. Foundations of Statistical Natural<br />

Language Processing. Cambridge: The MIT Press.<br />

MARCUS, Mitch – SANTORINI, Beatrice – Marcinkiewicz M. 1993. Building a Large<br />

Annotated Corpus of English: the Penn Treebank. Computational Linguistics, 19 (2), s. 313 – 330.<br />

MÍROVSKÝ, Jiří. 1999. Morfologické značkování textu: automatická disambiguace. Mgr.<br />

Thesis. Praha: MFF UK.<br />

MOHRI, Mehryar – RILEY, Michael – PEREIRA, Fernando C. N. 1998. A Rational Design for<br />

a Weighted Finite-State Transducer Library. Lecture Notes in Computer Science 1436. Berlin:<br />

Springer Verlag.<br />

PETKEVIČ, Vladimír. 1995. A New Formal Specification of Underlying Representations. In:<br />

Theoretical Linguistics, Vol. 21. s. 7 – 61<br />

SGALL, Petr – HAJIČOVÁ, Eva – PANEVOVÁ, Jarmila. 1986. The Meaning of the Sentence<br />

and Its Semantic and Pragmatic Aspects. Prague/Netherlands: Academia/Reidel Publishing Company.<br />

SKOUMALOVÁ, Hana. 1997. Czech lexicon by two-level morphology. In:R. Marcinkevičiene<br />

– N. Volz (eds.), Proceeedings of the 2nd European Seminar of TELRI -- Language Applications for<br />

a Multilingual Europe. Mannheim/Kaunas: IDS/VSU. s. 123 – 145.<br />

33


JAN HAJIČ<br />

34


IDENTIFIKÁCIA PARADIGMATICKÝCH<br />

A SYNTAGMATICKÝCH VZŤAHOV<br />

V TEXTE<br />

Karol Furdík: Juvier, s.r.o., Košice<br />

Abstract: Paper describes the algorithm of inductive incremental learning for identification and representation<br />

of paradigmatic and syntagmatic relationships in written texts. Probabilistic methods are used for determination<br />

of structural similarities on morphological, syntactical, and semantic level.<br />

1. Problematika analýzy textu<br />

Analýza textu, čiže identifikácia jazykových jednotiek (znakov) a vzťahov<br />

medzi nimi, je kľúčovým problémom azda všetkých súčasných systémov na<br />

spracovanie prirodzeného jazyka. Dôvodov, prečo sa tento problém stále vymyká<br />

úspešnému a vyčerpávajúcemu riešeniu, je niekoľko. Predovšetkým je to<br />

zložitosť samotného jazyka: „Jazyk je nesporně nejsložitější a nejbohatší<br />

známý systém (mimo přírodní vědy) mající mnoho stránek, a tedy i možností<br />

přístupu k jeho chápání, popisu, popř. i třídění; v důsledku toho je právě komplexní<br />

pohled na něj, jakkoliv žádoucí, také neobyčejně obtížný.“ (Čermák<br />

1994, s. 13). Alebo, formálnejšie, prirodzený jazyk v celej svojej šírke nemôže<br />

byť generovaný menej výkonnou gramatikou, ako je gramatika typu 0 (všeobecná)<br />

podľa delenia N. Chomského (Csontó – Sabol 1991, s. 42). Dôsledkom<br />

toho je, že prirodzený jazyk môže byť bez dodatočných ohraničení akceptovaný<br />

iba programom s výkonnosťou Turingovho stroja, čo znamená, že takýto program<br />

si bude vyžadovať neobmedzený prístup k dynamickej pamäti.<br />

Druhým dôvodom, pre ktorý analýza textu v prirodzenom jazyku naďalej<br />

ostáva výzvou, je tesná prepojenosť jazyka a myslenia. Pri pokuse analyzovať<br />

text ako jazykový prejav nie je dosť dobre možné oddeliť to, ako jazyk funguje<br />

(v zmysle formálneho systému), od toho, o čom vypovedá (v rovine sémantickej<br />

a pragmatickej, v rovine vedomostí a ich reprezentácie, v konečnom dôsledku<br />

v rovine vedomia a myslenia). Vzájomná podmienenosť jazyka a myslenia naznačuje,<br />

že tieto dva fenomény nemožno skúmať oddelene, že ide skôr o dve<br />

strany jednej mince (dôkazom toho môže byť aj tzv. Linguistic Turn, posledný<br />

veľký obrat vo filozofii – pozri napr. v Michalovič – Minár (1997, s. 12). Sú-<br />

35


KAROL FURDÍK<br />

vislosť je vari až taká, že vyriešenie problému analýzy jazyka predpokladá objavenie<br />

mechanizmov a prípadnú formalizáciu myslenia (a vice versa).<br />

Posledným, možno trochu diskutabilným dôvodom, avšak rozhodne so silným<br />

vplyvom na skúmanie analýzy jazykového prejavu, je metodológia. Donedávna<br />

sa prakticky všetky prístupy k skúmaniu jazyka vyznačovali snahou o explicitný<br />

popis jednotiek, z ktorých jazykový systém pozostáva, vrátane vzťahov,<br />

pravidiel, zásad a noriem ich vzájomného kombinovania. Tento prístup predpokladá,<br />

že existuje všeobecný, spoločný, a relatívne stály abstraktný systém jazyka<br />

– langue (Čermák 1994, s. 18). Percepcia jazyka sa v takomto prípade dá<br />

modelovať ako „postupná identifikace povrchových (vnějškových) struktur slyšené<br />

/ čtené promluvy srovnáváním se známým, t. j. jednotkami a pravidly v langue“<br />

(tamže, s. 19). Hrubá schéma systému analyzujúceho text na základe<br />

porovnávania s vopred známou a nemennou štruktúrou langue je na obrázku 1.<br />

Problémom tohto prístupu však je otázka, či je vôbec možné vyčerpávajúco explicitne<br />

a formálne vyjadriť všetky jednotky a pravidlá v langue tak, aby sa<br />

analyzovaný text (resp. jazykový prejav) dal s nimi porovnávať. Zrejme to možné<br />

nie je, pretože, ako bolo spomenuté vyššie, takýto formalizmus by musel byť<br />

vyjadrený gramatikou typu 0 a zodpovedajúci porovnávací mechanizmus by<br />

musel dosahovať potenciálne nekonečnú zložitosť a výkonnosť Turingovho<br />

stroja.<br />

Vstupný text<br />

(parole)<br />

Porovnávací modul<br />

Znalostná báza<br />

(Explicitné jednotky a pravidlá langue)<br />

Obrázok 1. Známa a nemenná štruktúra langue.<br />

2. Intencionalita, inkrementálne učenie<br />

Identifikácia<br />

Výstup<br />

Aký prístup k analýze textu teda zvoliť, aby sa prekonali naznačené problémy?<br />

Musí to byť prístup, ktorý je dynamický, ktorý sa blíži k predpokladaným<br />

modelom myslenia, a ktorého formalizmus sa výkonnosťou blíži k výkonnosti<br />

Turingovho stroja. Jedným z možných riešení je napríklad subjektivizá-<br />

36


IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE<br />

cia jazykovej percepcie (Furdík 1999, s. 276). Do popredia tu vystupuje mentálna<br />

(kognitívna) funkcia jazyka, zameraná najmä na predikciu budúcich interakcií<br />

subjektu s prostredím na základe vedomých subjektívnych skúseností.<br />

Komunikačná funkcia jazyka, všeobecne považovaná za základnú a dominantnú<br />

funkciu langue (Michalovič – Minár 1997, s. 19), sa pri subjektívnom prístupe<br />

stáva sekundárnou. Langue (ako abstraktný systém, model jazyka) vzniká<br />

a modifikuje sa pre každý subjekt zvlášť, a to na základe vstupov (zmyslovo<br />

vnímaných ako parole) v interakcii s okamžitým stavom tohto „subjektívneho<br />

langue“ (azda presnejší je v tomto prípade Chomského termín competence, čiže<br />

„systém pravidel k produkování promluv a jejich rozumění, pojatý jako znalost<br />

mluvčích; odpovídá langue“ (Čermák 1994, s. 62, 208)). Subjektivizácia však<br />

sama osebe nie je dostatočná na konštrukciu systému schopného vnímať jazyk a<br />

analyzovať text. Naopak, je iba nevyhnutným predpokladom cieľavedomého<br />

budovania štruktúry vedomých subjektívnych skúseností, ktoré sa zvykne<br />

označovať ako intencionalita. Ako uvádza van Gulick (1992, s. 86), zhŕňajúc<br />

tvrdenia Searla a Nagela: „Schopnosť mať vedomé subjektívne skúsenosti je<br />

nevyhnutnou podmienkou akýchkoľvek stavov s vlastným intencionálnym obsahom.“<br />

Intencionalita v tomto zmysle nie je samoúčelná, jej cieľom je už<br />

spomínaná predikcia možných budúcich stavov prostredia na základe už rozpoznaných<br />

stavov a ich porovnávania s okamžitými vnemami – subjekt si vytvára<br />

vnútorný model prostredia, konfrontuje ho so svojimi vstupmi, a pokúša<br />

sa jednak interpretovať aktuálne vstupy na základe existujúceho modelu prostredia,<br />

a jednak meniť tento vnútorný model tak, aby čo najviac zodpovedal<br />

vnímanému prostrediu. Tento proces „vedomej“ zmeny vnútornej reprezentácie<br />

(samočinnej optimalizácie), ktorý je cieľovo zameraný na predikciu možných a<br />

pravdepodobných budúcich stavov prostredia ako dôsledku „zmyslových“ vnemov<br />

(ukážkových príkladov), sa nazýva učenie (Furdík 1999, s. 277, pozri aj<br />

Csontó – Sabol 1991, s. 83).<br />

Realizovaný jazykový prejav (parole, resp. text), ktorý je vstupom pre subjektívny<br />

intencionálny systém, sa vyznačuje vlastnosťou sekvenčnosti – jednotlivé<br />

jazykové znaky sú zoradené a následne aj rozpoznávané sekvenčne, za<br />

sebou, pričom ich poradie je relevantným štruktúrotvorným prvkom. Sekvenčný<br />

prísun vstupnej informácie spolu s obmedzením pamäti systému implikuje inkrementálnosť<br />

učenia – učenie nie je jednorázový akt, ale skôr proces „permanentného<br />

doučovania“. Samozrejme, množina vstupných príkladov nemôže<br />

byť nikdy úplná – systém musí mať schopnosť učiť sa induktívne, t. j. zovšeobecňovať.<br />

Pre takýto charakter vstupných príkladov sa dá použiť induktívne<br />

37


KAROL FURDÍK<br />

inkrementálne učenie (Csontó – Sabol 1991, s. 83), ktoré môže byť buď kontrolované,<br />

alebo nekontrolované. Pri nekontrolovanom učení (bez učiteľa) systém<br />

odvodzuje informáciu o správnosti svojho rozhodnutia pomocou spätnej<br />

väzby; pri kontrolovanom učení (s učiteľom) je informácia o rozhodnutí a jeho<br />

správnosti priamo súčasťou vstupu (pozri schému na obrázku 2).<br />

Vstupný text<br />

(parole)<br />

Adaptabilná znalostná báza<br />

Porovnávací modul<br />

Identifikácia<br />

(Subjektívny abstraktný model jazyka)<br />

Modifikácia<br />

znalostnej<br />

bázy<br />

Obrázok 2. Analyzátor textu ako učiaci sa systém.<br />

3. Algoritmus inkrementálneho učenia<br />

Výstup<br />

Spätná väzba<br />

systému<br />

Zásah učiteľa<br />

Ďalšou úlohou je špecifikovať vlastný algoritmus induktívneho inkrementálneho<br />

učenia. Je potrebné nájsť a identifikovať také javy v analyzovanom texte,<br />

ktoré dovoľujú inkrementálne vytvárať subjektívny abstraktný model jazyka<br />

vo vnútri systému. Vstupný text v prirodzenom jazyku je realizáciou predpokladanej<br />

všeobecnej abstraktnej štruktúry langue. Preto jazykové jednotky v<br />

ňom sú dozaista vzájomne prepojené syntagmatickými a paradigmatickými<br />

vzťahmi. Tieto vzťahy možno považovať za vzájomne komplementárne, pričom<br />

syntagmatické vzťahy majú v zásade lineárnu povahu, kým paradigmatické<br />

zasa povahu asociačnú. Existencia oboch týchto vzťahov je však spôsobená<br />

tým istým princípom, ktorý je vlastný jazykovému znaku – princípom différence.<br />

Odlišnosť, diferencia voči iným znakom systému je práve to, čo znak tvorí,<br />

čo určuje jeho miesto v systéme. Prípadne, ak je to z praktických dôvodov výhodnejšie,<br />

dá sa vzťah rozdielnosti dvoch objektov jednoduchou inverziou zmeniť<br />

na vzťah vzájomnej podobnosti (porov. Michalovič – Minár 1997,<br />

s. 35, 36).<br />

Algoritmus učiaceho sa systému na analýzu textov by mal byť schopný abstrahovať,<br />

identifikovať, a následne explicitne vyjadriť vzájomné podobnosti<br />

jazykových jednotiek. Explicitná reprezentácia identifikovaných podobností je<br />

abstrakciou spoločných čŕt jazykových jednotiek, ktoré spôsobili jej vznik.<br />

38


IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE<br />

Naviac, ak sa zvolí vhodný formálny jazyk na vyjadrenie explicitných reprezentácií<br />

podobností, je možné postulovať, že získané explicitné relácie sú meta-jazykovými<br />

znakmi. Dajú sa vzájomne porovnávať, dá sa vyjadriť ich vzájomná<br />

podobnosť, čím môžu vzniknúť ďalšie meta-meta-jazykové znaky. Vzniká tým<br />

štruktúra, zodpovedajúca subjektívnemu abstraktnému modelu jazyka – „subjektívnemu<br />

langue“.<br />

V ďalšom sa pokúsime presnejšie popísať jednotlivé moduly a kroky navrhovaného<br />

algoritmu, ktorého schéma je zobrazená na obrázku 3.<br />

Vstup<br />

Text,<br />

reťazec<br />

znakov<br />

Predspracovanie<br />

vstupného<br />

reťazca<br />

Adaptabilná znalostná báza<br />

(Subjektívny abstraktný model jazyka)<br />

Štruktúra tried podobností jazykových jednotiek:<br />

• morfologický modul<br />

• syntaktický modul<br />

• sémantický modul<br />

3.1 Predspracovanie vstupu<br />

Sekvencia<br />

elementárnych<br />

jazykových<br />

jednotiek<br />

Porovnávací<br />

modul<br />

Identifikácia<br />

Obrázok 3. Schéma algoritmu inkrementálneho učenia.<br />

Spätná väzba<br />

systému<br />

Výstup<br />

Zásahy na zmenu štruktúry<br />

znalostnej bázy<br />

Vznik novej triedy<br />

Zánik existujúcej triedy<br />

Zmena pravdepod. váh<br />

Zásah<br />

učiteľa<br />

Vstupný analyzovaný text je pre počítačový systém sekvenciou, reťazcom<br />

znakov. Úlohou modulu predspracovania vstupu je rozdeliť vstupný reťazec na<br />

postupnosť jazykových jednotiek, t. j. rozpoznať jednotlivé jazykové jednotky<br />

v tomto reťazci. Avšak identifikácia takých jazykových jednotiek, ako sú slová,<br />

frazémy, vety a pod., je v učiacom sa systéme možná iba na základe konzultácie<br />

so znalostnou bázou, teda s aktuálnym subjektívnym modelom jazyka. Inými<br />

slovami, systém sa musí najprv naučiť, čo je slovo, veta, frazéma a podobne,<br />

a až potom je schopný tieto jednotky vo vstupnom reťazci identifikovať.<br />

Tento „dôsledný“ prístup však nie je veľmi výhodný, pretože na začiatku<br />

predpokladáme prázdnu znalostnú bázu. V takomto prípade by systém nemal<br />

žiadne „vedomosti“ o tom, čo považovať za jazykovú jednotku, a je otázkou, či<br />

a za aký dlhý čas by tieto vedomosti získal.<br />

39


KAROL FURDÍK<br />

Tu je zrejme vhodné spomenúť miesto a vplyv apriórnych vedomostí na<br />

činnosť učiaceho sa systému. Apriórne vedomosti sú také fakty, ktoré systém<br />

nezíska sám v procese učenia, ale ktoré dodáme systému zvonka (kontrolované<br />

učenie, pozri vyššie). Potom platí, že sa zrejme (ak sú učiteľom dodané fakty<br />

„správne“, t. j. ak sa potvrdia v budúcich vstupoch) zvýši efektívnosť a rýchlosť<br />

systému, skráti sa čas prehľadávania znalostnej bázy. Na druhej strane však<br />

klesne univerzálnosť, systém sa bude snažiť aplikovať dodané fakty namiesto<br />

toho, aby sa pokúšal prispôsobovať svoju znalostnú bázu aktuálnemu vstupu<br />

vytváraním „svojich“ znalostí v procese učenia sa. 1 Tento princíp, ktorý nazveme<br />

ako princíp apriórnych vedomostí, platí aj pri ďalších etápách algoritmu<br />

všade tam, kde sa uplatňuje inkrementálne učenie.<br />

Zrejme je potrebné modul predspracovania vstupu vybaviť istými apriórnymi<br />

vedomosťami o tom, čo je tzv. elementárny jazykový znak. Modul potom<br />

bude schopný transformovať vstupný reťazec na sekvenciu takýchto<br />

elementárnych jazykových znakov, ktoré sa v ďalších etapách algoritmu budú<br />

môcť spájať do vyšších štruktúr.<br />

Rozdelíme všetky znaky, ktoré sa môžu vyskytovať vo vstupnom reťazci,<br />

do nasledujúcich kategórií:<br />

a) alfanumerické znaky (pre slovenskú abecedu sú to znaky a – ž, A - Ž) ,<br />

b) prázdne znaky (Space, Tab, EndOfLine, EndOfFile, ...),<br />

c) špeciálne znaky (ostatné, t. j. 0 – 9, _, ?, „, :, ...).<br />

Potom elementárnym jazykovým znakom bude každý reťazec:<br />

a) zložený iba z alfanumerických znakov alebo<br />

b) tvorený jedným špeciálnym znakom.<br />

Na identifikáciu elementárneho jazykového znaku sa dajú použiť aj iné<br />

metodiky, iné rozdelenia do kategórií, napríklad špeciálne kategórie pre číselné<br />

reťazce, pre dátum, čas a podobne. Dá sa dokonca postulovať, že elementárnym<br />

jazykovým znakom je každý jednotlivý znak zo vstupu. Pri každom z týchto<br />

delení však platí princíp apriórnych vedomostí, teda čím „presnejšie“ určíme,<br />

čo je elementárny jazykový znak, tým menej flexibilný bude systém.<br />

3.2 Morfologické štruktúry<br />

1 Určitým kompromisom môže byť kontrolované učenie s nedokonalým učiteľom (Csontó – Sabol<br />

1991, s. 83), pri ktorom fakty dodané zvonka nemajú absolútnu platnosť, ale sú ohodnotené istou<br />

pravdivostnou (alebo pravdepodobnostnou) váhou. Ak sa zmení charakter vstupu, systém môže po istom<br />

čase takéto fakty „zabudnúť“, čím sa adaptuje na novú situáciu.<br />

40


IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE<br />

Úlohou modulu morfológie je zoskupovať rozpoznané jazykové jednotky<br />

do tried podľa podobnosti ich formálnej reprezentácie. Týmto procesom vzniká<br />

abstraktná štruktúra popisujúca paradigmatické vzťahy jazykových jednotiek.<br />

Paradigmatický vzťah morfologickej úrovne asociuje jazykové jednotky na základe<br />

ich tvarovej, formálnej podobnosti. Z dvoch alebo viacerých jazykových<br />

jednotiek vznikajú triedy (kategórie), ktoré abstrahujú spoločné formálne vlastnosti<br />

týchto jednotiek. Vzniknuté triedy však majú zároveň charakter (abstraktných)<br />

jazykových jednotiek, vyjadrujú, ktoré formálne vlastnosti sú pre systém<br />

v danom okamihu relevantné.<br />

Abstraktná jazyková jednotka má charakter triedy (kategórie) v tom<br />

zmysle, že vieme povedať, ktoré jazykové jednotky do tejto triedy patria (spĺňajú<br />

formálne vlastnosti vyjadrené abstraktnou jazykovou jednotkou), a ktoré do<br />

triedy nepatria. Zároveň má abstraktná jazyková jednotka charakter atribútu<br />

pre tie jazykové jednotky, ktoré spĺňajú formálne vlastnosti abstraktnou jednotkou<br />

vyjadrené (Furdík 1999, s. 280). Dvojica atribút – trieda je komplementárna,<br />

t. j. ak nejaká jednotka patrí do určitej abstraktnej triedy, zároveň má aj<br />

atribút (príznak, vlastnosť) príslušnosti k tejto triede. Relácia<br />

Patriť_do_triedy(Ji , Tx) vytvára štruktúru v priestore jazykových jednotiek.<br />

Triedy sa dajú explicitne vyjadriť napríklad pomocou vhodného formálneho<br />

jazyka. Formálny jazyk na explicitné vyjadrenie tried treba voliť tak, aby:<br />

a) jazykové jednotky a triedy boli vyjadrené kvalitatívne rovnakým spôsobom,<br />

aby sa dali vzájomne porovnávať, zoskupovať a triediť,<br />

b) triedy mohli byť použité ako klasifikačné pravidlá, t. j. aby bolo možné<br />

rozhodnúť, či ľubovoľná jazyková jednotka do danej triedy patrí alebo<br />

nie,<br />

c) triedy boli generické v tom zmysle, aby bolo možné z danej triedy rekonštruovať<br />

jazykové jednotky, ktoré spôsobili vznik tejto triedy.<br />

Samozrejme najdôležitejšou vlastnosťou formálnej reprezentácie abstraktných<br />

morfologických tried je schopnosť vyjadriť formálne, tvarové podobnosti<br />

(resp. rozdiely) jazykových jednotiek.<br />

Explicitné vyjadrenie triedy sa dá realizovať formálnym jazykom generovaným<br />

buď bezkontextovou, alebo kontextovou gramatikou. Bezkontextová<br />

gramatika má síce menšiu vyjadrovaciu schopnosť, môže sa stať, že isté morfologické<br />

podobnosti sa pomocou nej nedajú vyjadriť, je však jednoduchšia a rýchlejšia.<br />

Kontextová gramatika má kapacitu vyjadriť azda všetky relevantné morfologické<br />

podobnosti, je tu však reálne riziko veľkej, až exponenciálnej výpočtovej<br />

zložitosti.<br />

41


KAROL FURDÍK<br />

V práci P. Kostelníka (2000, s. 33) bola navrhnutá a použitá metóda troch<br />

operátorov prepisu, zodpovedajúca zložitosti bezkontextovej gramatiky. Táto metóda<br />

vychádza z predpokladu, že pre každé dve rôzne jazykové jednotky existujú<br />

transformácie, pomocou ktorých možno prepísať jednu jednotku na druhú.<br />

Práve tieto transformácie sa definujú ako tzv. operátory prepisu. Rozlišujú sa tri<br />

typy týchto operátorov:<br />

1. operátor doplnenia zľava OL; napríklad reťazec ník je operátorom doplnenia<br />

zľava pre jazykové jednotky podvod a podvodník: OL(podvod,<br />

podvodník)=ník.<br />

2. operátor doplnenia sprava OP; napríklad reťazec ne je operátorom doplnenia<br />

sprava pre jazykové jednotky šťastie a nešťastie: OP(šťastie, nešťastie)=ne.<br />

3. operátor zmeny OZ; napríklad dvojica reťazcov {imista, ímia} je operátorom<br />

zmeny pre jazykové jednotky alchimista a alchímia: OZ(alchimista,<br />

alchímia)= {imista, ímia}.<br />

Metóda sa aplikuje postupne na každú dvojicu elementárnych jazykových<br />

jednotiek identifikovaných na vstupe. Získava sa množina operátorov, ohodnotená<br />

pravdepodobnostnou váhou podľa toho, ako často sa ten-ktorý operátor<br />

uplatnil pri transformácii. Operátory, ktorých pravdepodobnostná hodnota presiahne<br />

určitý prah, vytvoria tzv. priestor typických reťazcov, ktoré zodpovedajú<br />

abstraktným morfologickým triedam. Táto metóda pracuje iteračne, využíva<br />

princíp inkrementálneho učenia.<br />

Modifikáciou metódy operátorov prepisu môže byť napríklad tzv. metóda<br />

podreťazcov. Okrem operátorov sa zo vstupných jazykových jednotiek získavajú<br />

aj kontextové vyjadrenia zhodných podreťazcov. Napríklad vstupné jednotky<br />

kniha a knihe generujú operátor zmeny {a, e}, a zároveň podreťazec knih*, kde<br />

znak ‘*’ označuje ľubovoľný podreťazec. Nasledujúci príklad ukazuje použitie<br />

tejto metódy na získanie štruktúry abstraktných morfologických tried:<br />

Nech vstupom sú nasledujúce elementárne jazykové jednotky:<br />

{kniha, knihe, knihou, mačka, mačke, mačkou}<br />

Potom aplikáciou metódy podreťazcov dostávame nasledujúce abstraktné<br />

morfologické triedy:<br />

{a, e}; {a, ou}; {e, ou}; {knih*}; {mačk*}<br />

Ďalej platí:<br />

{kniha} patrí do tried {a, e}, {a, ou}, a {knih*},<br />

{knihe} patrí do tried {a, e}, {e, ou}, a {knih*},<br />

42


IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE<br />

{mačka} patrí do tried {a, e}, {a, ou}, a {mačk*},<br />

{mačkou} patrí do tried {e, ou}, {a, ou}, a {mačk*} atď.<br />

Ďalej:<br />

do triedy {knih*} patria jednotky: {kniha}, {knihe}, {knihou},<br />

do triedy {mačk*} patria jednotky: {mačka}, {mačke}, {mačkou}<br />

Je zrejmé, že obe triedy podreťazcov zodpovedajú štruktúre, ktorá sa<br />

zvykne označovať ako morfologické (resp. slovotvorné) hniezdo. Trieda podreťazcov<br />

obsahuje v tomto prípade niečo ako abstrahovaný koreň tých slov<br />

(jazykových jednotiek), ktoré túto triedu vytvorili.<br />

Teraz ak porovnáme operátory zmien členov oboch tried podreťazcov, zistíme,<br />

že sú rovnaké – tvoria ich operátory {a, e}; {a, ou}; {e, ou}. Tieto operátory<br />

možno považovať za abstraktné, pritom však explicitné, vyjadrenie skloňovacieho<br />

vzoru (resp. jeho časti).<br />

Samozrejme, v skutočnosti sa pomocou tejto metódy generuje aj množstvo<br />

chybných abstraktných tried. Tomuto javu sa nedá dosť dobre zabrániť, systém<br />

nevie sám rozhodnúť, ktorá trieda je generovaná správne, a ktorá chybne.<br />

Jednou z možností, ako sa dá eliminovať chybovosť, je zohľadnenie pravdepodobnosti<br />

výskytu jednotlivých abstraktných tried na základe ich rozpoznávania<br />

v sekvenčnom vstupnom texte (pozri Furdík 1999, Kostelník 2000). Abstraktné<br />

triedy sa generujú spolu s určitou počiatočnou hodnotou pravdepodobnosti P0.<br />

Formalizmus ich explicitného vyjadrenia dovoľuje testovať ďalšie jazykové<br />

jednotky na ich príslušnosť k tej-ktorej abstraktnej triede. Ak sa rozpozná taká<br />

jednotka, ktorá vyhovuje vyjadreniu triedy, zvýši sa pravdepodobnostná hodnota<br />

tejto triedy o prírastok ΔP. Napríklad, nech trieda {knih*} z nášho príkladu<br />

vznikla z jednotiek {kniha} a {knihe}. V tom okamihu jej pravdepodobnosť<br />

bola P0. Po rozpoznaní jednotky {knihou} sa zdvihla hodnota pravdepodobnosti<br />

o ΔP na hodnotu P({knih*}) = P0 + ΔP, keďže táto jednotka spĺňa<br />

kontextové vyjadrenie triedy {knih*}.<br />

Ďalšou možnosťou zníženia chybovosti je kontrolovanie učenia zvonka.<br />

Tento algoritmus je citlivý na poradie, v akom sa jazykové jednotky objavujú na<br />

vstupe. Napríklad chybovosť a efektivita sa dajú zvýšiť vstupom textu, ktorý<br />

obsahuje vyskloňované vzory substantív a podobne. Tiež možno zvonka doplniť<br />

niektoré triedy, ktoré systém „neobjavil“, avšak používateľ „vie“, že sú<br />

relevantné (viac o tom v časti 3.5).<br />

Dôležitým predpokladom úspešnej činnosti algoritmu je pevná veľkosť<br />

pamäti generovaných tried. Poradie abstraktných tried (a jazykových jednotiek<br />

43


KAROL FURDÍK<br />

vôbec) v pamäti je dané pravdepodobnosťou ich výskytu. Systém, ak má byť<br />

schopný adaptovať sa na zmenené podmienky (t. j. na zmenený vstupný text),<br />

musí „zabúdať“ to, čo je chybné, nepotrebné, teda málo pravdepodobné. Ak sa<br />

pamäť zaplní, systém zmaže, zabudne triedy a jazykové jednotky s najmenšou<br />

pravdepodobnosťou, aby mohol generovať nové triedy podľa nového vstupu.<br />

3.3 Syntaktické štruktúry<br />

Identifikácia syntagmatických (najmä syntaktických) štruktúr sa kvalitatívne<br />

líši od činnosti morfologického modulu. Syntaktický modul má za úlohu<br />

hľadať štruktúry, ktoré popisujú lineárne vzťahy medzi jazykovými jednotkami,<br />

pravidlá, ako za sebou jazykové jednotky nasledujú v texte. Činnosť modulu je<br />

znova založená na princípe différence, avšak tentokrát sa skúmajú podobnosti<br />

a rozdiely v poradí a zoskupení jednotiek. Triedy, ktoré sa identifikovali na úrovni<br />

morfologického modulu, slúžia pre identifikáciu syntagmatických štruktúr<br />

ako vstup. Na výstupe modulu očakávame explicitnú reprezentáciu abstraktných<br />

štruktúr popisujúcich najfrekventovanejšie syntagmatické celky.<br />

Je zrejmé, že pre potreby syntaktického modulu musia už elementárne<br />

jazykové jednotky rozpoznávané vo fáze predspracovania niesť so sebou aspoň<br />

minimálnu informáciu o svojej pozícii vo vstupnom texte. Stačí, ak touto informáciou<br />

bude údaj o tom, ktorá elementárna jednotka bola identifikovaná ako<br />

predchodca práve rozpoznávanej elementárnej jednotky. Tieto smerníky spolu<br />

s morfologickými charakteristikami by mali byť dostatočnou vstupnou informáciou<br />

pre činnosť syntaktického modulu.<br />

Kľúčovým problémom pri identifikácii syntagmatických štruktúr je voľba<br />

vhodného formalizmu na vyjadrenie ich explicitnej reprezentácie. Jednou z<br />

možností je použiť algoritmus podmienených pravdepodobností, prípadne jeho<br />

zjednodušenie – trigramový model (pozri napr. Furdík 1999, s. 286). Tento algoritmus<br />

však poskytuje iba implicitnú (pravdepodobnostnú), a nie explicitnú<br />

reprezentáciu, a naviac, n-gramový model dovoľuje identifikovať iba syntagmatické<br />

štruktúry dĺžky maximálne n. Druhou možnosťou je zotrvať pri symbolickej<br />

reprezentácii pomocou formálnych jazykov – touto možnosťou sú rozšírené<br />

prechodové siete (ATN – Augmented Transition Networks), založené<br />

na bezkontextovej gramatike s n-ticou argumentov (tzv. DCG gramatika, Definite<br />

Clause Grammar; Páleš 1993, s. 77). ATN sieť je syntaktický analyzátor<br />

pozostávajúci z orientovaného grafu, zoznamu podmienok a zoznamu akcií.<br />

Každá hrana grafu je samostatným pravidlom bezkontextovej gramatiky a zod-<br />

44


IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE<br />

povedá podmienke vyjadrenej nutnosťou zhody argumentov ľavej a pravej časti<br />

pravidla. Toto pravidlo zodpovedá podmienke, pri ktorej možno cez hranu<br />

prejsť, a akcii, ktorú treba pri tom vykonať. Zvyčajne sú podmienky na hranách<br />

označené slovným druhom s požadovanými gramatickými kategóriami, akcie<br />

sú označenia zodpovedajúcich syntaktických kategórií (obrázok 4).<br />

NF<br />

(nominálna fráza)<br />

adj<br />

subst<br />

Hrana Podmienky Akcie<br />

adj adj(_, P1, C1, R1, Z1) DETERMINANT<br />

subst subst(_, P1, C1, R1, Z1)<br />

Podmienky k hranám adj a subst požadujú zhodu vetných<br />

členov v rode, čísle, páde a životnosti. Ak sú podmienky<br />

splnené, potom akcie priraďujú syntaktické roly, ktoré sú<br />

výsledkom analýzy.<br />

Obrázok 4. Príklad fragmentu ATN siete pre nominálnu frázu.<br />

Vstupom pre syntaktický analyzátor využívajúci ATN siete sú úplne morfologicky<br />

ohodnotené slová vety. Výstupom sú identifikované vetné členy – syntaktické<br />

kategórie. Samozrejme, predpokladá sa, že existuje nemenný a úplný zoznam<br />

všetkých ATN sietí pre daný jazyk. Tento prístup nezodpovedá princípom<br />

systému založeného na inkrementálnom induktívnom učení, preto je nevyhnutné<br />

formalizmus ATN sietí prispôsobiť potrebám učiaceho sa algoritmu analýzy textu.<br />

Analogicky s morfologickým modulom, syntaktické štruktúry nesmú byť<br />

pevné a vopred určené, ale musia vznikať ako abstrakcie v procese učenia. Ich<br />

platnosť nie je absolútna, ale je daná pravdepodobnosťou, ktorá sa počas činnosti<br />

algoritmu môže meniť. Syntaktické štruktúry, ktoré sú pod určeným minimálnym<br />

prahom, zanikajú, zabúdajú sa.<br />

Vstupom pre učiaci sa syntaktický analyzátor nie sú vety, pretože systém<br />

apriórne nie je schopný členiť vstupný text na vety. Zároveň vstupom nemôžu<br />

byť ani slová ohodnotené tradičnými gramatickými kategóriami, pretože učiaci<br />

sa systém si vytvára svoje vnútorné kvázi-morfologické kategórie. Dokonca<br />

apriórne morfologický modul nie je schopný určiť ani slovný druh jazykovej<br />

jednotky. Vstupom pre učiaci sa syntaktický modul sú elementárne jazykové<br />

jednotky rozpoznané vo fáze predspracovania, kontextovo pospájané smerníkmi<br />

na svojich predchodcov. Súčasťou tohto vstupu je aj celá štruktúra abstraktných<br />

tried, identifikovaných morfologickým modulom. Čiže syntaktické<br />

štruktúry nemôžu byť pevné a dopredu určené, pretože gramatické kategórie,<br />

ktoré sú ich súčasťou, sú premenlivé.<br />

45


KAROL FURDÍK<br />

Výstupom učiaceho sa syntaktického analyzátora nie sú syntaktické kategórie,<br />

ale vlastné pravdepodobnosťou ohodnotené ATN siete, ktoré sú explicitnou<br />

reprezentáciou abstraktných štruktúr popisujúcich najfrekventovanejšie<br />

syntagmatické celky. Sú to vlastne abstraktné a elementárne jazykové jednotky,<br />

ktoré sa spolu, v určitých syntagmatických vzťahoch, najčastejšie vyskytujú.<br />

Nasledujúci príklad demonštruje, aké syntaktické štruktúry možno očakávať na<br />

výstupe syntaktického modulu:<br />

Jano<br />

som<br />

Nech na vstupe boli rozpoznané nasledujúce fragmenty textu:<br />

– Jano číta knihu<br />

– bol by som čítal tento zaujímavý časopis, keby...<br />

– Keby som to bol vedel, nebol by som sa začal venovať<br />

spracovaniu prirodzeného jazyka na počítači.<br />

Potom syntaktický modul generuje napríklad takéto fragmenty ATN siete:<br />

číta*<br />

zaujímavý<br />

knih*<br />

časopis<br />

bol<br />

by som<br />

sa<br />

čítal<br />

začal<br />

kde každý z elementov je zároveň začlenený do paradigmatických štruktúr<br />

morfologického modulu.<br />

Chybovosť sa rieši, podobne ako pri morfologickom module, pravdepodobnostným<br />

ohodnotením generovaných syntaktických štruktúr. Tu sa však,<br />

azda viac ako pri morfologických abstraktných štruktúrach, stáva aktuálnou<br />

otázka „rozumného“ riadenia procesu učenia zvonka. Ako upozorňuje Páleš<br />

(1993, s. 76), počet pravidiel DCG gramatiky pre slovenskú syntax je neúmerne<br />

veľký, a aj keď použitie ATN sietí reprezentáciu zjednodušuje, výpočet alternatív<br />

v procese učenia môže dosahovať exponenciálnu zložitosť. Do určitej<br />

miery sa dá toto riziko eliminovať tým, že učiteľ vopred vloží „známe“ ATN<br />

fragmenty do systému a priradí im vhodné pravdepodobnostné hodnoty.<br />

3.4 Sémantické štruktúry<br />

46


IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE<br />

Sémantický modul sa svojím charakterom odlišuje od oboch predchádzajúcich<br />

modulov. Na rozdiel od morfologických a syntaktických štruktúr, ktoré<br />

sa viac či menej dajú abstrahovať z formy jazykového prejavu, sémantické<br />

štruktúry sú primárne založené aj na iných než na jazykových skúsenostiach.<br />

Riešením by azda bolo, ak by sme systému simulovali aj iné „zmysly“, teda aj<br />

iné vstupy, ako len vstup písaného textu – napríklad vstupy zvukovej a obrazovej<br />

informácie. Takéto komplexné riešenie však zameraním aj zložitosťou presahuje<br />

problematiku analýzy textu.<br />

Čiastočne sa isté sémantické podobnosti a vzťahy dajú abstrahovať aj zo<br />

štruktúr identifikovaných predchádzajúcimi dvoma modulmi, napríklad:<br />

• do triedy {knih*} patria slová ako kniha, knihár, knihovníčka a podobne,<br />

ktoré rozhodne vzájomne sémanticky súvisia (patria do toho istého<br />

slovotvorného hniezda),<br />

• do triedy OL={ár} patria slová ako rybár, knihár, stolár, vinár a podobne,<br />

ktoré patria k tomu istému slovotvornému typu – k typu „pracovať s ...“,<br />

• z textov číta knihu a čítal tento zaujímavý časopis vzniká fragment ATN<br />

siete, ktorá sa dá interpretovať ako časť valenčného rámca slovesa čítať.<br />

Zároveň sa dá dedukovať, že {knih*} (ako abstrakcia tvaru knihu) a<br />

časopis spolu sémanticky súvisia, a to tak, že sú v pravom valenčnom<br />

okolí jazykovej jednotky číta (respektíve jej abstrakcie {číta*}).<br />

Avšak prisudzovať sémantickú blízkosť slovám podľa ich pozície vo vete<br />

je veľmi problematické, a to aj v jazykoch s oveľa prísnejšími pravidlami slovosledu,<br />

ako má slovenčina. Zdá sa byť nevyhnutnosťou doplniť do systému<br />

niečo, čo by pomohlo spoľahlivejšie identifikovať vzťahy sémantickej podobnosti<br />

medzi rozpoznanými jazykovými jednotkami.<br />

Zároveň vzniká problém, akú formálnu reprezentáciu zvoliť na explicitné<br />

vyjadrenie štruktúr sémantickej podobnosti. Povaha týchto štruktúr je totiž<br />

„zmesou“ paradigmatických a syntagmatických vzťahov, preto sa na ich reprezentáciu<br />

zvyknú používať špeciálne formalizmy, vyznačujúce sa sieťovou<br />

štruktúrou. Patria medzi ne napríklad rámce a skripty, sémantické siete, ontológie<br />

a podobne (Csontó – Sabol 1991, s. 113, pozri tiež Furdík 2000). Tieto formalizmy<br />

umožňujú definovať tzv. znalosti pomocou pojmov a relácií medzi<br />

nimi, pritom poskytujú aj isté možnosti odvodzovania, transformácií a vyhľadávania.<br />

Znalosti, explicitne vyjadrené zvoleným formalizmom, sú však doménovo<br />

závislé – opisujú iba určitý ohraničený „výsek“ reality, a aj to zväčša subjektívnym<br />

spôsobom. Ak by však intencionálny učiaci sa systém mal schopnosť<br />

efektívne vytvárať a modifikovať na základe svojich vstupov a vnútorných<br />

47


KAROL FURDÍK<br />

stavov svoju subjektívnu štruktúru znalostí, formálne reprezentovaných napríklad<br />

ontológiou, potom by táto štruktúra znalostí mala pre systém absolútnu<br />

platnosť. Ibaže, ako sme ukázali vyššie, samotná morfologická a syntaktická<br />

analýza na budovanie subjektívnej štruktúry znalostí zrejme nestačí. Je potrebné<br />

doplniť ju o informácie „zvonka“, z reálneho sveta. Podmienkou je, aby formát<br />

napĺňaných externých znalostí zodpovedal formalizmu implementovanému<br />

v systéme. Využiť sa pritom nemusia iba ontológie, sémantické siete a rôzne iné<br />

sofistikované metódy reprezentácie znalostí. Cenným zdrojom externých<br />

znalostí môže byť napríklad výkladový slovník, prípadne sémanticky anotovaný<br />

korpus jazyka – v týchto prípadoch však bude zrejme potrebná transformácia<br />

do formalizmu použitého v systéme. Systém by potom mohol v procese učenia<br />

svoju reprezentáciu znalostí modifikovať na základe svojich nových vstupov, a<br />

spätnou transformáciou by sa azda získal cenný materiál pre slovníky alebo pre<br />

jazykový korpus.<br />

3.5 Riadenie algoritmu<br />

Ak sa má zachovať intencionálny charakter navrhovaného učiaceho sa<br />

systému, je potrebné minimalizovať riadiace zásahy zvonka. Na druhej strane,<br />

pri analýze textu hrozí neustále nebezpečenstvo príliš veľkej zložitosti, prílišného<br />

množstva alternatív. V takomto prípade je vhodné zvýšiť efektívnosť<br />

metódou kontrolovaného učenia, dodaním vzorky „správnych“ údajov na<br />

vstup. Tento prístup je najmenej „deštruktívny“, nemení samotný algoritmus<br />

ani jeho parametre, aj tak však čiastočne znižuje „samostatnosť“ systému –<br />

platí tu princíp apriórnych vedomostí, definovaný v časti 3.1. Metóda kontrolovaného<br />

učenia sa používa pri všetkých troch stupňoch analýzy textu. V morfologickom<br />

module je ňou napríklad vstup vyskloňovaných vzory substantív, v<br />

syntaktickom naplnenie známych fragmentov ATN sietí, a v sémantickom doplnenie<br />

externých sémantických znalostí.<br />

Ďalšou z možností, ako efektívne obmedziť priestor prehľadávania a zrýchliť<br />

činnosť systému, je riadenie zabúdania nastavením vhodných pravdepodobnostných<br />

prahových hodnôt. Na rozdiel od kontrolovaného učenia, prahové<br />

hodnoty ovplyvňujú vlastný spôsob učenia, sú súčasťou kódu algoritmu. Zmenou<br />

pravdepodobnostných prahových hodnôt sa vlastne menia kľúčové konštanty<br />

algoritmu, aj keď samotná činnosť algoritmu ostáva nezmenená.<br />

Je možné implementovať aj taký spôsob učenia, že rozhodovanie a činnosť<br />

algoritmu (napríklad porovnávacieho modulu) je funkciou vstupu a<br />

48


IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE<br />

vnútorného stavu systému – tento spôsob sa zvykne nazývať ako výpočet<br />

riadený údajmi. V takomto prípade sa nemení iba vnútorná štruktúra údajov v<br />

znalostnej báze, ale mení sa samotný spôsob spracovania vstupného textu. Algoritmus<br />

však v takomto prípade stráca determinickosť v tom zmysle, že ak nevieme<br />

presne, v akom stave sa systém práve nachádza, nedokážeme predpovedať,<br />

aké zmeny daný vstup v systéme spôsobí.<br />

Napokon sa principiálne dá uvažovať nad riadením systému pomocou<br />

metavedomostí. Systém v takomto prípade chápe vstupné údaje ako pokyny, a<br />

mal by byť schopný adekvátne reagovať. To však už zrejme predpokladá, aby bol<br />

systém schopný text nielen analyzovať, ale aj pochopiť jeho zmysel vo vzťahu k<br />

sebe ako k subjektu, a na základe rozpoznaného zmyslu aj vykonávať príslušné<br />

akcie.<br />

4. Záver<br />

Analýza písaného textu realizovaná pomocou algoritmu induktívneho inkrementálneho<br />

učenia transcenduje problém zložitosti jazyka a metodologický<br />

problém jeho explicitného popisu tým, že buduje subjektívnu a v tomto zmysle<br />

úplnú štruktúru abstraktných pravidiel a vzťahov, ktorá predstavuje subjektívny<br />

model jazyka. Učenie je založené na porovnávaní podobností a rozdielov vo<br />

vstupnom texte. Tieto podobnosti a rozdiely systém identifikuje a abstrahuje<br />

z nich štruktúry na morfologickej, syntaktickej, a čiastočnej aj na sémantickej<br />

úrovni. Navrhnuté formalizmy symbolickej reprezentácie týchto štruktúr dovoľujú<br />

jednak efektívne riadiť algoritmus pomocou vstupov, jednak zohľadňujú<br />

prípadné využitie vytvoreného modelu jazyka v iných aplikáciách, napríklad pri<br />

vyhľadávaní textov, v systémoch na spracovanie prirodzeného jazyka, v textových<br />

korpusoch a podobne.<br />

Literatúra<br />

CSONTÓ, Július – SABOL, Tomáš. 1991. Umelá inteligencia. Košice: Edičné stredisko TU v<br />

Košiciach.<br />

ČERMÁK, František. 1994. Jazyk a jazykověda. Praha: Pražská imaginace.<br />

FURDÍK, Karol. 2000. Pojmové modelovanie. In: M. Nábělková (ed.), Varia IX. Zborník<br />

materiálov z IX. kolokvia mladých jazykovedcov. Bratislava: SJS pri SAV (v tlači).<br />

FURDÍK, Karol. 1999. Pravdepodobnostné modelovanie vzniku a vývoja jazykových štruktúr.<br />

In: M. Nábělková – Ľ. Králik (ed.), Varia VIII. Zborník materiálov z VIII. kolokvia mladých<br />

jazykovedcov. Bratislava: SJS pri SAV, s. 276 – 289.<br />

van GULICK, Robert. 1992. Vedomie, vlastná intencionalita a stroje, ktoré rozumejú samy sebe.<br />

In: E.Gál – J.Kelemen (eds.), Myseľ / telo / stroj. Bratislava: Bradlo, s. 80 – 100.<br />

49


KAROL FURDÍK<br />

KOSTELNÍK, Peter. 2000. Získavanie informácií s využitím algoritmov zhlukovej analýzy.<br />

Diplomová práca. Košice: Katedra kybernetiky a umelej inteligencie.<br />

MICHALOVIČ, Peter – MINÁR, Pavol. 1997. Úvod do štrukturalizmu a postštrukturalizmu.<br />

Bratislava: Vydavateľstvo Iris.<br />

PÁLEŠ, Emil. 1993. SAPFO – Parafrázovač slovenčiny. Doktorská dizertačná práca.<br />

Bratislava: JÚĽŠ SAV.<br />

50


SPRACOVANIE MORFOLOGICKEJ<br />

ROVINY SLOVENČINY POČÍTAČOM<br />

Eduard Kostolanský – Jana Hašanová: Laboratórium počítačovej<br />

lingvistiky, Pedagogicka fakulta Univerzity Komenského, Bratislava<br />

1. Úvod<br />

Lingvistický výskum, ktorého hlavným cieľom je tvorba adekvátnych lingvistických<br />

teórií umožňujúcich „vypočítať“ všetky slovné tvary daného slova,<br />

resp. identifikovať príslušný slovný tvar, je v jazykoch európskeho typu, či už<br />

s jednoduchou alebo rozsiahlou flektívnou morfológiou, zavŕšený. Pre väčšinu<br />

týchto jazykov je algoritmicky spracovaná flektívna i derivačná morfologická<br />

rovina. Základná schéma a automatizovaný postup rozpoznania/generovania<br />

flektívnej morfológie jednotlivých ohybných slovných druhov sú spracované aj<br />

pre slovenčinu.<br />

Algoritmické spracovanie flektívnej slovenskej morfológie sa budovalo na<br />

báze existencie virtuálneho slovníka. Tento slovník obsahuje iba vybrané údaje<br />

o ohýbaných slovách a vzoroch ohýbania. Keď vznikne potreba sformovať<br />

ktorýkoľvek tvar k ľubovoľnému slovu, vygeneruje sa s využitím virtuálneho<br />

slovníka, ktorý obsahuje komplexné údaje o vzoroch ohýbania a vybrané údaje<br />

o konkrétnych ohýbaných slovách. Pri každom vzore sú komplexné údaje<br />

o zmenách v tvarotvornom základe (TZ), súbor ohýbacích prípon a výpočtové<br />

pravidlá formovania jednotlivých slovných tvarov.<br />

Systémy, ktoré vykonávajú algoritmickú analýzu textov, sú opatrené poznatkami<br />

o morfológii, syntaxi a sémantike príslušného jazyka. Potrebné informácie<br />

sa umiestňujú vo vhodne štruktúrovanej databáze.<br />

2. Vývoj referenčnej morfologickej databázy<br />

V tejto práci predstavíme opis morfologickej roviny lexikálnej databázy.<br />

Príspevok sa delí na dve hlavné časti.<br />

V prvej časti sa sústreďujeme na opis slovenskej flektívnej morfológie.<br />

Ukážeme, ako sa formujú skupiny údajov a pravidiel potrebných na vytváranie<br />

slovných tvarov jednotlivých slov. Napr. skupiny údajov predstavujú pádové<br />

51


EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />

prípony skloňovacieho vzoru chlap: -ø, -a, -ovi, -a, -ovi, -om atď. alebo tvarotvorné<br />

základy pri vzore mráz: mráz-, mraz-. Príkladom pravidla je napr. alternácia<br />

spoluhlások ch/s v nominatíve plurálu pri vzore černoch: černoch –<br />

černosi. Poznatky a skúsenosti z práce s rozsiahlou množinou podstatných<br />

mien, ktoré sú obsiahnuté v Krátkom slovníku slovenského jazyka (1997), sme<br />

zhrnuli vo viacerých prácach (Benko – Hašanová – Kostolanský 1996, 1997,<br />

1998). V tomto príspevku podáme iba základnú informáciu o podstatných<br />

menách a uvedieme údaje o ostatných ohybných slovných druhoch. Všetky poznatky<br />

plánujeme uverejniť v širšej knižnej forme.<br />

Možno povedať, že explicitnosť opisu morfológie odstraňuje výnimky,<br />

zvláštne prípady, varianty a stanovuje transformačné pravidlá, vzory a skupiny<br />

prípon na presný opis formovania a analýzy slovných tvarov. Hlavným cieľom<br />

je dosiahnuť, aby formovanie/analýza slovných tvarov boli mechanické postupy,<br />

t. j. vykonateľné aj strojom a aplikovateľné ku každému slovu. Prvá časť<br />

sa teda sústreďuje na paradigmy vzorov. Skloňovací vzor chápeme v zmysle definície:<br />

„Skloňovací vzor je jednak množina slov s rovnakým skloňovaním,<br />

jednak jedno vzorové slovo, ktoré danú množinu slov ako typický príklad vhodne<br />

reprezentuje svojimi (formálnymi i významovými) vlastnosťami“ (Oravec –<br />

Bajzíková – Furdík 1984).<br />

V druhej časti nášho príspevku opisujeme modelovanie referenčnej morfologickej<br />

databázy pomocou relačného dátového modelu. Ide o morfologické<br />

údaje – primerane štruktúrované a detailizované – o najpoužívanejších slovách<br />

v súčasnej spisovnej slovenčine (Krátky slovník slovenského jazyka 1997). Ku<br />

každému slovu je priradený údaj o jeho slovnodruhovej príslušnosti a v závislosti<br />

od toho ďalšie údaje, napr. pri jednotlivých podstatných menách vzor skloňovania<br />

a tvarotvorný základ (základy).<br />

Predpokladá sa, že vo všeobecnosti sa bude môcť počet atribútov slov zvyšovať,<br />

takže morfologická databáza bude postupne prerastať na databázu, ktorá sa<br />

využije aj pri analýze textu v iných smeroch (syntaktická rovina, sémantická<br />

rovina, kvantitatívna analýza a pod.) a pri tvorbe iných, už spomenutých aplikácií.<br />

Ďalej stručne opíšeme virtuálne slovníky patriace k jednotlivým ohybným<br />

slovným druhom. Základnými zdrojmi morfologických údajov sú práce Morfológia<br />

slovenského jazyka (1966), Oravec – Bajzíková – Furdík (1984), Páleš<br />

(1994), Pauliny – Ružička – Štolc (1968).<br />

Opis morfológie slovného druhu má gramatickú časť, ktorá obsahuje<br />

gramatické údaje, prípadne výsledky podrobnejšieho štúdia, potrebné pri algo-<br />

52


SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />

ritmickom <strong>spracovaní</strong> morfologickej roviny. Potom nasledujú vzory ohýbania.<br />

Informácie o každom slovnom druhu sú zhrnuté v prehľadných tabuľkách.<br />

Zhromaždené morfologické údaje o vzoroch považujeme za vhodné predstaviť<br />

v dvoch rovinách.<br />

V prvej rovine je základom, okolo ktorého sa zhromažďujú ďalšie údaje,<br />

tvarotvorný základ (TZ) a zmeny v ňom, ktoré spôsobujú alternácie, ako aj<br />

zmeny v sústave ohýbacích prípon. TZ chápeme ako bazálnu časť slova po oddelení<br />

tvarotvornej prípony – formantu. Pri každej zmene v týchto dvoch zložkách<br />

zavádzame nový vzor. Napr. pri stupňovaní prídavných mien majú slová<br />

biely, blízky, krátky samostatné vzory, pretože pri ohýbaní má ich TZ rôznu<br />

podobu – bel-ší, bliž-ší, krat-ší. Slovo čierny má iný vzor preto, že okrem zmeny<br />

TZ má inú ohýbaciu príponu – čern-ejší. Túto rovinu voláme prvá rovina – lingvistická,<br />

pretože pri práci na nej bolo nahromadených mnoho údajov zaujímavých<br />

práve z lingvistického hľadiska. Údaje sú prezentované, pokiaľ možno,<br />

v takej podobe, aby boli zrozumiteľné čo najširšiemu okruhu používateľov.<br />

V druhej rovine hrá podstatnú úlohu sústava ohýbacích prípon. TZ boli<br />

vytvorené v rámci prvej roviny a na to, aby počítač správne generoval/stanovil<br />

príslušnú morfologickú podobu, potrebuje zodpovedajúcu skupinu prípon. Teda<br />

za predpokladu existencie TZ a ich uvažovania ako doplňujúcich údajov pri<br />

analýze/generovaní slovných tvarov sa redukuje počet ohýbacích vzorov, pretože<br />

vzory sa charakterizujú predovšetkým sústavou prípon. TZ vstupujú do procesu<br />

analýzy/generovania ako konštanty. TZ1, TZ2 sú podoby TZ pri ohýbaní. Dokumentovať<br />

to môžeme znovu na vzoroch stupňovania prídavných mien. Napr.<br />

adjektíva biely, blízky, krátky majú v druhej rovine len jeden vzor, pretože majú<br />

rovnakú ohýbaciu príponu komparatívu a príslušný TZ je k dispozícii ako konštanta:<br />

biely – belší (TZ1-y, TZ2-ší), blízky – bližší (TZ1-y, TZ2-ší), krátky –<br />

kratší (TZ1-y, TZ2-ší) atď.<br />

Na počítačové spracovanie morfologickej roviny je určená vlastne len<br />

druhá rovina. Ale kvôli zachovaniu výsledkov analýzy a vzhľadom na možnosti<br />

využívania zhromaždených a štruktúrovaných údajov aj pre ďalšie výskumné<br />

práce, budeme pri každom slovnom druhu špecifikovať obe tieto<br />

roviny. Prvá rovina je pritom prezentovaná formou základných informácií, na<br />

ktorých možno stavať ďalší špeciálny jazykovedný výskum. Podrobnejšie informácie<br />

o prvej rovine podstatných mien sú obsiahnuté v už spomínanej<br />

publikácii Benko – Hašanová – Kostolanský (1998). Úplný gramatický opis<br />

vzorov všetkých ohybných slovných druhov je mimo rámca tohto príspevku,<br />

53


EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />

preto pri každom slovnom druhu uvádzame len niekoľko príkladových opisov<br />

vzorov prvej i druhej roviny.<br />

3. Morfológia podstatných mien<br />

Pri spracúvaní morfológie substantív a ostatných slovných druhov na<br />

účely počítačového spracovania slovenských textov vychádzame zo všeobecných<br />

základných pojmov (Morfológia slovenského jazyka 1966). Základnou<br />

jednotkou morfologickej roviny je slovný tvar, ktorý tvorí tvarotvorný základ<br />

(TZ) a relačná časť. Pri substantívach relačnú časť predstavuje sústava pádových<br />

prípon, pomocou ktorých sa tvoria jednotlivé slovné tvary.<br />

3.1 Podstatné mená – prvá morfologická informačná rovina<br />

Skloňovací vzor chápeme, ako sme už uviedli, v zmysle definície podľa<br />

Oravec – Bajzíková – Furdík (1984). Určenie formálnych vlastností vzoru je v<br />

našej práci prísnejšie, podrobnejšie. Formovanie nových vzorov sa riadi pravidlom,<br />

že každá zmena v sústave ohýbacích prípon alebo zmena v TZ spôsobí zavedenie<br />

nového vzoru. Podľa toho napr. rôzne zakončenia substantív mužského<br />

rodu v nominatíve plurálu (-i, -ia, -ovia), ktoré sa pri klasických vzoroch uvádzajú<br />

ako variantné prípony (tamže), v našom chápaní vzoru vyžadujú nové vzory:<br />

chlap – chlapi, kresťan – kresťania, sok – sokovia. Rozbor robíme pre potreby písaného<br />

textu, preto berieme do úvahy grafickú podobu slovných tvarov, nie fonetickú<br />

(napr. kosť--ø/kost-i – dva TZ: kosť-, kost-).<br />

Vzory rozdeľujeme do okruhov, ktoré majú názvy klasických vzorov<br />

(napr. „chlap“, „dub“), ale aj nové názvy („mláďa“). Pri určovaní členov týchto<br />

okruhov sa vychádza zo sústavy prípon vzorového slova – reprezentanta<br />

okruhu, prípadne zmeny v TZ. Reprezentant potom slúži ako porovnávací vzor<br />

pre nové vzory patriace do jeho okruhu. Vzorové slová nemajú variantné prípony.<br />

Výnimkou sú vzory, ktoré majú pri svojom názve číslice 0, 1, 2, 3.<br />

„Zvieracie“ vzory mužského rodu sú zaradené do osobitnej podskupiny,<br />

pretože majú osobitné sústavy ohýbacích prípon: v singulári podľa vzorov mužských<br />

substantív životných a v pluráli podľa vzorov mužských substantív neživotných<br />

(had – hady, mravec – mravce).<br />

Slová, ktoré nemajú úplnú paradigmu – hromadné a pomnožné – nemajú<br />

samostatné vzory. Je im pridelený vzor zo skupiny substantív s úplnou paradigmou,<br />

ktorý má rovnaké skloňovanie v singulári alebo v pluráli ako príslušné<br />

54


SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />

substantíva s neúplnou paradigmou (nožnice – vzor ulica). Pri jednotlivých<br />

slovách je v databáze uvedený údaj v stĺpci SA (t. j. špecifické atribúty), ktorý<br />

„upozorňuje“, že pomnožné podstatné mená treba skloňovať len v pluráli a<br />

hromadné len v singulári.<br />

V stĺpci SA sú zoskupené aj príznakové tvary oslovenia v pôvodnom vokatíve<br />

(Bože, synu).<br />

Odlíšenie vzorov v rámci jedného okruhu sa vykonáva už spomenutým<br />

porovnávaním s reprezentantom, pričom si najprv všímame zmeny v TZ a potom<br />

zmeny v sústave prípon.<br />

Pod A sa uvádzajú typy alternácií, ktoré spôsobujú zmeny v TZ slova (k/c:<br />

vodník-, vodníc-). Pod B sa uvádzajú odlišnosti v sústave ohýbacích prípon<br />

(chlap-i, sok-ovia).<br />

Niektoré skupiny slov s dubletnými príponami majú také sústavy ohýbacích<br />

prípon, ktoré zodpovedajú niektorému zo vzorov v zozname len v jednom<br />

variante. V druhom variante sa skloňujú podľa osobitného vzoru, ktorý má pri<br />

svojom názve číslicu 0. Napr. slovo tvár sa skloňuje podľa vzoru dlaň. V genitíve<br />

singuláru má aj príponu -i, preto sa skloňuje aj podľa vzoru tvár-ø. Niektoré<br />

skupiny slov s dubletnými príponami sa skloňujú podľa osobitného vzoru v<br />

jednom aj v druhom variante. Vtedy majú pri svojom názve číslice 1, 2. Napr.<br />

oko-1 (očí), oko-2 (očú). Číslicu 3 majú pri svojom názve vzory zveličených<br />

substantív, ktoré majú dva rody. (Číslica 3 je pri názve vzoru v inom ako strednom<br />

rode, napr. skalisko3 – ženský rod.)<br />

Výsledkom takéhoto prístupu je podstatné rozšírenie počtu vzorov podstatných<br />

mien v porovnaní s doterajšími prácami (Morfológia slovenského<br />

jazyka 1966, Pauliny – Ružička – Štolc 1968). V súčasnosti má náš systém 199<br />

vzorov podstatných mien.<br />

Homonymá sú do počtu substantív zarátané len jedenkrát, pretože sa berie<br />

do úvahy len ich rovnaký morfologický tvar, nie rozdiel vo význame. Ak majú<br />

v niektorých tvaroch rozdiely, sú uvedené dvakrát (napr. ucho – uši, ucho –<br />

uchá).<br />

Každý okruh je označený menom jeho vzoru – reprezentanta (napr.<br />

„chlap“).<br />

Pri podstatných menách sú to tieto okruhy: „chlap“, „hrdina“, „dub“,<br />

„stroj“, „nesklonné“ – mužský rod; „žena“, „ulica“, „dlaň“, „kosť“, „gazdiná“,<br />

„nepravidelné“, „nesklonné“ – ženský rod; „mesto“, „srdce“, „vysvedčenie“,<br />

„mláďa“, „nesklonné“ – stredný rod. Samostatný okruh majú aj pod-<br />

55


EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />

statné mená s nepravidelným skloňovaním, pričom žiaden zo vzorov okruhu<br />

nie je reprezentant.<br />

Napr. okruh vzorov „ulica“ obsahuje tieto vzory: ulica, fakľa, dyňa, funkcia,<br />

hrádza, jedľa, míľa, nedeľa, ovca, pomyje-ø, ruža, svieca, víchrica, vládkyňa,<br />

vôňa.<br />

Morfologická databáza obsahuje v súčasnosti asi 22 500 podstatných<br />

mien.<br />

Podobný postup ako pri podstatných menách využívame aj pri ostatných<br />

ohybných slovných druhoch.<br />

Ako ukážku opisu vzorov uvedieme niekoľko príkladov ohýbacích typov<br />

prvej roviny.<br />

Okruh „chlap“ a jeho vybrané vzory.<br />

Vzor chlap je vzor reprezentant, podľa ktorého sa skloňuje skupina životných<br />

podstatných mien mužského rodu zakončených v N sg. na nulovú morfému.<br />

V TZ u nich nedochádza k zmenám. Majú túto sústavu ohýbacích prípon:<br />

N chlap-ø chlap-i<br />

G chlap-a chlap-ov<br />

D chlap-ovi chlap-om<br />

A chlap-a chlap-ov<br />

L chlap-ovi chlap-och<br />

I chlap-om chlap-mi<br />

Vzor vodník je príkladom vzoru, ktorý patrí do okruhu „chlap“ a od reprezentanta<br />

sa odlišuje takto:<br />

A: alternácia spoluhlások k/c v N pl.<br />

B: –<br />

N vodník-ø vodníc-i<br />

G vodník-a vodník-ov<br />

D vodník-ovi vodník-om<br />

A vodník-a vodník-ov<br />

L vodník-ovi vodník-och<br />

I vodník-om vodník-mi<br />

Vzor černoch je príkladom vzoru, ktorý patrí do okruhu „chlap“ a od reprezentanta<br />

sa odlišuje takto:<br />

56<br />

A: alternácia spoluhlások ch/s v N pl.


SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />

B: –<br />

N černoch-ø černos-i<br />

G černoch-a černoch-ov<br />

D černoch-ovi černoch-om<br />

A černoch-a černoch-ov<br />

L černoch-ovi černoch-och<br />

I černoch-om černoch-mi<br />

3.2 Podstatné mená – druhá morfologická informačná rovina<br />

Ako sme už vyššie zdôraznili, vzor druhej roviny sa formuje zo sústavy<br />

ohýbacích prípon a príslušných variantov TZ, ktoré vystupujú ako konštanty.<br />

Napr. substantíva mesto, laso, gazdovstvo majú v prvej rovine každé osobitný<br />

vzor, pretože pri ohýbaní dochádza v každom z ich TZ k inej zmene (miest,<br />

lás, gazdovstiev). V druhej rovine je vzorec vyjadrujúci ich ohýbanie vždy rovnaký:<br />

TZ1, TZ2 (použité na rovnakom mieste) + rovnaká sústava ohýbacích<br />

prípon, t. j. jeden vzor.<br />

Aj keď sa počet vzorov v druhej rovine zredukuje, zostáva ich škála pomerne<br />

veľká, pretože je veľa odlišností v sústavách ohýbacích prípon aj v počtoch<br />

TZ.<br />

Nasledujúce príklady ilustrujú opis vzorov druhej roviny.<br />

Vzor 2chlap<br />

N TZ1-ø TZ1-i<br />

G TZ1-a TZ1-ov<br />

D TZ1-ovi TZ1-om<br />

A TZ1-a TZ1-ov<br />

L TZ1-ov TZ1-och<br />

I TZ1-om TZ1-mi<br />

TZ1: chlap-<br />

Vzor 2vodník využíva oproti vzoru chlap dva druhy TZ na rovnakom<br />

mieste.<br />

N TZ1-ø TZ2-i<br />

G TZ1-a TZ1-ov<br />

D TZ1-ov TZ1-om<br />

57


EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />

A TZ1-a TZ1-ov<br />

L TZ1-ovi TZ1-och<br />

I TZ1-om TZ1-mi<br />

TZ1: vodník-, TZ2: vodníc-<br />

Vzor černoch je „pohltený“ vzorom 2vodník. Počítač vyberá zložky týchto<br />

dvoch vzorov podľa rovnakej schémy.<br />

4. Morfológia slovies<br />

Požiadavka presnosti počiatočných údajov pri <strong>počítačovom</strong> <strong>spracovaní</strong><br />

morfológie slovies si vyžadovala dôslednú inventarizáciu informácií o morfologickej<br />

stavbe slovesa a poskytnutie základných informácií v jednoduchej podobe.<br />

Najprv bolo nevyhnutné skompletizovať potrebné údaje o časovacích vzoroch.<br />

Postupovalo sa ako pri podstatných menách. Nepripúšťali sa žiadne výnimky<br />

a sledovala sa homogenita informácií o vzoroch. Dôsledkom akceptovania<br />

výnimiek a alternácií bol nárast počtu vzorov slovies prvej roviny na 79. Pri<br />

každom druhu alternácie a každej zmene v sústave ohýbacích prípon je zavedený<br />

nový vzor. Aj časovacie vzory sú rozdelené do okruhov. Koreň a tematická<br />

morféma dohromady tvoria slovesný kmeň: robi-. Pri slovesách sa najvýraznejšie<br />

prejaví rozdiel pri prezentovaní nazhromaždených morfologických údajov o<br />

vzoroch časovania (a o slovesách vôbec) v dvoch rovinách. V prvej rovine je základom,<br />

okolo ktorého sa zhromažďujú ďalšie údaje, slovesný koreň. Presnejšie,<br />

koreňom tu nazývame časť slovesa bez ohýbacej prípony a tematickej morfémy<br />

(rob-). V druhej rovine je týmto základom kmeň (robi-), teda koreň a tematická<br />

morféma spolu a najmä sústava ohýbacích prípon.<br />

Keďže predmetom nášho záujmu v tejto práci je flektívna morfológia, pri<br />

strojovom <strong>spracovaní</strong> tejto morfologickej roviny je jednotkou spracovania slovo,<br />

t. j. reťazec znakov vymedzený dvoma medzerami. Z toho vyplýva, že súčasťou<br />

vzoru sú len jednoduché slovesné tvary: indikatív prézenta, imperatív, prechodník,<br />

činné príčastie prítomné, neurčitok, l-ové príčastie, činné príčastie minulé,<br />

n/t-ové príčastie, slovesné podstatné meno. Zložené slovesné tvary sú viacslovné<br />

výrazy.<br />

Pri nepravidelných slovesách vzhľadom na zložitosť zmien v často sa<br />

meniacej báze neuvádzame typy alternácií v prvej rovine. Neuvádzame tiež tvary,<br />

ktoré sa pri nepravidelných slovesách nevyskytujú. Opierame sa pritom o<br />

údaje uvedené v práci J. Mistríka (1988).<br />

58


SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />

Neosobné slovesá nemajú osobitné vzory. Teoreticky je možné utvoriť pri<br />

nich všetky jednoduché slovesné tvary. Majú pri sebe znak – 3. os. n., napr. vyčasiť<br />

sa. Pri slovesách, ktoré sa používajú len v 3. os. sg., je označenie – iba<br />

3. os., napr. bolieť. Údaje sú v databáze slov pod atribútom SA.<br />

4.1 Slovesá – prvá morfologická informačná rovina<br />

Prvá rovina poskytuje v rámci jednotlivých vzorov údaje formou opisu<br />

koreňov, tematických morfém, sústavy ohýbacích prípon a alternácií. Pre každý<br />

druh zmeny je iný vzor. Pri opise alternácií, ktoré sa vyskytujú v jednotlivých<br />

vzoroch, vychádzame z prác Morfológia slovenského jazyka (1966), Oravec –<br />

Bajzíková – Furdík (1984), Pauliny – Ružička – Štolc (1968). Pri slovesách je<br />

problematika alternácií v prvej rovine riešená menej podrobne ako pri podstatných<br />

menách. Napr. alternácia A1 zahŕňa spoločne zmeny spoluhlások pred tematickou<br />

morfémou -e-: t/c, d/dz, s/š, z/ž... Každý druh spoluhláskovej zmeny<br />

nie je prezentovaný ako nová alternácia. Sústredili sme sa na správne vytváranie<br />

jednotlivých TZ a nie na presné pravidlá alternovania.<br />

Časovacie vzory prvej roviny – zásady formovania<br />

Do okruhu patrí vzor – reprezentant, ktorý je vo všetkých ukazovateľoch<br />

zhodný s klasickým vzorom, resp. so vzorovým slovom, a skupina vzorov, ktoré<br />

majú určité odchýlky. Napr. do okruhu vzorov „chytať“ patrí vzor – reprezentant<br />

chytať (chytá) a tiež vzor čítať (číta), ktorý má krátku prézentnú tematickú<br />

morfému v dôsledku rytmického krátenia. Za každým vzorom, v ktorom dochádza<br />

k zmenám v koreni, je uvedený príslušný typ alternácie (napr. hynúť A4 –<br />

hyň!).<br />

Okruhy vzorov prvej roviny sú tieto: „brať“, „chudnúť“, „chytať“,<br />

„hynúť“, „kričať“, „niesť“, „pracovať“, „robiť“, „rozumieť“, „trieť“,<br />

„vidieť“, „česať“, „žať“, „žuť“, „nepravidelné“.<br />

Napr. okruh vzorov „robiť“ obsahuje tieto vzory: robiť, hájiť, krášliť,<br />

kresliť, kúpiť, tajiť.<br />

Kompletný súbor morfologických informácií prvej roviny dokumentujeme<br />

na dvoch príkladoch z okruhu „robiť“.<br />

Vzor kresliť<br />

sloveso v neurčitku: kresl-i-ť<br />

59


EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />

tematická morféma prítomníková TMPA1: -ítematická<br />

morféma prítomníková TMPB1: -ø-<br />

1. podoba prítomníkového koreňa RPA1: kresl-(í-)<br />

2. podoba prítomníkového koreňa RPB1: kresl-(0-)<br />

prítomník (okrem 3. os. pl.): RPA1 + -í-m, -í-š, -í-ø; -íme,<br />

-í-te<br />

prítomník (3. os. pl.): RPB1 + -ia<br />

imperatív: RPB1 + -ø!, -me!, -te!<br />

prechodník: RPB1 + -iac<br />

činné príčastie prítomné: RPB1 + -iaci, -iaca, -iace;<br />

-iaci, -iace, -iace, -iace<br />

vzor pre činné príčastie prítomné: rýdzi<br />

tematická morféma neurčitková TMIA1: -itematická<br />

morféma neurčitková TMIB1: -i-<br />

1. podoba neurčitkového koreňa RIA1: kresl-(i-)<br />

2. podoba neurčitkového koreňa RIB1: kresl-(i-)<br />

minulý čas: RIB1 + -i-l, -i-la, -i-lo; -ili<br />

činné príčastie minulé: RIB1 + -i-vší, -i-všia, -ivšie;<br />

-i-vší, -i-všie, -i-všie,<br />

-i-všie<br />

vzor pre činné príčastie minulé: cudzí<br />

trpné príčastie: RPB1 + -ený, -ená, -ené;<br />

-ení, -ené, -ené, -ené<br />

vzor pre trpné príčastie: pekný<br />

slovesné podstatné meno: RIB1 + -enie<br />

vzor pre slovesné podstatné meno: vysvedčenie<br />

A: A26 – IZ s morfémou -i<br />

Aa: zmena tematickej morfémy oproti vzoru –<br />

reprezentantu<br />

B: –<br />

Vzor kúpiť<br />

sloveso v neurčitku: kúp-i-ť<br />

tematická morféma prítomníková TMPA1: -itematická<br />

morféma prítomníková TMPB1: -ø-<br />

60


SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />

1. podoba prítomníkového koreňa RPA1: kúp-(i-)<br />

2. podoba prítomníkového koreňa RPB1: kúp-(0-)<br />

prítomník (okrem 3. os. pl.): RPA1 + -i-m, -i-š, -i-ø; -ime,<br />

-i-te<br />

prítomník (3. os. pl.): RPB1 + -ia<br />

imperatív: RPB1 + -ø!, -me!, -te!<br />

prechodník: RPB1 + -iac<br />

činné príčastie prítomné: RPB1 + -iaci, -iaca, -iace;<br />

-iaci, -iace, -iace, -iace<br />

vzor pre činné príčastie prítomné: rýdzi<br />

tematická morféma neurčitková TMIA1: -itematická<br />

morféma neurčitková TMIB1: -i-<br />

1. podoba neurčitkového koreňa RIA1: kúp-(i-)<br />

2. podoba neurčitkového koreňa RIB1: kúp-(i-)<br />

minulý čas: RIB1 + -i-l, -i-la, -i-lo; -ili<br />

činné príčastie minulé: RIB1 + -i-vší, -i-všia, -ivšie;<br />

-i-vší, -i-všie, -i-všie,<br />

-i-všie<br />

vzor pre činné príčastie minulé: cudzí<br />

trpné príčastie: RPB1 + -ený, -ená, -ené;<br />

-ení, -ené, -ené, -ené<br />

vzor pre trpné príčastie: pekný<br />

slovesné podstatné meno: RIB1 + -enie<br />

vzor pre slovesné podstatné meno: vysvedčenie<br />

A: –<br />

Aa: TMPA1 -i- kúp-i-m<br />

B: –<br />

4.2 Slovesá – druhá morfologická informačná rovina<br />

Druhá morfologická rovina, ktorá je hlavným predmetom nášho záujmu<br />

v spojitosti s algoritmickým <strong>spracovaní</strong>m morfológie slovies, je predstavená<br />

prostredníctvom kmeňov a prípon.<br />

Časovacie vzory druhej roviny – zásady formovania<br />

61


EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />

Časovací vzor v našom ponímaní je sloveso alebo množina slovies s rovnakým<br />

súborom osobných, tvarových a menných prípon, príslušných variácií<br />

podôb neurčitkových a prítomníkových kmeňov a imperatívneho základu. Základným<br />

dištinktívnym prvkom nie sú ani tematické morfémy, pretože počítač<br />

pracuje s celým kmeňom, ktorého súčasťou je aj tematická morféma (chytá-m).<br />

Opis vzorov časovania slovies druhej roviny obsahuje všetky jednoduché<br />

tvary. Pri každom vzore sú uvedené podoby neurčitkových kmeňov, podoby<br />

prítomníkových kmeňov a príslušná sústava ohýbacích prípon. Pre tvary, ktoré sa<br />

skloňujú (činné príč. prít., činné príč. min., trpné príč., slovesné pods. meno), je<br />

uvedená sústava ohýbacích prípon v základnom tvare a skloňovací vzor.<br />

V druhej rovine sú tieto okruhy vzorov: „2chudnúť“, „2kričať“,<br />

„2niesť“, „2česať“, „2robiť“, „2nepravidelné“.<br />

Ako príklad opisu slovesných vzorov druhej roviny uvádzame vzor 2robiť.<br />

Vzor 2robiť je vzor reprezentant. Charakterizuje ho príslušná množina<br />

kmeňov a ohýbacích prípon.<br />

neurčitok: KIA1 + -ť<br />

prítomníkový kmeň – 1. podoba KPA1: robí-<br />

2. podoba KPB1: robimperatívny<br />

základ IZ: robprítomník<br />

(okrem 3. os. pl.): KPA1 + -m, -š, -ø; -me, -te,<br />

prítomník (3. os. pl.): KPB1 + -ia<br />

imperatív: IZ + -ø; -me, -te<br />

prechodník: KPB1 + -iac<br />

činné príčastie prítomné: KPB1 + -iaci, -iaca, -iace;<br />

-iaci, -iace, -iace, -iace<br />

ohýbací vzor pre činné príčastie prítomné: rýdzi<br />

neurčitkový kmeň – 1. podoba KIA1: robi-<br />

2. podoba KIB1: robiminulý<br />

čas: KIB1 + -l, -la, -lo; -li<br />

činné príčastie minulé: KIB1 + -vší, -všia, -všie;<br />

-vší, -všie, -všie, -všie<br />

ohýbací vzor pre činné príčastie minulé: cudzí<br />

trpné príčastie: KIB1 + -ený, -ená, -ené;<br />

-ení, -ené, -ené, -ené<br />

ohýbací vzor pre trpné príčastie: pekný<br />

62


SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />

slovesné podstatné meno: KIB1 + -nie<br />

ohýbací vzor pre slovesné podstatné meno: vysvedčenie<br />

Aj pri slovesných vzoroch vidíme, ako sa v druhej rovine redukuje počet<br />

vzorov. Na ukážke môžeme sledovať, ako sa slová, ktoré sa v prvej rovine časovali<br />

podľa troch rôznych vzorov (robiť, kresliť, kúpiť), ohýbajú v druhej rovine<br />

podľa jedného vzoru (2robiť).<br />

V ďalšej časti sa budeme zaoberať zostávajúcimi ohybnými slovnými<br />

druhmi, ktorými sú prídavné mená, príslovky, zámená a číslovky. Výsledkom<br />

morfologickej analýzy sú aj v tomto prípade zoznamy a opisy vzorov, predstaviteľov<br />

ohýbacích typov. Ako príklad uvedieme pri každom z týchto<br />

slovných druhov niekoľko vzorov. Kladieme si týmto za cieľ objasniť rozdiely<br />

medzi prvou a druhou rovinou prezentácie morfologických údajov.<br />

5. Morfológia prídavných mien<br />

Skloňovací vzor prídavných mien má 38 tvarov. Oproti podstatným<br />

menám je zmena v tom, že prídavné mená všetkých troch rodov sú reprezentované<br />

jedným heslovým slovom (pekný – N sg., mužský rod). Všetky majú v N<br />

sg. rovnaký TZ. V mužskom rode pristupuje osobitná skupina ohýbacích prípon<br />

pre mužskú osobu prídavných mien. Súčasťou vzoru je uvedenie prípadných alternácií<br />

v TZ a zmeny v sústave ohýbacích prípon.<br />

Stupňovací vzor, pomocou ktorého sa určuje miera vlastnosti, je charakterizovaný<br />

použitím prípony -ší alebo -ejší v komparatíve (star-ší, jasn-ejší).<br />

Mnohé prídavné mená nadobúdajú kategóriu stupňovania v prenesenom<br />

význame. Preto sme stupňovací vzor pridelili každému stupňovateľnému<br />

prídavnému menu. Delenie na stupňovateľné a nestupňovateľné prídavné mená<br />

sme robili ručne na základe vlastného jazykového vedomia.<br />

Superlatív – 3. stupeň – tvoríme pridaním predpony naj- k tvaru komparatívu<br />

(naj-starší, naj-jasnejší).<br />

Stupňovací vzor prvej roviny teda obsahuje informáciu o stupňovacej<br />

prípone a údaje o alternáciách v TZ.<br />

5.1 Prídavné mená – prvá morfologická informačná rovina<br />

63


EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />

Pri prídavných menách závisí sformovanie nového vzoru skloňovania od<br />

zakončenia slova a zachovania rytmického krátenia v TZ. To má potom vplyv<br />

aj na súbor ohýbacích prípon. Pri stupňovaní dochádza k väčším zmenám v TZ<br />

a pri niektorých prídavných menách sa prejavuje aj supletívnosť bázy.<br />

Postup rozširovania skupiny vzorov prídavných mien – prvá rovina<br />

Okruhy vzorov skloňovania prídavných mien – prvá rovina: „pekný“, „cudzí“,<br />

„extra“.<br />

Okruhy vzorov stupňovania prídavných mien – prvá rovina: „nový“, „belasý“,<br />

„bosý“.<br />

Ako príklad opisu vzorov skloňovania prídavných mien prvej roviny je<br />

uvedený vzor pekný ako reprezentant a vzor krásny ako člen okruhu. Napriek<br />

tomu, že ide o všeobecne známe informácie, z dôvodu komplexnosti uvedieme<br />

aj tieto údaje.<br />

Okruh vzorov „pekný“: pekný, krásny, hoden.<br />

Vzor pekný je vzor reprezentant. Skloňujú sa podľa neho prídavné mená<br />

zakončené v N sg. mužského rodu na -ý. V TZ nie je alternácia.<br />

Sg. Pl.<br />

M živ. M neživ. F N M živ. M neživ.<br />

F N<br />

N pekn-ý pekn-ý pekn-á pekn-é pekn-í pekn-é<br />

G pekn-ého pekn-ého pekn-ej pekn-ého pekn-ých pekn-ých<br />

D pekn-ému pekn-ému pekn-ej pekn-ému pekn-ým pekn-ým<br />

A pekn-ého pekn-ý pekn-ú pekn-é pekn-ých pekn-é<br />

L pekn-om pekn-om pekn-ej pekn-om pekn-ých pekn-ých<br />

I pekn-ým pekn-ým pekn-ou pekn-ým pekn-ými pekn-ými<br />

A: – B: –<br />

Vzor krásny<br />

Sg. Pl.<br />

M živ. M neživ. F N M živ. M neživ. F N<br />

N krásn-y krásn-y krásn-a krásn-e krásn-i krásn-e<br />

G krásn-eho krásn-eho krásn-ej krásn-eho krásn-ych krásn-ych<br />

D krásn-emu krásn-emu krásn-ej krásn-emu krásn-ym krásn-ym<br />

64


SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />

A krásn-eho krásn-y krásn-u krásn-e krásn-ych krásn-e<br />

L krásn-om krásn-om krásn-ej krásn-om krásn-ych krásn-ych<br />

I krásn-ym krásn-ym krásn-ou krásn-ym krásn-ymi krásn-ymi<br />

A: – B: krátke ohýbacie prípony<br />

Príklady vzorov stupňovania prídavných mien.<br />

Okruh vzorov „nový“: nový, tenký, vysoký, hlboký, pekný-s (stupňovací),<br />

dobrý, malý, veľký, zlý, biely, blízky, krátky.<br />

Vzor nový sa v N sg. mužského rodu v pozitíve končí na -ý. Stupňuje sa<br />

pomocou prípony -ší. Pri stupňovaní nedochádza k alternáciám.<br />

rod číslo 1. stupeň 2. stupeň 3. stupeň<br />

M Sg. nov-ý nov-ší naj-novší<br />

F Sg. nov-á nov-šia naj-novšia<br />

N Sg. nov-é nov-šie naj-novšie<br />

M živ. Pl. nov-í nov-ší naj-novší<br />

M neživ., F, N Pl. nov-é nov-šie naj-novšie<br />

A: – B: –<br />

Vzor biely sa v N sg. mužského rodu v pozitíve končí na -y. TZ sa končí<br />

na jednu spoluhlásku, pred ktorou je dlhá samohláska, ktorá sa skracuje (A1).<br />

Stupňuje sa pomocou prípony -ší.<br />

rod číslo 1. stupeň 2. stupeň 3. stupeň<br />

M Sg. biel-y bel-ší naj-belší<br />

F Sg. biel-a bel-šia naj-belšia<br />

N Sg. biel-e bel-šie naj-belšie<br />

M živ. Pl. biel-i bel-ší naj-belší<br />

M neživ., F, N Pl. biel-e bel-šie naj-belšie<br />

A: A1 B: krátke ohýbacie prípony<br />

Vzor vysoký sa v N sg. mužského rodu v pozitíve končí na -ý. TZ sa končí<br />

na -ok-, pred ktorým je sykavka. Pri stupňovaní -ok- vypadáva (A4) a sykavka<br />

sa zmäkčuje (A5). Stupňuje sa pomocou prípony -ší.<br />

rod číslo 1. stupeň 2. stupeň 3. stupeň<br />

M Sg. vysok-ý vyš-ší naj-vyšší<br />

F Sg. vysok-á vyš-šia naj-vyššia<br />

65


EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />

N Sg. vysok-é vyš-šie naj-vyššie<br />

M živ. Pl. vysok-í vyš-ší naj-vyšší<br />

M neživ., F, N Pl. vysok-é vyš-šie naj-vyššie<br />

A: A4, A5 B: –<br />

5.2 Prídavné mená – druhá morfologická informačná rovina<br />

Okruhy vzorov skloňovania prídavných mien – druhá rovina: „2pekný“, „2cudzí“,<br />

„2extra“.<br />

Okruhy vzorov stupňovania prídavných mien – druhá rovina: „2nový“, „2belasý“,<br />

„2bosý“.<br />

Príklady na skloňovanie prídavných mien druhej roviny neuvádzame, pretože<br />

postup je jednoduchý. Vzory prvej roviny (pekný, krásny), ktoré sme<br />

uviedli ako príklady, majú v druhej rovine rovnaký TZ a rozdiel v dĺžke prípon:<br />

TZ1-ý (pekn-ý), TZ1-y (krásn-y).<br />

Príklady vzorov stupňovania prídavných mien.<br />

Okruh vzorov „2nový“: 2nový, 2vysoký, 2biely.<br />

Vzor 2nový – stupňujú sa podľa neho prídavné mená zakončené na -ý,<br />

u ktorých pri stupňovaní nedochádza k zmenám v báze a komparatív sa tvorí<br />

pomocou prípony -ší.<br />

rod číslo 1. stupeň 2. stupeň 3. stupeň<br />

M Sg. TZ1-ý TZ1-ší naj-TZ1-ší<br />

F Sg. TZ1-á TZ1-šia naj-TZ1-šia<br />

N Sg. TZ1-é TZ1-šie naj-TZ1-šie<br />

M živ. Pl. TZ1-í TZ1-ší naj-TZ1-ší<br />

M neživ., F, N Pl. TZ1-é TZ1-šie naj-TZ1-ie<br />

TZ1: nov-<br />

Vzor 2vysoký – stupňujú sa podľa neho prídavné mená zakončené na -ý,<br />

u ktorých pri stupňovaní dochádza k zmenám v báze a komparatív sa tvorí pomocou<br />

prípony -ší.<br />

rod číslo 1. stupeň 2. stupeň 3. stupeň<br />

M Sg. TZ1-ý TZ2-ší naj-TZ2-ší<br />

F Sg. TZ1-a TZ2-šia naj-TZ2-šia<br />

N Sg. TZ1-e TZ2-šie naj-TZ2-šie<br />

66


SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />

M živ. Pl. TZ1-i TZ2-ší naj-TZ2-ší<br />

M neživ., F, N Pl. TZ1-e TZ2-šie naj-TZ2-šie<br />

TZ1: vysok-, TZ2: vyš-<br />

Pod vzor 2vysoký patria prídavné mená viacerých vzorov prvej roviny,<br />

napr. vysoký, hlboký, tenký, dobrý, malý, zlý a pod.<br />

Vzor 2biely – stupňujú sa podľa neho prídavné mená zakončené na -y,<br />

u ktorých pri stupňovaní dochádza k zmenám v báze a komparatív sa tvorí pomocou<br />

prípony -ší.<br />

rod číslo 1. stupeň 2. stupeň 3. stupeň<br />

M Sg. TZ1-y TZ2-ší naj-TZ2-ší<br />

F Sg. TZ1-a TZ2-šia naj-TZ2-šia<br />

N Sg. TZ1-e TZ2-šie naj-TZ2-šie<br />

M živ. Pl. TZ1-i TZ2-ší naj-TZ2-ší<br />

M neživ., F, N Pl. TZ1-e TZ2-šie naj-TZ2-šie<br />

TZ1: biel-, TZ2: bel-<br />

6. Morfológia prísloviek<br />

Gramatická forma prísloviek – vzťah príslovky k nadradenému slovu je<br />

nediferencovaný. Pri niektorých príslovkách sa uplatňuje kategória stupňovateľnosti,<br />

ktorou sa vyjadruje miera vlastnosti deja.<br />

6.1 Príslovky – prvá morfologická informačná rovina<br />

Prvý stupeň je zhodný so základným tvarom príslovky, t. j. s heslovým<br />

slovom.<br />

Druhý stupeň sa tvorí spravidla pomocou prípon -šie alebo -ejšie, zriedka<br />

aj inými príponami. Tieto prípony sa pripájajú k TZ po odtrhnutí prípon pozitívu:<br />

-o, -e, -y. Pri tvorení druhého stupňa dochádza často k spoluhláskovým, samohláskovým<br />

a supletívnym zmenám v báze.<br />

Tretí stupeň sa tvorí pripojením predpony naj- k druhému stupňu príslovky.<br />

67


EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />

Stupňovateľnosť prísloviek sme zisťovali sčasti pomocou počítača, porovnaním<br />

stupňovateľných prídavných mien a im zodpovedajúcich deadjektívnych<br />

prísloviek. Zároveň sme názvy stupňovacích vzorov prísloviek odvodili od príslušných<br />

vzorov prídavných mien (novo, bielo, zle...). Stupňovacie vzory prvej<br />

roviny sa delia podľa toho, aká stupňovacia prípona sa v nich využíva a aký<br />

druh alternácie sa v jednotlivých príslovkách pri ohýbaní prejavuje.<br />

Okruhy vzorov stupňovania prísloviek – prvá rovina: „novo“, „belaso“,<br />

„mocne“, „ľudsky“, „nepravidelné“, „boso“.<br />

Napr. okruh vzorov „novo“: novo, bielo, tenko, hlboko, vysoko, krátko,<br />

blízko, malo.<br />

Vzor novo – stupňujú sa podľa neho príslovky zakončené v pozitíve na -o,<br />

ktoré pri ohýbaní nemenia TZ. Stupňuje sa pomocou prípony -šie.<br />

1. stupeň 2. stupeň 3. stupeň<br />

nov-o nov-šie naj-novšie<br />

A: – B: –<br />

Vzor bielo je vzorom pre stupňovanie prísloviek zakončených v pozitíve<br />

na -o, ktoré majú v TZ dvojhlásku alebo dlhú samohlásku, ktorá sa skracuje<br />

(A4). Stupňuje sa pomocou prípony -šie.<br />

1. stupeň 2. stupeň 3. stupeň<br />

biel-o bel-šie naj-bel-šie<br />

A: A1 B: –<br />

6.2 Príslovky – druhá morfologická informačná rovina<br />

Okruhy vzorov stupňovania prísloviek – druhá rovina: „2novo“, „2belaso“,<br />

„2mocne“, „2ľudsky“, „2nepravidelné“, „2boso“.<br />

Napr. okruh „2novo“: 2novo, 2bielo.<br />

Vzor 2novo<br />

1. stupeň 2. stupeň 3. stupeň<br />

TZ1-o TZ1-šie naj-TZ1-šie<br />

TZ1: nov-<br />

Vzor 2bielo<br />

1. stupeň 2. stupeň 3. stupeň<br />

68


SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />

TZ1-o TZ2-šie naj-TZ2-šie<br />

TZ1: biel, TZ2: bel-<br />

Vzor 2bielo zahŕňa v druhej rovine aj príslovky, ktoré v prvej rovine patria<br />

pod vzory krátko, blízko, hlboko, vysoko, tenko... a pod. Ich zložité zmeny<br />

v TZ počas ohýbania sú k dispozícii vždy v rovnakom stĺpci pod rovnakým<br />

atribútom. Vzorec stupňovania je, ako vidíme vyššie, vždy rovnaký.<br />

7. Morfológia zámen<br />

Zámená sú slová so všeobecným významom, vyjadrujú však gramatické<br />

významy konkrétnych názvov (Morfológia slovenského jazyka 1966, s. 233).<br />

Výsledkom analýzy morfológie sú aj v tomto prípade zoznamy a opisy vzorov,<br />

predstaviteľov ohýbacích typov.<br />

7.1 Zámená – prvá morfologická informačná rovina<br />

Z hľadiska morfologického delíme zámená na zámená typu „ja“, „kto“,<br />

„on“, „sám“, „môj“, „akýsi“, „čísi“, ktoré plnia úlohu reprezentantov jednotlivých<br />

okruhov.<br />

Pri <strong>spracovaní</strong> zámen vychádzame sčasti z monografie J. Horeckého<br />

(1964). Všímame si odlišnosti v sústave relačných morfém. Slovám, ktoré majú<br />

niektoré tvary variantné, prideľujeme dva vzory. Pri osobných zámenách sú<br />

slová, ktoré majú viac ako dva variantné tvary. Napr. genitív singuláru zámena<br />

on (jeho, neho, ho). V takom prípade pridelíme vzory pre dva tvary a ostatné<br />

uvedieme v databáze v stĺpci SA.<br />

Napr. okruh vzorov „ja“: ja1, ja2, ty1, ty2, my, vy, sa1, sa2.<br />

Vzory zodpovedajú (v zásade) svojím súborom ohýbacích prípon tomuto<br />

typu:<br />

Sg. Pl.<br />

N G D A L I N G D A L I<br />

-ø -a -e -a -e -ou -ø -ás -ám -ás -ás -ami<br />

Vzor ja1 vyjadruje kategóriu 1. osoby, nerozlišuje rod, číslo – len singulár.<br />

číslo N G D A L I<br />

Sg. ja-ø mň-a mn-e mň-a mn-e mn-ou<br />

A: ZB (zložité zmeny v báze) B: –<br />

Vzor vy vyjadruje kategóriu 2. osoby, nerozlišuje rod, číslo – len plurál.<br />

číslo N G D A L I<br />

69


EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />

Pl. vy-ø v-ás v-ám v-ás v-ás v-ami<br />

A: A6 (vy-/v-) B: –<br />

7.2 Zámená – druhá morfologická informačná rovina<br />

Vzory pre zámená druhej roviny v podstate zodpovedajú svojím obsahom<br />

vzorom prvej roviny, odlišná je len forma opisu.<br />

Napr. okruh vzorov „2ja“: 2ja1, 2ja2, 2ty1, 2ty2, 2vy, 2sa.<br />

Vzor 2ja1<br />

číslo N G D A L I<br />

Sg. TZ1-ø TZ4-a TZ2-e TZ4-a TZ2-e TZ2-ou<br />

TZ1: ja-, TZ2: mn-, TZ4: mň-<br />

Vzor 2vy<br />

číslo N G D A L I<br />

Pl. TZ1-ø TZ2-ás TZ2-ám TZ2-ás TZ2-ás TZ2-ami<br />

TZ1: vy-, TZ2: v-<br />

8. Morfológia čísloviek<br />

Číslovky nemajú osobitné gramatické vlastnosti, ale s mnohými obmedzeniami<br />

sa pri nich uplatňujú gramatické kategórie podstatných mien, prídavných<br />

mien a prísloviek.<br />

V jazykovedných prácach nájdeme rôzne charakteristiky čísloviek a ich<br />

rozdelenia na jednotlivé skupiny. Pri našom <strong>spracovaní</strong> morfologických vlastností<br />

čísloviek sa budeme pridŕžať morfologických informácií uvedených<br />

v Krátkom slovníku slovenského jazyka (1997):<br />

1. ohybné podľa vzorov podstatných mien (sto, milión),<br />

2. ohybné podľa vzorov prídavných mien (prvý, tretí),<br />

3. nesklonné (tristo),<br />

4. osobitné skloňovanie – so znakmi charakteristickými len pre číslovky<br />

(šesť, dvanásť).<br />

Prvé tri skupiny skloňovania sme riešili pri iných slovných druhoch, preto<br />

sa budeme venovať najmä poslednej skupine.<br />

8.1 Číslovky – prvá morfologická informačná rovina<br />

70


SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />

Pri číslovkách, rovnako ako pri zámenách, neuvádzajú príručky slovenskej<br />

gramatiky žiadne pevné „klasické“ vzory. Opierame sa preto aj tu o už<br />

citovanú prácu J. Horeckého (1964) a zoskupujeme jednotlivé číslovkové vzory<br />

okolo autorom uvedených typických súborov relačných morfém. Z morfologického<br />

hľadiska je pri číslovkách charakteristická kategória mužského osobného<br />

rodu (napr. tri – traja).<br />

Okruhy vzorov: „jeden“, „dva“, „tri“, „štyri“, „päť“, „dvesto“.<br />

Napr. okruh vzorov „päť“ obsahuje vzory: päť, sedem, jedenásť. V sústave<br />

relačných morfém zodpovedá nasledujúcej schéme:<br />

Pl.<br />

N G D A L I<br />

-ø -ich -im -ø -ich -imi<br />

-i -ich -im -ich -ich -imi<br />

Vzor päť – dochádza k alternácii A1 (zmena samohlásky na dvojhlásku)<br />

a A21 (zmena ď/d, ť/t, ň/n, ľ/l) v TZ.<br />

M, F, N M živ.<br />

N päť-ø piat-i<br />

G piat-ich piat-ich<br />

D piat-im piat-im<br />

A päť-ø piat-ich<br />

L piat-ich piat-ich<br />

I piat-imi piat-imi<br />

A: A1, A21 B: –<br />

Vzor sedem – dochádza k alternáciám A1, A2 (vypustenie samohlásky)<br />

v TZ.<br />

M, F, N M živ.<br />

N sedem-ø siedm-i<br />

G siedm-ich siedm-ich<br />

D siedm-im siedm-im<br />

A sedem-ø siedm-ich<br />

L siedm-ich siedm-ich<br />

I siedm-imi siedm-imi<br />

A: A1, A2 B: –<br />

71


EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />

8.2 Číslovky – druhá morfologická informačná rovina<br />

Okruhy vzorov: „2dva“, „2tri“, „2štyri“, „2päť“, „2dvesto“.<br />

Napr. okruh vzorov „2päť“: 2päť.<br />

Vzor 2päť<br />

M, F, N M živ.<br />

N TZ1-ø TZ2-i<br />

G TZ2-ich TZ2-ich<br />

D TZ2-im TZ2-im<br />

A TZ1-ø TZ2-ich<br />

L TZ2-ich TZ2-ich<br />

I TZ2-imi TZ2-imi<br />

TZ1: päť-, TZ2: piat-<br />

Číslovky vzoru sedem sa stávajú v druhej rovine súčasťou vzoru 2päť.<br />

9. Dátový model referenčnej morfologickej databázy slovenského jazyka<br />

Pripomeňme, že v tejto práci sa zaoberáme lingvistickými informáciami,<br />

ktoré sú potrebné na vykonanie automatickej analýzy/generovania slovných<br />

tvarov ohybných slov slovenského jazyka.<br />

Potrebné informácie sú umiestnené v referenčnej morfologickej databáze<br />

slovenského jazyka (RMDSJ). Databáza obsahuje všetky morfologické informácie<br />

o najpoužívanejších slovách súčasnej slovenčiny (okrem vlastných<br />

mien a pomenovaní) v rozsahu stanovenom v predchádzajúcich častiach, primerane<br />

štruktúrované a detailizované. Dynamika jazyka vyžaduje databázu vyvíjať<br />

tak, aby ju bolo možné rozširovať a použiť v pôvodnej podobe, s určitými<br />

modifikáciami alebo v transformovanej podobe ako prvok komplexnejších systémov<br />

spracovania textov. Preto musí byť možnosť ku každému slovu priradiť<br />

údaje, ktoré sú potrebné pri analýze textu v rôznych smeroch (morfologická<br />

rovina, syntaktická rovina, sémantická rovina, kvantitatívna analýza a pod.).<br />

Takými údajmi sú napr. štylistická charakteristika, frekvencia a pod. Typickú<br />

skupinu údajov, ktorá sa využíva v kvantitatívnej lingvistike, uvádza Koehler –<br />

Schmied (1992). Ďalej budeme špecifikovať konceptuálnu schému referenčnej<br />

morfologickej databázy. Opisujeme konceptuálnu schému morfologickej databázy,<br />

ktorá pozostáva z konceptuálnych schém vzorov a z konceptuálnych<br />

schém k jednotlivým slovným druhom. Pri algoritmickom <strong>spracovaní</strong> morfológie<br />

slovných tvarov využívame údaje obsiahnuté v databázach druhej roviny.<br />

72


SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />

9.1 Modelovanie RMDSJ pomocou relačného dátového modelu<br />

Na základe vykonanej analýzy slovenskej lexiky, vlastností morfologických<br />

údajov, očakávaného rozširovania databázy a vlastností relačného modelu<br />

dát považujeme za výhodné využiť na modelovanie morfologických údajov<br />

relačný dátový model.<br />

Pripomeňme, že v relačnom modeli skupina príbuzných dát, nazývaných<br />

relačné n-tice, tvorí reláciu. Reláciu si možno predstaviť ako tabuľku, v ktorej<br />

každý riadok predstavuje jeden člen – (n-ticu) relácie – a každý stĺpec zodpovedá<br />

zložke relácie, nazývanej atribút relácie. Každý stĺpec relácie obsahuje údaje toho<br />

istého typu, napr. koncovka skloňovania v datíve singuláru. Teda napr. každá ntica<br />

relácie (riadok tabuľky) obsahuje všetky uvažované informácie o danom<br />

slove.<br />

Meno relácie a množina atribútov tvoria relačnú schému. Naplnenie (výskyt)<br />

relačnej schémy R sa volá relácia (Lanka – Pal 1993). Na zápis výskytu<br />

relácie sa obyčajne využíva len meno relácie, čo realizujeme aj my. Vzhľadom<br />

na rôznorodosť morfologických údajov pri jednotlivých slovných druhoch v<br />

slovenčine sme k jednotlivým slovným druhom definovali samostatné relácie, t.<br />

j. samostatné tabuľky. Uvádzame opisy relačných schém k týmto skupinám<br />

slov: podstatné mená, slovesá, prídavné mená, zámená, príslovky, číslovky.<br />

9.1.1 Relačné schémy a relácie k podstatným menám<br />

Pri podstatných menách, podobne ako pri ostatných ohybných slovných<br />

druhoch, budeme uvažovať dva typy relačných schém a relácií. Prvý typ zahŕňa<br />

relačné schémy a relácie k vzorom skloňovania a druhý typ relačné schémy<br />

a relácie k samotným podstatným menám ako heslovým slovám. Relácie skloňovacích<br />

vzorov budú obsahovať údaje o vzorových podstatných menách –<br />

vzoroch skloňovania. Relácie k podstatným menám budú obsahovať údaje<br />

o jednotlivých heslových slovách, ktoré sú potrebné na morfologické spracovanie<br />

podstatných mien. Pri stanovení relačnej schémy sa za menom relačnej<br />

schémy v jednoduchých zátvorkách vymenujú mená atribútov relácie.<br />

Relačné schémy a relácie vzorov skloňovania podstatných mien<br />

Konkrétne relačné schémy vzorov skloňovania podstatných mien a príslušné<br />

relácie k týmto schémam sú uvedené v tvare tabuliek. Záhlavie tabuľky<br />

– pomenovanie tabuľky a mená stĺpcov – formujú príslušnú relačnú schému a<br />

samotná tabuľka je zodpovedajúcou reláciou k tejto schéme. Špecifikovanie<br />

73


EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />

atribútov – stĺpcov tabuliek je uvedené za každou tabuľkou. Ukážky tabuliek<br />

relácií vzorov skloňovania pre podstatné mená sú tieto:<br />

1. rovina – okruh vzorov „ulica“<br />

PODSP1:<br />

SK<br />

ALTER<br />

R VZOR SN SG SD SA SL SI PN PG PD PA PL PI<br />

i<br />

-NÁCIA<br />

dyň dyňa a e i u i ou e ø iame ach amiA1 A21<br />

i<br />

fak fakľa a e i u i ou e ø iame ach amiA10 A21<br />

fun funkcia a e i u i ou e í ám e ách ami–<br />

hrá hrádza a e i u i ou e í am e ach ami–<br />

i<br />

jea jedľa a e i u i ou e í iame ach amiA21<br />

míľ míľa a e i u i ou e ø am e ach amiA21<br />

i<br />

ned nedeľa a e i u i ou e ø iame ach amiA2 A21<br />

i<br />

ovc ovca<br />

pomy-<br />

a e i u i ou e ø iame ach amiA10<br />

po0 je-0 – – – – – – e – am e ach amiA1<br />

i<br />

ruž ruža a e i u i ou e í iame ach ami–<br />

sva svieca a e i u i ou e ø am e ach ami–<br />

i<br />

ia ac am<br />

uli ulica a e i u i ou e ø m e h i A1<br />

víchri-<br />

i<br />

víc ca a e i u i ou e ø iame ach ami–<br />

vládky-<br />

i<br />

vlá ňa a e i u i ou e ø iame ach amiA21<br />

vôň vôňa a e i u i ou e í am e ach amiA21<br />

Relačná schéma má meno PODSP1 a obsahuje tieto atribúty: (SKR,<br />

VZOR, SN, SG, SD, SA, SL, SI, PN, PG, PD, PA, PL,PI ALTERNÁCIA).<br />

74<br />

Špecifikácia atribútov:


SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />

SKR – skratka vzoru<br />

VZOR – vzor skloňovania<br />

SN, SG ... SI – 6 pádov singuláru<br />

PN, PG ... PI – 6 pádov plurálu<br />

ALTERNÁCIA – pravidlá zmien v TZ (s hodnotou reťazca)<br />

2. rovina – okruh vzorov „2ulica“<br />

PODSP2:<br />

SKR VZOR SN SG SD SA SL SI PN PG PD PA PL PI Druhy<br />

TZ<br />

2dyň 2dyňa a e i u i ou e ø iam e iach ami 1,2,4<br />

2fun 2funkcia a e i u i ou e í ám e ách ami 1<br />

2hrá 2hrádza a e i u i ou e í am e ach ami 1<br />

2jea 2jedľa a e i u i ou e í iam e iach ami 1,4<br />

2míľ 2míľa a e i u i ou e ø am e ach ami 1,4<br />

2po0 2pomyje-0 – – – – – – e ø am e ach ami 1,2<br />

2ruž 2ruža a e i u i ou e í iam e iach ami 1<br />

2sva 2svieca a e i u i ou e ø am e ach ami 1<br />

2uli 2ulica a e i u i ou e ø iam e iach ami 1,2<br />

2víc 2víchrica a e i u i ou e ø iam e iach ami 1<br />

2vlá 2vládkyňa a e i u i ou e ø iam e iach ami 1,4<br />

2vôň 2vôňa a e i u i ou e í am e ach ami 1,4<br />

Špecifikácia atribútov je totožná s predchádzajúcou tabuľkou prvej roviny.<br />

Namiesto atribútu ALTERNÁCIA je atribút Druhy TZ.<br />

Druhy TZ – použité druhy TZ (TZ1, TZ2...).<br />

Predpokladáme, že princíp relačnej schémy a relácie vzorov je dostatočne<br />

vysvetlený a ďalej môžeme prezentovať len meno a záhlavie tabuľky ako relačnú<br />

schému vzorov.<br />

Relačné schémy a relácie k jednotlivým podstatným menám:<br />

Relačná schéma podstatných mien mužského rodu má 11 atribútov. Tie<br />

isté atribúty má aj relačná schéma podstatných mien ženského rodu a stredného<br />

rodu. Mená relačných schém sú: PMM – pre mužský rod, PMF – pre ženský<br />

rod, PMN – pre stredný rod a PMD – pre podstatné mená dvojrodové.<br />

Relačná schéma mužských podstatných mien:<br />

75


EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />

PMM(PARA, PAR1, LEMMA, MORPH, TZ1, TZ2, TZ3, TZ4, SA, PA-<br />

RA2, PAR2_1)<br />

Špecifikácia atribútov:<br />

PARA je skratka pre vzor ohýbania (paradigmy) – ok1 (oko1)<br />

PAR1 je skratka pre druhý vzor, ak má podstatné meno variantné tvary<br />

– ok2 (oko2)<br />

LEMMA základný tvar slova, heslové slovo – oko<br />

MORPH výber morfologických tvarov, ako ich ponúka KSSJ – -a s. 1.<br />

mn. oči, očí/ arch. očú -iam –iach<br />

TZ1,TZ2 obmeny tvarotvorného základu, ktoré sa vyskytnú pri ohýbaní<br />

TZ3,TZ4 podstatného mena: TZ1 – ok-, TZ2 – oč-<br />

SA špecifické atribúty, ktoré sa vyskytnú nad rámec štandardných<br />

informácií (napr. uvedenie vokatívu pri niektorých podstatných<br />

menách)<br />

PARA2 je skratka pre vzor ohýbania v 2. rovine – 2ok1 (2oko-1)<br />

PAR2_1 je skratka pre druhý vzor v 2. rovine, keď má podstatné meno<br />

variantné tvary – 2ok2 /(2oko-2)<br />

Všetky atribúty nadobúdajú reťazcové hodnoty.<br />

9.1.2 Relačné schémy a relácie k slovesám<br />

Relačné schémy a relácie vzorov skloňovania slovies<br />

Relačné schémy a relácie k vzorom časovania slovies sú obsiahnuté v tabuľkách.<br />

Relácia obsahuje vzorové slová a ich atribúty. Z dôvodu väčšej efektívnosti<br />

a úspory tlače je tabuľka – relácia predstavená tak, že jej stĺpce (nie<br />

riadky) tvoria n-ticu relácie, t. j. obsahujú príslušné údaje k vzoru. Mená<br />

atribútov sú uvedené na začiatku riadkov. Špecifikácia atribútov a význam<br />

značiek (TMPA1, RPB1... pre prvú rovinu, KPA1, KPB2... pre druhú rovinu) je<br />

vysvetlený v prvej časti pri opise vzorov slovies.<br />

1. rovina – ukážka z okruhu vzorov „chudnúť“: chudnúť, vládnuť, ľnúť,<br />

KVITNÚŤ.<br />

SLOVP1:<br />

76


SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />

skratka chu vlá ľnú KVI<br />

vzor chudnúť vládnuť ľnúť KVITNÚŤ<br />

TMPA1 e e e e<br />

TMPB1 ø ø ø ø<br />

RPA1 chudn vládn ľn kvitn<br />

RPB1 chudn vládn ľn kvitn<br />

RPA2 – – – pokvitn<br />

RPB2 – – – pokvitn<br />

1.os.pr.č.j.č. m m m m<br />

2.os.pr.č.j.č. š š š š<br />

3.os.pr.č.j.č. ø ø ø ø<br />

1.os.pr.č.mn.č. me me me me<br />

2.os.pr.č.mn.č. te te te te<br />

3.os pr.č.mn.č. ú u ú ú<br />

imper.2.os.j.č. ø ø ø ø<br />

imper.1.os.mn.č. me me me me<br />

imper.2.os.mn.č. te te te te<br />

prechodník úc uc úc úc<br />

čin.príč.prít.j.č.m.r. úci uci úci úci<br />

čin.príč.prít.j.č.ž.r. úca uca úca úca<br />

čin.príč.prít.j.č.s.r. úce uce úce úce<br />

čin.príč.prít.mn.č.m.r. úci uci úci úci<br />

čin.príč.prít.mn.č.ž.r. úce uce úce úce<br />

čin.príč.prít.mn.č.s.r. úce uce úce úce<br />

č.pr.prít.mn.č.m.r.živ. úce uce úce úce<br />

vzor pre čin.príč. rýdzi rýdzi rýdzi rýdzi<br />

TMIA1 ú u ú ú<br />

TMIB1 ø ø u ø<br />

RIA1 chudn vládn ľn kvitn<br />

RIB1 chud vlád ľn kvitn<br />

min.čas m.r.j.č. ol ol l ol<br />

min.čas ž.r.j.č. la la la la<br />

min.čas s.r.j.č. lo lo lo lo<br />

min.čas.mn.číslo li li li li<br />

čin.príč.min.j.č.m.r. vší vší vší vší<br />

77


EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />

2. rovina – ukážka z okruhu vzorov „2chudnúť“: 2chudnúť, 2vládnuť, 2ľnúť,<br />

2KVITNÚŤ, 2HRNÚŤ, 2objať.<br />

Tabuľka – relácia je riešená ako relácie pre 1. rovinu.<br />

SLOVP2:<br />

skratka 2chu 2vlá 2ľnú 2objať<br />

vzor 2chudnúť 2vládnuť 2ľnúť 2objať<br />

KPA1 chudne vládne ľne objíme<br />

KPB1 chudn vládn ľn objím<br />

1.os.j.č. m m m m<br />

2.os.j.č. š š š š<br />

3.os.j.č. ø ø ø ø<br />

1.os.mn.č. me me me me<br />

2.os.mn.č. te te te te<br />

3.os..mn.č. ú u ú u<br />

imperatív 2.os.j.č. ø ø ø ø<br />

imperatív 1.os.mn.č. me me me me<br />

imperatív 2.os.mn.č. te te te te<br />

prechodník úc uc úc uc<br />

čin.príč.prít.j.č.m.r. úci uci úci uci<br />

čin.príč.prít.j.č.ž.r. úca uca úca uca<br />

čin.príč.prít.j.č.s.r. úce uce úce uce<br />

čin.príč.prít.mn.č.m.r.živ úci<br />

.<br />

uci úci uci<br />

čin.príč.prít.mn.č.ž.r. úce uce úce uce<br />

čin.príč.prít.mn.č.s.r. úce uce úce uce<br />

čin.príč.prít.mn.č.m.r. úce uce úce uce<br />

oh.vzor pre čin.príč.prít. rýdzi rýdzi rýdzi rýdzi<br />

KIA1 chudnú vládnu ľnú obja<br />

KIB1 chud vlád ľnu obja<br />

KIB2 chudnu vládnu – –<br />

IZ chudni vládni ľni objím<br />

min.čas j.č.m.r. ol ol l l<br />

min.čas j.č.ž.r la la la la<br />

min.čas j.č.s.r. lo lo lo lo<br />

78


SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />

min.čas mn.č. li li li li<br />

čin.pr.m.čas j.č.m.r.živ. vší vší vší vší<br />

čin.pr.m.čas j.č.ž.r. všia všia všia všia<br />

čin.pr.m.čas j.č.s.r. všie všie všie všie<br />

čin.pr.m.čas mn.č.m.r. vší vší vší vší<br />

čin.pr.m.čas mn.č.ž.r. všie všie všie všie<br />

čin.pr.m.čas mn.č.s.r. všie všie všie všie<br />

čin.pr.m.čas m.r. všie všie všie všie<br />

ohýb.vz.pre čin.pr.min. cudzí cudzí cudzí cudzí<br />

trp.príč.j.č.m.r. tý tý tý tý<br />

trp.príč.j.č.ž.r. tá tá tá tá<br />

trp.príč.j.č.s.r. té té té té<br />

trp.príč.mn.č.m.r. tí tí tí tí<br />

trp.príč.mn.č.ž.r. té té té té<br />

trp.príč.mn.č.s.r. té té té té<br />

trp.príč.mn.č.iné té té té té<br />

ohýb.vzor pre trp.príč. pekný pekný pekný pekný<br />

slov.podstatné meno tie tie tie tie<br />

ohýb.vzor pre sl.pod.m. vysvedčenie vysvedčenie vysvedčenie vysvedčenie<br />

Relačné schémy a relácie k jednotlivým slovesám<br />

VER(PARA, LEMMA, V, MORPH, RAD_INF_A, TM_INF_A, RAD_INF_B1,<br />

TM_INF_B1, RAD_INF_B2, TM_INF_B2, RAD_PRZ_A1, TM_PRZ_A1,<br />

RAD_PRZ_A2, TM_PRZ_A2, RAD_PRZ_B1, TM_PRZ_B1, RAD_PRZ_B2,<br />

TM_PRZ_B2, IZ, SA, PARA_2, KME_INF_A, KME_INF_B1, KME_INF_B2,<br />

KME_PRZ_A1, KME_PRZ_A2, KME_PRZ_B1, KME_PRZ_B2)<br />

Meno schémy je VER, má 28 atribútov, ktoré sú špecifikované takto:<br />

PARA je skratka pre vzor ohýbania (paradigmy) – dža (džavotať)<br />

LEMMA základný tvar slova, heslové slovo – džavotať<br />

V informácia o poradí variantov<br />

MORPH výber morfologických tvarov, ako ich ponúka KSSJ – -ce<br />

-cú -tajúc ndk<br />

79


EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />

RAD_INF_A 1. podoba neurčitkového koreňa – džavot-<br />

TM_INF_A 1. podoba infinitívnej tematickej morfémy – -a-<br />

RAD_INF_B1 1. variant 2. podoby neurčitkového koreňa – džavot-<br />

TM_INF_B1 1. variant 2. podoby infinitívnej tematickej morfémy – -a-<br />

RAD_INF_B2 2. variant 2. podoby neurčitkového koreňa<br />

TM_INF_B2 2. variant 2. podoby infinitívnej tematickej morfémy<br />

RAD_PRZ_A1 1. variant 1. podoby prítomníkového koreňa – džavoc-<br />

TM_PRZ_A1 1. variant 1. podoby prézentnej tematickej morfémy – -e-<br />

RAD_PRZ_A2 2. variant 1. podoby prítomníkového koreňa<br />

TM_PRZ_A2 2. variant 1. podoby prézentnej tematickej morfémy<br />

RAD_PRZ_B1 1. variant 2. podoby prítomníkového koreňa<br />

TM_PRZ_B1 1. variant 2. podoby prézentnej tematickej morfémy<br />

RAD_PRZ_B2 2. variant 2. podoby prítomníkového koreňa – džavot-<br />

TM_PRZ_B2 2. variant 2. podoby prézentnej tematickej morfémy – -aj-<br />

IZ imperatívny základ – džavotaj-<br />

SA špecifické atribúty nad rámec štandardných informácií<br />

PARA_2 je skratka pre vzor ohýbania v 2. rovine – 2dža (2džavotať)<br />

KME_INF_A 1. podoba neurčitkového kmeňa – základ neurčitku – džavota-<br />

KME_INF_B1 1. variant 2. podoby neurčitkového kmeňa – džavota-<br />

KME_INF_B2 2. variant 2. podoby neurčitkového kmeňa<br />

KME_PRZ_A1 1. variant 1. podoby prítomníkového kmeňa – džavoc-<br />

KME_PRZ_A2 2. variant 1. podoby prítomníkového kmeňa<br />

KME_PRZ_B1 1. variant 2. podoby prítomníkového kmeňa – džavoc-<br />

KME_PRZ_B2 2. variant 2. podoby prítomníkového kmeňa – džavotaj-<br />

Všetky atribúty majú ako hodnoty reťazce znakov.<br />

9.1.3 Relačné schémy a relácie k prídavným menám<br />

Relačné schémy a relácie vzorov skloňovania prídavných mien<br />

Ukážka relačnej schémy a relácie k vzorom skloňovania prídavných mien.<br />

(Ide o jednu tabuľku, ktorá je z tlačových dôvodov umiestnená v častiach pod<br />

sebou.)<br />

1. rovina<br />

PRIDP1:<br />

80


SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />

S S S S S S<br />

S S<br />

SK V N_Ž_G_Ž_<br />

D_Ž A_Ž_L_Ž<br />

I_Ž_ SN SG D_ SA L_ S<br />

R ZOR M M _M M _M M _M _M M _M M I_M<br />

pek-<br />

ém<br />

ém<br />

pek ný ý ého u ého om ým ý éhou<br />

ý om ým<br />

krás-<br />

em<br />

em<br />

kry ny y eho u eho om ym y ehou<br />

y om ym<br />

i<br />

i i<br />

cud cudzí í ieho emuieho om ím í ehoemuí<br />

om ím<br />

em<br />

em<br />

rýd rýdzi i eho u eho om im i ehou<br />

i om im<br />

⇒<br />

SN S SD SA S S S S S S S S<br />

_F G_F_F<br />

_F L_F I_F N_NG_N<br />

D_N A_N L_N I_N<br />

á ej ej ú ej ou é ého ému é om ým<br />

a ej ej u ej ou e eho emu e<br />

i<br />

om ym<br />

ia ej ej iu ej ou ie ieho emu ie om ím<br />

a ej ej u ej ou e eho emu e om im<br />

PN PG PD PA P P<br />

_Ž_ _Ž_ _Ž_ _Ž_ L_ŽI_Ž<br />

P P P P P P<br />

⇒ M M M M _M _M N_X G_X D_X A_X L_X I_X<br />

í ých ým ých ých ýmié ých ým é ých ými<br />

i ych ym ych ych ymie ych ym e ych ymi<br />

í ích ím ích ích ími ie ích ím ie ích ími<br />

i ich im ich ich imi e ich im e ich imi<br />

Špecifikácia atribútov:<br />

SKR – skratka vzoru<br />

VZOR – vzor skloňovania<br />

SN_Ž_M, SG_Ž_M ... SI_Ž_M – 6 pádov singuláru pre mužský<br />

rod – životný<br />

SN_M, SG_M ... SI_M – 6 pádov singuláru pre mužský rod<br />

– neživotný<br />

SN_F, SG_F ... SI_F – 6 pádov singuláru pre ženský rod<br />

SN_N, SG_N ... SI_N – 6 pádov singuláru pre stredný rod<br />

81


EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />

PN_Ž_M, PG_Ž_M ... PI_Ž_M – 6 pádov plurálu pre mužský<br />

rod – životný<br />

PN_X, PG_X ... PI_X – 6 pádov plurálu pre mužský rod –<br />

neživotný, ženský rod, stredný rod<br />

Druhá rovina obsahuje rovnaké vzory ako prvá rovina, preto ukážku neuvádzame.<br />

Relačná schéma k jednotlivým prídavným menám<br />

PRIDME(PARA, PRG, PRG1, LEMMA, MORPH, TZ1, TZ2, TZ_G1, TZ_G2,<br />

SA, GR, PARA2, PRG2, PRG2_1)<br />

Schéma má meno PRIDME a jej 12 atribútov je špecifikovaných nasledovne:<br />

PARA skratka pre vzor skloňovania prídavného mena – pek<br />

(pekný)<br />

PRG skratka pre vzor stupňovania prídavného mena – dob<br />

(dobrý)<br />

PRG1 skratka pre 2. vzor stupňovania, ak má prídavné meno<br />

variantné tvary<br />

LEMMA základný tvar slova, heslo – dobrý<br />

MORPH výber morfologických tvarov, ako ich ponúka KSSJ –<br />

lepší príd.<br />

TZ1,TZ2 obmeny TZ, ktoré sa vyskytnú pri skloňovaní prídavného<br />

mena – dobr-<br />

TZ_G1,TZ_G2 obmeny TZ, ktoré sa vyskytnú pri stupňovaní prídavného<br />

mena – dobr- lepš-<br />

SA špecifické atribúty, ktoré sú nad rámec štandardných informácií<br />

GR údaj o stupňovateľnosti<br />

PARA2 skratka pre vzor skloňovania prídavného mena v 2.<br />

rovine – 2pek (2pekný)<br />

PRG2 skratka pre vzor stupňovania v druhej rovine – 2bie<br />

(2biely)<br />

PRG2_1 skratka pre vzor stupňovania v druhej rovine ak má<br />

slovo varianty<br />

82


Hodnoty všetkých atribútov sú reťazcové hodnoty.<br />

SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />

83


EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />

9.1.4 Relačné schémy a relácie k príslovkám, zámenám a číslovkám<br />

Relačné schémy a relácie k vzorom stupňovania prísloviek<br />

1. rovina<br />

PRÍSLP1:<br />

SKR VZOR F_POZIT F_KOMP ALTERNÁCIA<br />

noo novo o šie –<br />

bio bielo o šie A1<br />

kro krátko o šie A1 A3<br />

beo belaso o ejšie –<br />

čio čierno o ejšie A1<br />

ľud ľudsky y ejšie –<br />

moc mocne e ejšie –<br />

Špecifikácia atribútov:<br />

SKR – skratka vzoru<br />

VZOR – vzor stupňovania<br />

F_KOMP – formant komparatívu<br />

F_POZIT – formant pozitívu<br />

ALTERNÁCIA – pravidlá zmien v TZ (s hodnotou reťazca)<br />

2. rovina<br />

PRÍSLP2:<br />

SKR VZOR F_POZIT F_KOMP DRUHY TZ_G<br />

2noo 2novo o šie 1<br />

2beo 2belaso o ejšie 1<br />

2čie 2čierno o ejšie 1,2<br />

2ľud ľudsky y ejšie<br />

2moc mocne e ejšie<br />

84<br />

Špecifikácia atribútov:<br />

SKR – skratka vzoru<br />

VZOR – vzor stupňovania<br />

F_KOMP – formant komparatívu<br />

F_POZIT – formant pozitívu


SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />

DRUHY TZ_G – počet použitých TZ pri stupňovaní (TZ_G1,<br />

TZ_G2)<br />

Relačné schémy a relácie k vzorom skloňovania zámen<br />

1. rovina<br />

ZÁMP1:<br />

S<br />

V N_Ž SG_ŽSD_Ž_SA_Ž_<br />

SL_Ž_ SI_Ž_<br />

SKR ZOR _M _M M M M M<br />

on2 on-2 ø eho emu eho om ím<br />

tvo tvoj<br />

žiade<br />

ø ho mu ho om ím<br />

žia n ø eho emu eho om ym<br />

éhoému- aže akýže ýže žeže éhože omže ýmže<br />

iehoiemu- čže číže íže žeže iehožeomže ímže<br />

⇒<br />

⇒<br />

S S<br />

N_M G_M SD_M SA_M SL_M SI_M<br />

ø eho emu ho om ím<br />

ø ho mu ø om ím<br />

ø eho emu ø om ym<br />

éhoému- ýže žeže ýže omže ýmže<br />

iehoiemu- íže žeže íže omže ímže<br />

S<br />

N_F SG_FSD_F SA_F SL_F SI_F<br />

a ej ej u ej ou<br />

a ej ej u ej ou<br />

a ej ej u ej ou<br />

áže ejže ejže úže ejže ouže<br />

iaže ejže ejže iuže ejže ouže<br />

85


EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />

⇒<br />

⇒<br />

⇒<br />

S S<br />

N_N G_N SD_N SA_N SL_N SI_N<br />

o eho emu ho om ím<br />

e ho mu e om ím<br />

e eho emu e om ym<br />

éhoému- éže žeže éže omže ýmže<br />

iehoiemu- ieže žeže ieže omže ímže<br />

P<br />

N_Ž<br />

_M<br />

PG_Ž<br />

_M<br />

PD_Ž_PA_Ž_<br />

PL_Ž_ PI_Ž_<br />

M M M M<br />

i ich im ich ich imi<br />

i ich im ich ich imi<br />

i ych<br />

ých-<br />

ym ych ych ymi<br />

íže že ýmže ýchže ýchže ýmiže<br />

íže íchže ímže íchže íchže ímiže<br />

P<br />

PI_X ALTER-<br />

N_X PG_XPD_X PA_X PL_X NÁCIA<br />

y ich im e ich imi ZB<br />

e ich im e ich imi –<br />

e ych ym e ych ymi A2<br />

ých-<br />

ýmiže<br />

éže že ýmže éže ýchže –<br />

ieže íchže ímže ieže íchže ímiže –<br />

Špecifikácia atribútov:<br />

SKR – skratka vzoru<br />

VZOR – vzor skloňovania<br />

SN_Ž_M, SG_Ž_M ... SI_Ž_M – 6 pádov singuláru pre mužský<br />

rod – životný<br />

86


SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />

SN_M, SG_M ... SI_M – 6 pádov singuláru pre mužský rod<br />

– neživotný<br />

SN_F, SG_F ... SI_F – 6 pádov singuláru pre ženský rod<br />

SN_N, SG_N ... SI_N – 6 pádov singuláru pre stredný rod<br />

PN_Ž_M, PG_Ž_M ... PI_Ž_M – 6 pádov plurálu pre mužský<br />

rod – životný<br />

PN_X, PG_X ... PI_X – 6 pádov plurálu pre mužský rod –<br />

neživotný, ženský rod, stredný rod<br />

ALTERNÁCIA – pravidlá zmien v TZ (s hodnotou reťazca)<br />

Druhá rovina zámen obsahuje rovnaké vzory, len namiesto atribútu AL-<br />

TERNÁCIA je atribút DRUHY TZ.<br />

Relačné schémy a relácie k vzorom skloňovania čísloviek<br />

1. rovina<br />

ČÍSLP1:<br />

P P P<br />

V P G_ D_ A_ P P<br />

SKR ZOR N_M M M M L_MI_M<br />

dva dva a och om a och oma<br />

päť päť<br />

sede<br />

ø ich im ø ich imi<br />

sed m ø ich im ø ich imi<br />

⇒<br />

P<br />

N_Ž<br />

_M<br />

⇒ P<br />

N_F<br />

P P P P<br />

G_Ž D_Ž A_Ž L_Ž<br />

_M _M _M _M<br />

PI_Ž<br />

_M<br />

aja och om och och oma<br />

i ich im ich ich imi<br />

i ich im ich ich imi<br />

P P<br />

G_F<br />

P P P<br />

D_F A_F L_F I_F<br />

ALTERNÁCIA<br />

87


EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />

N N N N N N<br />

e och om e och oma–<br />

ø ich im ø ich imi A1<br />

ø ich im ø ich imi A1, A2<br />

Špecifikácia atribútov:<br />

SKR – skratka vzoru<br />

VZOR – vzor skloňovania<br />

PN_M, PG_M ... PI_M – 6 pádov plurálu pre mužský rod –<br />

neživotný<br />

PN_Ž_M, PG_Ž_M ... PI_Ž_M – 6 pádov plurálu pre mužský<br />

rod – životný<br />

PN_FN, PG_FN ... PI_FN – 6 pádov plurálu pre ženský a<br />

stredný rod<br />

ALTERNÁCIA – pravidlá zmien v TZ (s hodnotou reťazca)<br />

88


2. rovina<br />

ČÍSLP2:<br />

V P P P P P P<br />

SKRZOR<br />

2<br />

N_M G_M D_M A_M L_M I_M<br />

dva 2dva a och om a och oma<br />

2päť2päť ø ich im ø ich imi<br />

⇒<br />

⇒<br />

P P P P P<br />

N_Ž G_Ž_D_Ž<br />

A_Ž_L_Ž_<br />

PI_Ž<br />

_M M _M M M _M<br />

aja och om och och oma<br />

i ich im ich ich imi<br />

P<br />

N_F<br />

N<br />

P<br />

G_F<br />

N<br />

P<br />

D_F<br />

N<br />

P<br />

A_F<br />

N<br />

SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />

P<br />

L_F<br />

N<br />

PI_F<br />

N DRUHY<br />

TZ<br />

e och om e och oma 1<br />

ø ich im ø ich imi 1, 2<br />

Špecifikácia atribútov:<br />

SKR – skratka vzoru<br />

VZOR – vzor skloňovania<br />

PN_M, PG_M ... PI_M – 6 pádov plurálu pre mužský rod –<br />

neživotný<br />

PN_Ž_M, PG_Ž_M ... PI_Ž_M – 6 pádov plurálu pre mužský<br />

rod – životný<br />

PN_FN, PG_FN ... PI_FN – 6 pádov plurálu pre ženský a<br />

stredný rod<br />

DRUHY_ TZ – druhy použitých TZ (TZ1, TZ2, ...)<br />

Relačné schémy a relácie k jednotlivým príslovkám, zámenám a číslovkám,<br />

ak sú ohybné, sú tvorené podľa vyššie uvedených relačných schém pre<br />

podstatné mená, slovesá a prídavné mená, preto ich nebudeme opakovať.<br />

89


EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />

9.2 Fyzická referenčná morfologická databáza slovenčiny<br />

Cieľom nášho snaženia bolo zhromaždiť morfologické údaje o každom<br />

slove súčasnej slovenskej lexiky, ako ju zachytáva Krátky slovník slovenského<br />

jazyka (1997), a dať ich k dispozícii v štruktúrovanej podobe a usporiadané<br />

napr. podľa slovných druhov a paradigiem. To sme dosiahli vytvorením relácií<br />

– počítačových súborov. Samostatný súbor tvoria vzory ohýbania slovných<br />

druhov. Ku každému slovnému druhu existuje dátový súbor, ktorý obsahuje<br />

najpoužívanejšie slová z daného slovného druhu v súčasnej spisovnej slovenčine.<br />

Tieto súbory sú k dispozícii na ďalší výskum alebo tvorbu jazykových<br />

aplikácií.<br />

10. Poznámky k realizácii (implementácii) referenčnej morfologickej databázy<br />

Prvým krokom na ceste tvorby referenčnej morfologickej databázy slovenčiny<br />

bolo získanie elektronickej podoby KSSJ ako základného lexikálneho<br />

zdroja, obsahujúceho tiež veľa gramatických údajov. Poznatky z práce na KSSJ<br />

je možné aplikovať aj na iné informačné zdroje.<br />

Literatúra<br />

ALLÉN, Sture. 1981. The Lemma-Lexeme Model of the Swedish Lexical Data Base. In:<br />

Progress in Empirical Semantics. Bochum: Brockmeyer.<br />

BENKO, Vladimír – HAŠANOVÁ, Jana – KOSTOLANSKÝ, Eduard. 1996. Počítačové<br />

spracovanie slovenčiny – výskumná správa. Bratislava: Pedagogická fakulta UK.<br />

BENKO, Vladimír – HAŠANOVÁ, Jana – KOSTOLANSKÝ, Eduard. 1997. Morfologické<br />

údaje o slovenských substantívach na účely algoritmickej analýzy textov. <strong>Slovenský</strong> jazyk a literatúra<br />

v škole, č. 5, s. 154 – 166.<br />

BENKO, Vladimír – HAŠANOVÁ, Jana – KOSTOLANSKÝ, Eduard. 1998. Počítačové<br />

spracovanie slovenského jazyka – časť: Morfológia podstatných mien. Bratislava: Pedagogická<br />

fakulta Univerzity Komenského.<br />

HORECKÝ, Ján. 1964. Morfematická štruktúra slovenčiny. Bratislava: Vydavateľstvo SAV.<br />

KAČALA, Ján – PISÁRČIKOVÁ, Mária (eds.). 1997. Krátky slovník slovenského jazyka. (3.<br />

vydanie) Bratislava: Veda.<br />

KOEHLER, R. – SCHMIED, P. 1992. Lexikondateien fuer Quantitative Lexikologie. FB II,<br />

Universitaet Trier.<br />

LANKA, S. – PAL, S. 1993. Database Systems. New York: Elsevier Science Pub.<br />

90


SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />

MISTRÍK, Jozef. 1988. Moderná slovenčina. Bratislava: Slovenské pedagogické nakladateľstvo.<br />

ORAVEC Ján – BAJZÍKOVÁ, Eugénia – FURDÍK, Juraj. 1984. Súčasný slovenský spisovný<br />

jazyk. Morfológia. Bratislava: Slovenské pedagogické nakladateľstvo.<br />

PÁLEŠ, Emil. 1994. SAPFO – parafrázovač slovenčiny, počítačový nástroj na modelovanie v<br />

jazykovede. Bratislava: Veda.<br />

PAULINY, Eugen – RUŽIČKA, Jozef – ŠTOLC, Jozef. 1968. Slovenská gramatika. Bratislava:<br />

Slovenské pedagogické nakladateľstvo.<br />

PECIAR, Štefan. (ed.). 1959 – 1968. Slovník slovenského jazyka. (6 zväzkov). Bratislava:<br />

Vydavateľstvo SAV.<br />

Projekt „Referenčná morfologická báza dát slovenského jazyka“. Záverečná správa.<br />

Bratislava: Laboratórium počítačovej lingvistiky PdF UK 1998.<br />

RUŽIČKA, Jozef. (ed.). 1966. Morfológia slovenského jazyka. Bratislava: Vydavateľstvo SAV.<br />

91


DATABASES FOR SPEECH RECOGNITION<br />

AND SYNTHESIS IN SLOVAK<br />

Milan Rusko – Sachia Daržágín – Marián Trnka: Institute of Informatics,<br />

Slovak Academy of Sciences, Bratislava<br />

1. Introduction<br />

An effort of the scientists and developers to change the approach to automated<br />

speech processing systems building has become evident in recent years.<br />

The older methods based on a set of human-expert defined rules has been replaced<br />

by systems with new architecture. In these systems the needed information<br />

on the properties and behavior of the speech signal is obtained automatically<br />

from large speech databases. This paper reflects an effort to apply the data<br />

driven approach in the telephone-speech recognizer and speech synthesizer in<br />

Slovak, at the Department of the Speech Synthesis and Speech Analysis of the<br />

Institute of Informatics.<br />

The automatic speech processing technology has reached such a high degree,<br />

that it is being implemented in various applications in different areas of life.<br />

More and more voice driven teleservices (Rusko 1998) are offered by companies<br />

to allow the customer easier access to information (e.g. traintable information), to<br />

transaction services (e.g. teleshopping or telebanking), or more comfortable way<br />

of communication (call processing services, e.g. voice mail handling).<br />

The American companies having a benefit of a large and rich monolingual<br />

market are in a much better position than companies of the multilingual<br />

Europe. Not to loose the market, the European companies have to create an effective<br />

infrastructure to deal successfully with their multilingual environment.<br />

While the mathematical principles and algorithms of the speech recognition<br />

and speaker identification systems (based usually on Hidden Markov Models<br />

and Neural Nets) are more or less language independent, the training databases<br />

must include native speakers recordings. Their preparation as well as postprocessing<br />

needs a skilled team of local scientists and engineers capable of solving<br />

problems concerning computer linguistics, speech acoustics, phonetics, programming<br />

and management. Very similar situation is that in the field of the<br />

modern speech synthesis.<br />

92


2. Speech Recognition – The need of the speech database<br />

DATABASES FOR SPEECH RECOGNITION AND SYNTHESIS IN SLOVAK<br />

After the era of rule-based speech recognition systems the Dynamic Time<br />

Warping (DTW) algorithm has become most popular and many of the functional<br />

applications with a vocabulary up to several tenths of words use it also today<br />

(e.g. voice dialed telephone).<br />

The idea of the data driven approach is not to force the recognition system<br />

to follow the predefined rules, but rather to let the system extract the<br />

knowledge on the properties and behavior of the speech signal automatically<br />

from the information stored in huge speech databases. This process of extracting<br />

information and setting own rules for further recognition is called<br />

training. Such a recognizer based generally on Hidden Markov Models<br />

(HMMs) and/or Artificial Neural Nets (ANNs) can be considered as a selflearning<br />

system. The problem was, that no speech database had been built for<br />

Slovak speech, that would be large enough for training before we started to<br />

build our database.<br />

Database<br />

signal<br />

interface<br />

Databases<br />

X<br />

Speech<br />

samples<br />

Feature<br />

extraction<br />

Y<br />

Prob.<br />

density<br />

functions<br />

P(Y t |S t )<br />

Phonetic<br />

training<br />

Recognition<br />

Transition<br />

probabilities<br />

P(S t |St-1)<br />

Strings of words: W<br />

HMMs<br />

Word<br />

statistics<br />

P(W |W )<br />

t t-1<br />

Word class<br />

training<br />

Fig. 1: Functional scheme of a data driven speech recognizer based on HMM<br />

For HMM based speaker independent recognizer, a database containing<br />

5000 recorded telephone calls (of different speakers) is considered a reasonable<br />

volume. The database must have predefined structure and content (which can<br />

W*<br />

93


MILAN RUSKO – SACHIA DARŽÁGÍN – MARIÁN TRNKA<br />

be application-dependent), and must reflect all the phonetical and phonological<br />

phenomena which the recognizer should be capable to employ in its work. The<br />

most time-consuming phase of the database-building is that of annotation and<br />

labelling. In this process an orthographic (written text) and orthoepic (phonetic<br />

representation) information is linked to all the recorded speech files. Instead of<br />

the fact, that there are some possibilities to do the annotation automatically, one<br />

comes to a paradox:<br />

a) an annotated training database is needed for the speech recognizer building,<br />

b) a reliable speech recognizer is needed for the automatic speech-database<br />

annotation.<br />

Fig. 2: Display of the program Label 1.0, used for manual annotation of the database records<br />

and running check of the signal quality and some other database features.<br />

This simply means, that the first speech database must be annotated<br />

manually by human expert. After it is finished, it can be used for the first recognizer<br />

training, and this recognizer can possibly be included in a system for<br />

automatic annotation of future databases.<br />

94


DATABASES FOR SPEECH RECOGNITION AND SYNTHESIS IN SLOVAK<br />

For illustration we present on Fig. 2 a typical display of the program used<br />

for manual annotation (program Label 1.0 developed at our Department of<br />

Speech Analysis and Synthesis).<br />

3. SpeechDat-e, the first Telephone speech database in Slovak<br />

SpeechDat-E is a set of databases following the standard defined with<br />

SpeechDat II (Winski 1997). The collection is performed automatically telephone<br />

via the ISDN connection (on the recording side). As a compromise<br />

between the need and the economical possibilities, it was decided to build a<br />

1000 speakers database for Czech, Polish, Slovak and Hungarian and a 2500<br />

speakers database for Russian. After the preliminary statistical research a set of<br />

the so called promptsheets had to be generated. The promptsheet is a list of<br />

sentences and words to be read by the caller and a set of questions to be<br />

answered. The promptsheets were formed according to the possible areas of the<br />

speech recognizer applications (computers, banking, shopping, marketing, travelling<br />

and tourist information, telecommunication etc.). Every of them include:<br />

– isolated digits and its sequences<br />

– digit / number strings<br />

– natural number<br />

– money amounts in Slovak crowns, Dollars and Euro and their<br />

smaller units<br />

– yes/no questions (spontaneous answer)<br />

– dates, prompted phrases with date, relative and general date expression<br />

– time and time-phrases<br />

– application words / keyphrases<br />

– word spotting phrase using embedded application word<br />

– directory assistance names: city of birth (spontaneous), company,<br />

agency, surname, forename plus surname, own forename<br />

(spontaneous)<br />

– spellings: artificial sequence, city name, own forename (spontaneous)<br />

– phonetically rich words<br />

– phonetically rich sentences.<br />

To reflex the real-life features the database has to be statistically balanced<br />

according to:<br />

95


MILAN RUSKO – SACHIA DARŽÁGÍN – MARIÁN TRNKA<br />

a) regional coverage – representation of the main phonetic groups. The repartition<br />

of speakers should be proportional to the population in regions<br />

with 5 % tolerance and with a minimum 5 % speakers per region;<br />

b) age of the callers;<br />

c) sex of the callers.<br />

It is the first large telephone speech corpus collected in Slovakia. Speech-<br />

Dat-E Slovak is available for the users now. It is being used in our experiments<br />

for training of several types of recognizers. The companies which are members<br />

of the SpeechDat-E Consortium has already started to develop commercial recognizers<br />

using this database. We also hope that the database will be useful not<br />

only for the universities and academic institutions, but primarily for companies<br />

in the telecommunications and teleservices. The liberalization of the Slovak<br />

telecommunication market, hand in hand with recent boom in speech processing<br />

technology, will lead to a competition among operators and also other<br />

companies in the field of voice-driven teleservices. The created database can be<br />

the first step to the professional design of such services.<br />

A new database intended for building the speech synthesis systems in<br />

Slovak is under development .<br />

4. Data driven approach to speech synthesis<br />

Speech synthesis has been considered to be less complex problem than<br />

that of speech recognition. This statement is true only up to a certain level of<br />

quality of the synthesis systems.<br />

96<br />

Fig. 3: Schematic diagram of the recent version of the Slovak speech synthesizer


DATABASES FOR SPEECH RECOGNITION AND SYNTHESIS IN SLOVAK<br />

Modern approaches aim at reaching high naturalness of speech. One of<br />

the ways how to incorporate the difficult phenomena of the natural speech prosody<br />

and rhythm, is to use a large training database of the speech of one speaker,<br />

optimized for text-to-speech applications.<br />

The content of the database must allow for the extraction of the following<br />

synthesis elements:<br />

– the basic elements of the signal waveform used for concatenative<br />

synthesis (e.g. diphones), these must be available in accented<br />

an unaccented form, in different contexts, and positions in the<br />

word and sentence. Advanced systems allow for the concatenation<br />

from the non-uniform speech units. The choose of these<br />

units is optimized regarding the actual text and the speech material<br />

in the database;<br />

– the pitch and energy contours of the syllables, words and sentences;<br />

– rhythmical rules (e.g. phone and syllable durations) for different<br />

speech rates and speaking styles.<br />

Annotation of such a training database is extremely difficult task. The information<br />

which should be linked to the recorded speech is of several levels:<br />

Level Annotated information<br />

Sentence level orthographic and<br />

orthoepic<br />

representations<br />

Word level orthoepic<br />

representation<br />

Syllable level orthoepic<br />

sentence type<br />

(syntax)<br />

sentence boundary<br />

pointers (BP)<br />

accent word BP<br />

grammatical type<br />

(syntax)<br />

consonant-vocal accent syllable BP<br />

representation structure<br />

syllable nuclei BP<br />

Phoneme level orthoepic representation BP to phonemes and pauses<br />

Microsegment level F0 energy BP to microsegments<br />

Tab. 1: Level structure of the information annotated in the speech database<br />

for speech synthesis purposes<br />

For the automatic annotation we have developed a set of tools analyzing<br />

the signal in the time and frequency domains, measuring energy, pitch, and the<br />

97


MILAN RUSKO – SACHIA DARŽÁGÍN – MARIÁN TRNKA<br />

position of important instants (boundaries) in the speech signal. The signal<br />

analysis system (developed at the Department of Speech Analysis and Synthesis)<br />

is Called SOUNDY 4.0.<br />

Fig. 4.: Typical appearance of the screen of the SOUNDY 4. 0. signal analysis system<br />

5. The automatic phonetic labeller<br />

Text to phoneme conversion is performed by an automatic orthographicto-orthoepic<br />

converter.<br />

Many of modern speech synthesis and speech recognition systems require<br />

phonetic information to be incorporated in the training database – namely<br />

pointers to the phoneme boundaries and orthoepic transcription of the recorded<br />

utterances.<br />

The architecture of our automatic phonetic labeller is shown in Fig. 5.<br />

98


DATABASES FOR SPEECH RECOGNITION AND SYNTHESIS IN SLOVAK<br />

Fig. 5: The architecture of the automatic phonetic labelling system<br />

5.1 Pitch synchronous analysis on the microsegmental level<br />

The microsegment recognition process itself can be divided into several<br />

steps:<br />

a) Microsegmentation<br />

b) Time domain acoustic feature extraction<br />

c) Filter-bank based frequency domain analysis<br />

d) Assignment to one of the main phonetic groups<br />

e) Identification of the microsegments (assignment to one of the phonemes).<br />

5.2 Microsegmentation of the speech signal<br />

99


MILAN RUSKO – SACHIA DARŽÁGÍN – MARIÁN TRNKA<br />

For this purpose we use our rule-based microsegmentation procedure developed<br />

for the speaker-independent speech recognizer (Daržágín – Trnka<br />

1995).<br />

In the first step the voiced/unvoiced/pause decision must be taken for the<br />

analyzed frame of the signal. In the next step of the acoustic pre-processing,<br />

the speech signal is pitch-synchronously divided into frames of the length corresponding<br />

to one period of the fundamental on the voiced portion of the signal<br />

and into frames of a constant length on the unvoiced part. These frames, called<br />

microsegments, are the elementary analysis time-intervals in our system. Every<br />

microsegment is then analyzed and a hypothesis on its correspondence to some<br />

of the phonemes of the Slovak phoneme-inventory is created.<br />

5.3 Text input and orthographical to orthoepical form conversion<br />

The text of the utterance which was read by the speaker is sent to the input<br />

of the text processing branch in an ASCII-coded form. The automatic orthographic<br />

to orthoepic form conversion is made by a rule based routine that<br />

was originally written for the Slovak speech synthesizer. This orthoepical transcription<br />

gives a sequence of the phonemes that should theoretically be pronounced<br />

when reading the source text. Thus the system can send the information<br />

on the expected actual phoneme and the succeeding one too.<br />

5.4 Comparing logic and phoneme labelling<br />

The comparison process of the expected phonemes and the sequence of<br />

the microsegments has two levels:<br />

a) a coarse phonetic labelling based on the automatically recognized phonetic<br />

structure of the utterance;<br />

b) phoneme-boundary label position refining using the information from the<br />

text processing branch. The acoustic characteristics of the microsegment<br />

are compared to the typical acoustic characteristics of both of the phonemes<br />

at the actual boundary.<br />

The pointer to the refined position of the phoneme-boundary in the wavesignal<br />

(the label) is then included into the output file.<br />

5.5 Output – linked database files<br />

100


DATABASES FOR SPEECH RECOGNITION AND SYNTHESIS IN SLOVAK<br />

The whole automatic labelling is finished by creating two types of linked<br />

database-files, one of them containing the PCM coded wave-data, and the second<br />

one containing the text, the phonetical (orthoepical) transcription of the given utterance<br />

as well as the pointers to the phoneme boundaries in the wave-file.<br />

6. Conclusion<br />

The important part of the datadriven speech recognizer – Slovak speech<br />

database for training purposes is available now. This makes the development of<br />

the HMM based recognition systems possible. The main areas of application<br />

can be found for instance in telephone services. The developed speech signal<br />

analysis system and the database labelling tool can be used for further database<br />

building and speech research.<br />

The recent version of the speech synthesizer in Slovak works rather well,<br />

but a new, data driven version, is under development.<br />

The described phonetic labelling tool executes its task in acceptable quality<br />

but the operator's assistance is needed. Most problems occur if the signal is<br />

of poor quality, or if there are severe mistakes in the pronunciation of the<br />

speaker. The tool is suitable for the speech-database building purposes and it is<br />

now being used in the process of the "synthesis database" development.<br />

The authors are members of the Department of Speech Analysis and Synthesis,<br />

Institute of Informatics of the Slovak Academy of Sciences.<br />

This work is supported by the Slovak Grant Agency VEGA project number<br />

47/0214/99.<br />

References<br />

DARŽÁGÍN, Sachia – TRNKA, Marian. 1995. Speaker independent speech recognition system<br />

in Slovak. In: Proceedings of the international conference Telecommunications '95. Bratislava: Dom<br />

techniky ZSVTS. s. 118 – 123.<br />

RUSKO, Milan. 1998. Voice Driven Teleservices in Slovak. In: Proceedings of the 2 nd international<br />

conference Where are You Going ATM? Bratislava: ADAPT. s. 45 – 49.<br />

WINSKI, R. 1997. Definition of corpus, scripts and standards for fixed networks. Technical report.<br />

SpeechDat-II, January 1997, Deliverable SD 1.1.1., workpackage WP1, http://www.speechdat.org.<br />

101


SAMPA V SLOVENČINE A JEJ VÝZNAM<br />

Z POHĽADU VIACJAZYČNÝCH<br />

SYSTÉMOV NA ROZPOZNÁVANIE REČI<br />

Jozef Ivanecký: IBM Voice Systems, European Speech Research;<br />

Katedra kybernetiky a umelej inteligencie, Fakulta elektrotechniky<br />

a informatiky Technickej univerzity Košice (ivanecky@de.ibm.com)<br />

Abstract: The paper deals with the phonetic alphabet SAMPA. In a brief survey of the development of<br />

the SAMPA transcription we are indicating possible problems in the formation of the SAMPA transcription<br />

for new languages and the significance of the SAMPA transcription for computer speech recognition<br />

from the multilingual systems’ view. The core of the paper is the procedure used in the formation of<br />

the SAMPA transcription for Slovak as well as for a current status of the Slovak version of the SAMPA<br />

transcription.<br />

1. Úvod<br />

Význam fonetickej transkripcie v <strong>počítačovom</strong> rozpoznávaní reči nie je<br />

potrebné zdôrazňovať. Transkripcia je použitie príslušných znakov abecedy na<br />

reprezentáciu zvukov reči. Systém na počítačové rozpoznávanie reči rozpoznáva<br />

na najnižšej úrovni jednotlivé zvuky, ktoré sú označované znakmi fonetickej<br />

abecedy zvolenej pre danú fonetickú transkripciu. Keďže ide o počítačové<br />

spracovanie, znakmi sú vo väčšine prípadov kvôli jednoduchosti a prenositeľnosti<br />

7 bitové ASCII znaky. Priradenie ASCII znakov jednotlivým zvukom – t.<br />

j. kódovanie – je záležitosť tvorcu daného systému, pričom medzi konkrétnymi<br />

transkripčnými systémami sú – aj vzhľadom na fonetické rozdiely v spracúvaných<br />

jazykoch – väčšie či menšie rozdiely.<br />

Tento stav viac-menej pretrváva dodnes, aj keď potreba jednotného kódovania<br />

v poslednom desaťročí narastá. Dôvodom je nielen potreba vzájomnej<br />

kompatibility (transkripčné systémy) a uľahčenie komunikácie pri výmene<br />

skúseností, no v poslednom čase aj nárast viacjazyčných systémov na rozpoznávanie<br />

reči. Na tento účel sa dnes takmer výhradne používa kódovanie SAM-<br />

PA (Speech Assestment Methods – Phonetic Alphabet).<br />

2. SAMPA – vývoj a súčasnosť<br />

102


SAMPA V SLOVENČINE A JEJ VÝZNAMZ POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI<br />

Transkripcia SAMPA vznikla na základe kódovania použitého v niekoľkých<br />

projektoch na rozpoznávanie reči na konci deväťdesiatych rokov. Každý<br />

z týchto projektov sa zaoberal jednojazyčným systémom, no pre rôzne jazyky.<br />

Kódovanie použité v týchto projektoch zobrazuje tabuľka 1.<br />

Výsledkom dohôd v rámci SAM – European collaborative speech technology<br />

assessment research – boli odporúčania pre štandardný transkripčný<br />

systém aplikovateľný na mnohé európske jazyky. Pojem transkripčný systém<br />

má v tomto prípade oveľa širší význam. Problematika bola riešená v júni 1987<br />

na University College v Londýne v rámci práce na Labelling, Transcription a<br />

Management Methods for speech databases (Fourcin – Harland – Barry – Hazan<br />

1989).<br />

Súčasťou týchto prác bolo aj vytvorenie jednotného kódovania, dnes<br />

známeho ako SAMPA abeceda. Z tabuľky č. 1 je evidentné, že kódovacie tabuľky<br />

COST 209, Esprit 291 a Alvey majú veľa spoločného. Na základe toho boli<br />

postavené základy pre európsky štandard. Z princípov formulovaných v projekte<br />

Esprit 291 vyplýva nasledujúce: ASCII znaky v IPA tabuľke ostávajú nezmenené.<br />

Nie ASCII znakom – do tej miery, do akej je to možné – sú priradené<br />

veľké ASCII znaky. Použitím týchto pravidiel na tabuľku č. 1 dostaneme ASCII<br />

reprezentáciu pre nasledujúce znaky z fonetickej abecedy IPA:<br />

IPA znaky <br />

kódované<br />

ako ASCII A O D E @ G I N T S U Y Z ? :<br />

Na základe tohto a ďalších pravidiel bola formovaná SAM-PA fonetická<br />

abeceda, prvýkrát publikovaná v práci J. C. Wellsa (1987). Táto fonetická abeceda,<br />

predstavujúca prvý – počítačovo jednoducho reprezentovateľný – kódovací<br />

systém dohodnutý medzi predstaviteľmi ôsmich európskych krajín spolupracujúcich<br />

na projekte SAM, je v tabuľke č. 2 a č. 3. Prvá verzia SAMPA pokrývala<br />

tieto jazyky: angličtina, dánčina, francúzština, nemčina, španielčina a taliančina.<br />

V čase vzniku projektu SAMPA nebol doň zahrnutý žiaden zo slovanských<br />

jazykov, z čoho vyplýva značná limitácia použitia SAMPA abecedy pre<br />

slovanské jazyky. Napriek týmto obmedzeniam sme v roku 1995 vytvorili prvú<br />

neoficiálnu verziu SAMPA abecedy pre slovenčinu (Krokavec – Filasová – Ivanecký<br />

1996).<br />

103


JOZEF IVANECKÝ<br />

V posledných piatich rokoch bola v rámci niekoľkých projektov SAMPA<br />

značne rozšírená a dnes už pokrýva mnohé – nie len indoeurópske – jazyky.<br />

104


SAMPA V SLOVENČINE A JEJ VÝZNAMZ POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI<br />

Tab. 1: Prehľad počítačovo reprezentovateľných fonetických transkripcií.<br />

105


JOZEF IVANECKÝ<br />

(Znak ’!’ v treťom stĺpci poukazuje na dohodu medzi COST 209, Esprit 291<br />

a Alvey tabuľkami. Kódovanie v DIN a ISO stĺpci sú v hexa formáte.)<br />

106


SAMPA V SLOVENČINE A JEJ VÝZNAMZ POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI<br />

Z priestorových dôvodov nie je možné, aby súčasná verzia SAMPA abecedy<br />

bola súčasťou tohto príspevku. Aktuálny stav SAMPA abecedy je možné nájsť<br />

na adrese http://www.phon.ucl.ac.uk/home/sampa/home.htm.<br />

Napriek tomu, že zo slovanských jazykov dnes existujú oficiálne verzie<br />

SAMPA abecedy pre bulharčinu, chorvátčinu, poľštinu, ruštinu a slovinčinu, oficiálna<br />

verzia pre slovenčinu a rovnako ani pre češtinu dodnes nie je k dispozícii.<br />

3. SAMPA a slovenčina<br />

Slovenskú fonetickú transkripciu ovplyvnili najmä dva činitele:<br />

• úzus v zapisovaní slovenských nárečových textov,<br />

• technické vybavenie tlačiarní.<br />

Vývin našej fonetickej transkripcie súvisí aj s inými okolnosťami: s užším<br />

využívaním transkripcie IPA u nás a s ťažkosťami pri jej používaní na zápis prejavov<br />

v slovanských jazykoch podobne ako aj v mnohých orientálnych jazykoch<br />

(Isačenko – Romportl 1966). Zostavovatelia transkripcie IPA sa totiž opierali<br />

predovšetkým o poznanie neslovanských jazykov. Vývin slovenskej transkripcie<br />

závisel ďalej od toho, že staršie výskumné ciele nevyžadovali takú techniku<br />

(podrobnosť) zápisu, akú umožňuje IPA. Zápisy slovenských textov boli určené<br />

predovšetkým domácim bádateľom. Z tohto dôvodu sa vystačilo s jednoduchým<br />

systémom založeným na gramatickej sústave jazyka, v ktorom sa na prepis hlásky<br />

volí to písmeno, ktoré je v ortografickej forme jeho základným ekvivalentom.<br />

V tabuľke č. 4 je uvedený zoznam fónov spisovnej slovenčiny kódovaných<br />

znakmi používanými v slovenskej fonetickej transkripcii podľa A. Kráľa<br />

(1983). Takáto fonetická abeceda je síce plne vyhovujúca domácemu použitiu,<br />

avšak v žiadnom prípade nevyhovuje pri použití na medzinárodnom poli, na čo<br />

upozorňujú už A. V. Isačenko a M. Romportl (1966). Tento stav v oblasti<br />

slovenskej fonetickej transkripcie pretrváva dodnes. Pri pokuse vytvoriť inventár<br />

slovenských fónov kódovaných pomocou SAMPA fonetickej abecedy sme<br />

narazili na dva základné problémy:<br />

• Nekompatibilita slovenskej fonetickej transkripcie s tranksripciou IPA.<br />

Riešenie tohto problému malo pre nás veľký význam z toho dôvodu, že<br />

SAMPA je popisovaná práve na základe znakov IPA. Predpokladá sa roz-<br />

107


JOZEF IVANECKÝ<br />

šírenosť IPA systému a na základe toho jednoduchá konverzia zo znakov<br />

IPA na znaky SAMPA.<br />

• SAMPA abeceda v čase svojho vzniku pokrývala len dosť malú časť repertoáru<br />

IPA. S určitými obmedzeniami a zavedením dvoch nových znakov ju<br />

bolo možné použiť na vytvorenie fonematickej abecedy slovenčiny (Ivanecký<br />

1996), avšak na vytvorenie jej fonetickej abecedy nebola vhodná vôbec.<br />

Tento stav bolo možné zovšeobecniť pre väčšinu slovanských jazykov.<br />

Pri vytváraní IPA verzie slovenskej transkripcie sme okrem deficitu zdrojov<br />

zaoberajúcich sa možnosťami aplikácie IPA systému na slovenčinu narazili<br />

aj na isté malé rozdiely u A. Kráľa (1983) a J. Sabola (1988) v opise transkripčného<br />

systému používaného pre slovenčinu Na naše účely sme ako východiskový<br />

zdroj použili prácu A. Kráľa (1983).<br />

Z vyššie uvedených problémov vyplýva, že naším prvým logickým krokom<br />

malo byť vytvorenie IPA systému, na základe ktorého by sme mohli vytvoriť<br />

SAMPA systém. Nakoniec ale vzhľadom na problémy so získavaním informácií<br />

108


SAMPA V SLOVENČINE A JEJ VÝZNAMZ POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI<br />

Tab. 4: Tabuľka znakov slovenskej fonetickej transkripcie<br />

o IPA systéme – získať informácie o SAMPA systéme bolo pre nás nepomerne<br />

jednoduchšie – sme v mnohých prípadoch použili opačný postup. Najprv sme<br />

vytvorili prepis zo slovenského transkripčného systému do systému SAMPA.<br />

Znak IPA pre daný prepis sme na základe tohto prepisu už len vyhľadali v príslušnej<br />

tabuľke. Napriek nekompatibilite slovenskej transkripcie s IPA systémom<br />

sa určité percento znakov prekrýva. Medzi zhodné znaky patria:<br />

a, p, b, m, t, d, n, k<br />

109


JOZEF IVANECKÝ<br />

Týmto znakom sme mohli priamo priradiť aj rovnaké SAMPA znaky, čo<br />

vyplýva z princípov definovaných pre vytváranie transkripčného systému SAM-<br />

PA. Ďalšie znaky, ktorých prepis bol relatívne bezproblémový napriek tomu, že<br />

sú pre ne použité v IPA systéme odlišné symboly, boli:<br />

, l, ľ, ň, v, f, g, x, s, z, š, ž, j, c, č, <br />

Z tohto zoznamu sa môže zdať, že prepis prebiehal bez ťažkostí. Musíme<br />

však poznamenať, že prvú verziu SAMPA pre slovenčinu sme vytvárali na<br />

fonologickej úrovni, čo značne zjednodušovalo riešenie. Dôvodom na to bola<br />

hlavne skutočnosť, že s prvou verziou SAMPA už táto úloha bola neriešiteľná<br />

bez pridania vlastných znakov. Hlavným problémom boli v tomto prípade palatálne<br />

konsonanty ť a ď. Pre ne sme v prvej verzii používali náhradné znaky.<br />

Znaky pre ť a ď boli do SAMPA zavedené až pri rozšírení SAMPA o gréčtinu,<br />

keďže žiaden z jazykov, na základe ktorých bola vytváraná prvá verzia SAM-<br />

PA, tieto palatálne konsonanty nemá.<br />

Znak pre palatalizáciu, ktorý bol zavedený skôr ako rozšírenie pre gréčtinu,<br />

je nevyhovujúci napriek tomu, že sa používa v slovenskom aj v českom<br />

transkripčnom systéme. Pretože slovenčina, rovnako ako <strong>čeština</strong>, obsahuje len<br />

palatálne a nie palatalizované konsonanty (na rozdiel napr. od ruštiny), je používanie<br />

uvedeného znaku v našich jazykoch zavádzajúce.<br />

Ďalším problémom pre nás boli samohlásky. V tomto prípade nešlo o nezrelosť<br />

SAMPA systému na opis samohlások. Problémom bol nejednotný prístup<br />

rôznych zdrojov k prepisu slovenských samohlások do IPA systému. Nakoniec<br />

sme sa rozhodli použiť informácie zo zborníka IPA z roku 1999, v<br />

ktorom bola publikovaná aj IPA pre češtinu (Dankovičová 1999). Problém dvojhlások<br />

bol vyriešený po zavedení znaku pre neslabičnosť.<br />

Na základe aktualizovanej verzie SAMPA, ktorá už pokrývala podstatne<br />

väčšiu jazykovú skupinu ako na začiatku, sme sa v roku 2000 rozhodli zrevidovať<br />

našu verziu SAMPA pre slovenčinu a previesť ju z fonologickej do fonetickej<br />

roviny. V tomto procese rozširovania sme narazili na jeden vážnejší problém,<br />

ktorý sa nám doteraz nepodarilo celkom uspokojivo vyriešiť. Je to prepis<br />

nazály n. Náš predpoklad je, že v rámci SAMPA, rovnako ako aj IPA, nie je<br />

možné pre tento prípad také podrobné rozlíšenie, a preto sa nazálne n prepisuje<br />

vždy ako n. Túto skutočnosť je však potrebné overiť.<br />

110


SAMPA V SLOVENČINE A JEJ VÝZNAMZ POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI<br />

Tab. 5: Porovnanie slovenskej transkripcie, IPA a SAMPA systému<br />

Tabuľka č. 5 obsahuje našu aktuálnu verziu SAMPA pre slovenčinu. Okrem<br />

toho sú v nej uvedené aj príslušné IPA znaky. Problematické znaky sú označené<br />

otáznikom. Keďže stále ide o pracovnú verziu, budeme vďační za akékoľvek pripomienky<br />

a návrhy, ktoré nám pomôžu ku konečnej realizácii SAMPA pre slovenčinu.<br />

4. Viacjazyčné systémy<br />

Prečo má fonetická abeceda použiteľná pre viaceré jazyky taký veľký význam?<br />

Niektoré odpovede sme naznačili už na začiatku. Ak sa na problematiku<br />

pozrieme z pohľadu počítačového rozpoznávania reči, najväčší prínos vidíme<br />

práve pri tvorbe viacjazyčných systémov. Systém, ktorý je schopný rozpoznávať<br />

viaceré jazyky, môže pracovať dvoma spôsobmi:<br />

• paralelne pracujúce systémy – každý systém vie rozpoznávať práve jeden<br />

jazyk;<br />

111


JOZEF IVANECKÝ<br />

• jeden systém schopný rozpoznávať viaceré jazyky.<br />

V prípade prvého systému s počtom jazykov neúmerne narastá požiadavka<br />

na výkon. Výhodou je, že takéto systémy dosahujú vyššiu úspešnosť rozpoznávania,<br />

avšak v prípade zlej začiatočnej identifikácie jazyka je celé rozpoznávanie<br />

chybné.<br />

Pozrime sa teraz bližšie na druhú možnosť. V tomto prípade máme systém,<br />

ktorý zvláda rozpoznávanie celého fonetického repertoáru niekoľkých rôznych<br />

jazykov. Výkonovo je menej náročný ako paralelne pracujúce systémy a aj<br />

v prípade chyby na začiatku môže správne pokračovať. Nevýhodou takýchto<br />

systémov je menšia úspešnosť rozpoznávania ako v predchádzajúcom prípade.<br />

Napriek tomu podľa nášho názoru patrí budúcnosť práve týmto systémom. Dôvodom<br />

je to, že vytvorenie kvalitného systému je časovo aj finančne značne<br />

náročné, z čoho vyplýva, že pre jazyky, ktorými hovorí len malá skupina ľudí,<br />

je to neefektívne. Použiť v takomto prípade systém natrénovaný na iný jazyk a<br />

obsahujúci potrebný fonetický inventár môže byť oveľa schodnejšie. Z tohto dôvodu<br />

je podľa nášho názoru podpora a polupráca pri vytváraní počítačovo<br />

jednoducho kódovateľnej medzinárodnej fonetickej abecedy viac než potrebná.<br />

5. Záver<br />

V príspevku sme sa zamerali na prezentáciu aktuálneho stavu pri vytváraní<br />

SAMPA abecedy pre slovenčinu a poukázali sme na dôležitosť tohto transkripčného<br />

systému z pohľadu viacjazyčných systémov na počítačové rozpoznávanie<br />

reči. V blízkej budúcnosti sa chceme zamerať na potvrdenie správnosti<br />

nami navrhovanej verzie SAMPA pre slovenčinu a doplnenie kódovania pre poslednú<br />

chýbajúcu hlásku, poprípade jej vyradenie. V poslednom kroku chceme<br />

zaradiť slovenčinu do oficiálneho zoznamu jazykov opísaných systémom SAM-<br />

PA.<br />

Literatúra<br />

FOURCIN, A. – HARLAND, G. – BARRY, W. – HAZAN, V. 1989. Speech input and output<br />

assestment–multilingual methods and standards. Ellis Horwood Limited.<br />

DANKOVIČOVÁ, D. 1999. Czech IPA, Handbook of the International Phonetic Assocation.<br />

Cambridge University Press.<br />

ISAČENKO, A. V. – ROMPORTL M. 1966. Návrh fonetické a fonologické transkripce češtiny<br />

a slovenštiny. Slovo a slovesnosť, roč. 27.<br />

112


SAMPA V SLOVENČINE A JEJ VÝZNAMZ POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI<br />

IVANECKÝ, J. 1996. Automatizácia fonematickej transkripcie slovenčiny. In: Varia VII.<br />

Bratislava: SJS pri SAV.<br />

KRÁĽ, Á. 1983. Pravidlá slovenskej výslovnosti. Bratislava: Slovenské pedagogické<br />

nakladateľstvo.<br />

KROKAVEC, D. – FILASOVÁ, A. – IVANECKÝ, J. 1996. Basic Properties of the Phonetic<br />

Transcription and the Sentence Description in Slovak Language. In: COST-249 Meeting. Košice: FEI<br />

Technical University.<br />

SABOL, J. 1988. Syntetická fonologická teória. Bratislava: Jazykovedný ústav Ľ. Štúra SAV.<br />

WELLS, J. C. 1987. Computer-coded phonetic transcription. Journal of the International<br />

Phonetic Association 17, č. 2, s. 94 – 114.<br />

113


AUTOMATICKÁ TRANSKRIPCIA<br />

SLOVENČINY V POČÍTAČOVOM<br />

ROZPOZNÁVANÍ REČI<br />

Jozef Ivanecký: IBM Voice Systems, European Speech Research;<br />

Katedra kybernetiky a umelej inteligencie, Fakulta elektrotechniky<br />

a informatiky Technickej univerzity Košice (ivanecky@de.ibm.com)<br />

Abstract: The paper reacts on one of the important tasks in the computer speech recognition - phonetic<br />

transcription - whose successful management has a significant impact on the process of both training<br />

and the recognition itself. We present the problems of the automatic transcription, procedures used in the<br />

formation of the system capable to transcribe a common text from an orthographic to orthoepical form.<br />

Furthermore we deal with the need to cope with a various (not only standard) pronunciation in the automatic<br />

transcription.<br />

1. Úvod<br />

Medzi najrozšírenejšie techniky na počítačové rozpoznávanie reči patria<br />

v dnešnej dobe skryté markovovské modely (HMM) a neurónové siete (NN).<br />

V oboch prípadoch je na vytvorenie systému potrebné väčšie množstvo dát (niekoľko<br />

tisíc viet). V prípade kvalitnejších systémov ide o niekoľko desiatok až<br />

stoviek tisíc viet. Vstupom na trénovanie takýchto systémov je okrem nahratých<br />

viet aj ich fonetická transkripcia. Od jej kvality značne závisí kvalita výsledného<br />

systému.<br />

Transkripciu môžeme vytvoriť manuálne, čo je v prípade väčšieho množstva<br />

viet značne prácne a môže viesť k väčšiemu množstvu chýb. V prípade použitia<br />

takýchto údajov pri trénovaní sa znižuje úspešnosť rozpoznávania. Ešte<br />

väčší vplyv má na druhej strane nepoužitie takýchto údajov v procese samotného<br />

rozpoznávania.<br />

Druhý prístup je automatická transkripcia. Na rozdiel od prvej je pri nej<br />

možné vylúčiť mnohé chyby. Na druhej strane je vytvorenie systému na automatickú<br />

transkripciu značne zložitá záležitosť. V niektorých jazykoch natoľko<br />

zložitá, že sa od nej celkom upúšťa. Automatickej transkripcii slovenčiny, určenej<br />

však na syntézu, sa venujú Daržágín – Franeková – Rusko (1994). Na automatickú<br />

transkripciu je potrebné nájsť všeobecné pravidlá, pomocou ktorých<br />

by bolo možné fonetický, resp. fonematický prepis automaticky vytvárať. Tieto<br />

114


AUTOMATICKÁ TRANSKRIPCIA SLOVENČINY V POČÍTAČOVOM ROZPOZNÁVANÍ REČI<br />

pravidlá môžu byť formulované ako produkčné pravidlá a nazývajú sa transkripčné<br />

pravidlá.<br />

Ďalším problémom, ktorým sa zaoberáme v tomto príspevku, je problematika<br />

spisovnej výslovnosti v rozpoznávaní reči. Použitie fonologických<br />

pravidiel zadefinovaných na základe práce Á. Kráľa (1983) síce bude vytvárať<br />

spisovný prepis, ale ten nemusí, a pravdepodobne ani nebude, presne zodpovedať<br />

skutočnej výslovnosti. O to výraznejšie to bude v prípade, keď nahrávky<br />

pokrývajú všetky nárečové skupiny.<br />

2. Transkripcia všeobecne<br />

Úlohy obsiahnuté v systéme na automatickú fonetickú transkripciu môžeme<br />

rozdeliť na dve základné podskupiny:<br />

• jazykovo nezávislé úlohy<br />

• jazykovo závislé úlohy.<br />

V tejto časti sa budeme venovať prvej skupine. Zjednodušene môžeme povedať,<br />

že sem patria všetky úlohy, ktoré sú na vstupnom texte vykonané predtým,<br />

než sú aplikované vlastné jazykovo závislé transkripčné pravidlá.<br />

Segmentácia: Prvým krokom je konverzia všetkých veľkých písmen na malé<br />

a rozdelenie vstupného textu na segmenty vhodné na transkripciu. Na tomto<br />

mieste si musíme uvedomiť, čo je minimálny segment. V prípade, že<br />

počas transkripcie nechceme brať do úvahy ortoepické javy vznikajúce na<br />

hranici slov, realizujeme segmentáciu textu na jednotlivé slová. V opačnom<br />

prípade musíme vstupný text rozdeliť na jednoduché vety s vyznačením<br />

hraníc slov.<br />

Filtrácia: V tomto kroku odstraňujeme všetky nepotrebné znaky z textu.<br />

Kódovanie: Vstupný text môže byť v jednom z N rôznych kódovaní. V prípade<br />

slovenčiny je N= . V našom prípade je kódovanie vstupného textu zmenené<br />

do interného kódovania, ktoré obsahuje len 7 bitové ASCII znaky. Dôvodom<br />

pre toto riešenie bola požiadavka na ľahkú prenositeľnosť medzi<br />

jednotlivými operačnými systémami pri zaručenej čitateľnosti kódu. Celý<br />

systém je napísaný v jazyku Perl a vytváraný pod operačným systémom<br />

Linux. Z hľadiska internej štruktúry údajov bolo potrebné zaručiť jednoznačnú<br />

identifikáciu už prepísaných a ešte neprepísaných častí, keďže výstupná<br />

abeceda pozostáva taktiež zo 7 bitových ASCII znakov, vzhľadom<br />

na to, že pre výstup zo systému bola zvolená SAMPA abeceda. Na tomto<br />

mieste je dôležité poznamenať, že SAMPA abeceda použitá ako výstupná<br />

115


JOZEF IVANECKÝ<br />

abeceda v našom systéme zatiaľ nie je oficiálnou SAMPA abecedou pre<br />

slovenčinu.<br />

Použitie všetkých vyššie opísaných krokov demonštrujeme na nasledujúcej<br />

vete:<br />

Keby som bol vedel, ako je tam zle, nikam by som nešiel...<br />

Po aplikovaní prvého kroku sa dopracujeme k nasledujúcemu tvaru vstupnej<br />

vety:<br />

keby som bol vedel; ako je tam zle; nikam by som nešiel<br />

Bodkočiarka v tomto prípade oddeľuje jednotlivé segmenty. Ak by najmenším<br />

segmentom bolo slovo, nachádzala by sa za každým slovom. Ďalšími<br />

krokmi prechádza každý segment samostatne. Po aplikovaní filtrácie na tretí<br />

segment dostaneme:<br />

nikam–by–som–nešiel<br />

Výsledkom záverečného prekódovania je:<br />

!n! !i! !k! !a! !m! – !b! !y! – !s! !o! !m! – !n! !e! !S! !i! !e! !l!<br />

Znak ! slúži na jasnú identifikáciu znakov patriacich k vstupnej abecede.<br />

Znak – označuje hranicu slov. Všetky ďalšie kroky spadajú do kategórie jazykovo<br />

závislých.<br />

3. Transkripcia slovenčiny<br />

Pri vytváraní transkripčných pravidiel pre slovenčinu sme čerpali hlavne<br />

z práce Á. Kráľa (1983). Na každý segment sú postupne aplikované všetky<br />

pravidlá. Súbor pravidiel môžeme rozdeliť do skupín podľa rôznych kritérií,<br />

napríklad fonetických, ale z nášho pohľadu sa pravidlá delia na dve základné<br />

skupiny:<br />

• jednoznačné transkripčné pravidlá<br />

• nejednoznačné transkripčné pravidlá.<br />

Medzi jednoznačné transkripčné pravidlá zaraďujeme také pravidlá, pri<br />

ktorých je jednoznačný vzťah medzi ortografickou a ortoepickou reprezentáci-<br />

116


AUTOMATICKÁ TRANSKRIPCIA SLOVENČINY V POČÍTAČOVOM ROZPOZNÁVANÍ REČI<br />

ou, a teda transkripcia je možná bez akýchkoľvek ďalších znalostí. Typickým<br />

príkladom tejto skupiny pravidiel sú pravidlá pre samohlásky. Pre samohlásky<br />

sme preto zadefinovali nasledujúce transkripčné pravidlá:<br />

Krátke samohlásky: Dlhé samohlásky:<br />

a → a á → a:<br />

e → E é → e:<br />

i → I í → i:<br />

y → i ý → i:<br />

o → o ó → o:<br />

u → u ú → u:<br />

ä → E<br />

Vyššie uvedené pravidlá sú na samohlásku aplikované vtedy, ak sa samohláska<br />

nachádza medzi dvoma spoluhláskami alebo ak sa nachádza na hranici<br />

slova. Znak ä prepisujeme v našom systéme ako E z nasledujúcich dôvodov:<br />

• Výskyt spisovnej výslovnosti znaku ä je v súčasnosti minimálny. Len tento<br />

dôvod by však bol v rozpore s našimi ďalšími tvrdeniami uvedenými v<br />

nasledujúcom texte.<br />

• V slovenčine vieme len o jednom prípade, kde znak ä má význam pri<br />

rozlíšení významu dvoch slov. Ak však aj v tomto jedinom prípade<br />

berieme do úvahy predchádzajúce tvrdenie, domnievame sa, že prepis<br />

znaku ä ako E je viac než opodstatnený.<br />

Pre tretí segment z vyššie uvedeného príkladu dostaneme po aplikácii<br />

pravidiel pre samohlásky tento výsledok:<br />

!n! I !k! a !m! – !b! I – !s! o !m! – !n! E !S! !i! !e! !l!<br />

Na poslednom slove si môžeme všimnúť, že dvojhlásky ostali nezmenené.<br />

Podobné jednoznačné pravidlá, ako sme zadefinovali pre samohlásky, môžeme<br />

zadefinovať aj pre niektoré spoluhlásky, napríklad p, r, l, m a iné. Na tomto<br />

mieste je potrebné zdôrazniť, že jednoznačnosť pravidiel neznamená aj ich<br />

jednoduchosť. Pre mnohé spoluhlásky existuje viacero transkripčných<br />

pravidiel. Výber pravidla závisí od okolia znaku, na ktorý aplikujeme dané<br />

transkripčné pravidlo. Ako jednoduchý príklad nám môže poslúžiť spoluhláska<br />

m. Á. Kráľ (1983) o výslovnosti znaku m uvádza: „pred spoluhláskami v, f sa<br />

vyslovuje namiesto pernoperného [m] pernozubné [m] ... Spoluhláska [m] sa v<br />

117


JOZEF IVANECKÝ<br />

spisovnej slovenčine vyslovuje vtedy, keď po m vnútri slova bezprostredne nasleduje<br />

v, f ako v slovách domvedúca, komfort...“ (s. 153, 155). Pre znak m sme<br />

preto zadefinovali nasledujúce pravidlá:<br />

!m! !v! → F v<br />

!m! !f ! → F f<br />

!m! → m<br />

Znak F je SAMPA znakom pre nosové m. Ak dodržíme pri aplikovaní<br />

transkripčných pravidiel pre m vyššie uvedené poradie, dosiahneme presné aplikovanie<br />

pravidiel uvedených v citovanej konštatácii (Kráľ 1983). V tomto<br />

prípade sme pravidlá uviedli v internom kódovaní, aby sme ukázali princíp činnosti<br />

transkripčného algoritmu. Z uvedeného príkladu vyplýva aj to, že pravidlá<br />

pre v a f musia nasledovať za pravidlom pre m.<br />

V prípade nejednoznačných pravidiel nie je možné zadefinovať jednoduché<br />

transkripčné pravidlá, pomocou ktorých by bolo možné zaistiť správny prepis<br />

jednoduchým algoritmom len na základe okolia. V takomto prípade sú na<br />

správnu transkripciu potrebné ďalšie informácie. Ako jednoduchý príklad nám<br />

tentokrát poslúžia dvojhlásky.<br />

V spisovnej slovenčine sú štyri dvojhlásky: ia, ie, iu, ô. V prípade, že po<br />

samohláske i bezprostredne nasleduje ďalšia samohláska, nemusí ísť o dvojhlásku.<br />

Príkladom sú predponové slová (priučiť, vyučiť) a prevzaté slová<br />

(Ázia). Prepis dvojhlásky ô a slov tvorených predponou vy- a základom začínajúcim<br />

samohláskou je jednoznačný, preto sa ním nebudeme zaoberať. Problémy<br />

vznikajú až pri slovách vytvorených predponou pri- a slovným základom<br />

začínajúcim samohláskou. V tomto prípade už nie je možné len na základe<br />

jednoduchých pravidiel určiť, či dvojice samohlások ia, ie, iu tvoria samohláskovú<br />

postupnosť alebo dvojhlásku. Prístup k riešeniu tohto problému rozoberieme<br />

pre každú dvojicu samostatne:<br />

ia: Ak sa na začiatku slova nachádza postupnosť znakov pria, na určenie toho,<br />

či ide o dvojhlásku alebo samohláskovú skupinu, sme využili skutočnosť,<br />

že slovenčina má len 23 slov (pozri Kráľ 1983), v ktorých základnom tvare<br />

sa na začiatku vyskytuje postupnosť znakov pria a znaky ia tvoria dvojhlásku.<br />

V prípade, že slovo patrí do tejto skupiny slov, je použité pravidlo<br />

118<br />

^!p! !r! !i! !a! → p r i ^a<br />

v opačnom prípade


^!p! !r! !i! !a! → p r I a<br />

AUTOMATICKÁ TRANSKRIPCIA SLOVENČINY V POČÍTAČOVOM ROZPOZNÁVANÍ REČI<br />

Zoznam slov bez ohýbacej prípony bol vytvorený podľa počítačového korpusu<br />

slovenčiny a údajov z literatúry (Kráľ 1983) a začlenený do pomocnej<br />

databázy. Databáza obsahuje výnimky vzťahujúce sa na konkrétne<br />

pravidlá, v tomto prípade všetky slová začínajúce na pria, kde ia tvorí<br />

dvojhlásku a nie samohláskovú skupinu.<br />

ie: V prípade postupnosti znakov prie sme zvolili opačný prístup, keďže slov,<br />

v ktorých postupnosť pri netvorí predponu ako v predchádzajúcom prípade,<br />

je podstatne viac. V sledovanom korpuse sme našli 593 rôznych slov<br />

začínajúcich sa na prie, pričom vo všetkých prípadoch išlo o dvojhlásku<br />

a nie o spoluhláskovú postupnosť. Ani Á. Kráľ (1983) neuvádza slová,<br />

v ktorých by prie obsahovalo spoluhláskovú postupnosť, teoreticky však<br />

môžu takéto slová vzniknúť spojením prevzatého, resp. cudzieho slova začínajúceho<br />

na e a predpony pri- ako napríklad prielegantný. Pre tento<br />

prípad je, za predpokladu, že dané slovo sa nachádza v pomocnom slovníku,<br />

použité nasledujúce pravidlo: V prípade, že v slovníku existuje výnimka<br />

pre predponu prie-, ktorá je aplikovateľná na dané slovo, použije sa<br />

pravidlo<br />

^!p! !r! !i! !e! → p r I E<br />

v opačnom prípade<br />

^!p! !r! !i! !e! → p r i ^E<br />

iu: Posledná z trojice je postupnosť iu. Keďže slovenčina nemá bezpredponové<br />

slovo začínajúce na priu, kde iu predstavuje dvojhlásku, je možné na každé<br />

slovo aplikovať nasledujúce pravidlo<br />

^!p! !r! !i! !u! → p r I u<br />

V sledovanom korpuse boli jedinými slovami s postupnosťou priu slová<br />

odvodené od slova priučiť. Celkový výskyt dvojhlásky iu je v slovenčine<br />

veľmi nízky, podľa J. Mistríka (1985) je to len okolo 0,016 %.<br />

119


JOZEF IVANECKÝ<br />

Postupy uvedené pre prípad nejednoznačnosti pravidiel pri dvojhláskach<br />

používame aj pre spoluhlásky, rovnako je to pri jednoznačných pravidlách. Po<br />

aplikovaní všetkých pravidiel v systéme na náš tretí segment uvedený na začiatku,<br />

získame nasledujúci prepis:<br />

J I k a m – b I – s o m – J E S i ^E l<br />

4. Správne verzus spisovne<br />

V predchádzajúcej časti sme predpokladali, že text, ku ktorému potrebujeme<br />

vygenerovať fonetickú transkripciu, je vyslovovaný spisovne a zodpovedá<br />

pravidlám, ktoré uvádza Á. Kráľ (1983), a teda rovnako aj nášmu výstupu,<br />

ktorý bol podľa týchto pravidiel vytvorený. Hovorená forma jazyka sa v rôznych<br />

oblastiach viac či menej líši od formy spisovnej a zanedbanie tejto skutočnosti<br />

v prípade počítačového rozpoznávania reči môže viesť k chybnému<br />

označeniu niektorých segmentov reči v prípade, že je tento proces vykonávaný<br />

automaticky a v zozname možných výslovností sa výslovnosť, ktorá presne<br />

zodpovedá nahovorenému textu, nevyskytuje.<br />

Na získanie správneho prepisu výslovnosti sme museli do nášho systému<br />

pridať možnosť generovať aj takzvanú „nespisovnú“ výslovnosť. Pri tvorbe<br />

tohto druhu pravidiel sme čerpali z vlastných skúseností v oblasti rozpoznávania<br />

reči, ako aj z literatúry (Kráľ 1983). Na základe vlastných skúseností<br />

sme vyrobili pravidlá na prepis dlhých samohlások na krátke, čo sa nám<br />

osvedčilo v prípade hovoriacich z východných oblastí Slovenska. Z práce Á.<br />

Kráľa sme napr. čerpali informáciu o hláske m: „V neutrálnom a vyššom štýle<br />

výslovnosti sa v slovenčine nepripúšťa výslovnosť pernozubnej spoluhlásky<br />

m namiesto n, ň v slovách ako dezinfekcia, fanfáry, infekcia, informácia,<br />

kanva, konfekcia, konferencia, konflikt, konvergencia, konvoj, panvica, panvička,<br />

skonfiškovať a v slovných spojeniach ako ten váš, len volaj, jeleň vyskočil“<br />

(Kráľ 1983, s. 155). Pre nás bolo toto pravidlo indikáciou, že takáto<br />

výslovnosť sa môže vyskytnúť, a pridali sme ho medzi pravidlá na generovanie<br />

nespisovnej výslovnosti.<br />

5. Záver<br />

Cieľom tohto príspevku bolo poukázať na problematiku automatizácie<br />

fonetickej transkripcie a prezentovať nami zvolený spôsob riešenia tohto problému.<br />

Doterajšie výsledky dosiahnuté v budovaní systému sú porovnateľné s vý-<br />

120


AUTOMATICKÁ TRANSKRIPCIA SLOVENČINY V POČÍTAČOVOM ROZPOZNÁVANÍ REČI<br />

sledkami podobných systémov v iných jazykoch. Naším ďalším cieľom je zvýšenie<br />

robustnosti systému zameraním sa na frekventované prevzaté slová v<br />

slovenčine, a tým aj rozšírenie databázy výnimiek. Z dlhodobejšieho hľadiska<br />

sa chceme zamerať na kvalitu generovania nespisovnej výslovnosti, čo je však<br />

už podmienené analýzou výsledkov reálnych systémov.<br />

Poďakovanie. Chceli by sme na tomto mieste poďakovať pracovníkom<br />

Jazykovedného ústavu Ľudovíta Štúra v Bratislave za ústretový prístup a možnosť<br />

použitia korpusu slovenčiny, bez ktorého by sme neboli schopní dopracovať<br />

sa k mnohým z našich záverov.<br />

Literatúra<br />

DARŽÁGÍN, Sachia – FRANEKOVÁ, Ľudmila – RUSKO, Milan. 1994. Konverzia a rečová<br />

syntéza slovenčiny. Jazykovedný časopis, roč. 45, č. 1. s. 31 – 43.<br />

KRÁĽ, Ábel. 1983. Pravidlá slovenskej výslovnosti. Bratislava: Slovenské pedagogické<br />

nakladateľstvo.<br />

MISTRÍK, Jozef. 1985. Frekvencia tvarov a konštrukcií v slovenčine. Bratislava: Vydavateľstvo<br />

VEDA.<br />

121


VIACJAZYČNÝ VÝSLOVNOSTNÝ<br />

SLOVNÍK VLASTNÝCH MIEN A NÁZVOV<br />

LOKALÍT<br />

Peter Ďurčo: Akadémia Policajného zboru, Bratislava (durco@<br />

minv.sk)<br />

Abstract: The ONOMASTICA project has successfully produced an important European linguistic resource<br />

in the form of a pronunciation lexicon containing 1.8 million European names in 7 languages, together<br />

with their pronunciations, namely Czech, Slovak, Slovenian, Polish, Estonian, Latvian and<br />

Ukrainian.<br />

The orthographic data is displayed using a True-Type font which matches the MS-DOS code<br />

page of the PC which produced the original data. For most Copernicus languages, this is CP852, but for<br />

Ukrainian, using Cyrillic alphabet, CP866 was used. Transcription data is mapped onto IPA from the<br />

original language-specific ASCII phonemic alphabets developed by each Copernicus partner, and displayed<br />

using the freely available IPAKiel font. The transcription display may be switched between the<br />

ASCII and IPA versions.<br />

Letter-to-sound (grapheme-to-phoneme) correspondences can be difficult to specify, even in text<br />

which does not contain names. The central observation here is that grapheme-to-phoneme correspondences<br />

are different for names with different languages of origin and that the general phonological systems<br />

of languages are only partially reflected in the names of those languages. Their anomalous pronunciations<br />

then often 'fossilise', and even when the names themselves become long-established, their phonemic<br />

form causes problems for grapheme-to-phoneme conversion rules.<br />

The ONOMASTICA lexicon will form the foundation of a range of products in the telematics sector<br />

and its emergent use in speech recognition and speech synthesis systems. Full coverage of names for Europe<br />

will be an on-going task for the language industry in Europe. The ONOMASTICA lexicon provides a very<br />

good research tool to enable to develop new services which require pronunciation of names. The ONO-<br />

MASTICA lexicon provides a resource for evaluating multi-lingual systems.<br />

Cieľom projektu COP-58 ONOMASTICA, ktorý bol financovaný Európskou<br />

komisiou v rámci programu COPERNICUS, bolo vytvorenie výslovnostného<br />

slovníka priezvisk, krstných mien, názvov lokalít a ulíc. Projekt viedol<br />

prof. Mervyn Jack 1 z Univerzity v Edinburgu. Do projektu bolo zapojených<br />

sedem stredo- a východoeurópskych krajín. 2 Projekt sa začal realizovať v janu-<br />

1 Kontakt: Prof. Mervyn Jack, Centre for Communication Interface Research, The University of<br />

Edinburgh, 80 South Bridge, Edinburgh EH1 1HN, UK, e-mail: Mervyn Jack@ed.ac.uk<br />

2 Zúčastnené inštitúcie a riešitelia: Pavel Kolár, Language Institute, Silesian University, Opava,<br />

Czech Republic, e-mail: Pavel.Kolar@fpf.slu.cz; Peeter Päll, Inst. of Estonian Language, Estonian Academy<br />

of Sciences, Tallinn, Estonia, e-mail: peeter@pea.kki.ee; Andrejs Spektors, Inst. of Mathematics<br />

122


VIACJAZYČNÝ VÝSLOVNOSTNÝ SLOVNÍK VLASTNÝCH MIEN A NÁZVOV LOKALÍT<br />

ári 1995 a bol ukončený v marci 1997. Informácie o výsledkoch projektu za<br />

slovenčinu som predstavil na rôznych fórach a boli aj publikované. 3 Zatiaľ však<br />

nedošlo k ich širšiemu využitiu. Hlavný problém spočíva v (ne)dostupnosti dát.<br />

Vzhľadom na rozsah dát nie je možné ich publikovať v tlačenej podobe a všetky<br />

výsledky existujú len v elektronickej verzii. Právo voľne poskytovať údaje<br />

má každý spoluriešiteľ len v rámci svojej časti. 4<br />

Hlavnou úlohou riešiteľov bolo spracovanie pravidiel výslovnosti vlastných<br />

mien pre automatický výslovnostný transkriptor. Vypracovanie transkripčných<br />

pravidiel výslovnosti vlastných mien bolo o to zložitejšie, že pri menách nefungujú<br />

štandardné výslovnostné pravidlá a mechanizmy, typické pre daný jazyk. Jednou<br />

z príčin týchto výslovnostných „anomálií“ je veľká mobilita mena spojená s vrstvením<br />

výslovnostných podôb v závislosti od miery jeho ustálenia a adaptovanosti.<br />

Pomenovania sú pritom veľmi často nositeľmi rôznych „fosilizovaných“ prvkov.<br />

Veľmi zaujímavým sprievodným produktom z hľadiska korpusovej lingvistiky<br />

však bolo zhromaždenie prakticky úplných zoznamov krstných mien,<br />

priezvisk, názvov lokalít, názvov ulíc, v niektorých prípadoch aj názvov firiem<br />

v siedmich jazykoch. Vo väčšine prípadov sa to podarilo vďaka využitiu databáz<br />

registrov obyvateľov v jednotlivých krajinách. Aj v prípade slovenčiny boli<br />

využité dáta bývalého Centrálneho registra pobytu obyvateľov. Takýmto spôsobom<br />

boli získané prakticky úplné údaje k uvedeným kategóriám mien 5 , čo otvá-<br />

and Computer Science, University of Latvia, Riga, Latvia: e-mail: aspekt@ailab.mii.lu.lv; Peter Ďurčo,<br />

Dept. of Foreign Languages, Police Academy, Bratislava, Slovakia, e-mail: durco@ minv.sk; Zdravko<br />

Kačic, Faculty of Technical Sciences, University of Maribor, Maribor, Slovenia, e-mail: kacic@unimb.si;<br />

Jevgenyj Ludovik, Institute of Cybernetics, Ukraine Academy of Sciences, Kiev, Ukraine, e-mail:<br />

lud@lambda.kiev.ua; Prof. Wiktor Jassem, Inst. of Fundamental Technologogical Research, Polish Academy<br />

of Sciences, Poznań, Poland, e-mail: jassem@math.amu.edu.pl<br />

3 ĎURČO, Peter. 1996. Vlastné mená na Slovensku. In: Jozef Mlacek (ed.), Studia Academica<br />

Slovaca, roč. 25. Bratislava: Stimul. s. 54 – 60; ĎURČO, Peter. 1997. Počítačové spracovanie vlastných<br />

mien na Slovensku. In: Slavomír Ondrejovič (ed.), <strong>Slovenčina</strong> na konci 20. storočia, jej normy a<br />

perspektívy. Sociolinguistica Slovaca, roč. 3. Bratislava: Veda. s. 312 – 325; ĎURČO, Peter – MED-<br />

ĽA, Milan – KOŠA, Jozef. 1996. Onomastica. Copernicus. Kop.exe. Users’ Guide. Dept. of Foreign<br />

Languages, Police Academy of the Slovak Republic and Central Residence Register of the Inhabitants<br />

of the Slovak Republic. Bratislava.; ĎURČO, Peter. 1996. Names in Slovakia: Occurrence, pronuntiation,<br />

transcription in computer compilation. In: Keith Edwards (ed.), Onomastica Research Colloquium<br />

digest, No. 1, 23. February, University of Edinburgh. s. 1 – 15.<br />

4 CD s dátami možno získať na adrese: ELRA - elra@calvanet.calvacom.fr<br />

5 Kvantitatívne údaje pre jednotlivé kategórie: krstné mená – 8433; priezviská – 208011; ulice –<br />

8142; lokality – 4060.<br />

123


PETER ĎURČO<br />

ra novú perspektívu pre onomastické výskumy na Slovensku, pretože všetky<br />

mená obsahujú kvantitatívny údaj (počet nositeľov daného krstného mena,<br />

resp. priezviska) s priradením ku všetkým lokalitám jeho výskytu, resp. je možné<br />

zistiť výskyt všetkých priezvisk v príslušnej lokalite.<br />

V tabuľke je uvedená veľkosť korpusov mien za jednotlivé krajiny:<br />

Krajina Počet<br />

Česká republika 244025<br />

Estónsko 208380<br />

Lotyšsko 245331<br />

Poľsko 244632<br />

Slovensko 228646<br />

Slovinsko 283449<br />

Ukrajina 251579<br />

Spolu 1 705256<br />

Pred spustením aplikácie a prezeraním dát je nevyhnutné nainštalovať príslušné<br />

fonty, ktoré používa program a nie je možné ich nainštalovať automaticky.<br />

Ide o štyri skupiny fontov: fonty IPAKiel na zobrazovanie výslovnosti znakmi<br />

medzinárodnej fonetickej abecedy, ďalej tzv. fonty MRPA (Machine Readable<br />

Phonetic Alphabet) na zobrazenie pomocou ASCII, font NRB CP852 na korektné<br />

ortografické zobrazenie znakov pre MS-DOS s kódovou stránkou 852. Špeciálne<br />

fonty existujú pre ukrajinskú databázu s kódovou stránkou 866.<br />

Pre každý jazyk sú dáta uložené v dvoch ASCII textových formátoch. Prvá<br />

tabuľka obsahuje východiskovú grafickú podobu každej jednotky, druhá tabuľka<br />

obsahuje priradené výslovnostné polia, ktoré môžu obsahovať aj viac riadkov,<br />

ak existujú dva alebo viaceré výslovnostné varianty.<br />

Aj keď možno prezerať dáta v ktoromkoľvek bežnom databázovom programe,<br />

dochádza k ťažkostiam pri čítaní ortografických znakov v jednotlivých<br />

jazykoch alebo pri zobrazovaní transkripčných symbolov v IPA štandarde. Aby<br />

bolo možné zobraziť dáta korektne, bol vytvorený špeciálny prehliadač<br />

COPDB, ktorý tento problém rieši. Používateľská obrazovka má nasledujúci<br />

tvar:<br />

124


VIACJAZYČNÝ VÝSLOVNOSTNÝ SLOVNÍK VLASTNÝCH MIEN A NÁZVOV LOKALÍT<br />

V prvej položke je zobrazená grafická podoba. Druhá položka zobrazuje<br />

výslovnosť, pričom tento nástroj umožňuje aj prepínanie medzi transkripciou<br />

pomocou znakov ASCII a IPA. Položka „Etymology“ označuje krajinu výskytu<br />

mena, ďalej je zobrazený kód mena v databáze. Položka „Quality“ označuje<br />

stupeň presnosti transkripčného prepisu v zmysle výslovnostnej normy, pričom<br />

I. stupeň znamená expertne overenú výslovnosť, II. stupeň výslovnosť skontrolovanú<br />

a upravenú po automatickej transkripcii, III. stupeň označuje výslovnosť,<br />

ktorá bola vykonaná automaticky len pomocou automatického transkriptora<br />

na základe predprogramovaných pravidiel. Položka „Comments“<br />

označuje kategóriu pomenovania.<br />

Myslím si, že výsledky tohto projektu možno využiť na ďalší výskum<br />

v oblasti fonetiky, onomastiky a počítačovej lingvistiky.<br />

125


ČESKÝ NÁRODNÍ KORPUS:<br />

STAV V ROCE 2001<br />

František Čermák: Ústav Českého národního korpusu, Filozofická<br />

fakulta University Karlovy, Praha (Frantisek.Cermak@ff.cuni.cz)<br />

Abstract: In a broad context, the contributions surveys the curreny state of preparation, build-up and perspectives<br />

of the Czech National Corpus and its various subcorpora. The corpus grew up out of real need of<br />

better linguistic data and its relevance for various fields of linguistics and outside is paid some attention.<br />

Some of the basic corpus-linguistics terms are revisited and redefined as well as a survey of current needs is<br />

outlined. Finally, various subcorpora, especially the 100-million contemporary corpus of written Czech are<br />

described and various criteria for its build-up discussed and given.<br />

1. Úvod<br />

Současný svět si stále více uvědomuje cenu informace, a to nejen jako pouhého<br />

zboží, ale především jako nezbytného předpokladu pro celkový rozvoj<br />

společnosti. Zvláštní místo tu zaujímá informace jazyková, o jazyku a z jazyka.<br />

Jazyk není jen nejcennější kulturní statek a dědictví společenství, které už dávno<br />

není jednonárodní, který podmiňuje a umožňuje existenci veškeré slovesné<br />

kultury od literatury přes divadlo a žurnalistiku až po osobní korespondenci i<br />

ústní komunikaci. Jazyk nám umožňuje své myšlenky a názory přenášet překladem<br />

jazykovým do jiné společnosti a nazpátek a překladem kulturním nahlížet<br />

do vlastní minulosti a udržovat kontinuitu toho, co stojí za to. Vedle své úlohy<br />

nástroje všeobecné komunikace společnosti je však jazyk i médiem vědeckého<br />

styku, nástrojem techniky a obchodu a všech dalších oblastí společenského<br />

života zrovna tak jako nástrojem sebereflexe a poznání dění kolem nás, a bez<br />

něj by tento život prostě nebyl. Jazyk je však přitom takovou samozřejmostí,<br />

jakkoliv nezbytnou, že se na něj prostě zapomíná, zapomíná se – především investičně<br />

– na to, že je o něj jako o výsostný statek kulturní třeba pečovat co nejlépe<br />

(a nejen o statky hmotné, průmyslové apod.), a tedy co nejlépe ho poznávat,<br />

toto poznání využívat a zpřístupňovat ho všem. Dnes je už zřejmé, že<br />

až dotud nevídanou, epochální možnost jeho poznání tu nabízejí komputery,<br />

které hloubkou, šíří, kvalitou i objevností své nabídky předčí cokoliv, co tu bylo<br />

až dosud.<br />

126


ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001<br />

Mluví-li jeden z dokumentů Evropských společenství v r. 1991 (Commission<br />

1991, s. 20) o tom, že „Technologie mluvy a jazyka vyžadují rozsáhlé<br />

databázové korpusy... pro výzkum a rozvoj, účely testování a k podpoře spisovatelů<br />

a překladatelů“, a odpovídá tak na otázku Proč korpus?, pak o dva roky<br />

později člen téže komise ES DG XIII J. Soler (Soler 1993) si už tuto otázku<br />

vůbec neklade a uvažuje spíše o způsobech jeho využití: „...rozvoj standardizovaných<br />

korpusů a metod a nástrojů jejich správy i aplikace je dlouhodobý podnik<br />

přesahující možnosti projektu individuálního. Nesmírnost úkolu, jehož má<br />

být dosaženo, i jeho náklady naznačují, že standardizované korpusy mají být<br />

budovány spoluprací skrze evropskou koordinaci národních snah, která je otevřená<br />

mezinárodním výměnám, i to, že výsledné korpusy mají být veřejné a<br />

orientované tak, aby uspokojovaly různé potřeby uživatelů.“<br />

2. Pojem jazykového korpusu<br />

Jazykovým korpusem lze rozumět vnitřně strukturovaný, unifikovaný a<br />

obvykle i oindexovaný a ucelený rozsáhlý soubor elektronicky uložených a zpracovávaných<br />

jazykových dat většinou v textové podobě, organizovaný se zřetelem<br />

k využití pro určitý cíl, vůči němuž pak je také považován za reprezentativní.<br />

Existence a smysl tvorby korpusu vycházejí především ze dvou základních<br />

teoretických předpokladů a jazykových faktů zároveň:<br />

1) data nejrůznějšího druhu se v korpusu nacházejí ve své přirozené kontextové<br />

podobě a užití, což umožňuje jejich všestranné a objektivní studium<br />

a indukci závěrů;<br />

2) velký rozsah plánovitě vybudovaného korpusu minimalizuje to, že čistou<br />

náhodou – k níž u malých rozsahů dat dochází – převládnou zvláštní a<br />

okrajová užití jazykových jednotek nad základními a typickými; minimalizuje<br />

se tak však i problematická indukce opřená o nedostatečnou analogii.<br />

Vedle primárně sledované reprezentativnosti korpusu v různém smyslu<br />

a míře (včetně škály typický–zvláštní/výjimečný) se u tvorby korpusu též obvykle<br />

zdůrazňuje i nutnost zachytit v něm variabilitu jazyka v různém smyslu,<br />

obojí výhodně i v kvantifikované podobě.<br />

Možnost správy hromadných jazykových dat a práce s nimi na počítači<br />

vedou ve svých důsledcích nejen k nesmírnému zrychlení a usnadnění lingvistovy<br />

práce, ale i k jejímu dotud nevídanému zkvalitnění. Data takto získaná,<br />

která lze průběžně snadno modernizovat a doplňovat, tak představují dnes absolutně<br />

nejbohatší a nejrealističtější zdroj poznání jazyka vůbec. Možnostmi<br />

127


FRANTIŠEK ČERMÁK<br />

kvalitativními i kvantitativními tento zdroj vysoko předčí všechny lingvistovy<br />

pracně budované kartotéky a archivy minulosti a nabízí se tak proti dosavadní a<br />

tradiční individuální lingvistově introspekci a elicitaci informace od rodilých<br />

mluvčích. Proto také je jazykový korpus předpokladem ke skutečné revoluci v<br />

práci s jazykem a i proto se zcela právem o posledním desetiletí tohoto století<br />

mluví také jako o dekádě korpusové lingvistiky. Mluví-li se v přírodních a dalších<br />

vědách zcela samozřejmě o základním výzkumu, na který navazuje veškerý<br />

další výzkum a aplikace, pak v jazykovědě se právě takovým zdrojem a předpokladem<br />

základního výzkumu stává elektronický korpus. Docenění jeho prvotního<br />

významu vede pak i k pochopení toho, že jeho budoucí studium a široké využívání<br />

znamená skutečně novou epochu v lingvistice, nový způsob výzkumu<br />

jak co do kvality a povahy dosahovaných výsledků (zahrnující do značné míry<br />

poprvé i ve vědě obecně nutnou možnost verifikace), tak ovšem i podoby a povahy<br />

metodologie práce s ním; své důsledky bude mít i pro filozofii přístupu k<br />

jazyku vůbec. Už na samotném začátku tu těsně spolupracují lingvisté s matematiky<br />

a odborníky v komputerové vědě a nové problémy a cíle, které se vynořují<br />

v průběhu práce, si vyžadují a budou vyžadovat zcela nové způsoby řešení a<br />

exaktnější metodologie, užité techniky a nástroje. Rostoucí význam tu nabývá<br />

lingvistické modelování a statistické metody, propojované do probabilitních<br />

modelů, ale i fuzzy logika apod. Lingvistika se právě až v této fázi stává i prakticky<br />

plně interdisciplinární.<br />

3. Korpusová data<br />

Je třeba lišit mezi povahou jazykových dat (data vnější a hrubá) ještě před<br />

jejich vstupem do korpusu a po jejich vstupu do něj (data vnitřní a strojově<br />

čitelná, resp. zpracovatelná), kdy nabývají především unifikovanou podobu.<br />

Zdrojem korpusových dat (vnějších) jsou obě manifestace jazyka, psaná<br />

i mluvená, resp. psané i mluvené texty, ne však zatím ve stejné míře, protože<br />

záznam mluveného jazyka a jeho převod do počítačově čitelné podoby (vlastní<br />

magnetofonová nahrávka a následný přepis) je dosud velmi nákladný; s<br />

ohledem na zlepšující se možnosti počítačového rozpoznávání mluvy a jejího<br />

přímého záznamu komputerem se však situace může dramaticky změnit.<br />

Dosavadní zdroje dat se podle dostupných prostředků člení v zásadě na tři<br />

druhy. Nejlevnější a nejsnadněji využitelná jsou data v podobě elektronické sazby<br />

textů, kterou dnes užívá už většina centrálních novin a časopisů a některá<br />

nakladatelství. Druhou možností, různě úspěšnou v souvislosti s mírou typo-<br />

128


ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001<br />

grafické náročnosti textu, je načítání textů, resp. jejich skenování do počítače<br />

pomocí scannerů; na rozdíl od snímání obrázků je snímání písma v jeho různorodosti<br />

a různé velikosti (jen typografických sad jsou stovky), a tedy i optické<br />

rozpoznávání znaků (OCR, Optical Character Recognition) spíše složitější a<br />

vyžaduje velmi výkonný a specializovaný software. Zvlášť složité texty, např.<br />

slovníkové, však přesto při tom vykazují mnoho chyb a vynucují si mnoho<br />

oprav. Třetí možností je konečně manuální přepisování potřebných textů do počítače<br />

písařkou (prostřednictvím některého z běžných editorů).<br />

Žádný z těchto způsobů tedy nevede k potřebným datům přímo a snadno,<br />

vždy je zapotřebí kontroly a oprav, většinou bohužel i odborných (nejjednodušší<br />

je paradoxně způsob třetí, který jazykového odborníka průběžně nepotřebuje),<br />

každý z nich však navíc vyžaduje řadu větších či menších programátorských a<br />

odborných zásahů v podobě preeditace či posteditace, různých konverzí, sjednocení<br />

aj. (viz 4., korpusová data interní), často v podobě zvláštních dalších<br />

programů. Ať už je elektronický text pořízen tím či oním způsobem (převádí se<br />

napřed většinou do neutrálního mezinárodního ASCII formátu), má pak v zásadě<br />

trvalou, neomezenou platnost a lze ho opakovaně využít při různých dalších příležitostech,<br />

což ho dělá zvlášť cenným. Doprovodnými faktory bývají i některé aspekty<br />

další, zvláště právní.<br />

Protože počet korpusů i jejich rozsah rychle roste, je dnes už zřejmá jak<br />

potřeba standardizace sběru a označování textů, tak možnost jejich vícenásobného,<br />

sdíleného použití (reusability, znovupoužitelnost). Tomu prvnímu je<br />

věnovaná mezinárodní iniciativa TEI (Text Encoding Initiative), sponzorovaná<br />

mj. Evropskými společenstvími a americkou vládou; TEI v několika dokumentech<br />

doporučuje společný výměnný formát textů, zásad kódování nových a<br />

způsoby převodu mezi formáty existujícími. Její různé subkomise už mj. specifikovaly<br />

a doporučily i vhodné znakové sady, zásady textové analýzy v návaznosti<br />

na různé obory i kódovací metajazyk. Za ten byl pro deskriptivní rámec<br />

syntaktické analýzy zvolen SGML (Standard Generalized Markup Language),<br />

uznávaný od r. 1986 jako mezinárodní standard (ISO 8879). Opakovaná, obecná<br />

znovupoužitelnost textů, aktuální zvl. ve světle nákladů na pořízení a přípravu<br />

elektronických textů i jejich mezinárodní výměny, vyžaduje ke své realizaci<br />

vyřešení především otázek polyfunkčnosti korpusu, jeho polyteoretičnosti (tj.<br />

nepoplatnosti jedné úzké teorii), dostupnosti, intelektuálních vlastnických práv,<br />

reprezentativnosti, standardizace aj.<br />

129


FRANTIŠEK ČERMÁK<br />

4. Český národní korpus<br />

Pro češtinu vznikl r. 1994 z inciativy interdisciplinární skupiny Počítačového<br />

fondu češtiny a spojením sil více univerzitních pracovišť a Ústavu pro<br />

jazyk český Akademie věd České republiky Ústav českého národního korpusu,<br />

jehož cílem bylo a je vybudovat rozsáhlý a víceúčelový korpus češtiny obecné povahy<br />

na půdě Filosofické fakulty University Karlovy, korpus, který se nazývá<br />

Český národní korpus. Svou povahou jde o projekt akademický, a tedy nekomerční,<br />

i když jedním ze sponzorů je jedno české nakladatelství. I když je nedostatek<br />

novějších jazykových dat, která by měla být v lexikálním archívu Akademie věd<br />

České republiky, ale bohužel nejsou, jednou z prvotních motivací ke tvorbě ČNK,<br />

promítly se do snah o jeho vytvoření i motivace další a záhy začalo být jasné, že o<br />

takovou informační základnu můžou mít zájem vlastně všichni synchronní lingvisté,<br />

i když si to zatím ne všichni připouštějí a postupný růst ČNK se vždy nesetkává<br />

s obecným porozuměním; nevraživost či lhostejnost zvláště některých<br />

starších lingvistů je však jen přirozeným průvodním jevem, známým odleckud.<br />

Typově projekt Českého národního korpusu předpokládá především vznik<br />

korpusu současných českých textů a klasické slovníkové databáze, které se<br />

můžou každá skládat z více částí. Vedle vlastního korpusu, u kterého se sleduje<br />

naplňovaná struktura složení, vzniká však i volněji pojatý elektronický archív.<br />

Všechny texty se mimoto evidují ve zvláštní evidenční databázi.<br />

Korpus současných českých textů, základní část ČNK, sloužící mj. i jako<br />

vydatný zdroj pro další dvě obecné složky, byl pro první fázi práce uvažován<br />

jako stomiliónový. tj. o rozsahu 100 milónu textových slov (pro srovnání uveďme,<br />

že zahraniční zkušenosti i konkrétní projekty, např. uvedený Britský<br />

národní korpus, dnes ukazují na potřebu 100 a více miliónů výskytů). Tento<br />

první korpus je dokončený a byl uvolněn pro odbornou veřejnost r. 2000. Je nesporné,<br />

že v souvislosti s jeho výstavbou a využíváním se hledala a hledá odpověď<br />

na řadu otázek, především:<br />

– reprezentativní a vyvážené zdroje konkrétních textů, získaných<br />

v elektronicky hotové podobě či optickým scannováním,<br />

– způsobů převodu/konverze textů do jednotného formátu, kompatibilního<br />

mj. i podle mezinárodních standardů (zvl. TEI),<br />

– jejich sloučení v organický celek, popř. propojení s dalšími složkami,<br />

– lingvistického označkování a utřídění i<br />

130


ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001<br />

– efektivního softwarového mapování a analýzy, korelování jeho<br />

různých částí a především<br />

– rychlého prohlížení a vyhledávání podle dané potřeby, popř.<br />

shromáždění vybrané, ale roztroušené informace v ucelený souhrn,<br />

s nímž lze dál pracovat.<br />

Dodejme, že řada nakladatelství a redakcí je dnes už ochotná své texty,<br />

ukládané elektronicky, dávat k dispozici, i když ne však všechna; na druhé<br />

straně však řada typů textu není k dispozici a je třeba je skenovat.<br />

Konkordanční báze, tvořená abecedně uspořádanými tvary slov s jejich<br />

kontexty a jejich frekvencí ve formátu KWIC, je ideálním východiskem jak pro<br />

tvorbu slovníků tak studium syntaxe či analýzu mikrostylistickou, a tedy i pro<br />

poznání kombinatoriky jazyka obecně či zjištění tematizace textů. Mívá obvykle<br />

jen výběrovou ad hoc povahu vždy pro daný účel a může se pružně obměňovat.<br />

Hlavním důvodem této výběrovosti jsou neúnosně velké rozsahy potřebných<br />

konkordancí, které jakožto dvacateronásobky apod. délky původních textů<br />

jsou velkým břemenem pro počítačovou paměť. Lze proto počítat se základní a<br />

typologizovanou referenční konkordancí stálou, na jejímž základě bude možné<br />

se kvalifikovaně rozhodovat o potřebě tvorby dočasných konkordancí dílčích. I<br />

zde vyvstávají tytéž otázky a potřeba odpovědí na ně jako u textového korpusu;<br />

přibývá pak potřeba speciálního softwaru tvorby konkordancí a především<br />

programátorského zvládnutí úskalí obrovské záplavy jazykových dat, často pro<br />

sledovaný cíl redundantních.<br />

Vedle případných konkordancí se zakládají i slovníkové databáze. Budou<br />

široce pojaté tak, aby – mj. v propojení s textovým korpusem – mohly sloužit<br />

jako základní referenční zdroj pro autory budoucích slovníků nejrůznějšího<br />

druhu. Z těchto tří typů svou strukturací do mnoha polí budou bází nejpropracovanější.<br />

Jejich prvním obsahem se stanou největší slovníky současného českého<br />

jazyka a na jejich pozadí bude možné později pro nový slovník češtiny snadno<br />

ověřovat, za použití materiálu nabízeného z textových korpusů, co se v jazyce<br />

změnilo, co chybí, jaké jsou objektivní proporce jevů aj. Konkrétně budou tuto<br />

náplň tvořit především stávající slovníky: čtyřsvazkový Slovník spisovného<br />

jazyka českého (SSJČ) o rozsahu 192 000 hesel na 5600 stranách, který už byl<br />

opticky sejmut a dál se zpracovává; hotové 2. vydání jednosvazkového Slovníku<br />

spisovné češtiny o rozsahu asi 48 000 hesel vyšlo i v disketové podobě a je<br />

tedy počítačově k dispozici hned. Protože i tato databáze bude složena z několika<br />

dílčích, může do sebe zahrnout po příslušné konverzi i počítačově už dostupné<br />

slovníky další, zvl. retrográdní, popř. frekvenční apod.; přepsat by bylo<br />

131


FRANTIŠEK ČERMÁK<br />

zřejmě vhodné pro tyto účely velkou část novodobých vrstev lexikografického<br />

archívu Ústavu pro jazyk český, které už do SSJČ vstoupit nemohly.<br />

Všechny formy či mody existence korpusu mj. závisejí na dobrém a rychlém<br />

vyhledávacím programu, resp. programech; většinou je přímo součástí základních<br />

databázových programů obou typů (viz výše), popř. i programu konkordančního.<br />

Některá členění uvnitř uvedených složek Českého národního korpusu byla<br />

naznačena už výše. Český národní korpus je střechový název pro několik entit<br />

a složek v různém stadiu rozpracovanosti a vývoje. Všechny složky jsou vytvářeny<br />

výhradně z elektronických textů různé povahy, zaměření a rozsahu. Základní<br />

dělení je na (1) synchronní korpus a (2) diachronní korpus. V rámci<br />

synchronního korpusu dominuje svou velikostí (1A) synchronní korpus psaný,<br />

patří sem však také (1B) synchronní korpus mluvený (zvl. Pražský mluvený<br />

korpus) a (1C) synchronní korpus nářeční. Zčásti obdobné je dělení diachronního<br />

korpusu na složku (2A) diachronního korpusu psaného a (2B) diachronního<br />

korpusu nářečního. Nářeční korpusy obojího typu však mají z praktických<br />

důvodů zatím jen výhledovou povahu. Postupně budovanou složkou,<br />

která má však především pomocný charakter, je lexikografická databáze složená<br />

z dostupných elektronických slovníků různého druhu. I když u nás vznikají<br />

specializované korpusy i jiné a jinde, je ČNK pro češtinu a Česko jediným<br />

zdrojem svého druhu a jako takový má i určitý mezinárodní význam. ČNK je<br />

bezprecedentně největší informační bází v ČR a patří dnes i k významným evropským<br />

projektům.<br />

V jazyce se nenabízejí žádná jasná a nepochybná kritéria pro stanovení<br />

časových rozmezí, a tedy ani pro stanovení hranic jednotlivých druhů korpusů.<br />

Časová parcelace ČNK je také proto do jisté míry arbitrární a závislá na činitelích<br />

vnějších, historických. Jistým vodítkem pro oddělení současného jazyka od<br />

jazyka staršího (resp. správněji řady jeho různých diachronních podob) je však<br />

vždy to, jak se dnešní mluvčí k jednotlivým formám jazyka stavějí a co vyciťují<br />

jako ještě živé a co už ne. V podstatě z těchto hledisek byly také vymezeny<br />

spodní časové hranice synchronního korpusu psaného.<br />

V oblasti pokrytí (1) novin a časopisů byl za základ a začátek textového<br />

mapování a zařazování do korpusu vzat rok 1990 se svým přelomovým charakterem<br />

(1990–); starší noviny, plné dobového ideologického newspeaku, můžou<br />

dnes už jen těžko představovat současný jazyk, který se právě v publicistické oblasti<br />

mění nejrychleji. Vzhledem k tomu, že knihy, zvláště beletristické, se nejen<br />

znovu a znovu někdy přetiskují i později, ale že se hojně čtou i někteří autoři<br />

132


ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001<br />

starší, kteří takto do současnosti patří, protože ji svým vlivem spoluvytvářejí, bylo<br />

pro ně stanoveno několik vzájemně se doplňujících kritérií dalších. Vedle (2a)<br />

knih (hlavně románů) poprvé vydaných po r. 1990 včetně (1990–, kritérium<br />

shodné s (1)) bylo rozhodnuto respektovat i (2b) čtené autory starší, jako je Jaroslav<br />

Hašek a Karel Čapek, a to ty, kteří se narodili r. 1880 nebo později (tj. v<br />

letech narození J. Haška a K. Čapka) a konečně (2c) knihy publikované od r.<br />

1945, tj. od konce 2. sv. války (1945–); u tohoto posledního kritéria jde však o<br />

procentuálně řidší zastoupení než u (2a). Jazyk takto vymezených autorů totiž<br />

ještě žije. Jednotkou evidovanou, kterou lze v ČNK zvlášť identifikovat, je takto<br />

buď jednotlivá kniha, nebo číslo novin; vzorky se v tomto přístupu neuplatňují.<br />

Všechna ostatní díla, která těmto kritériím nevyhovují, jsou řazena do<br />

korpusu diachronního. Je však třeba připomenout, že k dispozici ani zdaleka<br />

ještě nejsou všichni vhodní kandidáti pro zařazení do ČNK (problém dostupnosti<br />

textů je trvalým problémem), a že i u dostupných a daným kritériím vyhovujících<br />

knih, textů bylo nutno přikročit k proporcionálnímu výběru (např.<br />

beletrie je v celku synchronního korpusu jen něco přes 11 %). Bylo by tudíž<br />

omylem domnívat se, že ČNK obsahuje celou českou literaturu daného období,<br />

popř. že v rámci projektu ČNK je převod tak rozsáhlého souboru dat proveditelný.<br />

Korpus obsahující všechny texty a autory nikde neexistuje a zřejmě ani<br />

existovat nebude. Jde však o to, mít ho co největší a pružně rozšiřovaný.<br />

Horní časovou hranicí pro zařazení textů do synchronního psaného korpusu<br />

bylo časové rozmezí let 1999, dané v podstatě dostupností textů, které lze<br />

získávat vždy jen s určitým časovým odstupem; nějaký čas si vždy ovšem vyžádá<br />

i jejich interní zpracování. Takto pokrytá časová etapa, tj. od roku 1990 (s<br />

naznačenými přesahy do minulosti do roku 1998/99), je zastoupena k r. 2000,<br />

tj. v době dokončení první etapy ČNK, synchronním korpusem v rozsahu cca<br />

100 miliónů textových slov ve vyvážené reprezentativní podobě. Projekt ČNK<br />

ovšem pokračuje dále a na první etapu a verzi navážou verze další a rozsáhlejší.<br />

Těchto 100 miliónů slov je zároveň označkováno vnějším značkováním co<br />

do typu a původu textu i (pokusným) značkováním vnitřním. Takto je každý<br />

tvar určen co do své morfologické platnosti a zařazení včetně slovního druhu;<br />

přiřazena je lemmatizace. Jednotlivé typy anotace lze zároveň užít i pro vyhledávání,<br />

zadá-li si je uživatel.<br />

Uvedený rozsah jen samotných textů bez označkování je nevídaně velký,<br />

jaký dosud nikdy k dispozici nebyl; pohybuje se v rozmezí 1 – 2 gigabytů a jeho<br />

prosté manuální prohlížení přesahuje lidské možnosti. Máme-li si ho nějak<br />

přiblížit, pak toto číslo v podobě a velikosti průměrných tištěných knižních<br />

133


FRANTIŠEK ČERMÁK<br />

stránek (při knize o cca 250 standardních stranách běžného tisku a tenkého papíru),<br />

odhadem představuje asi 10 zaplněných metrů místa na polici. Jen pouhé<br />

přečtení celého synchronního korpusu by pak při dost rychlém tempu (150 slov<br />

za minutu, 8 hodin denně a 365 dní ročně) zabralo přes 4 roky. Podstatné je, že<br />

příslušný software tento rozsah prohlédne a výsledek uživateli představí (podle<br />

složitosti dotazu) maximálně za pár sekund.<br />

Diachronní korpus je budován s cílem vytvořit elektronickou materiálovou<br />

základnu pro výzkum vývoje českého jazyka od prvních dochovaných<br />

souvislejších záznamů (2. polovina 13. stol.) do doby, kterou pokrývá synchronní<br />

korpus (zhruba do poloviny 20. stol., s přesahem do konce 80. let 20. stol. v<br />

případě novinových a časopiseckých textů). Do korpusu jsou zařazovány pouze<br />

dobové a útvarově autentické texty, tj. texty, u nichž lze s rozumnou mírou jistoty<br />

vyloučit, že do nich byly vneseny prvky pozdějšího jazykového stavu nebo<br />

jiného jazykového útvaru: jsou to především opisy a přetisky, které vznikly podstatně<br />

později než původní text (netýká se kritických edic), a ty, které původní<br />

text zjevně zkreslují nářečními a jinými prvky.<br />

Postup budování diachronního korpusu je pomalý a obtížný, neboť většinu<br />

textů je třeba manuálně přepisovat nebo (v případě spolehlivých novodobých<br />

edic) skenovat a manuálně korigovat. Vzhledem k tomu, že elektronické prohledávání<br />

různorodých paleografických podob textů z odlišných období vývoje<br />

českého pravopisu je prakticky nezvládnutelné, vstupují texty z doby před<br />

rokem 1849 do diachronního korpusu v transkribované podobě. V současné době<br />

není v možnostech ČNK standardně připojovat k transkribovaným starším textům<br />

jejich transliterované podoby, avšak pro budoucnost se počítá s podstatně<br />

užším spojením transkripce s originálem, a to ve formě elektronického propojení<br />

korpusových transkribovaných textů s digitalizovanými obrazy jednotlivých<br />

stránek původních předloh. Toto řešení by mělo nejen dát badatelům příležitost<br />

detailního ověřování jednotlivých případů transkripce, ale i podstatně<br />

rozšířit možnosti korpusového výzkumu na oblast vývoje grafiky a pravopisu.<br />

Jeho realizace je však velmi náročná.<br />

Diachronní korpus dosáhl v roce 2000 celkového objemu 1 750 000 textových<br />

slov. Jeho součástí je mj. banka transliterovaných textů (o celkovém rozsahu<br />

přibližně 100 000 textových slov) a jazyková databáze (v níž se shromažďují<br />

překlady starších českých slov, vysvětlivky jednotlivých obratů, míst v textech<br />

ap., obsažené v jednotlivých edicích).<br />

Mluvený korpus synchronní (Pražský mluvený korpus), který je samostatnou<br />

složkou ČNK, byl původně vytvářen z hlediska výzkumu frekvence<br />

134


ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001<br />

autentické mluvené, především obecné češtiny a jeho rozsah a povaha byly do<br />

vysoké míry dány pragmaticky, možnostmi, které byly k dispozici. Jeho dnešní<br />

rozsah činí přes 700 000 slov. Kvůli limitujícím faktorům je prozatím omezený<br />

na oblast Prahy a okolí, kde míra širší reprezentativnosti je nejvyšší (Praha<br />

ovlivňuje ostatní území nejen mediálně, ale i tím, že v ní pracují lidé z celé<br />

země); je však naděje na získání ještě obdobných korpusů dalších. Mluvený<br />

korpus časově pokrývá období let 1988 – 1996 a představuje zdaleka největší a<br />

nejreprezentativnější záznam autentického mluveného jazyka, který česká lingvistika<br />

ve svém uhranutí téměř výlučně jazykem psaným dosud tradičně ignorovala.<br />

Rozsah 700 000 textových slov je podle dnešních nároků a ve srovnání<br />

s psaným synchronním korpusem malý, ale je třeba vidět, že odpovídá reálným<br />

možnostem. Jde především o to, že získání takového korpusu je<br />

mnohonásobně pracnější a dražší než vybudování korpusu psaného a že dosud<br />

není k dispozici ani celková metodologie výzkumu mluveného jazyka, která –<br />

měla-li být převzata z jazyka psaného – například v oblasti syntaxe zcela selhává.<br />

Povaha mluveného jazyka je v mnohém jiná než jazyka psaného a jeho<br />

komplexní a systematický výzkum je dosud velkým úkolem.<br />

Projekt mluveného korpusu, složený z cca 300 magnetofonových nahrávek<br />

v upraveném přepisu, sledoval reprezentativní zastoupení 4 hlavních sociolingvistických<br />

proměnných: pohlaví mluvčích (muž – žena), věku (vyšší –<br />

nižší s hranicí kolem 35 let, ale s vyloučením jazyka nedospělé mládeže),<br />

vzdělání (nižší – vyšší) a typu textu, resp. nahrávky (formální, tj. podle předem<br />

připravených širokých otázek, nebo neformální, tj. neřízený dialog dvou mluvčích,<br />

kteří se znají). Tak vzniklo několik desítek kombinací těchto čtyř indexů,<br />

které se nahrávkami naplňovaly tak, aby se dosáhlo vyvážené, proporcionální<br />

podoby. Nahrávky se pak manuálně přepisovaly standardním způsobem do počítače<br />

a anotovaly.<br />

Vedle neoznačené, tj. prostě textové podoby, která je už veřejně dostupná,<br />

má být tento korpus po dokončení zpřístupněný včetně bohaté anotace textové<br />

a lingvistické zahrnující i víceslovné jednotky a vůbec poprvé i frazeologii; je<br />

to první korpus v Evropě vůbec obsahující mj. úplné značkování frazeologie.<br />

Jeho hlavní využitelnost je specificky v oblasti lexikonu a morfologie; méně<br />

vhodný je pro studium syntaxe (vzhledem k malému rozsahu) i ke zkoumání tématickému<br />

apod.<br />

Zvláště mluvený korpus představuje značný a specifický problém: v důsledku<br />

v minulosti pěstovaného přezírání a následného opomíjení výlučně ve<br />

prospěch spisovného jazyka tato část jazyka zůstává nemapovaná, a to je lin-<br />

135


FRANTIŠEK ČERMÁK<br />

gvisticky situace jak neudržitelná, tak neopodstatnitelná, na druhé straně však i<br />

metodologicky náročná a nová. Kromě nového asi třičtvrtěmiliónového korpusu<br />

mluvené češtiny, jehož zpracování bude dokončeno v r. 2001, a to zvláště pro<br />

potřeby frekvenčního slovníku mluveného jazyka, k dispozici není nic, a musí<br />

se tudíž, spolu s vypracováváním metodologie sběru a zpracování, která je tu<br />

značně jiná, i začínat prakticky od nuly. Je třeba si uvědomit, že magnetofonové<br />

nahrávání, přepis do počítače a okódování každého slova složitým číselným<br />

kódem, který se realizuje, je jak pracné, tak nesmírně drahé. Dodejme, že<br />

právě vzhledem k nesmírné absurdnosti situace zde, tj. vzhledem k tomu, že<br />

většina naší komunikace je mluvená a přitom pro její výzkum a popis není v<br />

daném smyslu k dispozici nic, kdežto pro menšinovou komunikaci psanou disponujeme<br />

už teď miliónovými záznamy, je třeba tento stav urychleně a koncepčně<br />

řešit v širším měřítku.<br />

Výčet složek ČNK lze konečně uzavřít připomenutím toho, co bylo řečeno<br />

už výše: podle potřeby a cíle i možností vzniku různých dílčích databází<br />

specializovaných. K nim může nesporně patřit terminologická databáze lingvistická<br />

(zvlášť postrádaná mnohými) i z jiných oborů, databáze českých<br />

kořenů a kmenů, registr všech evidovaných forem i lemmat v různých databázích<br />

apod.<br />

5. Aspekty práce a využití<br />

Složení korpusu se řídí řadou kritérií, stále dolaďovaných; jejich základ se<br />

opírá o podniknutý sociologický výzkum. Vedle vlastních obsahových kritérií,<br />

jako je podíl textů žurnalistických, beletristických či odborných, se výběr řídí<br />

podle vymezení statistické populace, a to především kritérii (A) recepce či (B)<br />

produkce, a tedy podle toho, jak jazyk lidé užívají (recepce, tj. jazyka ve skutečnosti<br />

jen několika málo spisovatelů, novinářů apod. pro velmi široké publikum<br />

různých médií), či toho, jak ho píšou a mluví (produkce, tj. jazyka velmi<br />

širokého vzorku aktivních uživatelů pro stejně široké spektrum příjemců).<br />

K primárně řešeným otázkám patřila tedy reprezentativnost, jejíž průzkum<br />

dospěl k několika stupňům poznání. Už první její výzkum, který byl svou<br />

podstatou sociologický a zabýval se průzkumem prosté recepce jazyka, tj. zjišťování<br />

proporcí, v nichž jsou lidé vystaveni různým druhům jazyka, přinesl<br />

některá zásadní překvapení. Tak např. bylo zjištěno, že celá třetina pokrytí patří<br />

textům odborným (33,5 %), zatímco nespecializované, neodborné texty tvoří<br />

zbývající dvě třetiny (66,5 %). Z toho noviny a časopisy pokrývají 56 %, zatím-<br />

136


ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001<br />

co próza a poezie 10 %; 0,5 % připadlo na jiné, tj. okrajové a zvláštní typy textů.<br />

Složité technické otázky značkování, resp. anotace či taggování korpusového<br />

materiálu a jeho automatizace přesahují možnosti této stručné informace,<br />

naznačme jen, že zahrnují stejně tak oblast lemmatizace, a to lexémů jednoslovných<br />

i později víceslovných, jako syntaktického parseru, řešení jednoznačnosti<br />

záznamu či způsoby jeho uložení do korpusu. V pozdějších fázích snad<br />

však zahrnou i propojení jednotlivých korpusů a databází dohromady i jejich<br />

automatické on-line doplňování o nové formy, prvky a lexémy. Dodejme, že<br />

ČNK je experimentálně morfologicky označkovaný a lemmatizovaný. V<br />

současnosti se značkování i lemmatizace pro přílišnou chybovost reviduje a<br />

předělává a výhledově bude nutné řešit i související problém víceslovnosti.<br />

První zkušenosti s korpusy v různých jazycích přinesly už i některé zásadní<br />

zkušenosti metodologické povahy. Jednak je zřejmé, že analýza většiny sémantické<br />

stránky jazyka (srov. mj. Atkins 1987), která je na rozdíl od diskrétní<br />

formy (tu lze opřít programově o binární volbu typu „ano – ne“) spíše většinou<br />

kontinuální a škálové, resp. splývavé povahy (a tedy v závislosti především na<br />

volbě typu „spíše toto než to, popř. ono“), bude mít jinou povahu (M. A. K. Halliday<br />

1991: jazykový systém je inherentně probabilistický, jeho kontinuu s<br />

komplementárními perspektivami gramatiky a lexikonu lépe vyhovuje koncepce<br />

lexikogramatiky). Významným přístupem, založeným na předpokladu různé<br />

statistické pravděpodobnosti výskytu různých jevů formy, je vyhodnocování<br />

těchto aspektů na základě probabilistických odhadů, měření a různých indexů<br />

(o vztahu kvantitativních a kvalitativních aspektů viz mj. Itkonen 1980, srov.<br />

i Brunet 1986). Vždy však ke studiu této stránky bude možné přejít pouze skrze<br />

zřetelně a spolehlivě okódovanou stránku formální; jedno tu tudíž předpokládá<br />

druhé. I ve formální stránce jazykových dat lze však pozorovat, resp. předpokládat<br />

nejednoduchost a nejednoznačnost, především ve smyslu časté variabilnosti<br />

formy, která jako jazykový fakt stojí proti snahám některých ligvistů o<br />

zjednodušenou a násilně sjednocenou kodifikaci. Na druhé straně se jako odraz<br />

určité skepse k síle jednotlivých jazykových teorií také doporučuje (srov. Leech<br />

1993), aby značkování bylo spíše jednodušší, široké a konsensuální (viz dál) a<br />

nevycházelo z jedné konkrétní teorie, protože se později nemusí osvědčit a<br />

označkovaná data by nebyla jinak použitelná ani v přístupech dalších.<br />

Obecně lze uvažovat o více typech zužitkování a třebaže konkrétní podoba<br />

bude dána také zájmem z té či oné strany, lze přesto zmínit především či aspoň<br />

137


FRANTIŠEK ČERMÁK<br />

tři okruhy výstupů. Každý z nich bude mít ovšem různě přímou/nepřímou praktickou<br />

využitelnost a tudíž i různého příjemce.<br />

První okruh představují slovníky výkladové i překladové, gramatiky a učebnice<br />

i samotná data v databázích, na nichž budou stavět, tedy výstupy společensky<br />

a zřejmě i komerčně bezprostředně zajímavé. Není jistě žádným tajemstvím,<br />

že mnohá slova ve slovnících nejsou, ať stará či nová, že mnohá informace<br />

je v lepším případě pokřivená či zastaralá, či že mnohé otázky třeba našich<br />

mluvnic nemohly být pro nedostatek dat vůbec řešeny a není proto ani tak<br />

těžké si představit, co vše se může v této sféře nabídnout lepšího. A v horším<br />

případě nemá už cenu nijak zastírat, že mnohé z autoritativních soudů předchozích<br />

normotvůrců a autorů především gramatik stojí na hliněných nohách, jsou<br />

nepodložené, apriorní a, v tom lepším případě, minimálně problematické a<br />

skutečnému vědeckému výzkumu vzdálené. V zrcadle korpusu a jeho informací<br />

jsou pak především minulé soudy kodifikační povahy krajně problematické,<br />

jazykový svět, stejně tak jako ten reálný, prostě není černobílý.<br />

Hlavním úkolem však bude, což bude starostí některého z návazných pracovišť,<br />

nabídnout Čechům a bohemistům pořádný, objektivní a spolehlivý velký<br />

slovník současné češtiny. Český národní korpus se tak stává hlavním a vlastně<br />

jediným možným zdrojem poznání a dat pro tvorbu takového příštího slovníku.<br />

Není žádným tajemstvím, že náš dosud největší výkladový slovník (SSJČ), jehož<br />

poslední svazek vyšel už před 31 lety, tj. r. 1971, a první dokonce před více než<br />

40 lety, už poněkud nutně zastarává, mnohé – zvláště v důsledku prudce se měnící<br />

češtiny dneška – v něm není a mnohé je nepříjemně poplatné komunistickým<br />

dobám, kdy vznikal. Jakkoliv nelze podceňovat lidskou intuici, bude to především<br />

korpus, odkud bude možné čerpat poznání o tom, co je v jazyce typické, co se<br />

nejčastěji a jak říká či píše a co je naproti tomu řídké a netypické. Na jeho obrovském<br />

podkladě pak bude taky mj. konečně možné zjistit ze skutečného úzu a<br />

způsobů používání jazyka, pokud jde o jeho varianty, kam se ubírá vývoj, a ověřit<br />

si tak objektivně např. i to, nakolik pravopisná pravidla odpovídají životu a nakolik<br />

nikoliv.<br />

Druhý okruh představují zkušenosti, podklady i realizované dílčí výstupy<br />

a programy ve sféře komputerizace jazyka. Půjde především o výstavbu dokonalejších<br />

spelling-, grammar- i style-checkerů, tedy korektorů pravopisu,<br />

mluvnice i stylu, o dělicí programy, automatické gramatiky a analyzátory pro<br />

dané účely i o moduly pro komunikaci s počítačem v přirozeném jazyce a možnosti<br />

další, především ve směru významového zkoumání jazyka. Významným<br />

momentem tu jsou desiderata, která se už teď kladou na kvality a povahu kor-<br />

138


ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001<br />

pusů ze strany Evropské unie především ve smyslu vzájemné kompatibility a<br />

možnosti paralelního zkoumání jazykových dat: členové ÚČNK jsou partnery<br />

dvou velkých evropských multinacionálních projektů v rámci iniciativy Copernicus,<br />

které jsou zaměřeny na otázky budování národních korpusů.<br />

Třetí, nejužší okruh bude polem pro realizaci a precizaci samotné lingvistické<br />

teorie, jejíž bezprostřední využití sice žádné neexistuje, jejíž vliv však<br />

může být zcela zásadní a všudypřítomný. Přestože korpus je pro lingvisty všeho<br />

druhu obecným a základním zdrojem, popř. testovacím prostředím (viz výše),<br />

lze s ohledem na jejich primární orientaci na něj rozlišit především následující<br />

typy profesionálních uživatelů:<br />

A – lexikografové/lexikologové (zdroj informací o skutečném úzu obecně<br />

či specifických slov apod.),<br />

B – komputační lingvisté (zdroj zjišťovaných statistických pravděpodobností<br />

jako klíč k analýze, prostředí k aplikaci teorií a modelů jazyka, automatické<br />

získávání lexikálně-sémantických znalostí, řešení vztahu gramatika – lexikon<br />

aj.),<br />

C – teoretičtí lingvisté (zdroj vzorků jazykových jevů i prostředí ověřování<br />

svých domněnek apod.),<br />

D – úzcí specialisté (zdroj specifických informací, paralelních řešení i úzu<br />

ap. pro překladatele, terminology, dialektology aj.),<br />

E – aplikovaní lingvisté (autoritativní a typický zdroj dat, zvl. pro výuku,<br />

tvorbu jazykových pomůcek.<br />

Mimolingvistické využití korpusu se nabízí vlastně všem oblastem a disciplínám,<br />

které pracují s jazykem, a to hlavně jako referenční zdroj informací<br />

o distribuci zjišťovaného jevu. Především tu jde však o specialisty různých<br />

oborů zaměřené na obsah textů (historikové, literární kritikové, tvůrčí autoři,<br />

sociologové, psychologové) či jejich formu (specialisté na média včetně např.<br />

reklamy, stejně jako právníci apod.).<br />

Do určité míry tu živnou půdu budou skýtat předchozí dva okruhy aplikací<br />

v podobě zatím, tj. stávajícími technikami a teoriemi neřešitelných problémů či<br />

prostých otázek; především však bude usilovat o posunutí hranice poznání<br />

vlastní disciplíny tam, kde jsme se dosud museli spokojovat s prozatímními<br />

závěry a předpoklady. Mám na mysli možnosti řešení, tj. na základě velkého<br />

rozsahu dat a exaktních technik, takových otázek, jako jsou sémantické zákonitosti<br />

kombinace slov, podstata a hranice ustálenosti nebo metafory. Je zřejmé,<br />

že na základě hlubšího poznání v první oblasti budeme pak schopni říct leccos<br />

navíc i o zákonitostech našeho myšlení; v druhé oblasti si nejenom například<br />

139


FRANTIŠEK ČERMÁK<br />

lexikograficky ujasníme, při kolika výskytech dané formy v textu už lze místo<br />

posunu starého významu uvažovat význam nový, popř. samostatnou kombinaci<br />

slov, ale především budeme vědět víc o samotné hranici jazykové synchronie, a<br />

tedy jazyka současného a živého, a o povaze přechodů k diachronii a minulým<br />

stavům jazyka, s nimiž se lingvisté nejsou dnes schopni vyrovnat; konečně v<br />

třetí oblasti naše poznatky umožní nejen kvalifikovaně hodnotit metafory<br />

slovesného umění, jejich zpětný vliv na intelektuální vnímavost lidí, ale i jejich<br />

podíl na samotném vývoji jazyka a tím i kultury.<br />

Literatúra<br />

ATKINS, Sue – CLEAR, Jeremy – OSTLER, Nicholas. 1992. Corpus Design Criteria. Literary<br />

and Linguistic Computing, roč. 7, č. 1, s. 1 – 16.<br />

BIBER, Douglas. 1993. Representativeness in Corpus Design. Literary and Linguistic<br />

Computing, roč. 8, č. 4, s. 243 – 257.<br />

British National Corpus. Written Corpus Design Specification. 1991 (a handout information).<br />

BRUNET, É. (ed.). 1986. Méthodes quantitatives et informatiques dans l’étude des textes<br />

(hommage à Charles Mueller). Collogue international de CNRS. Paris: Université de Nice.<br />

ČERMÁK, František. 1995. Komputační lexikografie. In: F. Čermák – R. Blatná (eds.). Manuál<br />

lexikografie. H+H: Praha.1995, s. 50 – 71.<br />

ČERMÁK, František – BLATNÁ, Renata (eds.). 1995. Manuál lexikografie. H+H: Praha.<br />

ČERMÁK, František. 1997. Czech National Corpus: A Case in Many Contexts. International<br />

Journal of Corpus Linguistics, roč. 2, č. 2, s. 181 – 197.<br />

ČERMÁK, František – KRÁLÍK, Jan – KUČERA, Karel. 1997. Recepce současné češtiny a reprezentativnost<br />

korpusu. Slovo a Slovesnost, roč. 58, s. 117 – 124.<br />

ČERMÁK, František. 1995. Jazykový korpus: Prostředek a zdroj poznání. Slovo a slovesnost, roč.<br />

56, s. 119 – 140 (revidovaná verze In: Studie z korpusové lingvistiky, 2000, s. 15 – 37).<br />

ČERMÁK, František. 1998. Czech National Corpus: Its Character, Goal and Background. In: P.<br />

Sojka – V. Matoušek – K. Pala – I. Kopeček (eds.). Text, Speech, Dialogue. (Proceedings of the First<br />

Workshop on Text, Speech, Dialogue-TSD '98, Brno, Czech Republic, September.). Brno: Masaryk<br />

University, s. 9 – 14.<br />

ČERMÁK, František. 2001. Language Corpora: The Czech Case. In: V. Matoušek et al. (eds.).<br />

Text, Speech and Dialogue, TSD 2001. Berlin – Heidelberg – New York: Springer, s. 21 – 30.<br />

HALLIDAY, M. A. K. 1991. Corpus studies and probabilistic grammar. In: K. Aijmer et al.<br />

(eds.). Corpus Linguistics. Studies in Honour of Jan Svartvik, s. 30 – 43.<br />

ITKONEN, E.: Qualitative vs quantitative analysis in linquistics. In: T. Perry (ed.). Evidence<br />

and Argumentation in Linguistics. Berlin 1980.<br />

LEECH. G. 1993. Corpus annonation schemes. Journal of Literary and Linguistic Computing,<br />

roč. 8, č. 4, s. 275 – 281.<br />

KOCEK, J. – KOPŘIVOVÁ, M. – KUČERA, K. (eds.). 2000. Český národní korpus: Úvod<br />

a příručka uživatele. Praha: Ústav Českého národního korpusu FFUK. (F. Čermák spoluautor. zvl. 1.1,<br />

1.21-1.22 a předmluva.)<br />

140


ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001<br />

KRUYT, J. G. 1993. Design Criteria for Corpora Construction in the Framework of<br />

a European Corpora Network. Final Report. Leiden: Institute for Dutch Lexicology INL.<br />

NORLING-CHRISTENSEN, Ole. 1992. Preparing a Text Corpus. Computational Tools and<br />

Methods for Standardizing, Tagging and Structuring Text Data. In: R. Kiefer et al. (eds.), Papers in<br />

Computational Lexicography COMPLEX '92. Budapest: Research Institute for Linguistics, Hungarian<br />

Academy of Sciences, s. 251 – 259.<br />

SINCLAIR, John McH. 1991. Corpus, Concordance, Collocation. Oxford: Oxford University<br />

Press.<br />

ČERMÁK, F. et al. (eds.). 2000. Studie z korpusové lingvistiky. Praha: Karolinum.<br />

ŠULC, Michal. 1999. Korpusová lingvistika. První vstup. Praha: Karolinum.<br />

ŠULC, Michal. 2001. Tematická representativnost korpusů. Slovo a Slovesnost, roč. 62, s. 53 – 61.<br />

141


ČESKÝ NÁRODNÍ KORPUS –<br />

POČÍTAČOVÁ DEMONSTRACE<br />

Michal Křen: Ústav Českého národního korpusu, Filozofická fakulta<br />

University Karlovy, Praha<br />

Abstract: This paper briefly describes the structure of the Czech National Corpus, the acquisition of texts<br />

and the whole process of their subsequent conversion into the final SGML format. It also deals with the architecture<br />

of the software tool that is provided to the registered users. The emphasis of the workshop<br />

presentation is put on practical computer demonstration of the tool and possibilities of its usage for data<br />

mining.<br />

1. Složení Českého národního korpusu<br />

Český národní korpus je zastřešujícím názvem projektu, který v sobě zahrnuje<br />

vytvoření více různých korpusů, kromě synchronního jsou to zejména diachronní<br />

a mluvený korpus. Nadále se však budu věnovat výhradně korpusu<br />

SYN2000, což je reprezentativní synchronní korpus psaného jazyka, zachycující<br />

nejrůznější žánry a typy textů psané češtiny devadesátých let. Jeho rozsah činí<br />

100 miliónů slovních tvarů. Na základě řady výzkumů, při kterých se brala v<br />

úvahu zejména recepce, bylo jeho složení stanoveno takto: 60 % tvoří publicistika,<br />

tedy především noviny, a to jak celostátní tak regionální, 25 % odborná literatura<br />

a 15 % beletrie. Těžištěm korpusu jsou texty vzniklé v letech 1990 – 1999.<br />

Výjimkou z tohoto vymezení jsou pouze významná beletristická díla, která se stále<br />

čtou a vydávají; podmínkou však je, že se jejich autor narodil po roce 1880.<br />

2. Získávání textů a jejich konverze do SGML<br />

Nyní bych se chtěl ve stručnosti věnovat problematice získávání textů a zejména<br />

procesu jejich převodu do jednotného SGML formátu, ve kterém jsou nakonec<br />

uloženy a připraveny k využívání pomocí korpusových nástrojů. Protože tomuto<br />

tématu nebývá obvykle věnována dostatečná pozornost, chtěl bych celý tento<br />

proces shrnout a stručně popsat, jak probíhá v Ústavu Českého národního<br />

korpusu.<br />

2.1 Získávání textů<br />

142


ČESKÝ NÁRODNÍ KORPUS – POČÍTAČOVÁ DEMONSTRACE<br />

Texty do korpusu získáváme v zásadě třemi různými způsoby: nejvýhodnější<br />

je dostat texty v elektronické podobě přímo od vydavatele, a to na základě<br />

dohody o jejich nekomerčním využití. Bohužel ne všechna nakladatelství<br />

s poskytnutím textů souhlasí, v ideálním případě však lze takto získat celé archivy<br />

jednotlivých titulů novin a časopisů nebo velké množství knih v jednom<br />

formátu. Druhou možností je stahování z internetu. V této souvislosti bych<br />

chtěl vyvrátit poměrně častou domněnku, že získávání textů není žádná velká<br />

věda, stačí jich přeci pomocí automatických programů stáhnout z internetu co<br />

nejvíce. To sice na první pohled vypadá jako velice rychlé a elegantní řešení, je<br />

však použitelné jenom v omezené míře. Na internetu skutečně nalezneme velké<br />

množství textů, jsou však často nekvalitní, bez korektur, v některých případech<br />

dokonce chybí i diakritika. Také internetové archivy novin a časopisů jsou často<br />

neúplné, a je tedy třeba si texty před stažením pečlivě vybírat. Při jakémkoli<br />

získávání nových dat je navíc nutné vyjednat s vlastníky autorských práv podmínky<br />

použití jejich textů, což je časově nejnáročnější fáze, kterou nelze automatizovat.<br />

Při takovém jednání však již většinou není problém získat data<br />

kompletní a v kvalitnější podobě, než by se podařilo on-line. Konečně třetí<br />

možností získávání textů je jejich skenování a přepisování. Protože však jde o<br />

způsoby zdlouhavé, pracné, a tedy drahé, používáme je pouze u textů, které<br />

jsou z nějakého důvodu cenné a nelze je získat jinak. Každý text, který získáme<br />

některým z uvedených způsobů, je ještě evidován v databázi a nakonec zálohován<br />

na CD.<br />

2.2 Konverze do jednotného formátu<br />

Cílem této konverze je dát všem textům jednotný tvar tak, aby další zpracování<br />

mohlo probíhat jednotně, bez ohledu na jejich původ. Texty jsou sice již<br />

v elektronické podobě, ale v různých formátech, někdy jde doslova o změť nejrůznějších<br />

typů souborů, v rámci dat od jednoho nakladatelství lze třeba najít<br />

jednu knihu v několika verzích nebo také nepotřebné soubory, ve kterých žádný<br />

text není, jako například obrázky, spustitelné programy a podobně. Nejprve je<br />

tedy třeba „oddělit zrno od plev“, a pak se pustit do převodu jednotlivých souborů<br />

s texty do meziformátu.<br />

Meziformátem rozumíme prostý ASCII text, který však může navíc obsahovat<br />

SGML entity, v nichž jsou kódovány informace, které by se převodem<br />

do ASCII ztratily: jde zejména o typografické značky (kurzíva, podtržení, horní<br />

a dolní index apod.) a o nečeské znaky s diakritickými znaménky, které se ne-<br />

143


MICHAL KŘEN<br />

vyskytují v daném kódování češtiny. Postup konverze pochopitelně závisí na<br />

tom, v jakém formátu byly soubory s texty vytvořeny. Nejjednodušší je z<br />

prostého ASCII, HTML, RTF nebo z formátů jednoduchých textových editorů<br />

(T602, WordPerfect) – pro tyto případy již máme vyvinuty spolehlivé konverzní<br />

programy, které generují přímo meziformát bez nutnosti texty v těchto editorech<br />

otevírat a ukládat. U složitějších editorů (Word) nebo DTP programů<br />

(QuarkXPress, PageMaker) to již nutné je – pokud jde o Word, problém řešíme<br />

pomocí maker, která automaticky vyexportují všechny soubory v adresáři do<br />

RTF. V případě DTP programů, jejichž používání je bohužel stále častější, však<br />

není jednoduché text vůbec vyexportovat (zvlášť pokud jde o složitou sazbu), a<br />

je proto nutné každý soubor tímto programem otevřít a všechny textové rámce<br />

postupně uložit. Tato metoda je časově, a tedy i finančně náročná, snažíme se<br />

proto takové texty zpracovávat v co nejmenší míře a podobně jako například<br />

skenování ji používat pouze jako doplòkový zdroj textů. Přesto se však nedá<br />

říci, že v případě relativně jednoduchých veřejných formátů zmíněných výše<br />

stačí pouze spustit příslušný program a konverze do meziformátu je hotová.<br />

Vždy je totiž nutné výsledek zkontrolovat a většinou také ještě napsat danému<br />

textu „na míru“ jednoduchý program, který odstraní některé nevhodné jevy, jakými<br />

jsou například odkazy na literaturu, čísla stránek a obrázků a podobně.<br />

2.3 Bibliografická anotace<br />

Kromě vlastní konverze do SGML je ještě nutné k jednotlivým textům doplnit<br />

základní bibliografické informace, aby bylo možné se při vytěžování korpusu na<br />

jednotlivé zdroje odkazovat. Bibliografickou anotací textů zde tedy rozumíme<br />

zjišťování informací o autorech, nakladatelství, roku vydání, typu textu,<br />

žánrovém zařazení aj. a jejich zapsání do databáze a zároveň také přímo do textů v<br />

meziformátu. Tuto část konverze samozřejmě nelze automatizovat a je tedy nutné<br />

ji dělat ručně.<br />

2.4 Převod do SGML, tokenizace, morfologické značkování a lemmatizace<br />

Následuje poslední a také již plně automatická fáze konverze, a tou je<br />

převod do SGML (mezinárodně standardizovaný metajazyk vhodný pro ukládání<br />

strukturovaných textů) a tokenizace (tj. segmentace textu do slov a vět),<br />

následované několika čisticími a kontrolními programy. Zde je myslím třeba<br />

zdůraznit, že se snažíme zachovat v co největší míře autenticitu textu, to znamená,<br />

že do něj nezasahujeme, neopravujeme zjevné chyby ani překlepy, s vý-<br />

144


ČESKÝ NÁRODNÍ KORPUS – POČÍTAČOVÁ DEMONSTRACE<br />

jimkou slov „natvrdo“ rozdělených pomlčkami. Odstraňujeme pouze některé<br />

součásti textů, které nemají pro studium jazyka valný význam a které by svou<br />

přítomností byly spíše na škodu. Jsou to především celky netextového charakteru<br />

(tabulky, vzorce, tiráž, seznamy literatury apod.) a celé odstavce psané cizími<br />

jazyky (nikoli tedy krátké citáty). U novin a časopisů se také poměrně často<br />

stává, že dostaneme v datech z nakladatelství několik verzí jednoho článku, a<br />

proto také kontrolujeme, zda mezi jednotlivými články nejsou dva stejné nebo<br />

velmi podobné, a případné duplicity odstraňujeme.<br />

Nyní je text již připraven k zařazení do korpusu, k jeho plnohodnotnému<br />

používání však ještě chybí morfologická analýza, desambiguace a lemmatizace.<br />

I tyto kroky je nutné vzhledem k obrovskému objemu dat dělat automaticky,<br />

v současné době používáme programy vyvinuté na Úsavu formální a aplikované<br />

lingvistiky Matematicko-fyzikální fakulty University Karlovy pod vedením<br />

Jana Hajiče. Na zlepšení výsledků desambiguace pracuje v současné době tým<br />

Vladimíra Petkeviče na Ústavu teoretické a komputační lingvistiky Filozofické<br />

Fakulty University Karlovy. Výsledkem všech těchto kroků je tedy nakonec<br />

anotovaný strukturovaný text ve formátu SGML, ve kterém je ke každému<br />

slovnímu tvaru přiřazeno jeho lemma (základní slovníkový tvar) a spolu s ním<br />

také morfologická značka, která vyjadřuje jednoznačnou morfologickou interpretaci<br />

daného slova, tedy údaj o slovním druhu a v závislosti na něm také<br />

například o osobě, čísle a času u sloves, stupni u přídavných jmen a příslovcí a<br />

podobně.<br />

3. Programové nástroje pro práci s korpusem<br />

Běžný způsob práce s korpusem, který nabízíme všem našim registrovaným<br />

uživatelům, je pomocí programu GCQP. Jeho autorem je Pavel Rychlý<br />

z Fakulty informatiky Masarykovy university v Brně. Uživatelé si ho mohou<br />

stáhnout z internetových stránek Ústavu Českého náodního korpusu a podle návodu<br />

nainstalovat na svůj počítač. Jde o klientskou aplikaci napsanou v jazyce<br />

Tcl/Tk, a tedy přenositelnou mezi jednotlivými operačními systémy, která<br />

pracuje jak v systémech typu Unix/Linux, tak samozřejmě také pod Windows<br />

95/98/NT/2000. Práce s korpusem tedy vypadá tak, že uživatel na svém počítači<br />

spustí program GCQP, který se přes internet připojí k našemu serveru, posílá<br />

mu požadavky a dostává zpět data, která zpracovává a zobrazuje. Server běží u<br />

nás v Ústavu Českého národního korpusu pod Linuxem, výkonným jádrem celého<br />

systému je program CQP (Corpus Query Processor), vyvinutý na univerzi-<br />

145


MICHAL KŘEN<br />

tě ve Stuttgartu. Nad tímto jádrem, které zajišťuje vlastní vyhledávání, běží<br />

ještě program cqsd, který komunikuje s klientskými aplikacemi, předává jejich<br />

požadavky CQP a posílá zpět výsledky vyhledávání.<br />

Při práci s korpusem je možné používat bohatý dotazovací jazyk vycházející<br />

z regulárních výrazů, který umožňuje nejenom vyhledávat jednotlivá slova<br />

a slovní spojení, ale samozřejmě také při hledání využívat lemmata a morfologické<br />

značky. Při další práci s konkordančními řádky je možné používat všechny<br />

běžné funkce, jako jsou například možnost jednotlivé řádky označit a dále s<br />

nimi pracovat, třídit je, mazat, tisknout a ukládat na disk, dále lze také u každého<br />

konkordančního řádku zjistit zdrojový text. Velkou výhodou je možnost<br />

takřka neomezeně rozšiřovat kontext vyhledaného slova nebo slovního spojení<br />

a v neposlední řadě je třeba zmínit také statistické funkce GCQP – frekvenční<br />

distribuci a výpočet nejčetnějších kolokací.<br />

Program CQP byl v době svého vzniku bezesporu jedním z nejlepších<br />

korpusových nástrojů, které byly k dispozici. Přestože většinou svých parametrů<br />

stále ještě vyhovuje dnešním požadavkům, některá jeho omezení jsou takového<br />

charakteru, že je nelze obejít ani pomocí nadstavby, jakou je například GCQP<br />

nebo cqsd. Protože jsou navíc nejasnosti okolo dalšího vývoje CQP, nebylo by<br />

z dlouhodobého hlediska vhodné se na něj vázat. Vytvoření zcela nového<br />

korpusového nástroje se ujal Pavel Rychlý, autor GCQP. Tato nová aplikace,<br />

používající opět architekturu klient/server a nazvaná Bonito/Manatee, by měla<br />

v blízké budoucnosti nahradit celý současný systém, založený na CQP. Kromě<br />

zrychlení vyhledávání by měla odstranit také některá omezení současného systému<br />

a umožnit tak zejména vytváření virtuálních korpusů a používání strukturních<br />

značek při vyhledávání, tj. vyhledávání pouze v textech, splňujících<br />

určitá uživatelem zadaná kritéria.<br />

4. Závěr<br />

Další informace o dostupných korpusech a možnostech jejich využívání,<br />

manuál ke GCQP, popis morfologických značek a jiné lze najít na adrese<br />

http://ucnk.ff.cuni.cz, kde je možné vyzkoušet také veřejný přístup ke korpusu,<br />

ovšem s několika poměrně významnými omezeními. Lze totiž vyhledávat<br />

jedině ve dvacetimiliónovém vyváženém korpusu PUBLIC (jde o menší obdobu<br />

korpusu SYN2000), a to pouze jednotlivá slova (nikoli tedy slovní spojení),<br />

dále nelze používat lemmata, morfologické značky ani statistické funkce, a konečně<br />

je omezen kontext i celkový počet zobrazených konkordančních řádků. V<br />

146


ČESKÝ NÁRODNÍ KORPUS – POČÍTAČOVÁ DEMONSTRACE<br />

případě vážnějšího zájmu tedy rozhodně doporučuji stát se naším registrovaným<br />

uživatelem a získat tak bezplatně plný přístup ke korpusu SYN2000<br />

bez jakýchkoli omezení. Jedinou podmínkou k jeho získání je podepsání prohlášení<br />

o nekomerčním využití textů, kromě akademické obce tedy korpus<br />

může plnohodnotně využívat i široká veřejnost.<br />

Literatura<br />

HAJIČ, Jan – HLADKÁ, Barbora. 1997. Probabilistic and Rule-Based Tagger of an Inflective<br />

Language – a Comparison. In: Proceedings of the Fifth Conference on Applied Natural Language<br />

Processing. Washington D. C.<br />

HAJIČ, Jan – HLADKÁ, Barbora. 1998. Tagging Inflective Languages: Prediction of<br />

Morphological Categories for a Rich, Structured Tagset. In: Proceedings of the Conference COLING<br />

– ACL ’98. Montreal.<br />

HLAVÁČOVÁ, Jaroslava. 1998. Technical Insight into Birth of a Corpus. In: P. Sojka – V. Matoušek<br />

– K. Pala – I. Kopeček (eds.), Proceedings of the First Workshop on Text, Speech and<br />

Dialogue. Berlin: Springer, s. 55 – 60.<br />

KOCEK, Jan – KOPŘIVOVÁ, Marie – KUČERA, Karel (eds.). 2000. Český národní korpus –<br />

úvod a příručka uživatele. Praha: ÚČNK FF UK.<br />

OLIVA, Karel – HNÁTKOVÁ, Milena – PETKEVIČ, Vladimír – KVĚTOŇ, Pavel. 2000. The<br />

Linguistic Basis of a Rule-Based Tagger of Czech. In: P. Sojka – I. Kopeček – K. Pala (eds.), Proceedings<br />

of the Third International Workshop on Text, Speech and Dialogue. Berlin: Springer, s. 3 – 8.<br />

RYCHLÝ, Pavel. 2000. Korpusové manažery a jejich efektivní implementace. Brno: disertační<br />

práce FI MU.<br />

RYCHLÝ, Pavel. 2000. GCQP – Multiplatform Graphical User Interface to the CQP Corpus<br />

Manager. In: Proceedings of the Ninth EURALEX International Congress. Stuttgart: Institut für<br />

Maschinelle Sprachverarbeitung, s. 149 – 154.<br />

147


INFORMÁCIE V TERMINOLOGICKÝCH<br />

DATABÁZACH A ICH VYUŽÍVANIE PRI<br />

PREKLADE ODBORNÝCH TEXTOV<br />

Vlasta Křečková: Fakulta humanitných vied Univerzity Mateja<br />

Bela, Banská Bystrica<br />

Abstract: The basic unit of the terminological database is a terminological record, the structure of<br />

which is formed by three kinds of information. The first group contains information of linguistic nature<br />

related to the term: grammatical label, pronunciation, orthography, synonyms, abbreviations, context,<br />

equivalents of the term in different languages etc. The second group is constituted by information of encyclopaedical<br />

character related to the concept: definition, graphic representation of the concept, subject<br />

label etc. The third group includes „administrative“ information: term identifier, institution code, source<br />

identifier documenting the terminological data, as well as documeting the source of particular pieces of<br />

information etc. Different groups of users of terminological database make use of different terminological<br />

data, and that to a different extent. The analysis of the results of the translators’ terminological needs<br />

survey organised in Slovakia in the second half of 2000 by the Section of Terminology and Lexicography<br />

of the Translators and Interpreters Union in cooperation with the participants of the research project<br />

VEGA No. 1/7296/20 presents information searched for by the scientific texts translators in the terminological<br />

dictionaries and databases.<br />

1. Terminologická databáza a terminologický slovník<br />

Terminologická databáza (TDB) má veľa spoločného s elektronickým terminologickým<br />

slovníkom, ale jej koncepcia a využitie sú rozdielne. Terminologická<br />

databáza predstavuje komplexný súbor informácií o termínoch z ľubovoľnej<br />

tematickej oblasti v jednom alebo vo viacerých jazykoch. Tento súbor je vytvorený<br />

a uložený na počítačových médiách vo forme terminologických záznamov,<br />

pričom jeden terminologický záznam zodpovedá jednému pojmu a je<br />

spracovaný v jednom jazyku (Machová 1995). Tvorbu terminologických databáz<br />

umožňujú špeciálne počítačové programy a viaceré programy na počítačovú<br />

podporu prekladu. Na rozdiel od „tradičných“ terminologických slovníkov<br />

v elektronickej forme majú terminologické databázy mnohé výhody: aktualizácia<br />

údajov je veľmi jednoduchá; TDB môže poskytnúť používateľom oveľa viac<br />

informácií ako terminologický slovník; TDB umožňuje identifikáciu všetkých<br />

autorov terminologických záznamov a identifikáciu všetkých použitých zdrojov;<br />

z jednej terminologickej databázy je možné generovať rôzne typy termi-<br />

148


INFORMÁCIE V TERMINOLOGICKÝCH DATABÁZACH A ICH VYUŽÍVANIE PRI PREKLADE ODBORNÝCH TEXTOV<br />

nologických slovníkov publikovaných tlačou alebo na elektronických nosičoch<br />

s rôznou štruktúrou hesiel podľa potrieb cieľovej skupiny používateľov. Prístup<br />

k informáciám v terminologickej databáze je možný aj priamo z počítačovej<br />

siete.<br />

1.1 Tvorba terminologických databáz na Slovensku<br />

Podľa výsledkov prieskumu terminologických aktivít na Slovensku a v Českej<br />

republike, ktorý spolu s prieskumom terminologických potrieb organizovala<br />

v druhej polovici roka 2000 Sekcia terminológie a lexikografie Jednoty tlmočníkov<br />

a prekladateľov v spolupráci s riešiteľmi projektu VEGA č. 1/7296/20<br />

Manažment terminologických údajov a možnosti jeho uplatnenia v oblastiach<br />

poznania a praxe, existujú v súčasnosti na Slovensku viaceré terminologické<br />

projekty. Ich výstupmi sú najmä tradičné knižné terminologické slovníky, terminologické<br />

slovníky v elektronickej forme, ale aj terminologické databázy. 1<br />

Vo Výskumnom ústave práce, sociálnych vecí a rodiny v Bratislave vznikla<br />

v rámci európskeho programu Consensus II (Phare) databáza termínov z oblasti<br />

sociálnej ochrany s názvom Glossary and Dictionary of Social Protection<br />

Terms. Jedným z výstupov tejto TDB, ktorá je spracovaná v programe<br />

TRADOS, je dvojjazyčný Terminologický slovník z oblasti sociálnej ochrany:<br />

slovensko-anglický a anglicko-slovenský (European Commission, Consensus<br />

Program, 2000), ktorý obsahuje 1100 hesiel a nasledujúce informácie: termín<br />

vo východiskovom a v cieľovom jazyku, skratky, index, príklady a citácie, poznámky,<br />

definície. Ďalším výstupom projektu je viacjazyčný terminologický<br />

slovník z oblasti sociálnej ochrany Glossary of Social Protection Terms English-Bulgarian--Macedonian-Romanian-Slovakian<br />

(European Commission,<br />

Consensus Program, 2000). 2<br />

Terminológia vodohospodárstva a ochrany životného prostredia je obsiahnutá<br />

v TDB realizovanej inštitúciou CEIT Bratislava v databázovom <strong>počítačovom</strong><br />

programe pre knižnice a terminológiu PROFLIB. Spracovaná terminoló-<br />

1 KŘEČKOVÁ, Vlasta. 2001. Prieskum terminologických aktivít v SR (1. časť). ToP (tlumočení<br />

– překlad), roč. XII, č. 56, s. 29/1447; KŘEČKOVÁ, Vlasta. 2001. Prieskum terminologických aktivít<br />

v SR (2. časť). ToP (tlumočení – překlad), roč. XII, č. 58, s.10/1472 – 11/1473.<br />

2 O projekte informoval v rámci Ankety o terminologických aktivitách v SR doc. PhDr. Rastislav<br />

Bednárik, CSc. Autori projektu: VEGHTE, Benjamin – SCHMITZ, Klaus Dirk – BEDNÁRIK, Rastislav<br />

- BUJNOVSKÁ, Daniela – BRUCHÁČOVÁ, Zora – KRIŽKOVÁ, Elena – JAROŠOVÁ, Alexandra<br />

– ŠEBESTOVÁ, Anna.<br />

149


VLASTA KŘEČKOVÁ<br />

gia je publikovaná na CD disku, ktorý obsahuje terminológiu vodného hospodárstva<br />

(4 411 termínov s definíciami a obrázkami), vodohospodárske normy<br />

a štvorjazyčný slovník termínov vodného hospodárstva a životného prostredia. 3<br />

Terminologická databáza, ktorá obsahuje terminológiu z oblasti knižničnej<br />

a informačnej vedy, vznikla na základe viacročného terminologického výskumu<br />

na Katedre knižničnej a informačnej vedy Filozofickej fakulty Univerzity<br />

Komenského v Bratislave. Pri jej tvorbe boli akceptované niektoré zásady<br />

terminologickej práce obsiahnuté v norme STN ISO 10241 Medzinárodné terminologické<br />

normy – Tvorba a úprava. Na vytvorenie databázy bol použitý<br />

databázový systém MS ACCESS. Východiskom pre tvorbu databázy bola jedna<br />

z posledných počítačových verzií na katedre spracovaného terminologického a<br />

výkladového slovníka Informačná výchova. Publikovaným výstupom TDB je<br />

Terminologický slovník z knižničnej a informačnej vedy na CD disku. 4 Všetky<br />

spracované termíny sú systematicky zaradené do tematických oblastí podľa<br />

čísla systematického triedenia. Štruktúra hesla (terminologického záznamu),<br />

ktoré je spracované v slovenčine, je nasledujúca: poradové číslo terminologického<br />

záznamu, heslový termín v základnom tvare, ekvivalent termínu v angličtine,<br />

synonymum, skratka, neodporúčaný termín, systematické triedenie, definícia,<br />

autor záznamu, zdroj a poznámka, ktorá objasňuje použitie termínu, ak je<br />

to potrebné. Elektronická podoba slovníka umožňuje rýchly prístup k termínom<br />

niekoľkými spôsobmi. Termíny možno prezerať v základnom súbore v abecednom<br />

usporiadaní. Ďalej sú vytvorené registre: systematický (termíny sú<br />

usporiadané podľa systematického triedenia do jednotlivých oblastí), abecedne<br />

usporiadaný register anglických ekvivalentov termínov a autorský register. Zo<br />

všetkých registrov sa dá pristúpiť priamo k celým terminologickým záznamom.<br />

Najrýchlejším prístupom k termínom je vyhľadávanie podľa začiatočného<br />

reťazca. Tento sa hľadá nielen v poli termín, ale aj v synonymách, neodporúčaných<br />

termínoch a v skratkách. Terminologická databáza sa v súčasnosti v rámci<br />

projektu VEGA č. 1/7296 /20 ďalej aktualizuje a rozširuje o ďalšie príbuzné tematické<br />

oblasti a o ďalšie terminologické informácie. 5<br />

3 STANČÍKOVÁ, Pavla – ŠMIHLA, Marek. 2000. Multilingual Vocabulary of Water Terms<br />

EN – SK – HU – RU (Viacjazyčný vodohospodársky slovník ang.-slov.-maď.-ruš.). Bratislava: CEIT.<br />

4 KRIŠTOFIČOVÁ, Eva – JURČACKOVÁ, Zora – ONDRIŠOVÁ, Miriam. 1999. Terminologický<br />

slovník z knižničnej a informačnej vedy. Bratislava: Stimul.<br />

5 Riešiteľmi projektu VEGA č. 1/7296/20 s názvom Manažment terminologických údajov<br />

a možnosti jeho uplatnenia v oblastiach poznania a praxe sú Eva KRIŠTOFIČOVÁ, Zora JURČAC-<br />

KOVÁ, Miriam ONDRIŠOVÁ a Vlasta KŘEČKOVÁ.<br />

150


INFORMÁCIE V TERMINOLOGICKÝCH DATABÁZACH A ICH VYUŽÍVANIE PRI PREKLADE ODBORNÝCH TEXTOV<br />

2. Informácie v terminologickom zázname<br />

Za základnú jednotku terminologickej databázy sa považuje terminologický<br />

záznam. Jeden terminologický záznam sa vzťahuje na jeden pojem a jeho<br />

pomenovanie (termín) a je vytvorený v jednom jazyku. Ak má jeden termín<br />

viac významov v jednom odbore, resp. v jednej tematickej oblasti, každý pojem<br />

( ~ význam) je spracovaný na osobitnom zázname. Štruktúru terminologického<br />

záznamu tvoria tri základné skupiny informácií (Jurčacková 1999, Gouadec<br />

1990). Do prvej skupiny patria informácie jazykového charakteru, ktoré sa<br />

vzťahujú na termín: termín (termíny) v základnej forme (synonymá, varianty<br />

termínu, skrátené alebo úplné formy termínu, symboly, inojazyčné ekvivalenty<br />

termínu), gramatické informácie, miera akceptovateľnosti termínu, kolokácie,<br />

antonymá, kontext, odvodené termíny a pod. Druhú skupinu tvoria informácie<br />

encyklopedického charakteru vzťahujúce sa na pojem: definícia, grafické reprezentácie<br />

pojmu, identifikátory tematickej oblasti, hyponymá, hyperonymá, encyklopedická<br />

poznámka a pod. Do tretej skupiny patria „administratívne“ informácie:<br />

identifikátor termínu, symbol jazyka, dátum vytvorenia terminologického záznamu,<br />

identifikátor tvorcu záznamu, kód inštitúcie, informácie o zdrojoch, z<br />

ktorých pochádzajú termíny, ale aj o zdrojoch, z ktorých pochádzajú jednotlivé<br />

informácie, identifikátor overovateľa správnosti a spoľahlivosti terminologického<br />

záznamu atď.<br />

2.1 Informácie jazykového charakteru<br />

Základnou jazykovou informáciou v terminologickom zázname je heslový<br />

termín, ktorý sa uvádza vo svojej základnej gramatickej forme. Heslový termín<br />

býva zvyčajne dokumentovaný kontextom, v ktorom sa vyskytol. Kontext poukazuje<br />

na existenciu termínu a zároveň termín vysvetľuje (objasňuje). Zohráva<br />

významnú úlohu aj pri formulovaní definície termínu. V štruktúre terminologického<br />

záznamu sa k heslovému termínu vzťahujú všetky uvádzané informácie<br />

jazykového a encyklopedického charakteru.<br />

Pokiaľ ide o informácie jazykového charakteru, sú to v prvom rade<br />

gramatické informácie, ktoré sú rôzne podľa charakteru jednotlivých jazykov.<br />

V slovenčine sa zvyčajne uvádza informácia o slovnom druhu. Z menných charakteristík<br />

sa uvádza najmä informácia o rode a čísle, prípadne zvláštnosti týkajúce<br />

sa deklinácie. Gramatické informácie využívajú nielen prekladatelia odborných<br />

textov, ale aj používatelia databázy, ktorých cieľom je písanie odbor-<br />

151


VLASTA KŘEČKOVÁ<br />

ných prác v materinskom alebo aj v cudzom jazyku. Nezanedbateľnou jazykovou<br />

informáciou sú informácie o variantoch termínu: zemepisné varianty (pri<br />

termínoch vo svetových jazykoch, ako sú angličtina, španielčina, francúzština a<br />

pod.; pravopisné varianty alebo morfologické a syntaktické varianty). Ak je výslovnosť<br />

termínu netypická, je vhodné uvádzať aj informáciu o výslovnosti,<br />

ktorú uvítajú najmä tlmočníci.<br />

Pri preklade odborných textov sa javí ako veľmi dôležitá informácia o<br />

kolokáciách termínu, čiže o spojeniach, v ktorých sa termín v textoch najčastejšie<br />

vyskytuje. Nedostatočná znalosť kolokácií znižuje vo veľkej miere kvalitu<br />

prekladu. Vyhľadávanie kolokácií je náročnou činnosťou, ale v súčasnosti ju<br />

uľahčujú počítačové programy na textovú analýzu a programy na preklad podporovaný<br />

počítačom. Užitočná môže byť informácia o odvodených termínoch a<br />

o synonymách. Medzi synonymiou vo všeobecnej slovnej zásobe a v terminológii<br />

je základný rozdiel. V terminológii sa považujú za synonymá len tie termíny,<br />

ktoré pomenúvajú ten istý pojem. Aj keď je synonymia v terminológii<br />

javom nežiaducim, v praxi sa s ňou prekladatelia často stretávajú, najmä pokiaľ<br />

ide o nové termíny. Preto je vhodné v terminologickom zázname uvádzať informáciu<br />

o spisovnosti, resp. „akceptovateľnosti“ termínu (termín spisovný, nespisovný,<br />

odporúčaný, neodporúčaný, zastaraný a pod.) a pokiaľ ide o tzv.<br />

„čiastočné“ synonymá, špecifikovať oblasť a spôsob ich použitia. Zaujímavá<br />

môže byť pre prekladateľov informácia o jazykovej štruktúre termínu.<br />

Cennými informáciami sú informácie o skrátených alebo úplných formách<br />

termínu a o inojazyčných ekvivalentoch. Pre kvalitu odborného prekladu je<br />

žiaduce, aby boli inojazyčné ekvivalenty doplnené explicitným vyjadrením<br />

miery ich ekvivalencie najmä vtedy, ak sa neuvádza pôvodná inojazyčná definícia.<br />

Ekvivalencia termínov sa realizuje na základe ekvivalencie pojmov, ktoré<br />

sú v jednojazyčných terminologických záznamoch vyjadrené definíciou. Medzi<br />

pojmom termínu v jazyku A a pojmom ekvivalentného termínu v jazyku B<br />

môžu nastať tri základné typy vzťahov. Ekvivalencia pojmov, a teda i termínov,<br />

môže byť úplná alebo čiastočná. Na čiastočnú ekvivalenciu je potrebné vo viacjazyčných<br />

terminologických súboroch upozorniť. Avšak môže nastať i situácia,<br />

že pojem pomenovaný v jednom jazyku nemá v druhom jazyku žiadne pomenovanie.<br />

V takom prípade môže terminológ utvoriť (navrhnúť) termín pomenúvajúci<br />

pojem v tom jazyku, v ktorom termín chýba, avšak je potrebné používateľov<br />

terminologickej databázy na tento fakt upozorniť.<br />

Jazykové zvláštnosti termínu, ktoré nemohli byť uvedené v rámci žiadnej<br />

zvolenej jazykovej charakteristiky, bývajú uvádzané v jazykovej poznámke.<br />

152


INFORMÁCIE V TERMINOLOGICKÝCH DATABÁZACH A ICH VYUŽÍVANIE PRI PREKLADE ODBORNÝCH TEXTOV<br />

2.2 Informácie encyklopedického charakteru<br />

V štruktúre terminologického záznamu je základnou encyklopedickou<br />

informáciou definícia. Definícia vyjadruje jazykovými prostriedkami znaky,<br />

ktorými je vymedzený príslušný pojem, ako aj jeho miesto v sústave pojmov<br />

tematickej oblasti. Je dôležité, aby sa opis pojmu realizoval pomocou<br />

známych pojmov a známych jazykových prostriedkov. Východiskom definície<br />

je logické spektrum pojmu. Podľa medzinárodnej normy ISO 704 je pre terminologickú<br />

prácu najvhodnejšia tzv. klasická definícia (obsahová, intenzionálna:<br />

genus proximum + differentiam specificam alebo enumeratívna definícia<br />

(rozsahová, extenzionálna). Veľká opisnosť pri formulovaní terminologickej<br />

definície, definovanie vzorcom, číselným údajom, prípadne synonymom,<br />

kruhové definície alebo tautologické definície sa nejavia byť vhodnými<br />

definíciami pre terminologickú prax. Okrem jazykového vyjadrenia pojmu<br />

definíciou môže byť pojem v terminologickom zázname vyjadrený ikonickou<br />

(nejazykovou) jednotkou, ktorá vyjadruje predstavu ľudí o reálnom objekte<br />

(obrázok, vzorec, graf). Ilustrácia pojmu by však nemala nahrádzať definíciu<br />

vyjadrenú jazykovými prostriedkami.<br />

Ďalšie informácie dôležité pre opis pojmu, ktoré neumožňuje vyjadriť<br />

štruktúra definície, sa zvyčajne uvádzajú v encyklopedickej (technickej) poznámke.<br />

Medzi informácie vzťahujúce sa na pojem patrí informácia o tematickej<br />

oblasti, do ktorej termín patrí. Informácie o antonymách, hyponymách<br />

alebo hyperonymách umožnia prekladateľovi správne situovať termín v<br />

štruktúre pojmov danej tematickej oblasti.<br />

2.3 Administratívne informácie<br />

Základnými administratívnymi údajmi sú číslo terminologického záznamu,<br />

dátum tvorby terminologického záznamu a meno alebo kód autora<br />

(autorov) terminologického záznamu. V prípade potreby môžu byť tieto informácie<br />

doplnené kódom spoľahlivosti terminologického záznamu, bibliografickými<br />

údajmi o zdrojoch všetkých informácií uvedených v terminologickom<br />

zázname, informáciou o kontrole a potvrdení správnosti údajov v terminologickom<br />

zázname odborníkom, názvom inštitúcie, na ktorej bol terminologický<br />

záznam vypracovaný, prípadne i menami sponzorov, ktorí podporili<br />

tvorbu terminologickej databázy.<br />

153


VLASTA KŘEČKOVÁ<br />

3. Anketa o využívaní informácií v terminologických databázach a v terminologických<br />

slovníkoch pri preklade odborných textov<br />

Rôzne skupiny používateľov terminologickej databázy využívajú v rôznej<br />

miere jednotlivé terminologické informácie. Analýza výsledkov prieskumu terminologických<br />

potrieb prekladateľov, ktorý bol realizovaný na Slovensku v<br />

rámci Jednoty tlmočníkov a prekladateľov, uvádza informácie, ktoré hľadajú v<br />

terminologických slovníkoch a databázach prekladatelia odborných textov.<br />

Okrem termínov vo východiskovom a v cieľovom jazyku sú to najmä definície<br />

termínov, pričom pri dvojjazyčných alebo viacjazyčných terminologických<br />

súboroch sú žiaduce pôvodné definície v každom zo zastúpených jazykov. Na<br />

druhom mieste prekladatelia vyhľadávajú informácie o kolokáciách termínu a o<br />

synonymách. Väčšina prekladateľov dáva prednosť terminologickým slovníkom<br />

a databázam, v ktorých nájde informáciu o tematickej oblasti, do ktorej<br />

termín patrí, a informáciu o používaní terminologických skratiek. Prekladateľov<br />

zaujímajú aj gramatické informácie a informácie o spisovnosti termínu.<br />

Výsledky uskutočneného prieskumu ukazujú, že len málo prekladateľov sa zaujíma<br />

o to, z akých zdrojov pochádzajú jednotlivé termíny, prípadne z akých<br />

zdrojov pochádzajú jednotlivé informácie. Menej sú vyhľadávané informácie o<br />

výslovnosti termínu, o pôvode termínu, o antonymách, hyponymách a hyperonymách.<br />

Veľmi málo prekladateľov hľadá v terminologickom slovníku grafické<br />

reprezentácie pojmov, jazykové a encyklopedické poznámky, kontexty a informáciu<br />

o miere ekvivalencie inojazyčných termínov. 6<br />

V súvislosti s preberaním technických a iných noriem a ich prispôsobovaním<br />

európskym alebo svetovým normám, ako i v súvislosti s aproximáciou<br />

práva právu krajín Európskej únie a vzhľadom na stále intenzívnejšie kontakty<br />

slovenských inštitúcií a podnikov so zahraničím sa zvyšujú nároky na kvalitu<br />

prekladov odborných textov. Kvalitné pomôcky (terminologické slovníky alebo<br />

terminologické databázy) môžu v mnohom uľahčiť prekladateľom odborných<br />

textov ich náročnú a zodpovednú prácu.<br />

Tvorba veľkých terminologických databáz je činnosťou náročnou na<br />

materiálne a ľudské zdroje a vyžaduje si spoluprácu odborníkov z jednotlivých<br />

tematických oblastí s odborníkmi terminológmi a informatikmi. Možnosti využitia<br />

kvalitných terminologických databáz sú však veľké. Okrem odborného<br />

6 KŘEČKOVÁ, Vlasta – DOVČIAKOVÁ, Anna. 2001. Analýza terminologických potrieb prekladateľov<br />

na Slovensku. ToP (tlumočení – překlad), roč. XII, č. 59, s. 12/1510 – 13/1511.<br />

154


INFORMÁCIE V TERMINOLOGICKÝCH DATABÁZACH A ICH VYUŽÍVANIE PRI PREKLADE ODBORNÝCH TEXTOV<br />

prekladu zohrávajú terminologické databázy dôležitú úlohu pri normalizácii<br />

termínov, v dokumentácii, pri organizácii poznania. Viacjazyčná terminologická<br />

databáza je dôležitým nástrojom úspešnej komunikácie v rozvinutej viacjazyčnej<br />

informačnej spoločnosti.<br />

Literatúra<br />

BESSÉ, Bruno (de). 1992. Cours de terminologie. Genève: ETI Université de Genève.<br />

CABRÉ, Maria Teresa. 1998. La terminologie. Théorie, méthode et applications. Paris –<br />

Ottawa: Armand Colin – Les Presses de l´Université d´Ottawa.<br />

GOUADEC, Daniel. 1990. Terminologie. Constitution des données. Paris: Afnor Gestion.<br />

GOUADEC, Daniel. 1997. Terminologie et Phraséologie pour Traduire. Paris: La Maison du<br />

Dictionnaire.<br />

JURČACKOVÁ, Zora. 1999. Viacnásobné využitie terminologických údajov. In: Zborník<br />

Filozofickej fakulty Univerzity Komenského. Knižničná a informačná veda, roč. XVIII. Bratislava:<br />

Univerzita Komenského.<br />

MACHOVÁ, Svatava. 1995. Terminografie. In: František Čermák – Renata Blatná (eds.). 1995,<br />

Manuál lexikografie. Nakladatelství H&H, s. 137 – 157.<br />

MASÁR, Ivan. 1991. Príručka slovenskej terminológie. Bratislava: Veda SAV.<br />

Medzinárodné terminologické normy. Tvorba a úprava. STN ISO 102 41, január 2000.<br />

Principes et méthodes de la terminologie. ISO 704, 1997 (F).<br />

155


PROJEKT SLOVNÍKA ŠTÚROVSKEJ<br />

SLOVENČINY A JEHO POČÍTAČOVÁ<br />

PODPORA<br />

Ľubomír Kralčák: Katedra slovenského jazyka, Filozofická fakulta<br />

Univerzity Konštantína Filozofa, Nitra<br />

Abstract: The specificity of the dictionary of the Slovak language from the Štúr period lies in the fact<br />

that it is a historical dictionary whose lexical basis is defined by the texts originated in a relatively exactly<br />

confined period, i.e. more or less in the first half of the nineteenth century. The conception of the<br />

project requires that the following problems are considered: the specification of the Štúr Slovak texts<br />

canon (for example, the question whether only the printed texts or also unpublished manuscripts will be<br />

included), then to what extent new words occurring in the work of only one author and displaying signs<br />

of being occasional words (which means that they have not occurred in any other periods of the existence<br />

of the Standard Slovak) can be included in the database, how to include the tautonyms (dialectical<br />

synonyms) reflecting a momentary state of the emerging Štúr Slovak, how to assess the words which, in<br />

spite of their occurrence in some texts, were linguistically refused by the contemporary criticism as inappropriate<br />

or un-Slovak, as well as some other specific problems.<br />

In the lexicographic work at this dictionary we expect to make a significant use of computer technology.<br />

The building of an electronic corpus of texts has already begun. So far the corpus has reached approximately<br />

half a million of verbal forms, although our aim is to reach the final size of 15 million verbal<br />

forms. As a significant contribution of the computer technology can be considered, among other things,<br />

also the fact that - having in mind the possibility of a relatively exact specification of the Štúr Slovak<br />

text inventory - within individual entries it will be possible to give a frequency index of the word as<br />

well. This would solve the problem of the occasional words, that is neologisms with low frequency rate.<br />

Je celkom prirodzené a samozrejmé, že lexikografia a informatika našli<br />

veľmi rýchlo spoločnú oblasť záujmu. Preto sa dnes stáva takmer nemysliteľné<br />

uvažovať o tvorbe akéhokoľvek slovníka bez využitia počítačovej technológie.<br />

Takéto využite sa dnes stáva bežnou praxou i v slovenskej lexikografii a uplatnilo<br />

sa pri zostavovaní Historického slovníka slovenského jazyka, Slovníka<br />

slovenských nárečí, Krátkeho slovníka slovenského jazyka, Synonymického<br />

slovníka slovenčiny i slovníkovej časti Pravidiel slovenského pravopisu. V niektorých<br />

prípadoch išlo, ako je známe, o konvertovanie tzv. papierovej podoby<br />

ručne spracovaných lexikografických údajov na elektronickú lexikálnu databázu<br />

(porov. napr. Benko 1992, Jarošová 1997). Posledné tri menované slovníky<br />

má možnosť využívať široká verejnosť aj v elektronickej podobe ako tzv. počítačové<br />

slovníky na kompaktnom disku.<br />

156


PROJEKT SLOVNÍKA ŠTÚROVSKEJ SLOVENČINY A JEHO POČÍTAČOVÁ PODPORA<br />

Ak sa dnes pozrieme na celé dlhé obdobie fungovania slovenčiny ako<br />

spisovného alebo aspoň písaného (literárneho) jazyka, zreteľne sa ukazuje, že<br />

lexikograficky je najskromnejšie spracované obdobie štúrovskej spisovnej<br />

slovenčiny. Slovník štúrovskej slovenčiny (SŠS) je dávnejšie zamýšľaný projekt<br />

na nitrianskej Katedre slovenského jazyka. Pôvodné predstavy sa však predtým<br />

nepremietli do konkrétnej realizácie, neboli začaté práce na zhromažďovaní<br />

jazykového materiálu, ba nebol načrtnutý ani špecifikovanejší postup či rozsah<br />

lexikografických prác. V súčasnosti tu však projekt slovníka nadobúda zreteľnejšie<br />

kontúry, pričom podstatný vplyv na jeho oživenie malo to, že sa vyskytli<br />

nové možnosti, ktoré ponúka využitie počítačovej podpory pri zbieraní a lexikografickom<br />

štruktúrovaní jazykového materiálu.<br />

Projekt SŠS predpokladá tri okruhy prác: zhromažďovanie jazykového<br />

materiálu, lexikografická analýza textov a vytvorenie lexikálnej bázy dát.<br />

l. Zhromažďovanie jazykového materiálu<br />

Táto etapa lexikografickej práce má dva aspekty: lingvistický a informatický.<br />

Lingvistická stránka zahŕňa v prípade SŠS potrebu riešenia otázok periodizácie<br />

štúrovskej slovenčiny a vymedzenia pramennej základne slovníka.<br />

Informatická stránka sa týka predovšetkým problematiky elektronického zápisu<br />

textov.<br />

1.1 Problém periodizácie štúrovskej slovenčiny a vymedzenia pramennej<br />

základne<br />

1.1.1 Vertikálne vymedzenie inventára textov (periodizácia)<br />

Pri skúmaní vývinového úseku v dejinách slovenčiny, ktorý sa všeobecne<br />

nazýva štúrovská slovenčina, sa ukazuje ako jeden zo základných problémov<br />

presnejšie časové ohraničenie tohto úseku. Časové ohraničenie potom, samozrejme,<br />

rozhoduje o rozsahu textového materiálu zahrnutého pod takéto periodické<br />

vymedzenie. Z tohto hľadiska však vzniká aj ďalší problém, a to časový<br />

nesúlad pri vymedzovaní pojmov štúrovské obdobie a štúrovská slovenčina.<br />

Štúrovské obdobie vymedzuje E. Pauliny (1983, s. 175), a to v lingvistickom<br />

zmysle slova tridsiatymi a štyridsiatymi rokmi minulého storočia. Za spodnú<br />

hranicu pokladá rok 1834, resp. 1835, keď sa objavili prvé básne písané zámerne<br />

strednou slovenčinou (Chalupka 1834, Kuzmány 1835). Hornú hranicu pod-<br />

157


ĽUBOMÍR KRALČÁK<br />

ľa neho udáva rok 1852, keď vyšla Hattalova Krátka mluvnica slovenská. Naproti<br />

tomu napr. J. Furdík (1971, s. 23) ohraničuje štúrovské obdobie štúrovskou<br />

kodifikáciou – podľa neho rok 1843 (ako spodná hranica) – a koncom<br />

päťdesiatych rokov, t. j. do r. 1860.<br />

Uvedené vymedzenia štúrovského obdobia sa teda rozchádzajú v stanovení<br />

hornej i dolnej hranice, pričom sa pracuje aj s takým výrazným periodizačným<br />

pojmom, akým je kodifikácia. Lingvistické vymedzenie štúrovského obdobia<br />

bude teda iné z hľadiska kodifikácie a iné z hľadiska výskytu textov písaných<br />

v štúrovskej (resp. strednej) slovenčine. Naše riešenie vertikálneho vymedzenia<br />

pramennej základne smeruje k maximalizácii, teda k vyčleneniu čo najširšieho<br />

inventára textov, aby sa nestratili niektoré vzácne jazykové prostriedky.<br />

To predpokladá posunúť predovšetkým dolnú časovú hranicu pred kodifikáciu<br />

štúrovskej slovenčiny.<br />

1.1.2 Horizontálne vymedzenie inventára textov<br />

Pokiaľ ide o vymedzenie šírky pramennej základne, ani tu, ako sa ukazuje<br />

v predbežných diskusiách, sotva nastane všeobecná zhoda. Ak by aj bola zhoda<br />

v periodizačnom ohraničení štúrovčiny, zostáva zatiaľ nevyjasnená otázka, či<br />

do korpusu textov zaradiť aj rukopisné štúrovské texty, teda aj texty nepublikované.<br />

Vzhľadom na prirodzený dokumentačný charakter zamýšľaného<br />

slovníka predpokladáme do korpusu zaradiť aj niektoré významnejšie rukopisné<br />

pamiatky, napr. texty levočských štúrovcov.<br />

1.2 Informatický aspekt (tvorba korpusu)<br />

Informatickú stránku zhromažďovania jazykového materiálu predstavuje<br />

proces, ktorý možno charakterizovať ako vytváranie textového korpusu štúrovskej<br />

slovenčiny. Ide o kroky, ktoré sme už začali realizovať. Z dvoch možností<br />

prepisovania textov do elektronickej podoby, a to pomocou textového editora<br />

alebo pomocou optického snímača znakov, sme zvolili prvý postup, pretože<br />

optické snímanie strácalo svoju efektivitu pre množstvo chýb, ktoré vznikali<br />

najmä v dôsledku menej kvalitnej tlače spracovávaného materiálu. Doteraz vytvorený<br />

elektronický korpus textov má zatiaľ rozsah približne pol milióna<br />

slovných tvarov, pričom náš plán je vytvorenie cieľového korpusu v rozsahu<br />

najmenej 15 miliónov slovných tvarov s takýmto členením textov:<br />

I. umelecký štýl<br />

158


PROJEKT SLOVNÍKA ŠTÚROVSKEJ SLOVENČINY A JEHO POČÍTAČOVÁ PODPORA<br />

II. publicistický štýl<br />

III. odborný štýl.<br />

Tieto tri sféry predstavujú reálne funkčnoštýlové rozpätie štúrovskej<br />

spisovnej slovenčiny. Oproti stavu v dnešnej slovenčine je tu zreteľná najmä<br />

absencia administratívnej a právnej lexiky.<br />

2. Lexikografická analýza<br />

V rámci lingvistického prístupu k zostavovaniu SŠS je potrebné riešiť<br />

viaceré špecifické lexikografické problémy:<br />

Do rámca špecifickej diskusie zatiaľ patrí otázka, či súčastou lexikálnej<br />

bázy slovníka majú byť aj také novotvary, ktoré vykazujú znaky okazionálnych<br />

jazykových prostriedkov. Ide nielen o slová s neprehľadnou slovotvornou<br />

štruktúrou, resp. s nejasným významom, ale aj o nové slová, ktoré sa objavia<br />

iba raz alebo iba u jedného autora. V tejto súvislosti ide predovšetkým o niektoré<br />

texty M. M. Hodžu (porov. napr. Větín o slovenčine, Dobruo slovo Slovákom<br />

súcim na slovo). Na ilustráciu možno uviesť napr. slová ako majeť (majetok),<br />

osobňivec (sebec), ťäžkulavať si (ponosovať sa), živoch (živočích) a pod.<br />

Sem patrí aj pokus M. Godru (porov. 1851, s. 95 – 103, 115 – 121) o zavedenie<br />

novej slovenskej odbornej terminológie z oblasti logiky, geometrie,<br />

matematiky a techniky, ale aj pomenovania z oblasti všeobecných abstraktných<br />

pojmov. Z týchto navrhnutých termínov (spolu okolo 700 odborných výrazov)<br />

sa v neskoršom vývine ujal iba zlomok, no Godrov „slovníček“ je pozoruhodný<br />

najmä preto, že sa v ňom nahrádzajú cudzie, zväčša latinské, ale aj české odborné<br />

termíny slovenskými novotvarmi (napr. rozväzba „analýza“, odlusk „odbor“,<br />

odsamnina „unikát“ a pod.).<br />

Ďalšou špecifickou otázkou je výskyt tautoným. Ľ. Štúr pripúšťal obohacovanie<br />

lexikálneho fondu spisovnej slovenčiny z viacerých slovenských nárečí,<br />

preto sa napr. v <strong>Slovenský</strong>ch <strong>národný</strong>ch novinách objavujú nárečové synonymá<br />

ako zemjaki, švábka, krumple.<br />

Iným špecifickým problémom je kritika jazykovej kultúry niektorých textov,<br />

ktorá odmieta už použité výrazy ako nesprávne, napr. Štúrova recenzia<br />

spisu S. Vozára Hlas od Tatjer (porov. Štúr, 1851, s. 182 – 185). Ľ. Štúr ostro<br />

odmieta v tomto spise použité cudzie slová ako napr. princíp (namiesto neho<br />

navrhuje už prijaté slovo zásada), charakter (navrhuje ráz), organizácia (odporúča<br />

ustrojenosť, ústrojnosť) a pod.<br />

159


ĽUBOMÍR KRALČÁK<br />

Informatická stránka tejto etapy spracovania jazykového materiálu predpokladá<br />

využitie softvéru na vytvorenie kódovanej podoby korpusu textov. V<br />

rámci nášho projektu sme zatiaľ skúšobne použili program WordCruncher. Za<br />

významný prínos počítačovej podpory pokladáme napr. aj to, že vzhľadom na<br />

možnosť pomerne presného vymedzenia inventára textov štúrovskej slovenčiny<br />

(počet a rozsah textov dovoľuje ich takmer úplné elektronické spracovanie)<br />

bude možné v hesle uvádzať aj index frekvencie slova, čím by sa vyriešila napr.<br />

otázka okazionalizmov, resp. málo frekventovaných novotvarov.<br />

3. Vytvorenie lexikálnej bázy dát<br />

Táto etapa predstavuje elektronické kódovanie informačných kategórií pri<br />

súčasnom uplatnení štandardnej lexikografickej analýzy. Na budovanie jednotlivých<br />

hesiel bude potrebné použiť aj taký špecifický počítačový program, ktorý<br />

bude umožňovať vstup do databázy cez viaceré parametre hesla, teda napr. cez<br />

gramatickú charakteristiku, štylistický kvalifikátor a pod., a zároveň bude<br />

slúžiť na výrazné zefektívnenie prípravy slovníka do tlače. Pri použití tohto<br />

programu predpokladáme nevyhnutnú spoluprácu s inými pracoviskami –<br />

predovšetkým s Laboratóriom počítačovej lingvistiky Pedagogickej fakulty UK,<br />

ale aj s Jazykovedným ústavom Ľ. Štúra SAV.<br />

Literatúra<br />

BENKO, Vladimír. 1992. (Neskorá) počítačová podpora lexikografického projektu: Slovník<br />

slovenských nárečí. In: Zápisník slovenského jazykovedca, roč.11, s. 25 – 26.<br />

FURDÍK, Juraj. 1971. Zo slovotvorného vývoja slovenčiny. In: Acta Facultatis Philosophicae<br />

Universitatis Šafarikanae Prešovensis. Spoločenský zošit 7. Bratislava: SPN.<br />

GODRA, Michal. 1851. Príňesok ku vedecko-slovenskjemu názvoslovú. Slovenskje Pohladi,<br />

roč. II, č. 3, s. 95 –103 a č. 4, s. 115 – 121.<br />

JAROŠOVÁ, Alexandra. 1997. Lexikografia a počítače – slovenský variant. In: S. Ondrejovič<br />

(ed.), <strong>Slovenčina</strong> na konci 20. storočia, jej normy a perspektívy. Sociolinguistica Slovaca 3.<br />

Bratislava: Veda, s. 304 – 311.<br />

PAULINY, Eugen. 1983. Dejiny spisovnej slovenčiny od začiatkov po súčasnosť. Bratislava:<br />

SPN.<br />

ŠTÚR, Ľudovít. 1851. Úvahy o spise Hlas od Taťjer. Slovenskje Pohladi, roč. I., č. 5, s. 182 –<br />

185.<br />

160


NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE<br />

Karel Pala: Katedra informačních technologií, Fakulta informatiky<br />

Masarykovy university, Brno (pala@fi.muni.cz)<br />

Abstract: In the contribution we describe a framework in which we plan to build a representative<br />

Czech lexical database (CLD) that could serve as a base for the new representative Czech dictionary. It<br />

should be also used as a resource for the partial knowledge representation in various NLP applications.<br />

Within CLD the following basic units have to be considered: single lemmata: dům (house) as well as<br />

standard collocations like vysoká škola (university). The assumed size of CLD is approximately 60 000<br />

entries and 105 000 meanings, We intend to pay a special attention to the verbs that should represent<br />

about one third of all entries.<br />

1. Úvod<br />

Cílem příspěvku je představit koncepci české lexikální databáze (CLD),<br />

z níž by v blízké budoucnosti mohl a měl vzejít i nový reprezentativní slovník<br />

současné češtiny. Danou koncepci chápeme jako východisko pro budování reprezentativní<br />

CLD, která by měla sloužit jako zdroj lexikální informace pro češtinu<br />

a také jako dílčí reprezentace znalostí v různých aplikacích v oblasti počítačového<br />

zpracování přirozeného jazyka (dále NLP) (Ingria, Boguraev, Pustejovsky,<br />

1992).<br />

Základními jednotkami v CLD mohou být buď jednotlivá lemmata jako<br />

dům, nebo standardní kolokace jako např. vysoká škola (=univers/zita). Předpokládaný<br />

rozsah navrhované CLD je přibližně 50 000 hesel. Na prvním místě<br />

bychom se rádi maximálně soustředili na česká slovesa, tj. předpokládáme, že<br />

počet zpracovávaných sloves by se měl pohybovat kolem 20 000 (podle našeho<br />

odhadu je v češtině asi 40 000 sloves). Orientace na slovesa vychází z faktu,<br />

že slovesa reprezentují v přirozených jazycích hlavní relační prvky, které na<br />

sebe vážou ostatní prvky, většinou substantiva.<br />

I když jsme si vědomi toho, že víceúčelové, plně univerzální slovníky jsou<br />

do značné míry problematické, rádi bychom se pokusili o budování databáze,<br />

která by obsahovala co nejvíce dostupných údajů o současné češtině.<br />

2. Výchozí struktura CLD<br />

161


KAREL PALA<br />

Lze ji popsat pomocí vhodného datového typu, tj. DTD, který bude na základě<br />

dosavadních zkušeností definován v XML (k tomu např. Pala – Pavelek<br />

2001) a tvořen následujícími poli (fields, viz např. Faber – Usón 1999):<br />

a1) o zvukové struktuře výrazů konstituujících<br />

dané heslo. To ve skutečnosti znamená, že budeme usilovat o vybudování<br />

(paralelní) řečové databáze pro češtinu, která bude představovat soubor<br />

dat vhodných pro tvorbu algoritmů schopných zpracovávat řečové signály, tj.<br />

např. algoritmů pro syntézu a rozpoznávání řeči, včetně rozpoznávání a verifikaci<br />

mluvčích. Data v řečové databázi lze vhodně napojit na ostatní data v lexikální<br />

databázi. V tomto směru bude třeba vyřešit některé zajímavé problémy:<br />

konkrétně, jednotlivé slovní tvary se budou muset generovat modulem pro řečovou<br />

syntézu, protože je prakticky nemožné charakterizovat všechny tvary všech<br />

slov v lexikální databázi – v češtině existuje přibližně 5,5 milionů slovních tvarů.<br />

a2) o struktuře hesla (heslového slova) – představuje<br />

informaci o slovním druhu a všech příslušných gramatických kategoriích<br />

s ním spojených plus údaje o základní segmentaci. U substantiv to lze zajistit<br />

uvedením , protože počítáme<br />

s tím, že morfologický analyzátor/generátor AJKA bude integrován do CLD<br />

(Sedláček 1999) tak, že poskytne morfologickou informaci dynamicky na požádání.<br />

U sloves to standardně zahrnuje 8 kategorií (atributů): ,<br />

, , , , , a . Jejich hodnoty lze získávat dynamicky skrze . Je patrné, že tuto informaci bude možno z morfologického<br />

analyzátoru/generátoru získávat podobným způsobem jako u substantiv.<br />

V samostatném podpoli lze mít i relevantní informaci slovotvornou, která zachytí<br />

relevantní a formálně zachytitelné vazby/vztahy mezi příslušnými heslovými<br />

slovy včetně zachycení jejich sémantické povahy, vztahů mezi slovními<br />

druhy a vztahů slovotvorných (včetně směru fundace) jako např. řetězce typu:<br />

práce pracovat, tj. v konečném úhrnu celé slovotvorné čeledi. Plyne z toho<br />

potřeba co možná formálně formulovat slovotvorná pravidla (viz níže např.<br />

Klímová – Pala, 2000). Lze tu vyjít z dřívějších popisů slovotvorných procesů<br />

(Dokulil 1962), je však potřeba doplnit je a modifikovat tak, aby byly použitelné<br />

pro reprezentaci znalostí.<br />

a3) , kde pro každý z významů bychom rádi uvedli následující<br />

údaje:<br />

162


NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE<br />

a3.1) jež lze přiřadit heslovému slovu – nabízí se možnost<br />

použít hierarchický soubor sémantických rysů založený např. na vrcholové<br />

ontologii (Top Ontology) vyvinuté v rámci projektu EuroWordNet a<br />

hypero/hyponymických (H/H) hierarchických strukturách (stromech či grafech)<br />

nebo jejich částech (podstromech nebo shlucích) (Vossen 1999). Je třeba zvážit<br />

a rozhodnout, jak velké části stromů či podstromů lze použít – podle našeho<br />

odhadu lze počítat, že rozumný počet použitých uzlů se může pohybovat kolem<br />

5,<br />

a3.2) a se uvedou ve všech substantivních heslech, u nichž to<br />

dává dobrý smysl. V dosavadních slovnících představuje informace o genu<br />

proximum první část slovníkové definice. Rozlišovatele představují jistý problém:<br />

je velmi obtížné je uchopit formálně. Lze to doložit faktem, že jednotlivé<br />

slovníky se mezi sebou nejvíce liší právě v tom, jak uvádějí rozlišovatele – existuje<br />

jen částečná shoda v tom, které rozlišovatele by měly nebo neměly být vybrány<br />

a začleněny v jednotlivých heslech.<br />

a3.3) – u sloves se definice typu genus proximum dají<br />

použít jen pro jejich určitou část, proto u nich navrhujeme uvádět informaci<br />

o sémantické třídě, do níž dané sloveso patří. V tomto ohledu připravujeme sémantickou<br />

klasifikaci českých sloves podobnou té, kterou pro angličtinu navrhla<br />

Levinová (Levin 1995). Je ovšem třeba vzít v úvahu, že v češtině je vybudování<br />

takové sémantické klasifikace spojeno s některými komplikacemi způsobenými<br />

primárně existencí kategorie vidu (díky níž se česká slovesa vyskytují ve<br />

dvojicích. Na druhé straně je ovšem vidět, že sémantické třídy sloves mají těsný<br />

vztah k valenčním rámcům sloves (a slovesným rámcům obecně). Tyto vztahy<br />

bychom chtěli v databázi rovněž zachytit.<br />

a3.4) , které lze najít pro dané heslo (lexikální<br />

jednotku, lemma). Důvod pro použití synonymických řad (synsets) plyne ze<br />

skutečnosti, že vztah synonymie (a antonymie) může sloužit jako jeden z mála<br />

relativně spolehlivých způsobů, jimiž lze charakterizovat význam lexikálních<br />

jednotek. Proto se s nimi běžně pracuje ve standardních slovnících.<br />

a4) o kombinatorických vlastnostech hesla a výrazech,<br />

které se s ním pojí. Je zřejmé, že syntaktické vlastnosti dané lexikální<br />

jednotky úzce souvisí s jejím konkrétním významem a odlišují je od ostatních<br />

významů. Informace uvedená v tomto poli bude zachycena prostřednictvím<br />

pro všechny slovní druhy, u nichž to má smysl, tj. u<br />

163


KAREL PALA<br />

sloves, substantiv, adjektiv, číslovek a některých adverbií. Je evidentní, že v<br />

tomto ohledu musíme rozlišit formálně syntaktické (povrchové) valenční rámce,<br />

jež v češtině zahrnují kombinatorickou informaci o sedmi (šesti) morfologických<br />

pádech, případně informaci další, a hloubkové (sémantické) valenční<br />

rámce obsahující potřebné údaje o sémantických pádech (rolích), které jsou vyjadřovány<br />

povrchovými pády. Příklad notace propojující syntaktické a sémantické<br />

valence je uveden níže, je však třeba pokládat ji za předběžnou, dokud<br />

nebude stanoven finální inventář hloubkových pádů pro češtinu (viz např. Sgall<br />

et al.1986, též Fillmore – Atkins 1998, s. 417 – 423, ).<br />

To ale není všechno, podle našeho názoru bude užitečné začlenit do valenčních<br />

rámců i vhodné konkrétní lexikální údaje. Pro aplikace v oblasti NLP<br />

nestačí znát jen odpovídající hodnoty morfologických (povrchových) pádů, ale<br />

i jejich lexikální „obsazení“, což lze doložit např. relevantním rozdílem mezi<br />

dvěma akuzativy v držet v ruce knihu a držet tvar. Dá se argumentovat, že sémantické<br />

valence by měly zachytit tyto významové diference, nezachycují ovšem<br />

přímo, jaké lexikální obsazení se skrývá za jednotlivými sémantickými<br />

pády. Tento druh informace může být velmi užitečný pro praktické aplikace a z<br />

tohoto důvodu pokládáme za výhodné mít je v CLD v explicitní podobě.<br />

a5) , tj. kontexty typické pro dané heslo, např. hezká<br />

dívka nebo šikovný chlapec apod., jak patrno, lze je získat z korpusu,<br />

a6) , např. držet nůž v ruce, otočit hlavu,<br />

obrátit stránku, rovněž je můžeme získat z korpusových textů,<br />

a7) doplněné o vhodnou subklasifikaci beroucí v úvahu jejich<br />

sémantické i syntaktické vlastnosti. Např. je vidět, že slovesné kolokace by<br />

měly být klasifikovány ve shodě s již zmíněnými sémantickými třídami sloves.<br />

Podobné postupy lze uplatnit i u substantivních kolokací, ale jsme si vědomi<br />

toho, že tento úkol bude vyžadovat rozsáhlá korpusová data a jejich pracnou<br />

analýzu. Dobrým východiskem tu může být Slovník české frazeologie a idiomatiky<br />

(Čermák et al. 1983 – 1994).<br />

a8) – sem patří dostatečně strukturované údaje<br />

o stylistických vlastnostech heslového slova včetně informace o regionálním<br />

výskytu a sociálních aspektech. Počítáme však jen s uvedením základních informací<br />

tohoto druhu.<br />

a9) – tj. stručná etymologická informace vztahující se k danému<br />

heslovému slovu,<br />

a10) – zde bude uveden údaj o logickém typu heslového<br />

slova, jak se s ním pracuje v transparentní intensionální logice (TIL) (Materna<br />

164


NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE<br />

2000, Pala 2000). Typy v TIL-u jsou budovány na základě rozvětvené teorie typů<br />

a mohou tak vést k formálně konzistentnějším sémantickým reprezentacím výrazů<br />

přirozeného jazyka (češtiny). To podle našeho názoru spolu s hierarchickými<br />

hypero/hyponymickými strukturami umožní využívat posléze údaje z<br />

CLD v systémech pro reprezentaci znalostí. Za samostatný úkol pokládáme<br />

stanovení vztahů mezi vrcholovou ontologií, jak byla definována v projektu<br />

EuroWordNet 1,2, a typovou ontologií definovanou v rámci TIL. To by mělo<br />

poskytnout přesnější a méně arbitrární sémantickou klasifikaci, umožnit konzistentnější<br />

vymezení sémantických hierarchií, sémantických vztahů a sémantických<br />

rysů. Jsme si vědomi toho, že tyto pokusy budou spojeny s určitými<br />

problémy, např. mohou být aplikovatelné jen pro některá hesla a jen pro některé<br />

slovní druhy (slovesa, substantiva, adjektiva, adverbia).<br />

a12) – mohou být začleněny do CLD zejména<br />

u hesel, u nichž je to vhodné či přímo potřebné z hlediska možných NLP aplikací.<br />

To např. platí o heslech, která se vztahují k informačním technologiím, ale i<br />

mnoha dalším oblastem. Otázka je, zda usilovat o integrování encyklopedických<br />

informací přímo do CLD nebo zvolit pragmatický postup a jen volně napojit<br />

současné encyklopedické zdroje (slovníky) na CLD. V příkladech níže uvádíme<br />

náznaky příkladů, které předpokládají integraci encyklopedických údajů do CLD.<br />

3. Zdroje pro CLD<br />

Situace je příznivá v tom, že nyní jsou k dispozici Český národní korpus<br />

(ČNK na FF UK v Praze) a korpus ESO (na Fakultě informatiky Masarykovy<br />

university, Brno) – můžeme tedy počítat s tím, že budování CLD bude založeno<br />

hlavně na těchto dvou zdrojích. Dále počítáme s následujícími zdroji, konkrétně<br />

s existujícími českými slovníky:<br />

– akademický Slovník spisovného jazyka českého (1960) (v elektronické<br />

podobě), ,<br />

– střední Slovník spisovné češtiny (1984) (v elektronické podobě).<br />

Přirozeně budou použity i další vhodné zdroje, tj. vhodné existující slovníky,<br />

zejména terminologické. Je také potřeba ustavit skupinu odborníků (readers),<br />

kteří by spolupracovali na získávání terminologických a zejména dalších<br />

dat, u nichž je zřejmé, že se nenajdou v korpusu. Má-li se začít pracovat na<br />

novém slovníku češtiny, práce na něm se bez této skupiny neobejdou.<br />

4. Nástroje<br />

165


KAREL PALA<br />

Nedávné výsledky získané u nás v oblasti NLP na Universitě Karlově<br />

(v Ústavu Českého národního korpusu, Ústavu formální a aplikované lngvistikyMatematicko-fyzikální<br />

fakulty a Ústavu teoretické a aplikované lingvistiky<br />

filozofické fakulty) v Praze a v Laboratoři zpracování přirozeného jazyka na<br />

Fakultě informatiky MU v Brně poskytují základní soubor nástrojů, jichž lze<br />

použít při budování CLD.<br />

Konkrétně jde o morfologický analyzátor a generátor AJKA, syntaktické<br />

analyzátory (DIS a GT, Žáčková – Popelínský – Nepil 2000, Horák – Smrž<br />

2000), desambiguátory (Oliva – Petkevič et al. 2000, Hajič 2001), korpusový<br />

manažer Manatee a grafické rozhraní GCQP využívající architektury klient-server<br />

(Rychlý 2000), slovníkový prohlížeč a editor využívající XML formátu, jenž<br />

může pracovat s libovolným slovníkem konvertovaným do XML formátu (Karásek<br />

2000). Vedle toho je k dispozici editor a prohlížeč VisDic, který je určen pro<br />

lokální práci s lexikálními databázemi typu WordNet, ale může pracovat i s jakýmikoli<br />

dalšími slovníky, pokud jsou uloženy ve formátu XML (Pavelek 2001).<br />

Další nástroje zahrnují různé konverzní programy, programy pro budování,<br />

údržbu a editování korpusů (Veber 2001), heuristické programy pro získávání<br />

valenčních rámců z korpusových textů. Samostatným nástrojem je i_par (Veber<br />

2001), což je automatizovaná morfologická databáze, na niž budou navazovat<br />

programy pro automatické odvozování slov (Sedláček 2001) schopné v blízké<br />

budoucnosti pracovat s derivačními řetězy jako učit – učení – učitel – učitelka<br />

– učený – učenec – výuka atd. Je potřeba rozhodnout, zda data tohoto typu<br />

mají být zahrnuta do CLD přímo, nebo by se měla získávat dynamicky ze samostatného<br />

morfologického modulu (viz např. Klímová – Pala 2000). Tento<br />

bod byl dotčen již výše v souvislosti s morfologickými údaji pro jednotlivá hesla.<br />

5. Závěry<br />

V tomto krátkém příspěvku jsme prezentovali výchozí zásady, od nichž se<br />

může odvíjet budování České lexikální databáze. Jsme si vědomi, že některé<br />

probírané body bude potřeba propracovat hlouběji a systematičtěji, máme-li dospět<br />

k plně aplikovatelným výsledkům. Příklady hesel uvedené níže je proto<br />

třeba v řadě ohledů chápat spíše jako experimentální skeletony než jako úplná<br />

hesla. Jsme však přesvědčeni, že popsané techniky, zdroje a nástroje nám<br />

umožní posléze dosáhnout vytčeného cíle.<br />

5.1 Příklady<br />

166


Jako příklad uvádíme heslo pro držet (počítáme s formátem XML):<br />

NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE<br />

<br />

<br />

<br />


KAREL PALA<br />

(roztřídit podle typů)<br />

<br />

<br />

><br />

><br />

<br />

<br />

<br />

%(ve stylu EWN)<br />

<br />

><br />

<br />

<br />

<br />

%(Ve stylu EWN)<br />

<br />

<br />

<br />

<br />

%(Ve stylu EWN)<br />

168


NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE<br />

<br />

<br />

<br />

<br />

%(ve stylu EWN)<br />

<br />

<br />


KAREL PALA<br />

<br />

><br />

<br />

%(Ve stylu EWN)<br />

<br />

<br />


NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE<br />

%(příklady z korpusu)<br />

%(+ sémantická třída kolokace)<br />

<br />

<br />

<br />

><br />

<br />

<br />

<br />

<br />

%ve stylu EWN<br />

%(příklady z korpusu)<br />

%(+ sémantická třída kolokace)<br />

<br />

<br />

<br />

><br />

<br />

<br />

<br />

<br />

%ve stylu EWN<br />

%(příklady z korpusu)<br />

%(+ sémantická třída kolokace)<br />

<br />

<br />

<br />

<br />

<br />

171


KAREL PALA<br />

%ve stylu EWN<br />

%(příklady z korpusu)<br />

%(+ sémantická třída kolokace)<br />

<br />

<br />

<br />

><br />

<br />

<br />

<br />

<br />

%ve stylu EWN<br />

%(příklady z korpusu)<br />

%(+ sémantická třída kolokace)<br />

<br />

<br />

<br />

<br />

Literatura<br />

ČERMÁK, F. et al. 1983 – 1994. Slovník českých frazeologie a idiomatiky. Praha: Academia.<br />

DOKULIL, M. 1962. Tvoření slov v češtině. Praha, Academia.<br />

FABER, P. – USÓN R. M. 1999. Constructing a Lexicon of English Verbs, Berlin – New York:<br />

de Gruyter.<br />

FILLMORE, Ch. – ATKINS, B. 1998. FrameNet and Lexicographic Relevance, In: A. Rubio –<br />

N. Gallardo – R. Castro – A. Tejada (eds.), Proceedings of the First National Conference on<br />

Language Resources and Evaluation, vol. 1, Paris: ELRA, s. 417 – 423.<br />

HAJIČ, J. et al. 2001. Prague Dependency Tree Bank, CD ROM. v. 1.0, Praha: ÚFAL MFF<br />

UK.<br />

INGRIA, R. – BOGURAEV, B. – PUSTEJOVSKY, J. 1992. Dictionary/Lexicon. In: S. C.<br />

Shapiro (ed.), Encyclopedia of Artifical Intelligence. New York: John Wiley, s. 341 – 365.<br />

KARÁSEK, L. 2000. Systém pro tvorbu a presentaci vícejazyčných a výkladových slovníků.<br />

Diplomová práce. Brno: Fakulta informatiky MU.<br />

KLÍMOVÁ, J. – PALA, K. 2000. Application of WordNet ILR in Czech Word-formation. In:<br />

Proceedings of LREC Conference. Athens: ELRA, s. 987 – 991.<br />

LEVIN, Beth. 1995. English Verb Classes and Alternations. Chicago: The University of<br />

Chicago Press.<br />

172


NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE<br />

MATERNA, P. 2001. Type-theoretical analysis as a preparation of analyzing expressions of a<br />

natural language. Prague – Brno: Faculty of Informatics MU (manuscript), s. 110.<br />

OLIVA, K. – PETKEVIČ, V. et al. 2000. The Linguistic Basis of a Rule-Based Tagger of Czech.<br />

In: Proceedings of TSD 2000. Berlin: Springer Verlag, s. 3 – 8.<br />

PALA, K. 2000. Word Senses and Semantic Representations - Can We Have Both? In:<br />

Proceedings of TSD 2000. Berlin: Springer Verlag, s. 109 – 114.<br />

PALA, K. – PAVELEK, T. 2001. A Proposal of XML Standard for WordNet (and Other<br />

Dictionaries).In: Senseval Workshop, Conference ACL. Toulouse.<br />

PAVELEK, T. 2001. VisDic. New Tool for Viewing and Editing WordNets – draft. Brno: Faculty<br />

of Informatics MU (September 2001).<br />

RYCHLÝ, P. 2000. Korpusové manažery a jejich efektivní implementace (Corpus Managers<br />

and their Effective Implementation). Ph.D. Dissertation. Brno: Faculty of Informatics MU.<br />

SEDLÁČEK, R. 1999. Morfologický analyzátor pro češtinu (Morphological analyser for<br />

Czech). Master Thesis. Brno: Faculty of Informatics MU.<br />

SEDLÁČEK, R. 2001. Teze disertační práce. Brno: Fakulta informatiky MU.<br />

SGALL, P. et al. 1986. Úvod do syntaxe a sémantiky. Praha: Academia.<br />

Slovník spisovného jazyka českého (Dictionary of Written Czech Language). 1960. Praha:<br />

Academia.<br />

Slovník spisovné češtiny (Dictionary of Written Czech). 1984. Praha: Academia.<br />

VEBER, M. 2001. Teze disertační práce. Brno: Fakulta informatiky MU.<br />

VOSSEN, P. et al. 1999. Final Report on EuroWordNet-2, 2D041. CD ROM, v. 1, Amsterdam:<br />

University of Amsterdam.<br />

ŽÁČKOVÁ, E. – POPELÍNSKÝ, L. – NEPIL, M. 2000. Recognition and Tagging of<br />

Compound Verb Groups in Czech. In: Proceedings of CoNLL-2000 and LLL-2000, Lisbon, ACL New<br />

Brunswick. s.219 – 225.<br />

HORÁK, A. – SMRŽ, P. 2000. Large Scale Parsing of Czech. In: Proceedings of Efficiency in<br />

Large-Scale Parsing Systems Workshop, COLING'2000. Saarbruecken: Universitat des Saarlandes, s.<br />

43 – 50.<br />

173


KAREL PALA<br />

174


SLOVNÍKOVÁ DATA VE FORMÁTU XML<br />

Pavel Smrž: Fakulta informatiky Masarykovy univerzity, Brno<br />

Abstract: This paper deals with transformation, storage and processing of dictionaries in an electronic<br />

form. Various aspects of the XML format are discussed first. Then, a transformation of source data into<br />

a target format is taken into consideration. Such a process is called up-translation. The next section summarizes<br />

our experience with the transformation of large dictionaries, especially of the Dictionary of Literary<br />

Czech (SSJČ). The last section brings recommendations for those who will be engaged in similar<br />

projects.<br />

1. Úvod<br />

Slovníky jsou nejvýznamnějším zdrojem informací o slovní zásobě jazyka.<br />

Jejich užitečnost se však v současnosti neomezuje jen na lidské uživatele – aplikace<br />

v oblasti zpracování přirozeného jazyka potřebují slovníkové informace<br />

téměř pro všechny úkoly, které řeší. Stovky, a snad i tisíce různých slovníků<br />

jsou používány pro podporu vyhledávání informací, automatického vytváření<br />

abstraktů, strojového překladu atd.<br />

Většina v současnosti používaných slovníkových dat nebyla původně určena<br />

pro počítačové aplikace. Mnoho tištěných slovníků bylo v posledních<br />

desetiletích převedeno do elektronické podoby zejména s cílem snížit náklady<br />

spojené s editorskými úpravami, kontrolou konzistence a modifikacemi při<br />

přípravě nových verzí. Ani ryze elektronický slovník, jakým je WordNet (Miller<br />

et al. 1990), nebyl zprvu určen pro aplikační použití – jednalo se o experiment<br />

zaměřený na modelování mentálního slovníku.<br />

Nehledě na historii vzniku jsou dnes dostupné elektronické slovníky, resp.<br />

elektronické lexikální databáze, z aplikačního pohledu nesmírně cenné, neboť<br />

získávání lexikální informace je obyčejně drahé a představuje i dosti obtížný intelektuální<br />

výkon. Výhodnost používání existujících zdrojů platí i přes nutné<br />

investice do nalézání relevantní informace, která je do jisté míry skryta díky<br />

slabé strukturovanosti, nevyhnutelným chybám, nekonzistencím a opomenutím.<br />

Rozumným cílem je potom ovšem uchovávání slovníků v univerzálním, široce<br />

dostupném a znovupoužitelném formátu. Takové prostředí poskytuje rodina formátů<br />

a nástrojů sdružená kolem jazyka XML.<br />

Následující oddíl je věnován stručnému seznámení s formátem XML a souvisejícími<br />

standardy. Dále se budeme zabývat vlastním převodem dat z vý-<br />

175


PAVEL SMRŽ<br />

chozích formátů do cílového XML, tzv. procesem zvyšování informačního obsahu.<br />

Poté uvedeme několik vybraných projektů, které se na různých místech<br />

světa zabývaly tématy příbuznými naší problematice a jejichž výsledky v menší<br />

či větší míře ovlivnily naše postupy. V dalším oddíle potom jako případovou<br />

studii zmíníme převod SSJČ (Slovníku spisovného jazyka českého) do formátu<br />

XML odpovídajícího doporučením TEI (Text Encoding Initiative). Závěrečná<br />

kapitola shrne získané zkušenosti.<br />

2. Formát XML<br />

XML (eXtensible Markup Language; (Bray et al. 2000) je standardem pro<br />

reprezentaci a výměnu dat. Jde o silný nástroj dovolující obecný způsob značkování<br />

všech forem struktury, vzájemné odkazy a víceúrovňové zanoření struktur.<br />

XML je tedy velmi vhodným formátem pro reprezentaci silně strukturované<br />

informace.<br />

V posledních letech vzneslo mnoho uživatelů požadavek převoditelnosti<br />

mezi různými reprezentacemi dat. Dodavatelé programových produktů byli nuceni<br />

reagovat a akceptovat standardizovaný, neproprietární formát kódování<br />

dat. Vývoj, přijetí a postupné nasazování technologií opírajících se o XML tak<br />

souvisí zejména s možnostmi větší interoperability aplikací umožňujících výměnu<br />

dat ve formátu XML. Právě nemožnost převodu mezi formáty je často<br />

důvodem používání starších programových produktů, které již nesplňují nové<br />

požadavky. Je výhodnější použít široce podporovaný formát než navrhovat<br />

vlastní, omezený. Oproti běžným binárním formátům získáváme také výhodu<br />

deklarativnosti a transparentnosti reprezentace dat.<br />

Jazyk XML, vyvinutý zejména s ohledem na použití ve webových aplikacích,<br />

je zjednodušeným dialektem SGML (Standard Generalized Markup Language).<br />

Teoreticky je tedy v některých ohledech méně silný, avšak díky celé<br />

škále navazujících technologií, které např. dovolují transformace mezi dokumenty,<br />

definice omezujících podmínek, ověřování struktury a odkazy uvnitř<br />

jednoho dokumentu i vzájemné odkazy mezi dokumenty, případně jejich částmi<br />

(viz dále), je právě XML nástrojem umožňujícím udržet krok s rychlým tempem<br />

vývoje v oblasti informačních technologií.<br />

Dokumenty založené na XML smazávají rozdíly mezi daty a klasickými<br />

dokumenty. Některé dokumenty ve formátu XML nejsou ničím jiným než AS-<br />

CII reprezentací dat, která jsou typicky ukládána např. do databází. Jiné dokumenty<br />

XML obsahují velmi málo struktury, vyznačeny jsou např. jen hranice<br />

176


SLOVNÍKOVÁ DATA VE FORMÁTU XML<br />

odstavců, jinak jde o volný text. Slovníková data jsou někde uprostřed mezi<br />

těmito dvěma póly – obsahují složité hierarchické struktury, ale také relativně<br />

nestrukturovaný volný text. XML dovoluje definovat přesnou sémantiku obsahu<br />

slovníku a přitom nespecifikovat formát prezentace. Dovoluje tedy měnit<br />

způsob, jakým jsou jednotlivé části textu tisknuty nebo zobrazovány.<br />

Při práci se slovníkovými daty ve formátu XML můžeme využít mnoha<br />

existujících mechanismů pro přístup k datům a manipulaci s nimi. Budeme<br />

mluvit o rodině standardů XML. V základní formě je XML jazykem pro značkování<br />

dokumentů, který tudíž dovoluje vyznačit jednotlivé elementy textu,<br />

hierarchickou strukturu a odkazy. Strukturu textu kódovaného v XML popisuje<br />

tzv. DTD (Document Type Definition), objevující se již u standardu SGML.<br />

DTD definuje zobecněná pravidla pro strukturu a určuje tak, co je v kódování<br />

příslušného dokumentu dovoleno.<br />

Schopnosti validace formy i obsahu dokumentu nabízené DTD rozšiřuje<br />

definiční jazyk XML Schema (Thompson et al. 2001, Biron, Malhotra 2001).<br />

Dovoluje omezit a dokumentovat význam, použití a vztahy jednotlivých částí<br />

dokumentů XML. Mohou být zadávány např. předdefinované hodnoty pro<br />

atributy a elementy. Z koncepčního pohledu lze definici XML Schematu chápat<br />

jako abstraktní datový model popisované třídy dokumentů (Ide 2000).<br />

Dalším členem „rodiny XML“ jsou formátovací jazyky XSL (eXtensible<br />

Stylesheet Language; Adler et al. 2000) a XSLT (eXtensible Stylesheet Language<br />

for Transformations; Clark 1999, Clark 2001). Jde o deklarativní (neprocedurální)<br />

jazyky, kde „stylesheet“ udává, za jakých podmínek se vykoná jaká<br />

akce. Tzv. procesory XSLT pracují s dokumentem XML, reprezentovaným<br />

stromovou strukturou zanořených elementů, a mohou tento dokument transformovat<br />

do libovolného jiného formátu pomocí výběru, přeuspořádání nebo přidávání<br />

informací. Jazyk XSLT podporuje výběr obsahu elementů nebo jejich<br />

částí z jednoho nebo více XML dokumentů a transformaci obsahu i názvů<br />

elementů.<br />

Pro efektivní přístup k obsahu rozsáhlých dokumentů v XML je potřeba<br />

výkonný dotazovací mechanismus. V uplynulém období vzniklo hned několik<br />

návrhů dotazovacích jazyků pro XML. K nejznámějším patří XQuery (XML<br />

Query Language; Chamberlin et al. 2001) umožňující zadávat složité dotazy na<br />

XML dokumenty ve formě snadno čitelné člověkem (alternativou je XqueryX<br />

odpovídající syntaxi jazyka XML).<br />

Bylo navrženo i několik standardů pro definici odkazů mezi dokumenty<br />

XML. Základní mechanismus XLink (DeRose 2001a) dovoluje specifikovat<br />

177


PAVEL SMRŽ<br />

propojení mezi dvěma a více zdroji nebo jejich částmi. Jazyk XPath (XML Path<br />

Language) (Clark, DeRose 1999) rozšiřuje syntaxi adresace o predikáty pro<br />

manipulace s řetězci znaků, takže je možné odkazovat přímo na části jednotlivých<br />

elementů. Ještě propracovanějším je standard Xpointer (DeRose 2001a),<br />

který rozšiřuje syntaxi XPath směrem k adresaci rozsahů, lokalizace informace<br />

pomocí porovnávání řetězců a použití výrazů v odkazech jako identifikátorů<br />

částí dokumentů.<br />

Existuje ještě celá řada nejrůznějších standardů, které rozšiřují „rodinu<br />

XML“ o více či méně specifickou funkcionalitu. Zmiňme na závěr za všechny<br />

ještě alespoň XML Namespaces (Bray et al. 1999) – mechanismus povolující<br />

stejná jména v různých kontextech pomocí definice tzv. prostorů jmen.<br />

Přes všechny výše zmíněné výhody přetrvává i dnes při řešení zásadní otázky,<br />

zda se vyplatí převod již existujících zdrojů, určitá nedůvěra k formátu<br />

XML. Na tomto postoji se jistě podepsal historický vývoj, kdy byly, nikoliv neoprávněně,<br />

technologie spjaté se standardem SGML považovány za příliš drahé.<br />

Dobře placení poskytovatelé programových nástrojů manipulujících s SGML<br />

pracovali pro ministerstva (zejména americké Ministerstvo obrany), mamutí<br />

podniky typu Boeing (má svoji dokumentaci v SGML), pojišťovny a velké vydavatelské<br />

domy a menší firmy nebyly schopny výhod lépe strukturovaných dokumentů<br />

využít. Ne nadarmo byla zkratka SGML v této době vysvětlována jako<br />

„Sounds Great! Maybe Later!“.<br />

S příchodem formátu XML a jeho masivní popularizací se však situace výrazně<br />

zlepšila a tento příznivý vývoj neustále pokračuje. Formát XML je dnes<br />

široce podporován, existuje mnoho komerčních i nekomerčních programů pracujících<br />

s XML. XML přímo podporují poslední verze webových prohlížečů, i když<br />

zatím ne v plné šíři. Každopádně vše mluví pro použití technologií spojených s<br />

XML v mnoha oborech informačních technologií a byla by samozřejmě škoda nevyužít<br />

nabízených možností i pro oblast reprezentace a výměny slovníkových dat.<br />

3. Zvyšování informačního obsahu<br />

Slovníky obsahují celou škálu různých typů informací, kódovaných různými<br />

způsoby. Jsou aplikovány různé strukturální a typografické normy pro reprezentaci<br />

homografů, lexikalizovaných flektivních variant, složených slov, frází<br />

atd. Často se liší i taxonomie informací. Standardizovaný formalismus lexikální<br />

databáze musí definovat jednoznačný způsob reprezentace všech těchto entit.<br />

178


SLOVNÍKOVÁ DATA VE FORMÁTU XML<br />

Nehledě na nejednoznačnost kódování informací lidem obyčejně stačí<br />

podívat se na slovníkové heslo a okamžitě pochopí, z jakých je složeno částí a<br />

co tyto části znamenají. Zapojí tak ovšem znalost o tom, k čemu slovníky<br />

slouží, jak jsou obecně používány. Aby byly stejné informace bez větší námahy<br />

dostupné stroji, musí být z původně implicitní formy převedeny do explicitně<br />

zaznamenaných údajů, s nimiž si počítačové programy snadno poradí.<br />

Hodnota elektronických slovníků se dramaticky zvyšuje, pokud sdílí<br />

společné značkování. Dosažení tohoto stavu je však nesmírně obtížné, neboť<br />

dostatečně rozsáhlé zdroje jsou získávány obyčejně z existujících slovníků, které<br />

mají v převážné většině vlastní strukturu. Převod dat ze zdrojového do cílového<br />

formátu bývá označován jako proces zvyšování informačního obsahu (uptranslation).<br />

Z aplikačního pohledu se jedná o cestu k použitelnějšímu tvaru<br />

slovníkových dat.<br />

Jak vyplývá z předchozí kapitoly, bude naším cílem převod slovníkových<br />

dat do formátu XML, takže procesem zvyšování informačního obsahu zde budeme<br />

rozumět konverzi z libovolného zdrojového formátu do platné instance<br />

XML odpovídající nějakému cílovému DTD. Přitom se samozřejmě snažíme<br />

nalézt (alespoň částečně) automatické metody převodu. Vývoj takových automatických<br />

metod má samozřejmě ekonomické opodstatnění.<br />

Vzhledem k různorodosti zdrojových formátů je velmi obtížné definovat<br />

obecný model procesu zvyšování informačního obsahu. Obecně lze nicméně<br />

identifikovat 3 základní podprocesy (Chahuneau 1994):<br />

1. identifikace skupin objektů zdrojového dokumentu, sdílejících společné<br />

formátovací vlastnosti (typografické charakteristiky a typické textové vzory);<br />

2. mapování nalezených tříd na typy elementů XML odpovídající cílovému<br />

DTD;<br />

3. generování cílové struktury, případná reorganizace dat a přidání chybějících<br />

struktur (elementů i atributů) tak, aby vše odpovídalo DTD.<br />

Přestože lze v zásadě provést celý převod v jednom průchodu, má tento<br />

postup mnoho nevýhod. Většinou je obtížné rozdělit úkoly tak, aby bylo možné<br />

zapojit více programátorů. Monolitický tvar převodních programů navíc nepřispívá<br />

k čitelnosti kódu a problematické jsou rovněž nutné manuální opravy chyb<br />

kódování, případně i chyb obsahu.<br />

Řešením těchto problémů je postupný, víceprůchodový převod, kdy jsou<br />

navíc již pro výstupy z jednotlivých fází definována příslušná DTD, jimž odpovídá<br />

výsledek ve formátu XML. Výhodou je vstup do „arény XML“ již v prv-<br />

179


PAVEL SMRŽ<br />

ních fázích transformace, což přináší výhodu explicitního modelu informačního<br />

obsahu pomocí DTD a dovoluje použití propracovaných nástrojů pro zpracování<br />

struktur XML. Snadněji lze také postihnout případy, kdy se zdrojový formát<br />

silně vymyká požadavkům cílového DTD.<br />

Dekompozici procesu zvyšování informační úrovně na sérii postupných<br />

kroků lze z teoretického pohledu chápat jako proces navazujících transformací<br />

stromových struktur zanořených elementů, probíhajících při převodu z jednoho<br />

stavu do stavu následujícího. Dnes jsou dokonce k dispozici nástroje nabízející<br />

odvozování DTD z výstupů jednotlivých kroků.<br />

Výše popsané transformace lze implementovat různými metodami. Výhodné<br />

je využít některý z řady populárních skriptovacích jazyků, jakými jsou Perl či<br />

Python. Existují však i nástroje přímo specializované pro tento úkol. K nejznámějším<br />

patří produkt OmniMark (http://www.omnimark.com). Ten nabízí<br />

mechanismus porovnávání vzorů podporující událostmi řízené programování,<br />

založené na lexikálních událostech. Naproti méně specializovaným nástrojům je<br />

úzce provázán se začleněným analyzátorem XML (SGML), takže výsledek<br />

porovnávání vzorů může být závislý na kontextu XML. Vzory mohou být pojmenované,<br />

čímž lze zachytit i velmi složité konstrukce. Propracované je také zotavování<br />

z chyb analýzy dokumentu XML, které může sloužit k opravě generovaného<br />

XML tak, aby vznikla platná instance cílového DTD. Tento mechanismus<br />

funguje výborně tam, kde je zdrojová podoba vzhledem k požadované cílové<br />

struktuře jen mírně deformovaná. Mnohem obtížnější je naopak podchycení případů,<br />

kdy zjednoznačňování struktury dokumentu vyžaduje časté pohledy dopředu,<br />

začlenění dalších zdrojů a intenzivní generování přídavných struktur (Chahuneau<br />

1994).<br />

4. Obdobné a příbuzné projekty<br />

Převodem slovníků do formátu XML se zabývala celá řada projektů v různých<br />

koutech světa. Přitom je nesmírně zajímavé a cenné sledovat, jak se v<br />

rámci různých projektů řeší obdobné problémy, především nedostatky spojené s<br />

nekonzistentní strukturou hesel. Uveďme tedy alespoň několik případů.<br />

Jako typického zástupce převodu rozsáhlého výkladového slovníku zmiňme<br />

projekt OED (Oxford English Dictionary) Online (Elliott 2001). Převod do<br />

strojově čitelné podoby začal již v polovině 80. let, kdy se nakladatelství OUP<br />

(Oxford University Press) rozhodlo vydat druhé vydání svého největšího slovníku,<br />

zahrnující originální 12 svazkový soubor se všemi pozdějšími dodatky. Bez-<br />

180


SLOVNÍKOVÁ DATA VE FORMÁTU XML<br />

prostředním důvodem vzniku elektronické verze byla tehdy snaha o ekonomizaci<br />

nezbytných pozdějších revizí. Přibližně 150 písařek přepsalo celý obsah a<br />

po sérii mnoha oprav byl slovník nakonec v roce 1989 úspěšně vydán.<br />

Kódování OED neodpovídalo plně SGML, protože se autorům zdálo nemožné,<br />

„vzhledem k unikátnímu obsahu a dlouhému vývoji editorského stylu“,<br />

svázat celý slovník jednotným formátem. Dokonce i dnes je OED revidován pomocí<br />

vlastního značkování, což vyžaduje speciální softwarové nástroje vyvinuté<br />

na zakázku. Při analýze potřeb OED Online bylo však konstatováno, že by celý<br />

projekt nesmírně komplikovalo, jestliže by nebyl text poskytnut ve standardní<br />

formě. Všichni dodavatelé software by totiž byli nuceni proniknout do zvláštností<br />

interního formátu a nebylo by možné použít dostupná obecná řešení.<br />

Proto bylo z interního formátu odvozeno standardní DTD, nepokrývající sice<br />

všechny informace obsažené v OED, zahrnující však všechny hlavní vlastnosti<br />

slovníku. Jasně jsou identifikovány definice výrazů, výslovnost, variantní ortografie,<br />

etymologie, doklady a jejich datace, včetně jmen autorů a názvů děl, z<br />

nichž je citováno. Definice speciálního DTD pro výběr dat je v (Elliott 2001)<br />

komentována slovy „ ...archeologové v roce 3000 nebudou moci rekonstruovat<br />

všechny aspekty elektronického textu OED z tohoto DTD a úlomků tištěné verze.<br />

Jde o kompromisní řešení.“<br />

Zajímavé jsou rovněž informace o finanční náročnosti celého projektu, které<br />

příliš neodpovídají výše zmiňované dostupnosti příslušných technologií v dnešní<br />

době. Cena za vývoj programových produktů OED Online činila 400.000<br />

amerických dolarů a nakladatelství OUP utratilo přibližně další milion dolarů<br />

za výzkum trhu, konzultace atd.<br />

Jiným projektem, cenným zejména díky praktickým výstupům ve formě<br />

návrhu vhodného univerzálního DTD (Erjavec et al. 2000), byl grantový<br />

projekt CONCEDE (Evans 1999), jehož cílem bylo vytvoření lexikálních databází,<br />

založených na informacích z tištěných slovníků, pro šest středoevropských<br />

a východoevropských jazyků, konkrétně bulharštinu, češtinu, estonštinu,<br />

maďarštinu, rumunštinu a slovinštinu. Formátem lexikální databáze bylo<br />

SGML odpovídající doporučením TEI. Vzhledem ke skutečnosti, že návrhy TEI<br />

pro kódování slovníků podporují přesný popis existujících slovníků, spíše než<br />

vytváření nových zdrojů ve formě přímo uzpůsobené pro použití v aplikacích<br />

zpracování přirozeného jazyka, bylo druhým cílem projektu vyvinout silně<br />

redukovanou variantu DTD, vhodnou pro tyto účely. Projekt se do značné míry<br />

opíral o korpus Orwell“, vytvořený v rámci projektu EU MULTEXT-EAST (Erjavec<br />

– Ide 1998; většina partnerů byla i partnery CONCEDE), tvořený romá-<br />

181


PAVEL SMRŽ<br />

nem George Orwella 1984 v angličtině a překlady tohoto díla ve všech šesti<br />

jazycích. Výběr zpracovávaných slov v projektu CONCEDE např. vycházel z<br />

frekvenčního slovníku získaného z tohoto románu. Zajímavou informací o výstupech<br />

projektu je zmínka o nemožnosti převést veškeré informace do formátu<br />

odpovídajícího cílovému DTD v důsledku limitovaných zdrojů (Kilgarriff<br />

1999).<br />

Historicky starším projektem je systém LDB, vytvořený v počítačové laboratoři<br />

Cambridgeské university jako součást projektu EU ESPRIT ACQU-<br />

ILEX (Copestake 1995). Systém podporuje uživatele při formulování dotazů a<br />

vyhledávání částí hesel z jednoho a více slovníků, implementuje efektivní vyhledávání<br />

a dovoluje definovat subslovníky, tvořené výběrem hesel rozšířených<br />

o doplňující informace, které nejsou dostupné pro ostatní hesla. Implementačním<br />

nástrojem byl v tomto případě jazyk Common Lisp.<br />

5. Převod Slovníku spisovného jazyka českého<br />

Projekt převodu SSJČ (osmisvazkového Slovníku spisovného jazyka českého)<br />

do formátu XML je realizován v rámci komplexního grantového úkolu<br />

GAČR 405/96/K214 (Čeština ve věku počítačů). Laboratoři zpracování přirozeného<br />

jazyka na Fakultě informatiky Masarykovy univerzity v Brně, která se na<br />

projektu podílí, byla předána již data ve formátu dokumentů aplikace MS<br />

Word, vždy deset stran textu v jednom souboru. Data byla v předchozí fázi naskenována,<br />

pomocí OCR převedena a dále zkontrolována, aby byly odstraněny<br />

okamžitě viditelné chyby rozpoznávání. To vše bylo provedeno na Ústavu pro<br />

jazyk český na Akademii věd ČR.<br />

Naším prvním úkolem byl tedy převod z formátu MS Word. Aplikace MS<br />

Word 2000 slibuje uložení do HTML, které zachovává vše potřebné pro transformaci<br />

do prvotní verze XML. Zkušenosti však ukazují, že převod do formátu<br />

XML odpovídajícího normě by vyžadoval enormní množství práce a že výsledek<br />

i potom nabízí malou podporu pro odvození struktury dokumentu ze<br />

značkování. Jinou možností by bylo využití aplikací dostupných v rámci balíku<br />

OpenOffice, který používá pro ukládání dokumentů přímo formát XML a v posledních<br />

verzích (které však nebyly dostupné v době převodu) by měl být<br />

schopen korektně načíst i dokumenty české verze aplikace MS Word. My jsme<br />

nakonec zvolili přímý převod dat za pomoci speciálně vyvinutého kódu v jazyce<br />

Visual Basic for Application, který MS Word dokáže zpracovávat ve formě<br />

182


SLOVNÍKOVÁ DATA VE FORMÁTU XML<br />

maker. Vzhledem k jednorázovosti celého procesu nepředstavovala časová<br />

náročnost tohoto postupu větší problém.<br />

Další fáze představovala vyhledání anomálií ve vstupním formátu, vyřešení<br />

některých nejednoznačností a opravy chyb kódování. Přitom jsme si velmi<br />

silně uvědomili, že definování kompletní gramatiky pro rozpoznání textových<br />

vzorů a převod struktury je téměř nekonečný proces, kterým je možné projít<br />

pravděpodobně pouze postupným úpravami kódu, časově velmi náročnými. V<br />

této etapě se jedná ještě převážně o dosti mechanický převod dat, který se příliš<br />

nesnaží „zvyšovat informační úroveň“. Pokud je tedy dostatečná pozornost<br />

věnována odhalování a opravám chyb převodního kódu, může jít o přímočarý,<br />

deterministický, a tudíž i spolehlivý proces.<br />

Závěrečnou a nejobtížnější úlohou je transformace mezivýsledku do formátu<br />

XML odpovídajícího cílovému DTD (Petkevič 2000). V ideálním případě<br />

odpovídá typ elementu přímo některému typu písma, jindy stačí uvažovat<br />

jednoduchý, unikátní kontext (např. v hranatých závorkách je uváděna výslovnost),<br />

někdy je výhodné uvažovat omezení určitého typu informací, kdy<br />

hodnota musí být v předem daném seznamu (výčty zkratek, jména autorů).<br />

Úspěšnost převodu samozřejmě závisí podstatnou měrou na kvalitě zdrojových<br />

dat, v našem případě především na konzistenci zpracování slovníku. Většina<br />

těžkostí je spojena právě s nekonzistencí struktury hesel, která je potom nesmírně<br />

obtížné převést plně automaticky.<br />

V současné fázi tedy pracujeme s dvěma variantami XML. Nízkoúrovňové<br />

kódování (příklad 1) je výhodnější pro zanášení oprav nalezených chyb, forma<br />

odpovídající cílovému DTD (příklad 2) je i přes dosud velké množství nesprávně<br />

rozpoznaných elementů vhodná pro některé typy dotazů na konkrétní<br />

části hesel, např. pouze na doklady výskytu či původ hesla. Postupně jsou<br />

opravovány nalezené chyby, zejména nesprávně rozpoznané typy písma, jejichž<br />

výskyt by znemožňoval automatický převod do cílového tvaru. Speciální kategorii<br />

tvoří chyby a nekonzistence, které se vyskytují již v tištěné verzi slovníku.<br />

Ty jsou zaznamenávány odděleně, aby bylo možné kdykoliv konfrontovat<br />

původní podobu dat.<br />

<br />

terorismus<br />

způsob vlády vymáhající terorem poslušnost; hrůzovláda, krutovláda,<br />

despotismus:<br />

vojenský t.; nesnesitelný t.; demagogie a t.; <br />

183


PAVEL SMRŽ<br />

přen. expr.<br />

to je t., nedejte si to líbit<br />

<br />

<br />

<br />

Příklad 1: Nízkoúrovňové kódování dat – jsou vyznačeny jen různé typy písma<br />

terorismus<br />

<br />

<br />

socialismus<br />

<br />

<br />

<br />

způsob vlády vymáhající terorem poslušnost<br />

hrůzovláda<br />

krutovláda<br />

despotismus<br />

vojenský terorismus<br />

nesnesitelný terorismus<br />

demagogie a terorismus<br />

<br />

přen. expr.<br />

to je terorismus, nedejte si to líbit<br />

<br />

<br />

<br />

<br />

Příklad 2: Formát kódování hesla SSJČ odpovídající cílovému DTD<br />

Pro efektivní uložení slovníkových dat využíváme systém MAXXL, který<br />

vznikl na Fakultě informatiky jako výsledek diplomové práce (Karásek 2000).<br />

Základní charakteristikou je absolutní nezávislost na konkrétním formátu XML,<br />

systém pracuje s daty na podkladě zadaného DTD a s využitím doplňující informace<br />

o typech jednotlivých elementů, především o elementu, který má sloužit<br />

184


SLOVNÍKOVÁ DATA VE FORMÁTU XML<br />

jako klíč při vyhledávání, vytváří indexy pro velmi výkonné vyhodnocování dotazů.<br />

Systém MAXXL také definuje vlastní dotazovací jazyk, který dovoluje zadávat<br />

specializované dotazy potřebné pro přístup k slovníkovým datům<br />

(spojené např. s propojením na morfologický analyzátor a expanzí dotazu na<br />

všechny slovní tvary odpovídající příslušnému morfologickému vzoru). Nad<br />

serverovou částí je vystavěno klientské grafické uživatelské rozhraní DictView,<br />

zjednodušující zadávání nejčastějších typů dotazů.<br />

Systém MAXXL je masivně využíván při přípravě dat pro nový morfologický<br />

analyzátor češtiny (Sedláček, Smrž 2001), kdy je vedle dat ze SSJČ prezentován<br />

rovněž obsah SSČ (Slovníku spisovné češtiny pro školu a veřejnost)<br />

a SCS (Akademického slovníku cizích slov). Během tohoto používání již systém<br />

prokázal svoje kvality, především spolehlivost a rychlost vyhledávání.<br />

Předpokládá se rovněž využití při práci na české části projektu Balkanet, jehož<br />

cílem je rozšířit stávající lexikální databáze typu WordNet.<br />

6. Závěrečná doporučení pro řešitele obdobných projektů<br />

Shrňme na závěr tohoto článku naše zkušenosti získané během převádění<br />

slovníků do formátu XML. Tato část může být chápána jako snaha o formulaci<br />

jednoduchých doporučení, která by mohla pomoci řešitelům obdobných projektů.<br />

Při převodu slovníkových dat, ať už z papírové podoby či z elektronické<br />

verze v jiném formátu, se často nevyhneme použití WYSIWYG textových editorů<br />

typu MS Word (např. i díky přímému vstupu z aplikace OCR). Tyto prostředky<br />

obyčejně skrývají logickou strukturu textu, kterou je potom obtížné oddělit<br />

od konkrétní formy prezentace. Proto je vždy velmi výhodné:<br />

1. Detailně rozmyslet a předem si uvědomit, které elementy bude třeba<br />

identifikovat, aby byla respektována požadovaná cílová struktura dat.<br />

2. Pokud jsou data převáděna z tištěné podoby, např. pomocí technologií<br />

OCR, je nanejvýš vhodné, nejlépe ještě před započetím práce, rozhodně<br />

však před provedením vizuálních kontrol, probrat tuto fázi s těmi, kdo<br />

budou vlastní převodní programy implementovat. Předejde se tak totiž<br />

zbytečné práci, kterou bylo možné provést již při prvotní kontrole a která<br />

zdržuje všechny následné činnosti.<br />

3. Používat přímo v editoru značkování, dovolující člověku snadno postřehnout<br />

i drobné nedostatky, např. chybně rozpoznaný řez písma, párové<br />

185


PAVEL SMRŽ<br />

znaky neodpovídající si typem písma atd. Nanejvýš vhodné je vedle typů<br />

písma využít barevného rozlišení různé informace obsažené v heslech.<br />

Například aplikace MS Word dovoluje takové náhrady pomocí definovaných<br />

maker, vše lze tedy provést stiskem jediného tlačítka a u kratších<br />

dokumentů (např. výše zmíněná kontrola vždy po deseti stranách textu)<br />

není záměna nijak časově náročná.<br />

Aby se předešlo problémům spojeným s nejednoznačností obsahu slovníkových<br />

hesel, měly by být pro vytváření nových a rozsáhlejší úpravy existujících<br />

zdrojů používány pokud možno nástroje dovolující pracovat přímo s cílovou<br />

podobou XML. Takové nástroje často teprve vznikají a je otázkou, jak má<br />

vypadat vizuální podoba vlastní editace složitějších struktur. Nabízí se možnost<br />

vyplňování určitého formuláře a současné vytváření definované vizuální podoby,<br />

či přímá editace vizualizované podoby se striktní kontrolou konzistence dat,<br />

odpovídající definovaným podmínkám. Toto je dosud otevřený problém, který<br />

tak nabízí prostor pro další výzkum.<br />

Na úplný závěr dovolte zopakovat ne příliš optimistické konstatování<br />

z textu, totiž, že převod slovníkových dat do „vysněné“ zamýšlené struktury je<br />

téměř nekonečný proces, kterým je možné projít pouze postupnými, časově velmi<br />

náročnými kroky.<br />

Literatura<br />

ADLER, S. et al. 2000. Extensible Stylesheet Language (XSL). Version 1.0. W3C Proposed<br />

Recommendation. http://www.w3.org/TR/xsl/.<br />

BIRON, P. – MALHOTRA, A. 2001. XML Schema Part 2: Datatypes. W3C Recommendation.<br />

http://www.w3.org/TR/xmlschema-2/.<br />

BRAY, T. et al. 1999. Namespaces in XML. W3C Recommendation.<br />

http://www.w3.org/TR/REC-xml-names/.<br />

BRAY, T. et al. 2000. Extensible Markup Language (XML) 1.0 (Second Edition). W3C<br />

Recommendation. http://www.w3.org/TR/1998/REC-xml.<br />

COPESTAKE, A. 1995. ACQUILEX. http://www.cl.cam.ac.uk/Research/NL/acquilex/.<br />

CHAHUNEAU, F. 1994. Current Approaches to SGML Up-translation. http://www.oasisopen.org/cover/fcha.html.<br />

CHAMBERLIN, D. et al. 2001. XQuery 1.0: An XML Query Language. W3C Working Draft.<br />

http://www.w3.org/TR/xquery/.<br />

CLARK, J. 1999. XSL Transformations (XSLT). Version 1.0. W3C Recommendation.<br />

http://www.w3.org/TR/xslt/.<br />

CLARK, J. 2001. XSL Transformations (XSLT). Version 1.1. W3C Working Draft.<br />

http://www.w3.org/TR/xslt11/.<br />

186


SLOVNÍKOVÁ DATA VE FORMÁTU XML<br />

CLARK, J. – DEROSE, S. 1999. XML Path Language (XPath). Version 1.0. W3C<br />

Recommendation. http://www.w3.org/TR/xpath/.<br />

DEROSE, S. et al. 2001a. XML Linking Language (XLink). Version 1.0. W3C<br />

Recommendation. http://www.w3.org/TR/xlink/.<br />

DEROSE, S. et al. 2001b. XML Pointer Language (XPointer). Version 1.0. W3C Last Call<br />

Working Draft. http://www.w3.org/TR/xptr/.<br />

ELLIOTT, L. 2001. How the Oxford English Dictionary Went Online. Ariadne, č. 24.<br />

http://www.ariadne.ac.uk/issue24/oed-tech/.<br />

ERJAVEC, T. – IDE, N. 1998. The MULTEXT-East Corpus. In: Proceedings of the 1 st<br />

International Conference on Language Resources and Evaluation, s. 971 – 974.<br />

ERJAVEC, T. et al. 2000. The Concede Model for Lexical Databases. In: Proceedings of the 2 nd<br />

International Conference on Language Resources and Evaluation, s. 355 – 362.<br />

http://nl.ijs.si/et/Bib/LREC00/lrec-cnc.ps.gz<br />

EVANS, R. 1999. CONCEDE: Consortium for Central European Dictionary Encoding.<br />

http://www.itri.bton.ac.uk/projects/concede/.<br />

IDE, N. 2000. The XML Framework and Its Implications for the Development of Natural<br />

Language Processing Tools. In: Proceedings of the COLING Workshop on Using Toolsets and<br />

Architectures to Build NLP Systems.<br />

KARÁSEK, L. 2000. Systém pro tvorbu a presentaci vícejazyčných a výkladových slovníků.<br />

Diplomová práce. Brno: Fakulta informatiky Masarykovy univerzity.<br />

KILGARRIFF, A. 1999. Public Progress Report: Deliverable 0.2.1, CONCEDE Project.<br />

http://www.itri.bton.ac.uk/projects/concede/DR0.2.1_no_pointers.html.<br />

MILLER, G. 1990. Five Papers on WordNet. CSL Report 43. Princeton: Cognitive Science<br />

Laboratory, Princeton University.<br />

PETKEVIČ, V. 2000. Návrh DTD pro SSJČ – 1. verze.<br />

SEDLÁČEK, R. – SMRŽ, P. 2001. A New Czech Morphological Analyser ajka. In:<br />

Proceedings of the 4 th International Conference on Text, Speech and Dialogue.<br />

THOMPSON, H. S. et al. 2001. XML Schema Part 1: Structures. W3C Recommendation.<br />

http://www.w3.org/TR/xmlschema-1/.<br />

187


POČÍTAČOVÁ PODPORA SLOVENSKÝCH<br />

LEXIKOGRAFICKÝCH PROJEKTOV –<br />

RETROSPEKTÍVNY POHĽAD<br />

Vladimír Benko: Laboratórium počítačovej lingvistiky Pedagogickej<br />

fakulty Univerzity Komenského; Jazykovedný ústav Ľudovíta<br />

Štúra Slovenskej akadémie vied, Bratislava (Vladimir.Benko@fedu.<br />

uniba.sk)<br />

Abstract: A short case history of several computationally supported Slovak lexicographical projects is<br />

presented. A proprietary Markup Language MOM is introduced, with examples of entry representiations<br />

of the dictionaries in question, and also some technological problems of our approach are discussed.<br />

1. Úvod<br />

Lexikografia ako aplikovaná jazykovedná disciplína je oblasťou, ktorá sa<br />

príchodom počítačov zmenila v rámci lingvistiky azda najviac. Myšlienka nahradenia<br />

tradičných lexikografických nástrojov – ceruzky, papiera a škatúľ s<br />

excerpčnými lístkami – klávesnicou, obrazovkou a diskom počítača je natoľko<br />

priamočiara, že pokusy o aplikáciu počítačov v lexikografii začali hneď, keď<br />

ich cena poklesla na úroveň, ktorú si aj naše lexikografické pracoviská mohli<br />

dovoliť zaplatiť. Dnes síce parametre počítačov toho obdobia vyvolávajú úsmev<br />

(PC XT, 640 MB operačnej pamäte, pevný disk s kapacitou 20 MB, grafická<br />

karta EGA), podstatné však bolo, že sa na nich dal spustiť textový procesor<br />

schopný vytvoriť text so všetkými slovenskými diakritickými znamienkami a vytlačiť<br />

ho pomocou (rachotiacej 9-ihličkovej) tlačiarne na papier. Bolo to v roku<br />

1990.<br />

V skutočnosti sa počítače aj v našich podmienkach dotkli procesu zrodu<br />

slovníka ešte o niečo skôr – v tlačiarňach sa už v polovici 80. rokov používali na<br />

sadzbu počítačové terminály a počítačom ovládané osvitové jednotky. Tieto počítače<br />

však boli veľké („sálové“) a drahé a práce lexikografov sa priamo nedotkli.<br />

Je zrejmé, že použitie počítačov pri tvorbe slovníka sa nemôže obmedziť<br />

len na prípravu tlačových podkladov – právom sa očakáva, že pomôžu zefektívniť<br />

a skvalitniť všetky etapy životného cyklu lexikografického diela. V našom<br />

príspevku chceme podať stručný pohľad na nedávnu históriu i súčasnosť niekoľkých<br />

počítačom podporovaných lexikografických projektov, ktorých výsled-<br />

188


POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD<br />

kom bola publikácia slovníkov, či už nových alebo vydaných v opravených a<br />

doplnených vydaniach. Príspevok má formu stručných prípadových štúdií<br />

obohatených o niekoľko osobných postrehov.<br />

2. Prvé kroky: Krátky slovník slovenského jazyka<br />

Náš prvý kontakt s lexikografickým dielom v počítačovej podobe sa<br />

uskutočnil v roku 1988. Bolo to v bratislavskej tlačiarni Svornosť, kde sme sa<br />

náhodou a s úžasom dozvedeli, že sadzbu 1. vydania Krátkeho slovníka slovenského<br />

jazyka (1987, ďalej len KSSJ) bude pravdepodobne treba vymazať (tak,<br />

ako sa to rutinne robilo aj s inými textami) pre nedostatok miesta na disku...<br />

Príbeh „záchrany“ tohto cenného lexikálneho materiálu a jeho prevodu do tvaru<br />

spracovateľného na štandardnom osobnom počítači sme podrobnejšie opísali<br />

na inom mieste (Benko – Kostolanský 1997). Tu sa obmedzíme len na konštatovanie,<br />

že toto dielo vlastne iniciovalo našu spoluprácu s Jazykovedným ústavom<br />

Ľudovíta Štúra SAV (ďalej len JÚĽŠ), ktorá pretrváva až dodnes.<br />

Naším cieľom pri tomto projekte bolo jednak to, aby autori slovníka mohli<br />

v budúcnosti jednoduchšie a rýchlejšie pripraviť nové vydanie KSSJ, ako aj to,<br />

aby sa materiál z diela mohol zužitkovať ako zdroj údajov do pripravovanej<br />

lexikálnej databázy slovenského jazyka. Z dnešného pohľadu však za jeho hlavný<br />

výsledok možno považovať návrh značkovacieho jazyka MOM 1 , ktorý sa<br />

osvedčil natoľko, že bol následne (s niektorými malými zmenami a rozšíreniami)<br />

použitý v niekoľkých ďalších lexikografických projektoch realizovaných<br />

v JÚĽŠ. Tento jazyk vznikal postupne počas analýzy typografického formátu<br />

KSSJ a pôvodne mal slúžiť len na vizualizáciu typografických povelov, ktoré v<br />

pôvodnom formáte mali netlačiteľnú reprezentáciu. Nakoniec sa však podarilo<br />

pomocou automatizovaných procedúr prekonvertovať do takejto formy celý text<br />

KSSJ, pričom sa v plnej miere zachovali informácie o štruktúre slovníka z<br />

hľadiska typografickej reprezentácie a vznikol materiál, ktorý sa mohol stať základom<br />

pre ručné opravy a modifikácie textu.<br />

Zápis textu v jazyku MOM vychádza z týchto základných pravidiel:<br />

1. Text slovníka sa reprezentuje pomocou štandardnej množiny tlačiteľných<br />

znakov na danej počítačovej platforme, napr. v prostredí systému MS-DOS<br />

1 Názov pochádza z odpovede na otázku, ktorú sme často dostávali na odborných podujatiach:<br />

„Are you using SGML?“ – „No, I am using My Own Markup.“<br />

189


VLADIMÍR BENKO<br />

sa použilo tzv. kódovanie Kamenických, ktoré bolo v tom čase (1989)<br />

u nás na osobných počítačoch de facto štandardom.<br />

2. Základnou spracúvanou jednotkou textu je heslová stať, ktorú tvorí súvislý<br />

blok textu ukončený prázdnym riadkom.<br />

3. Riadky začínajúce znakom „!“ sa považujú za identifikačné (môže to byť<br />

napr. číslo kartotečného lístka, z ktorého bolo heslo prepísané do počítača,<br />

prípadne číslo hesla vytvorené ľubovoľným spôsobom).<br />

4. Riadky začínajúce znakom „?“ sa považujú za komentár.<br />

5. Typografické vlastnosti textu sa reprezentujú takto:<br />

a) Text v "úvodzovkách" reprezentuje (polo)tučné písmo.<br />

b) Text v 'apostrofoch' predstavuje kurzívu.<br />

c) Text v |zvislých paliciach| reprezentuje zmenšené písmo (obyčajne<br />

nonpareille).<br />

d) Ďalšie typy, rezy, prípadne veľkosti písma možno reprezentovať pomocou<br />

dvojíc znakov percento (%), tilda (~), plus (+), rovná sa (=),<br />

zavináč (@) alebo ampersand (&).<br />

e) Pred horným indexom sa píše znak strieška (^).<br />

f) Znaky s vysokou frekvenciou v texte, ktoré nie sú obsiahnuté v základnom<br />

súbore (napr. grafická značka pred frazeológiou, odkazová<br />

šípka), sa zapisujú pomocou dvojice znakov, z ktorých prvý je znak<br />

dolár ($).<br />

g) Znaky s diakritikou, ktoré nie sú obsiahnuté v miestnom súbore<br />

znakov a majú vysokú frekvenciu, sa reprezentujú pomocou trojice<br />

znakov, z ktorých prvý je znak bez diakritického znamienka a druhý<br />

je znak opačná lomka (\).<br />

h) Na všetky ostatné typografické situácie (napr. grécke písmo, dolné indexy,<br />

špeciálne grafické symboly) je možné ad hoc zaviesť skratku<br />

uzavretú v dvojici uhlových zátvoriek (< a >).<br />

6. Na zvýšenie čitateľnosti textu sa odporúča členiť heslovú stať na odseky<br />

predstavujúce štruktúrne jednotky textu (jednotlivé významy heslového<br />

slova, prihniezdované heslové slová). Toto členenie sa však pri ďalšom<br />

<strong>spracovaní</strong> ignoruje.<br />

190<br />

Ako príklad zápisu vo formáte MOM uvádzame úryvok textu KSSJ:<br />

!041a03_<br />

"baba^1" -y báb |ž.|


POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD<br />

"1." |hovor.| stará žena: ’stará b.’<br />

"2." |pejor.| nepríjemná, zlá, protivná žena:<br />

’klebetná, zlostná b.’<br />

"3." |slang.| mladá žena, dievča: ’b-y z<br />

internátu’<br />

"4." |hovor.| pôrodná asistentka: ’pôrodná b.’<br />

"5." |pejor.| zbabelec, bojazlivec, slaboch:<br />

’nebuď b.!’<br />

"6." ’slepá b.’ det. hra: ’hrať sa na slepú b-u’<br />

|i fraz.| pretvarovať sa<br />

$@ ’čo sa b-e (za)chcelo, to sa b-e (pri)snilo’;<br />

"babský" |príd. k 1-5|: ’b-é lieky’ domáce,<br />

ľudové; ’b-é klebety, reči’; |slang. pejor.| ’b.<br />

internát’ dievčenský; ’b-é správanie’ zbabelé,<br />

slabošské;<br />

"babsky" |prísl.|;<br />

"babisko" -a -bísk |s., N a A jedn. i ž. zvel.<br />

pejor. k 1, 2|<br />

!041a04_<br />

"baba^2" -y báb |ž. hovor.|<br />

"1." prázdny koláč<br />

"2." haruľa: ’zemiaková b.’<br />

"3." pandrava chrústa<br />

"4." jaternica z hrubého čreva<br />

!041a05_<br />

"bába" -y báb |ž. det.| báb(i)ka: ’hrať sa s b-ou’<br />

!041a06_<br />

"bábä" -äťa |mn.| -ätá/-ence -bät/-beniec, "bábo"<br />

-a báb |s. hovor.| novorodeniatko: ’budú mať b.’;<br />

"bábätko" -a -tiek |s. zdrob.|<br />

!041a07_<br />

"babí" |príd.|: ’b-ie leto’ slnečné dni na konci<br />

leta; pavučinkové vlákna poletujúce vo vzduchu v<br />

tomto období;<br />

|pren.| začiatok staroby<br />

Ako sme už spomenuli, v čase spracovania textu KSSJ sa ešte vôbec neuvažovalo<br />

o ďalšom vydaní slovníka, takže sme údaje použili „len“ ako materiál<br />

pre morfologickú databázu slovenského jazyka (Benko – Hašanová –<br />

Kostolanský 2001), ktorá neskoršie vznikla v Laboratóriu počítačovej lingvisti-<br />

191


VLADIMÍR BENKO<br />

ky Pedagogickej fakulty UK. Skúsenosti a nástroje vytvorené počas tohto<br />

projektu sa však veľmi rýchlo uplatnili už v nasledujúcom slovníkovom diele.<br />

3. Na konci životného cyklu slovníka: Slovník slovenských nárečí (I. zväzok)<br />

Začiatkom 90-tych rokov pretrvávali pri vydávaní slovníkov ešte staré „socialistické“<br />

pomery, kde nebolo nezvyčajné, že publikácia pripravená do tlače<br />

čakala na svoje vydanie aj niekoľko rokov. Autori lexikografických diel tomu<br />

čiastočne čelili (a čiastočne to aj zneužívali) tým, že koniec prác na slovníku<br />

deklarovali v predstihu, pričom sa mlčky predpokladalo, že záverečné redakčné<br />

práce sa vykonajú počas „čakacieho“ obdobia a dlhých intervalov tlačiarenských<br />

korektúr.<br />

Tak to bolo aj v prípade prvého zväzku Slovníka slovenských nárečí<br />

(1994, ďalej len SSN): čistopis textu prepísaný na písacom stroji s (ručne) farebne<br />

vyznačenými typmi písma bol podľa vtedajších zvyklostí pripravený na<br />

štítkoch v škatuliach a čakal na odvezenie do tlačiarne. Tak vznikla myšlienka<br />

uskutočniť v tomto medzičase (nešpecifikovanej dĺžky) experiment, 2 ktorý by<br />

overil možnosť využitia počítača pri ďalšom koncipovaní textu slovníka. Počas<br />

experimentu bolo prepísaných niekoľko strán skoncipovaného diela vo formáte<br />

MOM a bol vytvorený program na jeho prevod do formátu vhodného na import<br />

do zalamovacieho systému FERRANTI-TRACT, ktorý sa vtedy používal v<br />

tlačiarňach Svornosť na sadzbu slovníkov. Išlo vlastne o opačný smer prenosu<br />

dát, ako sa predtým uskutočnil s textom KSSJ, takže získané skúsenosti boli veľmi<br />

cenné.<br />

Experiment sa vydaril – autori slovníka po prvýkrát uvideli návrh grafickej<br />

podoby diela, na ktorom už veľa rokov pracovali, ale výsledok sa zdal byť<br />

ešte v nedohľadne. Ukázalo sa tiež, že formát MOM sa dá dobre použiť nielen na<br />

reprezentáciu textu získaného prevodom z iného systému, ale je vhodný aj na<br />

prvotné písanie textu. „Prepisovači“ (a neskoršie aj autori) si na značkovanú<br />

podobu textu veľmi rýchlo zvykli a prijali ju za svoju a neskoršie, keď sa robili<br />

experimenty so systémami typu WYSIWYG, vyhlásili značkovanú podobu za výhodnejšiu<br />

pre prácu lexikografa. (Len malý príklad: na <strong>počítačovom</strong> termináli je<br />

dosť ťažké rozlíšiť, či spojka „i“ je alebo nie je napísaná kurzívou.)<br />

2 Treba poznamenať, že táto iniciatíva pochádzala od dvoch vtedajších mladých doktorandiek<br />

Gabriely Barančokovej-Múcskovej a Ľubice Dvornickej z nárečového oddelenia JÚĽŠ, ktoré sa ujali<br />

prvotného prepisovania textu na jednom z troch vtedajších počítačov v JÚĽŠ – na PC XT.<br />

192


POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD<br />

Dôsledkom tohto experimentu bolo rozhodnutie prepísať na počítači časť<br />

textu skoncipovaného slovníka pochádzajúceho od autorov, ktorí už kolektív<br />

opustili, a vykonať s týmto textom ešte jedno kolo redakčných prác. Neskoršie,<br />

keď sa tlačiarenský termín stále odďaľoval, sa takto spracoval aj zvyšok textu<br />

slovníka.<br />

Z hľadiska štruktúry heslovej state a zvolenej grafickej reprezentácie<br />

jednotlivých jej prvkov sa SSN veľmi podobá na KSSJ. Na prvý pohľad udrie<br />

do očí len pravopis používaný pri zápise nárečových dokladov, ktorý obsahuje<br />

niektoré znaky neznáme v spisovnom pravopise (napr. ć alebo ś), a informácia<br />

o lokalite, z ktorej daný doklad pochádza. Na zápis uvedených znakov sa použila<br />

notácia so znakom „opačná lomka“, čiže napr. znak ć sa zapísal ako c\’, a na<br />

lokality sa zaviedol „nový pár“ operátorových zátvoriek (hranatých) s tým, že<br />

ich výsledná grafická podoba sa určí neskôr. Príklad časti textu SSN vo formáte<br />

MOM je na nasledujúcom obrázku:<br />

!1<br />

"čaba" |ž.| i "čabiak" |m. vin.| sorta skorého bieleho stolového hrozna,<br />

čabianska perla: ’Bola čaba, malaga, to boli skoré hrozni na jedzení’<br />

[Limbach MOD]; ’To boli záliskové hrozni, na čabe ešče dozráli’ [Vinosady<br />

MOD]; ’V águste uš čabág zraje’ [Jur p. Brat. BRA]; ’Bol bílí, červení tokaj,<br />

portogézija, čabák’ [Bernolákovo BRA]<br />

!2<br />

"čabaňa^1" i "čabanka" |ž. trn, pov, jtrenč| malá nádoba s uškom (obyč.<br />

porcelánová al. hlinená), z ktorej sa pije: ’Vipila sis kávu s čabani?’ [Vaďovce<br />

MYJ]; ’Boli také kamené hrnčeki, kamenáčki, aj čabanka sa im hovorilo’<br />

[Vinosady MOD]; ’čabaňa’ [Bošáca TRČ]; ’čabanka’ [Ružindol<br />

TRN]<br />

!3<br />

"čabaňa^2" i "čabianka" |ž.| (’čabanka’) |vin.| sorta skorého bieleho<br />

stolového hrozna, čabianska perla: ’Stolové hrozne boli strapág aj čabana’<br />

[Vištuk MOD]; ’Mán tam rizlink, portugal, mán tan čabanu’ [Bučany HLO]; ’Je<br />

čabaňa a bílí samorodák, kerí má velice slatkú chuť podobnú čabaňe’<br />

[Nitra]; ’Mávali zme skorú sortu čabanku’ [Trakovice HLO]; ’čabianka’<br />

[Pukanec LVI]<br />

!4<br />

"čabarok" |m.| druh chrobáka obžierajúceho lístie stromov, |zool.| chrúst<br />

obyčajný (Melolontha vulgaris): ’Čabarog vľecel do chiži’ [Medzany SAB]<br />

!6<br />

"čabda" |ž. gem| pasca na vtáky: ’čabda’ [Revúca]<br />

193


VLADIMÍR BENKO<br />

Hlavným problémom reprezentácie slovníkového textu vo formáte MOM<br />

bolo to, že sa pri prepise často zabudlo na otváraciu alebo zatváraciu operátorovú<br />

zátvorku. Rozhodli sme sa preto vytvoriť kontrolný program, ktorý zhodu<br />

zátvoriek kontroluje a upozorňuje na všetky „nevyváženosti“ výpisom riadkov<br />

textu, v ktorom sa problém vyskytol. Tento program sa neskôr stal základom<br />

validačného parsera, ktorý kontroluje správnosť syntaxe heslových statí a štandardne<br />

upozorňuje na tieto chyby:<br />

1. nevyváženosť nepárových operátorových zátvoriek;<br />

2. nevyváženosť párových zátvoriek (pričom tieto môžu byť aj vnorené);<br />

3. chýbajúce alebo nadbytočné medzery okolo interpunkčných znamienok<br />

(ide o bodku, čiarku, dvojbodku, bodkočiarku, výkričník, otáznik a operátorové<br />

zátvorky);<br />

4. viacnásobné medzery v texte (často indikujúce napr. chýbajúce jednoznakové<br />

predložky alebo spojky);<br />

5. postupnosť čísel významov (označených polotučným písmom; algoritmus<br />

je tu veľmi jednoduchý: ak sa vyskytne polotučná číslovka, musí to<br />

byť buď jednotka, alebo číslo o jednotku väčšie, ako bol jej predchádzajúci<br />

výskyt v danej heslovej stati);<br />

6. postupnosť písmen „a)“ až „z)“ v rôznych zoznamoch (berie sa do úvahy<br />

aj možnosť „ch)“).<br />

Voliteľne možno navyše žiadať o tieto kontroly:<br />

7. postupnosť čísel v identifikačných riadkoch začínujúcich výkričníkom<br />

(takto sa často objaví vynechanie kartičky pri prepisovaní);<br />

8. prítomnosť nadbytočných medzier na začiatku riadka.<br />

Možno povedať, že pomocou validačného parsera sa hneď v zárodku dá<br />

odstrániť veľké množstvo chýb, ktoré sa pri klasickom spôsobe práce zdĺhavo<br />

hľadali v korektúrach. Zároveň sa postupne zlepšujú aj pisárske návyky autorov<br />

textu s tým, že časom sa počet chýb kontrolovaných typov už pri prvotnom<br />

vstupe podstatne zníži.<br />

V prvých projektoch sme procedúru validačného parsera modifikovali pre<br />

každý nový kontrolovaný slovník, dnešná podoba programu je už rovnaká pre<br />

viacero projektov, pričom odlišnosť vo funkcii sa špecifikuje pomocou vstupných<br />

parametrov.<br />

194


POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD<br />

Celkovo možno konštatovať, že použitie počítača v projekte SSN síce neprinieslo<br />

skrátenie prác, zato však kvalita textu podstatne stúpla.<br />

4. Recyklácia skúseností a nástrojov: Historický slovník slovenského jazyka<br />

(III. a IV. zväzok)<br />

V čase dokončovania prác na 1. zväzku SSN mal iný slovníkový projekt –<br />

Historický slovník slovenského jazyka (ďalej len HSSJ) – za sebou už dva zväzky:<br />

HSSJ I (1992) a HSSJ II (1993), ktoré boli vytlačené tradičnou technológiou.<br />

Po skúsenostiach so SSN sa vedenie JÚĽŠ rozhodlo využiť počítačovú<br />

technológiu aj pri tomto projekte, ktorý bol v podobnej etape rozpracovania ako<br />

SSN I. Vzhľadom na nedostatok pisárskej kapacity na pracovisku sa však text<br />

prepisoval externe, pričom dodávateľ bol schopný pracovať len vo formáte textového<br />

procesora T602, na ktorý boli jeho pracovníčky zvyknuté. Keďže program<br />

T602 neumožňuje pracovať s rôznymi veľkosťami písma, bolo toto písmo<br />

zapisované pomocou písma podčiarknutého.<br />

Štruktúra heslovej state HSSJ je veľmi podobná s predchádzajúcimi, pričom<br />

rozdiely sú dané jednak charakterom dokladového materiálu (zapisovaného<br />

v historickom pravopise) a jednak tým, že bola zvolená „opačná“ konvencia<br />

pri reze písma v zápise výkladov a dokladov: výklady sú v HSSJ zapísané kurzívou<br />

a doklady obyčajným stojatým písmom. 3<br />

!2774d<br />

"oťažiť" [otíž-] |dk práv|<br />

"1." |koho| ’zaťažiť obžalobou, obžalovať niekoho’: kdyz gemu to bude<br />

nagdeno, ze on to dobrze muoz vdielati, tehdy otižes (!) geho podle prawa,<br />

kterak sie gma geho podgiti, ze by gemu mohlo ku pomoczy przigiti k geho<br />

prawu |ŽK 1473|<br />

"2." |komu čo| ’priťažiť niekomu (v súdnom spore)’: kterzyz z nich nagprwe<br />

vmrze, ten obdrzy zalobu a onomu geho rany obtizy |ŽK 1473|<br />

!2774d<br />

"otcovizeň" |p.| "otčizeň"<br />

!2775a<br />

"otcovsko-materinský" |príd| ’týkajúci sa otca i matky’: z običajuv, vúle,<br />

zádosti a činuv otcovskomaterinskích mnoho do dítek prelívano bíva<br />

|BR 1785|<br />

3 Takáto konvencia je obvyklá v niektorých českých lexikografických dielach.<br />

195


VLADIMÍR BENKO<br />

!2775b<br />

"otcovský" |p.| "otec"<br />

!2775c<br />

"otcovstvo" [-o, -í] |s| ’stav toho, kto je otcom’: klekam na swá kolena k Otcy<br />

Pana nasseho Gežjsse Krysta, z kterehožto každe otcowstwo na neby y na<br />

zemy gmenuge se |SK 1697|; nagmilostiwegšý ten Pán i w panstwú swém<br />

na otcowstwj swé |BN 1790|; otcoustvi zalezi v tom, že gich za svich<br />

uznava, duszi telem opatruge, wiučuge, napomina, pokutuge |SS 18. st|<br />

!2775d<br />

"otcozabíjač" |m| ’otcov vrah’: pribyhagú wogáci, publikáni, kúrwi,<br />

modloslužebnjci, otcúwzabigaci, čzarodewnjci, swodnjci |BlR 18. st|<br />

Pri <strong>spracovaní</strong> textu slovníka sa už do značnej miery dosiahla úspora<br />

programátorskej práce – využili sa hotové nástroje, ktoré bolo treba len mierne<br />

upraviť – a ako úplne nová vznikla len procedúra konverzie z formátu programu<br />

T602 do formátu MOM. Ukázalo sa, že je to proces vcelku priamočiary.<br />

Jediným vážnejším problémom bola iná konvencia pri zápise „typu písma“ pri<br />

znaku „medzera“: formát MOM predpokladá, že úvodná a koncová medzera<br />

pri vyznačenom type písma je zapísaná obyčajným písmom, zatiaľ čo vo formáte<br />

T602 medzera vždy má rovnaký typ písma ako predchádzajúci text. Na elimináciu<br />

tohto problému sa však dala pomerne ľahko vytvoriť automatizovaná<br />

procedúra, takže redakčné práce už mohli počítať s textom v štandardnej podobe.<br />

Pri príprave tlačových podkladov sa ukázala ešte jedna výhoda toho, že<br />

text je v počítačovej podobe: pri odhade počtu vytlačených strán vysvitlo, že<br />

pripravený text bude potrebné rozdeliť do dvoch zväzkov (HSSJ III 1994<br />

a HSSJ IV 1995) – počas celého obdobia koncipovania textu autori mali značne<br />

skreslenú predstavu o tom, koľko ho vlastne je.<br />

5. Trochu iný slovník: Synonymický slovník slovenčiny<br />

Projekt Synonymického slovníka slovenčiny (1995, ďalej len SSS) sa z<br />

pohľadu autorov líšil od predchádzajúcich najmä v spôsobe rozdelenia materiálu<br />

medzi jednotlivých členov kolektívu. Na rozdiel od tradičného členenia<br />

textu na „písmená“ tu autori pracovali „podľa slovných druhov“ – táto taktika<br />

bola asi jediná možná vzhľadom na to, že synonymia predstavuje vzťahy medzi<br />

slovami toho istého slovného druhu, a tiež vzhľadom na veľké množstvo odka-<br />

196


POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD<br />

zov, ktoré museli autori pri tvorbe synonymických radov zohľadniť a spracovať.<br />

O tomto projekte podrobnejšie porov. Pisárčiková – Benko (1996). Tu sa<br />

obmedzíme len na niekoľko poznámok. Nasledujúci obrázok obsahuje príklad<br />

textu SSS:<br />

!a69<br />

"čudácky" |p.| čudný<br />

!s115<br />

"čudák" človek, ktorého správanie, prejavy sa vymykajú norme: ’v mladosti<br />

bol čudák’, |hovor. expr.| "patrón": ’je to čudný patrón, nechodí do<br />

spoločnosti’, |expr.:| "odľud, čudo" [J. Horák], |zastar.| "podivín"<br />

!a70<br />

"čudesný" |p.| čudný<br />

!s116<br />

"čudeso" |p.| zázrak<br />

!a71<br />

"čudný" ktorý sa vyznačuje mimoriadnosťou, zriedkavosťou; ktorý je málo<br />

známy, ktorý sa nedá presne pomenovať, určiť, "neobyčajný, nezvyčajný,<br />

nevšedný, zvláštny" (|op.| obyčajný, bežný, všedný): ’čudný, neobyčajný<br />

príbeh; čudné, nezvyčajné správanie; nezvyčajný, nevšedný, zvláštny<br />

strom’, "divný, podivný, podivuhodný, podozrivý, znepokojujúci"<br />

(vzbudzujúci údiv, počudovanie, znepokojenie): ’začuť divné, podivné,<br />

podivuhodné zvuky; podozrivé, znepokojujúce ticho’, "čudácky" (typický pre<br />

čudáka): ’vedie čudácky život’, |kniž.:| "bizarný, pitoreskný": ’bizarné,<br />

pitoreskné tvary’, |expr.:| "čudesný, prečudesný, prečudný, predivný,<br />

prepodivný, prapodivný, prazvláštny", |expr. zried.| "pračudný" (veľmi<br />

čudný): ’čudesná, prečudesná, prečudná krajina; prepodivný, pračudný<br />

pocit’, "nepochopiteľný, záhadný, tajomný" (plný tajomstva, nepoznaný,<br />

nepreskúmaný): ’nepochopiteľná, záhadná osoba; tajomné symboly’,<br />

"nevysvetliteľný": ’nevysvetliteľná záhada, nevysvetliteľný úkaz’<br />

!s117<br />

"čudo" "1." |p.| zázrak "2." |p.| strašidlo 1 "3." |p.| čudák<br />

!v78<br />

"čudovať sa" pociťovať a prejavovať prekvapenie, údiv, "diviť sa, byť<br />

prekvapený": ’diváci sa čudujú, divia, sú prekvapení, že sa predstavenie<br />

ešte nezačalo’, "žasnúť, byť ohromený" (čudovať sa vo veľkej miere): ’žasli<br />

sme nad výkonmi športovcov’, |expr.:| "vyvaľovať oči, otvárať oči, híkať,<br />

ochkať, achkať": ’čudujem sa toľkej odvahe, otváram oči nad toľkou<br />

odvahou; čuduje sa, híka, achká nad toľkou krásou’, "prekvapuje ma" (iba v<br />

3. os.): ’čudujem sa tomu, prekvapuje ma to’, |fraz. expr.| "oči mu vyliezajú<br />

z jamiek/jamôk" (pri veľkom prekvapení)<br />

197


VLADIMÍR BENKO<br />

Aj keď sme sa o tom pri predchádzajúcich projektoch nezmieňovali,<br />

jedným z nástrojov vytvorených na výsledné spracovanie textu slovníka bol<br />

program na abecedné usporiadanie hesiel vo formáte MOM. Vzhľadom na to,<br />

že autori dodávali jednotlivé úryvky textu už abecedne usporiadané, poslúžil<br />

tento program „len“ na zisťovanie drobných chýb, ktorých sa autori pri ručnom<br />

usporadúvaní dopustili. V projekte SSS však existencia takéhoto nástroja bola<br />

takmer nevyhnutnosťou – ručné usporiadanie takto rozsiahleho textu je síce<br />

možné uskutočniť, ale bola by to obrovská práca.<br />

Nebudeme sa tu zmieňovať o nuansách a teoretických i praktických problémoch<br />

implementácie programu na abecedné usporadúvanie, spomenieme len, že<br />

na danom projekte prešiel skúškou ohňom a že je to z celého balíka vytvorených<br />

nástrojov pravdepodobne „najotestovanejší“ program. Jeho použitie umožňovalo<br />

autorom, aby až do posledného momentu mohli pracovať len so „svojím“ textom,<br />

ktorý sa stal súčasťou výsledného tvaru slovníka pri každom korektúrnom cykle<br />

nanovo.<br />

Druhou oblasťou problémov bola verifikácia správnosti odkazov: v heslových<br />

statiach sú jednotlivé členy synonymických radov uvádzané v poradí<br />

klesajúcej zhody významu s tzv. dominantou, t. j. základným členom synonymického<br />

radu. Aby mohol používateľ slovníka nájsť príslušnosť jednotlivých<br />

členov synonymického radu k dominantám, musí byť každý člen radu uvedený<br />

v slovníku na správnom mieste podľa abecedného poradia vo forme odkazu.<br />

V ideálnom prípade by sa všetky takéto odkazy dali vygenerovať automaticky<br />

– v praxi to však nebolo možné z viacerých dôvodov. Prvým je skutočnosť,<br />

že ak sa heslové slovo vyskytuje vo viacerých synonymických radoch,<br />

musia byť aj odkazy členené podľa jednotlivých významov slova, t. j. autor<br />

musí pri spracúvaní odkazov zohľadňovať polysémiu. Ďalej, koncepcia slovníka<br />

predpokladala, že členy radov s učitými charakteristikami (napr. nespisovné<br />

alebo nárečové slová) sa vo forme odkazov uvádzať nebudú, pretože sa neočakáva,<br />

že by používateľ slovníka takúto informáciu v diele hľadal. A nakoniec,<br />

technológia práce autora bola v skutočnosti iteratívna – v niekoľkých kolách sa<br />

pre každý význam polysémického slova autor rozhodoval, či ho spracuje ako<br />

dominantu synonymického radu alebo len vo forme odkazu. Tieto dôvody viedli<br />

k tomu, že odkazy nebolo možné vytvoriť automaticky, ale bolo ich potrebné<br />

verifikovať. Navrhnutá procedúra zaradila každý odkaz a každý výskyt slova v<br />

synonymickom rade do jednej z kategórií:<br />

198


POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD<br />

1. Správny odkaz: pre člen synonymického radu existuje odkazová položka<br />

na správnom mieste v abecede.<br />

2. Chýbajúci odkaz: pre člen synonymického radu neexistuje odkazová<br />

položka – príčinou môže byť buď rozhodnutie autora, alebo omyl.<br />

3. Nadbytočný odkaz: pre danú položku neexistuje buď daná dominanta,<br />

na ktorú slovo odkazuje, alebo pri existujúcej dominante dané slovo<br />

nefiguruje ako člen synonymického radu.<br />

Okrem toho procedúra umožnila odhaliť duplicity v synonymických radoch,<br />

t. j. situácie, keď sa dané slovo vyskytuje v synonymickom rade viackrát<br />

(obyčajne na rôznych miestach), ktorých bolo na počudovanie niekoľko<br />

desiatok. Chyby druhého a tretieho typu boli buď „čisté“, t. j. autorské omyly<br />

v zmysle definície, alebo sa často vyskytovali aj v dôsledku preklepov v zápise<br />

príslušných slov – takéto prípady boli indikované dvojicou chybových zápisov<br />

(druhého a tretieho typu) týkajúcou sa tej istej chyby. Vlastné opravy chýb v odkazoch<br />

si síce vždy vyžadovali autorskú prácu, táto však bola uľahčená presnou<br />

informáciu o lokalizácii problému v dvojici synonymický rad – odkaz.<br />

Procedúra verifikácie a ručných opráv prebehla v niekoľkých cykloch, pričom<br />

po každom jej kole počet nájdených chýb podstatne poklesol: z pôvodných<br />

niekoľko tisícok až na niekoľko desiatok na konci opravného procesu. Pri<br />

prvom kole bolo z rôznych dôvodov označených za chybné takmer 10 % odkazov<br />

– táto skutočnosť jasne demonštruje, že bez použitia automatizovaných verifikačných<br />

procedúr by takýto slovník v rozumnej kvalite ani nebolo možné<br />

pripraviť.<br />

6. Kruh sa uzatvára: tretie vydanie Krátkeho slovníka slovenského jazyka<br />

Práca na novom vydaní KSSJ bola pre nás značnou satisfakciou – pri autorských<br />

zásahoch bolo možné použiť elektronickú verziu druhého vydania, čo<br />

celý proces skrátilo podľa našich odhadov minimálne o jeden rok. Súbor nástrojov<br />

na spracovanie textu bol už v podstate uzavretý a organizácia práce prebiehala<br />

rutinným spôsobom. Zmienime sa tu preto len o jednom novom prvku<br />

použitom pri redakčných prácach – o prezentácii zmien urobených v slovníku.<br />

Porovnávanie dvoch textov pomocou počítača je pomerne priamočiary proces,<br />

problematické je však efektívne zobrazenie nájdených rozdielov. Ako príklad<br />

nášho riešenia uvedieme vizualizáciu rozdielov v heslároch obidvoch vydaní<br />

KSSJ, ktorá sa osvedčila v takejto dvojstĺpcovej podobe:<br />

199


VLADIMÍR BENKO<br />

2c-056c18 "celieť sa"<br />

2c-058b04 "CGT"<br />

2c-058b05 "CIA"<br />

2c-058b15 "CIC"<br />

2c-059a01 "cigánčina"<br />

3c-003___ "celebrovať"<br />

3c-056c70 "celiť"<br />

3c-056c70 "celiť sa"<br />

3c-004___ "celoplošne"<br />

3c-004a__ "celosieťový"<br />

3c-057a73 "celulózovo-papiernický"<br />

3c-005___ "centiliter"<br />

3c-006___ "certifikácia"<br />

3c-006___ "certifikačný"<br />

3c-007___ "cestovka"<br />

3c-008___ "cezhraničný"<br />

3c-009___ "ciachovné"<br />

3c-009a__ "cicavý"<br />

3c-059a01 "cigánčina^1"<br />

3c-059a51 "cigánčina^2"<br />

V ľavom stĺpci sa nachádzajú heslové slová, ktoré sa vyskytujú v 2. vydaní<br />

KSSJ a v 3. vydaní boli vynechané, v pravom stĺpci sú novopridané heslové slová<br />

v 3. vydaní. Ako vidíme, v novom vydaní boli vynechané iniciálové skratky, pribudlo<br />

veľa nových hesiel a k niektorým heslám boli pridané homonymá.<br />

Takýto spôsob prezentácie rozdielov si autori veľmi obľúbili, a preto sme<br />

ho použili aj v iných projektoch, ako aj na vizualizáciu rozdielov medzi heslármi<br />

rôznych slovníkov.<br />

7. Záver: O čom sme nehovorili a čo nás ešte čaká<br />

Predchádzajúce kapitoly sa stručne dotkli počítačového spracovania niekoľkých<br />

slovenských slovníkov. V štúdii daného rozsahu sme sa jednotlivým<br />

projektom nemohli venovať podrobnejšie, a tak sme nespomenuli napr. pomerne<br />

efektívnu metódu vyhľadávania chybných zápisov jednotlivých prvkov metajazyka<br />

slovníka (akými sú napr. rôzne kvalifikátory a údaje o prameňoch, citáciách<br />

a lokalitách), ako aj metodiku na unifikáciu výkladových parafráz pri<br />

heslách patriacich do rovnakej lexikálnej skupiny. Nezmienili sme sa o ostatných<br />

lexikografických projektoch využívajúcich uvedenú technológiu – ide o<br />

niekoľko prekladových slovníkov na jednej strane spektra, ktoré na druhej<br />

200


POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD<br />

strane siaha až po nový projekt viaczväzkového slovníka súčasnej slovenčiny.<br />

Predpokladáme, že tieto údaje budeme môcť uviesť v budúcej monografii.<br />

Všetky naše doterajšie práce sa vykonávali nad tzv. slabo štruktúrovaným textom,<br />

kde je text slovníka reprezentovaný pomocou značkovacieho jazyka blízkeho<br />

typografickej reprezentácii. Má to viacero príčin. Na prvom mieste treba<br />

uviesť stav technického a programového zabezpečenia v čase, keď sa naše<br />

projekty začínali – v roku 1989 sa ešte vôbec nedalo uvažovať ani o systémoch<br />

typu WYSIWYG, ani o platforme schopnej spracúvať text reprezentovaný v jazyku<br />

SGML. Počas celého uvažovaného obdobia sme pociťovali akútny nedostatok<br />

programátorskej kapacity – realizovateľné boli len tzv. „lacné riešenia“. No a nakoniec<br />

tu bol tlak bežiacich projektov: v časovej tiesni sa obyčajne dáva prednosť<br />

„vrabcovi v hrsti“ (MOM) pred „holubom na streche“ (SGML a všetko, čo s tým<br />

súvisí).<br />

Nechceme však povedať, že sme túto cestu zavrhli. S počítačmi so stále<br />

rastúcou výkonnosťou, dostupnejšími nástrojmi pre prácu s jazykmi SGML<br />

a XML a s črtajúcim sa projektom nového korpusového pracoviska v JÚĽŠ SAV<br />

dúfame, že ono – v tomto zborníku už citované (Smrž 2001) – „... Maybe Later“<br />

bude aj u nás hovoriť o budúcnosti nie príliš vzdialenej.<br />

Literatúra<br />

BENKO, Vladimír – HAŠANOVÁ, Jana – KOSTOLANSKÝ, Eduard. 2001. Morfologická<br />

databáza ohybných slovných druhov slovenčiny na účely algoritmického spracovania textov. In: Jazykovedný<br />

časopis, roč. 52, č. 1, s. 3 – 23.<br />

BENKO, Vladimír – KOSTOLANSKÝ, Eduard. 1997. Počítačová verzia Krátkeho slovníka<br />

slovenského jazyka. In: Jazykovedný časopis, roč. 48, č. 1, s. 9 – 20.<br />

KAČALA, Ján – PISARČÍKOVÁ, Mária (eds.). 1987. (1. vydanie). Krátky slovník slovenského<br />

jazyka. Bratislava: Veda.<br />

KAČALA, Ján – PISARČÍKOVÁ, Mária – POVAŽAJ, Matej (eds.). 1997. (3. vydanie). Krátky<br />

slovník slovenského jazyka. Bratislava: Veda.<br />

MAJTÁN, Milan (ed.). 1992. (1. vydanie). Historický slovník slovenského jazyka. I. zv. Bratislava:<br />

Veda.<br />

MAJTÁN, Milan (ed.). 1993. (1. vydanie). Historický slovník slovenského jazyka. II. zv. Bratislava:<br />

Veda.<br />

MAJTÁN, Milan (ed.). 1994. (1. vydanie). Historický slovník slovenského jazyka. III. zv. Bratislava:<br />

Veda.<br />

MAJTÁN, Milan (ed.). 1995. (1. vydanie). Historický slovník slovenského jazyka. IV. zv. Bratislava:<br />

Veda.<br />

201


VLADIMÍR BENKO<br />

PISÁRČIKOVÁ, M. – BENKO, V. 1996. Slovak Synonym Dictionary. In: Gallerstam, M. et al.<br />

(eds.), EURALEX ’96. Proceedings of the Seventh EURALEX International Congress on Lexicography.<br />

Göteborg: Götebog University, s. 689 – 696.<br />

RIPKA, Ivor (ed.). 1994. (1. vydanie). Slovník slovenských nárečí. I. zv. Bratislava: Veda<br />

SMRŽ, Pavel 2001. Slovníková data ve formátu XML. In: Alexandra Jarošová (ed.), <strong>Slovenčina</strong><br />

a <strong>čeština</strong> v <strong>počítačovom</strong> <strong>spracovaní</strong>. Bratislava: Veda, s.168.<br />

202


203


S L O V E N Č I N A<br />

A Č E Š T I N A<br />

V P O Č Í T A Č O V O M<br />

S P R A C O V A N Í<br />

Návrh obálky Hana Kohútová (s použitím grafického motívu P. Kleeho)<br />

Zodpovedná redaktorka Jitka Madarásová<br />

Prvé vydanie. Vydala VEDA, vydavateľstvo Slovenskej akadémie vied, v Bratislave<br />

roku 2001 ako svoju 3378. publikáciu, z tlačových podkladov Jazykovedného<br />

ústavu Ľudovíta Štúra SAV. 196 strán.<br />

ISBN 80-224-0692-9

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!