Slovenčina a čeština v počítačovom spracovaní - Slovenský národný ...
Slovenčina a čeština v počítačovom spracovaní - Slovenský národný ...
Slovenčina a čeština v počítačovom spracovaní - Slovenský národný ...
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
VEDA<br />
VYDAVATEĽSTVO SLOVENSKEJ AKADÉMIE VIED
JAZYKOVEDNÝ ÚSTAV ĽUDOVÍTA ŠTÚRA SLOVENSKEJ AKADÉMIE VIED<br />
PEDAGOGICKÁ FAKULTA UNIVERZITY KOMENSKÉHO<br />
RECENZENTI<br />
Ing. Vladimír Benko<br />
PhDr. Mária Šimková
S L O V E N Č I N A<br />
A Č E Š T I N A<br />
V P O Č Í T A Č O V O M<br />
S P R A C O V A N Í<br />
VEDA<br />
vydavateľstvo<br />
Slovenskej<br />
akadémie<br />
vied<br />
Bratislava 2001<br />
Zborník referátov zo seminára<br />
Bratislava 26. – 27. októbra 2001<br />
EDITORKA<br />
ALEXANDRA JAROŠOVÁ
© Vladimír Benko, František Čermák, Sachia Daržágín, Peter Ďurčo, Karol<br />
Furdík, Jan Hajič, Jana Hašanová, Jozef Ivanecký, Alexandra Jarošová,<br />
Eduard Kostolanský, Ľubomír Kralčák, Vlasta Křečková, Michal Křen,<br />
Karel Pala, Milan Rusko, Pavel Smrž, Marián Trnka 2001.<br />
Tento zborník je jedným z výsledkov účasti Jazykovedného ústavu Ľudovíta Štúra<br />
Slovenskej akadémie vied a Pedagogickej fakulty Univerzity Komenského v<br />
mnohonárodnom projekte Transeurópska infraštruktúra jazykových zdrojov II<br />
(Trans--European Language Resources Infrastructure II – TELRI II, PL 97-<br />
7085), ktorý sa ako súbor koordinovaných podujatí (coordinated action)<br />
uskutočnil v rámci programu Európskej komisie INCO-COPERNICUS v<br />
rokoch 1999 – 2001. Aktivity slovenských partnerov v tomto projekte boli čiastočne<br />
financované z prostriedkov štátneho rozpočtu Slovenskej republiky (grant<br />
SAV pridelený na riešenie projektu medzinárodnej vedecko-technickej spolupráce<br />
č. 51-98-9205-00/1999 a grant Ministerstva školstva Slovenskej republiky<br />
č. PL 97-7085)
ISBN 80-224-0692-9<br />
OBSAH<br />
OBSAH.............................................................................................................5<br />
Malá inventúra pred hľadaním spoločného jazyka..........................................7<br />
Statistické modelování<br />
a automatická analýza<br />
přirozeného jazyka<br />
(morfologie, syntax, překlad)..........................................................................11<br />
Jan Hajič: Ústav formální a aplikované lingvistiky a Centrum komputační lingvistiky,<br />
Matematicko-fyzikální fakulta Univerzity Karlovy (hajic@ufal.mff.cuni.cz)..............................................................................................................11<br />
Identifikácia paradigmatických<br />
a syntagmatických vzťahov v texte.................................................................35<br />
Karol Furdík: Juvier, s.r.o., Košice.....................................................................35<br />
Spracovanie morfologickej<br />
roviny slovenčiny počítačom..........................................................................51<br />
Eduard Kostolanský – Jana Hašanová: Laboratórium počítačovej lingvistiky,<br />
Pedagogicka fakulta Univerzity Komenského, Bratislava.................................51<br />
Databases for Speech Recognition and Synthesis in Slovak..........................92<br />
Milan Rusko – Sachia Daržágín – Marián Trnka: Institute of Informatics,<br />
Slovak Academy of Sciences, Bratislava............................................................92<br />
SAMPA V SLOVENČINE A JEJ VÝZNAM<br />
Z POHĽADU VIACJAZYČNÝCH<br />
SYSTÉMOV NA ROZPOZNÁVANIE REČI .............................................102<br />
Jozef Ivanecký: IBM Voice Systems, European Speech Research; Katedra kybernetiky<br />
a umelej inteligencie, Fakulta elektrotechniky a informatiky Technickej<br />
univerzity Košice (ivanecky@de.ibm.com)................................................102<br />
AUTOMATICKÁ TRANSKRIPCIA<br />
SLOVENČINY V POČÍTAČOVOM<br />
ROZPOZNÁVANÍ REČI .............................................................................114<br />
Jozef Ivanecký: IBM Voice Systems, European Speech Research; Katedra kybernetiky<br />
a umelej inteligencie, Fakulta elektrotechniky a informatiky Technickej<br />
univerzity Košice (ivanecky@de.ibm.com)...........................................114<br />
viacjazyčný výslovnostný<br />
slovník vlastných mien a názvov lokalít......................................................122<br />
Peter Ďurčo: Akadémia Policajného zboru, Bratislava (durco@ minv.sk)......122
ČESKÝ NÁRODNÍ KORPUS:<br />
Stav v roce 2001............................................................................................126<br />
František Čermák: Ústav Českého národního korpusu, Filozofická fakulta University<br />
Karlovy, Praha (Frantisek.Cermak@ff.cuni.cz)...................................126<br />
Český národní korpus –<br />
počítačová demonstrace................................................................................142<br />
Michal Křen: Ústav Českého národního korpusu, Filozofická fakulta University<br />
Karlovy, Praha..................................................................................................142<br />
Informácie v terminologických databázach a ich využívanie pri preklade odborných<br />
textov...............................................................................................148<br />
Vlasta Křečková: Fakulta humanitných vied Univerzity Mateja Bela, Banská<br />
Bystrica.............................................................................................................148<br />
Projekt slovníka štúrovskej<br />
slovenčiny a jeho počítačová podpora..........................................................156<br />
Ľubomír Kralčák: Katedra slovenského jazyka, Filozofická fakulta Univerzity<br />
Konštantína Filozofa, Nitra..............................................................................156<br />
Návrh české lexikální databáze....................................................................161<br />
Karel Pala: Katedra informačních technologií, Fakulta informatiky Masarykovy<br />
university, Brno (pala@fi.muni.cz)..................................................................161<br />
Slovníková data ve formátu XML................................................................175<br />
Pavel Smrž: Fakulta informatiky Masarykovy univerzity, Brno......................175<br />
počítačová podpora SLOVENSKÝCH lexikografických projektov – retrospektívny<br />
pohľad............................................................................................188<br />
Vladimír Benko: Laboratórium počítačovej lingvistiky Pedagogickej fakulty<br />
Univerzity Komenského; Jazykovedný ústav Ľudovíta Štúra Slovenskej akadémie<br />
vied, Bratislava (Vladimir.Benko@fedu. uniba.sk)..................................188
MALÁ INVENTÚRA PRED HĽADANÍM<br />
SPOLOČNÉHO JAZYKA<br />
Seminár <strong>Slovenčina</strong> a <strong>čeština</strong> v <strong>počítačovom</strong> <strong>spracovaní</strong> sme organizovali<br />
so zámerom zlepšiť vzájomnú informovanosť ľudí zaoberajúcich sa na Slovensku<br />
problematikou počítačov vo vzťahu k jazyku a naopak, jazyka vo vzťahu<br />
k počítačom. V tejto oblasti sú u nás značne izolované ostrovčeky aktivít prebiehajúcich<br />
v odlišných vedných odboroch a teoreticko-aplikačných kontextoch.<br />
Tieto sa zameriavajú len na neveľké úseky a komponenty odboru počítačová<br />
lingvistika, pod ktorým možno chápať spolu s automatizovaným <strong>spracovaní</strong>m<br />
jazykových dát (vývoj a použitie príslušných programových nástrojov) aj<br />
teoretickú výstavbu jazykovedy v podobe modelov založených na využívaní<br />
jazykových znalostí v procedurálnej aj deklaratívnej podobe (gramatické<br />
pravidlá a počítačové lexikóny vybavené vysoko štruktúrovanou explicitnou informáciou,<br />
ako aj procedúry túto informáciu využívajúce), alebo v podobe<br />
modelov založených na pravdepodobnosti (stochastické gramatiky). V tomto<br />
zmysle môžu byť pre nás relevantné aj aktivity v oblasti umelej inteligencie a<br />
niektoré komponenty kognitívnej lingvistiky (scenáre, rámce a prototypy). Rozšírenie<br />
záberu má svoje opodstatnenie, pretože v pozadí formalizovaných a explicitných<br />
modelov stojí zreteľ k možným aplikáciám a naopak, technické aplikácie<br />
implementujú modely a výrazne stimulujú pohyb v teoretickej jazykovede<br />
vo všeobecnosti.<br />
Na rozdiel od Slovenska je situácia v Českej republike diametrálne odlišná.<br />
Keďže česká počítačová lingvistika je cieľavedome budovaná ako samostatný<br />
odbor už viac ako tridsať rokov, predstavuje dnes široké spektrum bádateľských<br />
a aplikovaných aktivít od formálnej (matematickej) lingvistiky cez počítačovú<br />
lexikografiu, strojový preklad, spracovanie rečového signálu až po<br />
korpusovú lingvistiku. Druhým cieľom nášho seminára je preto poskytnúť<br />
slovenskej odbornej verejnosti a študentom z lingvistických aj nelingvistických<br />
odborov ucelenejší pohľad na výsledky práce v oblasti počítačového spracovania<br />
češtiny, ktorá patrí v tomto smere medzi európsku a vo viacerých parametroch<br />
aj medzi svetovú špičku. Tento prehľad nám sprostredkujú vedúce osobnosti<br />
v danom teoretickom alebo aplikovanom úseku.<br />
Naším seminárom by sme chceli nadviazať na vedeckú, pedagogickú a organizačnú<br />
prácu Jána Horeckého, ktorý sa od začiatku šesťdesiatych rokov<br />
20. storočia usiloval uplatňovať princípy a metódy matematickej lingvistiky na<br />
7
materiáli slovenského jazyka (v jeho bibliografii možno nájsť vyše päťdesiat<br />
štúdií a článkov s danou problematikou). Tieto poznatky sprostredkoval aj svojim<br />
študentom a ašpirantom v prednáškach z matematickej lingvistiky a základov<br />
jazykovedy (skriptum Úvod do matematickej lingvistiky, Bratislava<br />
1969 a učebnica Základy jazykovedy, Bratislava 1978). J. Horecký sa usiloval<br />
zakotviť matematickú jazykovedu aj inštitucionálne, keď v roku 1962 založil<br />
oddelenie matematickej lingvistiky a fonetiky v bývalom Ústave slovenského<br />
jazyka SAV. V oddelení, ktoré viedol do roku 1970, pripravovali mladí adepti<br />
vedy K. Buzássyová, J. Bosák a R. Gedeon pomocou diernoštítkového stroja<br />
slovník tvarov a morfém a publikovali rad štúdií z oblasti štatistickej lingvistiky.<br />
V roku 1970 sa z iniciatívy J. Horeckého v uskutočnilo v Smoleniciach<br />
medzinárodné sympózium o algebraickej lingvistike, na ktorom sa zúčastnili vedúce<br />
osobností pôsobiace v tomto odbore (materiály zo sympózia boli uverejnené<br />
v Recueil Linguistique de Bratislava, vol. IV, Bratislava 1973). Matematická<br />
jazykoveda v tom čase zahŕňala aj staršiu kvantitatívnu (štatistickú) lingvistiku,<br />
zaoberajúcu sa najmä skúmaním frekvencie jazykových jednotiek v textoch,<br />
a algebraickú jazykovedu ako súhrn teórií vypracovaných s použitím<br />
matematickej logiky, teórie množín, teórie grafov a iných súčastí teoretického<br />
aparátu matematiky.<br />
Ak sme vyššie spomínali kvantitatívnu analýzu textov vyúsťujúcu do tvorby<br />
abecedných a konkordančných indexov a frekvenčných slovníkov, nemôžeme<br />
nespomenúť priekopníka kvantitatívnych metód v jazykovede a literárnej<br />
vede na Slovensku G. Altmanna a tiež autora frekvenčného slovníka slovenčiny<br />
(Frekvencia slov a tvarov, Bratislava 1969) a publikácie Frekvencia tvarov a konštrukcií<br />
v slovenčine (Bratislava 1985) J. Mistríka.<br />
Počítačovú lingvistiku chápanú podľa J. Horeckého ako aplikovaná matematická<br />
lingvistika, predstavovali v tom čase vlastne len zahraničné práce na<br />
strojovom preklade. Začiatkom sedemdesiatych rokov viaceré administratívne<br />
rozhodnutia sčasti externé (vo vzťahu k odboru), sčasti vnútorné (súvisiace s<br />
organizačnými zmenami v Jazykovednom ústave Ľudovíta Štúra) spôsobili, že<br />
sa matematická lingvistika nemohla na Slovensku rozvíjať ako samostatný odbor.<br />
J. Horecký v nasledujúcich rokoch spolupracoval na niektorých problémoch<br />
automatizovanej morfologickej analýzy slovenčiny s českými kolegami z<br />
Ústavu formální a aplikované lingvistiky na Matematicko-fyzikálnej fakulte Karlovej<br />
univerzity v Prahe.<br />
Vybrané lingvistické problémy (napr. lematizácia, tvorba sémantických<br />
sietí, rozpoznávací slovník) boli v osemdesiatych rokoch súčasťou riešenia úlohy<br />
8
spracovania textu pre potreby informačných (najmä knižničných) systémov (M.<br />
Cigánik, A. Appelová).<br />
Absencia inštitucionálnej a personálnej základne počítačovej lingvistiky<br />
sa odrazila na malej pripravenosti slovenskej jazykovedy vyrovnať sa s búrlivým<br />
zahraničným vývojom v oblasti automatizovaného spracovania prirodzeného<br />
jazyka (Natural Language Processing – NLP). Tento typ výskumu nahradil<br />
koncom šesťdesiatych rokov problematiku strojového prekladu (stiahnutú<br />
z agendy administratívnym zásahom). Bádanie sa začalo orientovať na<br />
dostatočne presný opis základných prvkov a vzťahov jazykovej štruktúry vhodný<br />
na spracovanie do podoby počítačového programu. Mohlo preto slúžiť ako<br />
vhodná základňa na etablovanie počítačovej lingvistiky ako samostatnej vednej<br />
disciplíny a nie ako aplikácie matematickej lingvistiky.<br />
Trocha lepšie je slovenská jazykoveda pripravená na novú empirickú orientáciu<br />
jazykovedy, ktorá sa prejavuje v budovaní reprezentatívnej materiálovej<br />
základne jazykovedného výskumu. Tieto rozsiahle zdroje autentického materiálu<br />
majú podobu textových databáz – korpusov. Korpusová lingvistika, ktorá<br />
sa zaoberá problematikou budovania a využívania textových korpusov, nie je<br />
len súborom progresívnych metód zhromažďovania a spracúvania materiálu,<br />
ale predstavuje v zásade iný pohľad na jazyk a jeho jednotky. Tu treba opäť<br />
spomenúť osobnosť J. Horeckého, ktorý stál aj pri revitalizácii počítačovej lingvistiky<br />
v Jazykovednom ústave, keď v rokoch 1988 – 1989 pripravil projekt<br />
bázy dát slovenského jazyka, v rámci ktorej sa začalo uvažovať aj o budovaní<br />
korpusu. Vďaka ústretovému prístupu riaditeľa Informačného centra SAV E.<br />
Kostolanského a jeho spolupracovníkov V. Benka a C. Belicu sa uskutočnilo<br />
niekoľko pracovných stretnutí, na ktorých sa prerokúvali možnosti vytvorenia<br />
spoločnej pracovnej skupiny počítačovej lingvistiky. V roku 1990 táto skupina<br />
(J. Horecký, V. Benko, A. Jarošová, E. Páleš) vznikla v Jazykovednom ústave<br />
Ľ. Štúra SAV a začala koncepčne pripravovať korpus a lexikálnu bázu dát.<br />
Tento zámer sa začal v roku 1992 realizovať ako grantový projekt, bol však natoľko<br />
finančne a personálne poddimenzovaný (V. Benko, A. Jarošová, M. Šimková;<br />
všetci traja s polovičnou a menšou časovou kapacitou), že sa podarilo vybudovať<br />
len interný korpus Jazykovedného ústavu Ľ. Štúra. Ide zatiaľ o pomerne<br />
nevyvážený súbor textov (bez anotácií), rozdelený na niekoľko fragmentov,<br />
ktoré doteraz nie sú spojené do jedného celku najmä preto, že používaný vyhľadávací<br />
program nedokáže naraz spracovať väčší objem textu.<br />
Začiatkom deväťdesiatych rokov E. Páleš teoreticky a aplikačne dopracúval<br />
počítačový model slovenčiny, ktorý v roku 1994 publikoval v monografii<br />
9
SAPFO – parafrázovač slovenčiny – počítačový nástroj na modelovanie v jazykovede.<br />
Začiatok deväťdesiatych rokov priniesol aj založenie Laboratória počítačovej<br />
lingvistiky na Pedagogickej fakulte Univerzity Komenského, kde sa<br />
pripravuje morfologická databáza slovenčiny (E. Kostolanský, J. Hašanová, V.<br />
Benko) a budúci učitelia a prekladatelia dostávajú v kurze prednášok informáciu<br />
o počítačovej podpore prekladu, o jazykových zdrojoch a počítačovej podpore<br />
výučby cudzieho jazyka. Nemáme presnú predstavu o mieste lingvistickej problematiky<br />
v štruktúre učebných predmetov v našich vzdelávacích inštitúciách<br />
prírodovedného a technického smeru, ale aktívna účasť študentov Technickej<br />
univerzity v Košiciach na medzi<strong>národný</strong>ch kolokviách mladých jazykovedcov,<br />
ktoré už desať rokov organizuje pracovníčka Jazykovedného ústavu Ľ. Štúra M.<br />
Nábělková, svedčia o dobrých výsledkoch košických kolegov pracujúcich v odbore<br />
umelá inteligencia. Témy viacerých diplomových prác a tímových projektov<br />
študentov Matematicko-fyzikálnej fakulty a Fakulty elektrotechniky a informatiky<br />
Univerzity Komenského nás presviečajú o tom, že na týchto pracoviskách<br />
nám vyrastajú partneri pre efektívny dialóg.<br />
V roku 1999 sa v Bratislave uskutočnil medzi<strong>národný</strong> seminár o inovačných<br />
prístupoch k viacjazyčným zdrojom a jazykovým technológiám Text Corpora<br />
and Multilingual Lexicography (Textové korpusy a viacjazyčná lexikografia).<br />
Toto podujatie, ktoré v spolupráci s Inštitútom nemeckého jazyka v<br />
Mannheime (W. Teubert, A. Lawson) organizovali Jazykovedný ústav Ľ. Štúra<br />
(A. Jarošová) a Pedagogická fakulta fakulta Univerzity Komenského (V. Benko),<br />
bolo súčasťou medzinárodného projektu Európskej komisie Trans-European<br />
Language Resources Infrastructure – COPERNICUS (Transeurópska štruktúra<br />
jazykových zdrojov). V týchto dňoch vrcholia organizačno-legislatívne aktivity<br />
smerujúce k založeniu korpusového pracoviska v rámci Jazykovedného ústavu<br />
Ľ. Štúra.<br />
Veľmi si vážime záujem všetkých, ktorí sem prišli prednášať aj počúvať,<br />
diskutovať a hľadať riešenia. Vitajte!<br />
10<br />
Alexandra Jarošová
STATISTICKÉ MODELOVÁNÍ<br />
A AUTOMATICKÁ ANALÝZA<br />
PŘIROZENÉHO JAZYKA<br />
(MORFOLOGIE, SYNTAX, PŘEKLAD)<br />
Jan Hajič: Ústav formální a aplikované lingvistiky a Centrum<br />
komputační lingvistiky, Matematicko-fyzikální fakulta Univerzity<br />
Karlovy (hajic@ufal.mff.cuni.cz)<br />
Abstract: Statistical modeling is now the prevailing method used in automatic procedures of analysis of<br />
a natural language. Such an analysis can be performed at various levels, from phonetics to semantics. Two<br />
levels of representation are described: a morphological one and a syntactic one that is further subdivided<br />
into surface syntax and deep syntax (tectogrammatics). The role of linguistically annotated corpora will be<br />
stressed as a necessary prerequisite for any supervised machine learning algorithms, showing examples<br />
from the Prague Dependency Treebank (PDT) being developed at Charles University, Prague. A possible<br />
application of some of the tools created during (and thanks to) the development of the PDT will be shown,<br />
namely, a machine translation system translating from Czech to Slovak.<br />
1. Úvod<br />
Automatická analýza přirozeného jazyka 1 počítačem vyžaduje – koneckonců<br />
jako každý problém, který řešíme – rozdělit práci na několik<br />
menších, dobře definovaných podproblémů, které pak řešíme (pokud možno)<br />
nezávisle. V oblasti zpracování přirozeného jazyka se mluví o tzv. rovinách popisu<br />
(a zpracování) jazyka. Tyto roviny jsou uspořádány zdola nahoru (pro účely<br />
analýzy jazyka), od roviny nejjednodušší (zabývající se ortografií či<br />
akustickou stránkou věci) po rovinu nejsložitější, rovinu významu. Každá rovina<br />
má své jednotky popisu, definice vztahů na této rovině, a navazuje bezprostředně<br />
na rovinu nižší a vyšší. Obvykle se hovoří o pěti až šesti rovinách<br />
(akustika/ortografie, fonetika, fonologie, morfologie, syntax, sémantika), ale<br />
často se (například z praktických důvodů) některé roviny slučují dohromady<br />
1 V tomto příspěvku se omezíme na zpracování textu. Rozpoznávání (a syntéza) mluvené řeči je<br />
sice ve smyslu „porozumění“ jazyku podobný problém, avšak tradičně se soustředí zejména na zpracování<br />
akustického signálu, a v jistém smyslu – aspoň z dnešního pohledu, s existujícími aplikacemi a<br />
systémy v ruce – se na něj lze dívat jako na přídavný krok, ve kterém nejprve převedeme řečené na text,<br />
který dále zpracováváme.<br />
11
JAN HAJIČ<br />
(např. při zpracování textu je rovina ortografická a fonetická téměř vždy sloučena,<br />
často i s rovinou fonologickou). Syntax a sémantika rovněž úzce souvisí a<br />
ne náhodou se analýza na strukturní úrovni často nazývá syntakticko-sémantická,<br />
přičemž se zde opět slučují dvě roviny. Naopak, někdy je výhodné (nebo<br />
technicky lépe proveditelné) vložit mezi morfologii a syntax ještě jednu rovinu,<br />
a to rovinu tzv. povrchové syntaxe. V zahraničních pojetích se obvykle setkáváme<br />
jen se dvěma rovinami, a to rovinou morfologickou a povrchově-syntaktickou.<br />
V tomto příspěvku budeme mluvit jednak o rovině morfologické, která<br />
v našem případě zahrnuje všechny roviny nižší, s výjimkou té části roviny ortografické,<br />
která se zabývá identifikací slov a interpunkce, a jednak o rovině syntaktické,<br />
a to jak o její povrchové podobě, tak i o tzv. hloubkové syntaxi, která<br />
se zabývá reprezentací jazykového významu. Nebudeme však zde tyto roviny<br />
popisu jazyka rozebírat z lingvistického pohledu, nýbrž se zaměříme na to, jak<br />
se tyto roviny promítají do práce s textovými korpusy, zejména pro účely jejich<br />
anotování a následného automatického zpracování.<br />
V poslední části příspěvku popíšeme jednu zajímavou aplikaci, systém automatického<br />
překladu z češtiny do slovenštiny, který (trochu překvapivě)<br />
funguje velmi dobře i přesto, že analýza jazyka je v něm omezena vlastně jen<br />
na rovinu morfologickou.<br />
2. Morfologická analýza a značkování textu<br />
V úvodu jsme řekli, že v našem pojetí morfologická (tvaroslovná) analýza<br />
spojuje všechny nižší roviny až k rovině tradičně nazývané morfématická. Nezabývá<br />
se však prvotním zpracováním textu, kterému se v počítačové analýze<br />
nemůžeme vyhnout, a to tzv. tokenizací. Morfologická analýza tedy vstupuje<br />
do hry až v okamžiku, kdy ve vstupním textu jsou identifikována slova, mezery,<br />
interpunkce, a pokud možno i začátky a konce vět. Jakkoli triviální se tento<br />
úvodní problém může zdát, není tomu tak; již jen definice toho, co to je<br />
„slovo“ 2 je někdy nejasná: je byl-li, pracovals, technicko-hospodářský nebo<br />
naň jedno slovo, nebo dvě? Je New York nebo Kostelec n./Č. lesy jedno slovo,<br />
nebo dvě (resp. pět slov)? Obvykle se volí nějaký relativně dobře definovatelný<br />
kompromis. Zdá se, že z hlediska dalšího zpracování je vhodné v nejasných<br />
2 „Slovem“ se zde myslí slovo v tom tvaru, ve kterém se v textu vyskytuje, takže korunou a ko-<br />
runami jsou dvě různá slova.<br />
12
STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)<br />
případech za slovo brát jednotku co nejkratší. V každém případě ale tokenizace<br />
není vlastní součástí morfologické analýzy, v této kapitole tedy předpokládáme,<br />
že tokenizace je již dokončena a jednotka zpracování pro morfologickou analýzu<br />
je tedy již jednoznačně určena 3 . Tento předpoklad je i z praktického hlediska<br />
nepříliš omezující, neboť většina existujících textových korpusů je tokenizována,<br />
jako např. pro nás důležitý Český národní korpus (Čermák 2001).<br />
2.1 Co je to morfologická analýza?<br />
Na střední škole se učí, že úkolem morfologické analýzy slova 2 je určit<br />
morfologické kategorie danému slovu v textu příslušné. Pro člověka je tato definice<br />
přijatelná, a koneckonců každý z nás na oné střední škole nakonec nějak<br />
uspěl. Při počítačovém zpracování je však situaci třeba definovat a popsat<br />
mnohem přesněji.<br />
Především je třeba jasně rozlišovat mezi morfologickou kategorií a její<br />
hodnotou. Číslo je morfologickou kategorií, singulár (jednotné číslo) její<br />
hodnotou. V češtině a slovenštině je možno rozlišovat mnoho kategorií, v našem<br />
systému jich používáme celkem 13: slovní druh, slovní „poddruh“, rod,<br />
číslo, pád, přivlastňovací rod, přivlastňovací číslo, osobu, čas, slovesný rod,<br />
negaci, stupeň a variantu. Hodnotami jsou např. čísla 1 až 7 pro české pády,<br />
„aktivní“ a „pasívní“ pro slovesný rod, atd. Nejbohatší kategorií je slovní poddruh,<br />
který má celkem 75 možných hodnot, nejvíce z nich pro zájmena.<br />
Pozornému čtenáři jistě neunikne, že v seznamu kategorií není nejen kategorie<br />
vzoru (vzor má v systému pouze pomocnou úlohu, a je zcela nepotřebný<br />
pro navazující analýzu jazyka), ale ani např. kategorie způsobu; důvod je však<br />
prostý: morfologická analýza v našem systému pracuje bez ohledu na kontext,<br />
tj. zpracovává izolovaně vždy jen jedno slovo (slovní tvar). Tím „odsouvá“ řešení<br />
některých problémů na pozdější dobu, a jakkoli je to z lingvistického pohledu<br />
bolestné, je tento přístup (vyplývající z dělení popisu a zpracování jazyka<br />
na jednotlivé roviny) jediný možný, neboť umožňuje nemíchat dohromady věci,<br />
3 Mluvíme-li o jednoznačném určení (zde slovních jednotek, tokens), musíme zároveň říci, jak je<br />
toto určení realizováno v textu. K tomu se používají dnes už téměř výhradně tzv. markup jazyky, definované<br />
na základě standardu SGML, který je dnes nahrazován jednodušším a pro počítačové zpracování<br />
příhodnějším XML (jež je svým způsobem podmnožinou SGML). (Známý jazyk pro popis<br />
webových stránek, HTML, je rovněž specifikován pomocí SGML.) Zjednodušeně lze říci, že každá<br />
značka – zde samozřejmě mluvíme o značce v technickém smyslu, nikoli o značce morfologické – má<br />
své jméno, a pro účely rozlišení mezi textem a značkami je jednotně ohraničena symboly ‚‘.<br />
13
JAN HAJIČ<br />
které k sobě nepatří a byly by tudíž těžko formalizovatelné a zpracovatelné. Ze<br />
stejných důvodů je nutno brát kategorii slovesného času jako kategorii příslušnou<br />
k analyzovanému participiu (pracoval), nikoli k celému analytickému<br />
tvaru (který v uvedeném příkladu může být jak času minulého pracoval jsem,<br />
tak i času přítomného v podmiňovacím způsobu pracoval bych).<br />
Vzhledem k tomu, že morfologická analýza pracuje s jednotlivými slovy<br />
z textu izolovaně, bez ohledu na kontext, tak se na rozdíl od úloh řešených na<br />
střední škole nezabývá ani jednoznačnou identifikací hodnot morfologických kategorií.<br />
Pochopitelně, ani nemůže: bez větného kontextu není možno mezi<br />
jednotlivými možnostmi vůbec vybírat. Problémem jednoznačného určení hodnot<br />
morfologických kategorií se zabývá tzv. značkování, ke kterému se vrátíme za<br />
chvíli.<br />
Pro počítačové zpracování se zavádí tzv. množina morfologických značek<br />
(tagset). Každá značka shrnuje hodnoty morfologických kategorií pro jeden<br />
slovní tvar. Pro vlastní zpracování se používá několik typů notací, z nichž nejrozšířenější<br />
je notace tzv. poziční. V této notaci se každé kategorii přiřadí pozice<br />
ve značce, a každé hodnotě jeden znak, který se zapisuje na příslušnou pozici.<br />
Slovní druh je tedy např. na první pozici, a jeho hodnoty jsou reprezentovány<br />
např. znaky N (pro podstatné jméno, noun), A (pro adjektivum) atd. Hodnoty<br />
pro daný slovní tvar irelevantních kategorií jsou označeny speciálním znakem,<br />
obvykle pomlčkou. Např. tedy pro obyčejné podstatné jméno rodu mužského<br />
neživotného ve 4. pádě jednotného čísla v pozičním systému s 15 kategoriemi<br />
má příslušná značka tvar NNIS4-----A---- (první pozice je slovní druh<br />
(N), druhá slovní poddruh (zde N), třetí rod (I pro mužský neživotný, masc.<br />
inanim.), čtvrtá číslo (S pro singulár), pátá pád (4 pro akuzativ), atd. (A na jedenácté<br />
pozici specifikuje, že dané slovo není negováno příslušnou předponou).<br />
Co tedy (počítačová) morfologická analýza vlastně dělá? Po výše uvedeném<br />
výčtu toho, co nedělá, by se zdálo, že nedělá téměř nic; samozřejmě, že tak tomu<br />
není. Morfologická analýza pro každý slovní tvar určí všechny možnosti kombinací<br />
hodnot morfologických kategorií, které danému tvaru vůbec mohou příslušet.<br />
Že i to je obrovská pomoc pro další zpracování, je vidět z prostého číselného<br />
srovnání: zatímco všech možných značek (kombinací hodnot morfologických kategorií)<br />
je v našem systému pro češtinu přes 4400, průměrný počet značek po<br />
morfologické analýze je menší než 5 (na jedno slovo v běžném textu).<br />
Počítačová morfologická analýza však musí řešit ještě jeden problém, na<br />
zmiňované střední škole probíraný pouze okrajově: tzv. problém lematizace.<br />
Lematizace určuje pro každý slovní tvar jeho základní podobu (obvykle tvar, ve<br />
14
STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)<br />
kterém slovo najdeme ve slovnících). Ani lematizace není obecně při zpracování<br />
izolovaného slova jednoznačná. Navíc je nutno rozlišovat mezi slovy,<br />
která jsou v základním tvaru homonymní – např. stát (jako státní útvar) a stát<br />
(jako sloveso). Počítačová lematizace proto ještě navíc tato slova rozlišuje a<br />
jednoznačně identifikuje (např. připojením číselného indexu k základnímu tvaru<br />
slova, např. stát-1, stát-2 atd.).<br />
Formálně tedy můžeme popsat morfologickou analýzu jako matematickou<br />
funkci, která posloupnosti znaků (písmen) jazyka přiřazuje množinu možných<br />
výsledků, složených vždy z dvojic :<br />
Ma(f) → { ; l ∈ L, t ∈ T },<br />
kde f ∈ A + je slovní tvar složený z písmen abecedy A analyzovaného<br />
jazyka (např. stát), L je množina identifikací lemat (obvykle ve formě řetězce<br />
nějakých znaků, považovaného ovšem za nedělitelný) v daném případě bude<br />
jedním z možných výsledků např. stát-1), a T je množina značek používaná pro<br />
daný jazyk (jako např. NNIS4-----A----; opět jde o řetězec znaků, považovaný<br />
z hlediska definice za atomický).<br />
Prakticky morfologická analýza pracuje s (tokenizovaným) textem, v dohodnutém<br />
formátu, a na výstupu je tentýž text obohacený o lemata a morfologické<br />
značky (obr. 1 a 2).<br />
Pekař<br />
peče<br />
housky<br />
<br />
.<br />
Obr. 1: Vstup do morfologické analýzy – tokenizovaný text<br />
PekařpekařNNMS1----A----<br />
pečepéciVeYS------A----VB-S---3P-AA---<br />
houskyhouskaNNFP1-----A----NNFP4-----A----<br />
NNFS2-----A----<br />
<br />
..Z:-------------<br />
Obr. 2: Výstup z morfologické analýzy (zjednodušeno)<br />
15
JAN HAJIČ<br />
2.2 Proces morfologické analýzy<br />
Morfologická analýza, jejíž definici jsme uvedli v předchozí sekci, je<br />
ovšem realizována v počítači nikoli jako matematická funkce, ale jako výpočetní<br />
procedura. Jako základní datová struktura slouží pro daný přirozený jazyk<br />
jeho morfologický slovník, který je používán vlastním algoritmem morfologické<br />
analýzy (v zásadě pak již na jazyce nezávislým). Způsobů, jak efektivně<br />
provádět morfologickou analýzu, se používá několik (Koskenniemi 1983,<br />
Mohri 1998), my zde popíšeme náš systém „přímé“ analýzy. Ten potřebuje ke<br />
své práci morfologický slovník a samozřejmě i příslušný algoritmus, který<br />
vlastní morfologickou analýzy na základě slovníku realizuje. Na základě stejného<br />
slovníku pak může probíhat i morfologická syntéza, o té se ale zmíníme až v<br />
sekci 4 o strojovém překladu.<br />
2.2.1. Morfologický slovník<br />
Morfologický slovník obsahuje ke každému lematu informaci o kmeni<br />
slova (v našem případě, kvůli sloučení nejnižších rovin popisu jazyka do jedné,<br />
je za kmen slova považována ta část slova, která se při ohýbání nemění), a o<br />
přípustných koncovkách. Množina koncovek tvoří vzor. U každé koncovky je<br />
navíc informace o tom, které značky (kombinace hodnot morfologických kategorií)<br />
jí pro daný vzor odpovídají.<br />
Příkladem vzoru je např. následující množina koncovek a jejich značek:<br />
„„ NNIS1-----A----, NNIS4-----A----<br />
„u“ NNIS2-----A----, NNIS3-----A----, NNIS6-----A---1<br />
„e“ NNIS5-----A----<br />
„ě“ NNIS6-----A----<br />
„em“ NNIS7-----A----<br />
„y“ NNIP1-----A----, NNIP4-----A----, NNIP5-----A----, NNIP7-----A----<br />
„ů“ NNIP2-----A----<br />
„ům“ NNIP3-----A----<br />
„ech“ NNIP6-----A----<br />
Tento vzor je v našem systému označen hd2x. Tedy k lematu stát-1 bude<br />
v morfologickém slovníku uveden kmen „stát“ a vzor hd2x.<br />
16
STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)<br />
Pro každý vzor je dále ve slovníku uvedeno, zda připouští negaci slova pomocí<br />
předpony „ne-“ (tj. negaci) a u každé koncovky dále informace o tom, zda<br />
připouští připojení předpony „nej-“ (stupňování).<br />
Pro velmi nepravidelná slova jsou pak ve slovníku uvedeny všechny jejich<br />
tvary i s příslušnými značkami.<br />
2.2.2 Algoritmus morfologické analýzy<br />
Tzv. „přímá“ analýza slovních tvarů je založena na vyčerpávající analýze<br />
slova z hlediska možné segmentace na kmen a koncovku (případně i předpony<br />
ne- a nej-). Pro každou takto získanou dvojici kmene a koncovky je nutno ověřit,<br />
zda se ve slovníku vyskytuje jak kmen, tak i koncovka a zda kmen i koncovka<br />
náleží ke stejnému vzoru. Všechny dvojice lemat (příslušných ke<br />
kmeni/kmenům) a značek (nalezených ve slovníku u příslušných koncovek)<br />
jsou pak prohlášeny za výsledek morfologické analýzy. Podrobněji o v současnosti<br />
používané morfologické analýze češtiny viz Hajič (2001).<br />
Příkladem může být slovo (slovní tvar) housky. Toto slovo je možno rozdělit<br />
na kmen housky + nulovou koncovku, nebo na housk + y, nebo na hous +<br />
ky, atd. až k h + ousky (kmen nulové délky se nepřipouští). Z těchto možností<br />
nakonec bude správná jen možnost hous + ky, neboť ve slovníku je neměnná<br />
část základu (zde jen hous, neboť 2. p. mn. čísla je hous+ek). Koncovky y, sky<br />
a nulová koncovka jsou sice ve slovníku koncovek uvedeny také, ale kmen<br />
housk (hou) je nepřipouští (resp. nejsou uvedeny v seznamu koncovek pro vzor<br />
příslušný danému kmeni).<br />
Modernější systémy používají pro jádro systému morfologické analýzy<br />
aparát konečných automatů, resp. v kombinaci s fonologií aparát tzv. sekvenčních<br />
strojů (konečných převodníků) 4 . Prvním takovým systémem byla tzv.<br />
„Two-level morphology“ (Koskenniemi 1983), následovníky pak Xerox<br />
Language Tools (XLT, zpracována je i <strong>čeština</strong>, viz Skoumalová 1997), a v poslední<br />
době je volně k dispozici univerzální soubor nástrojů pro konečné automaty<br />
a převodníky (nejen pro morfologii) FSM od AT&T Research (Mohri et<br />
al. 1998). Je však nutno podotknout, že v dnešní době už vnitřní struktura<br />
(implementace) morfologického analyzátoru nehraje prvořadou roli – důležitá<br />
je spíše udržovatelnost a rozšiřitelnost systému.<br />
4 Podrobněji o konečných automatech a sekvenčních strojích viz např. (Chytil 1984).<br />
17
JAN HAJIČ<br />
2.3 Značkování (zjednoznačňování morfologické analýzy)<br />
Značkování (anglicky poněkud nevhodně nazývané „Part-of-Speech tagging“)<br />
je v rámci popisu a zpracování jazyka pomocí rovin jakýsi „krok<br />
stranou“: snažíme se totiž na úrovni morfologické analýzy o něco, co alespoň<br />
teoreticky přísluší až rovině syntaktické (ať už povrchové nebo hloubkové).<br />
Nicméně je to problém velmi praktický, jehož výsledky jsou použitelné ve třech<br />
směrech: jednak jako (zatím) finální krok při značkování korpusů pro lexikografické<br />
účely, dále jako krok výrazně zrychlující syntaktickou analýzu (byť do<br />
ní vnáší jistou míru chyb, jak uvidíme dále), a v neposlední řadě i pro některé<br />
aplikace, které mohou s výhodou využít i jen částečnou jazykovou analýzu<br />
(např. pro vyhledávání v elektronických slovnících, pro vyhledávání informací<br />
obecně, a dokonce i pro strojový překlad pro blízké flektívní jazyky – viz dále<br />
sekce 4).<br />
Značkování již může využít pro zjednoznačnění výstupu morfologické<br />
analýzy (na rozdíl od ní samé) kontext, ve kterém se analyzované slovo nachází.<br />
Dnes se téměř výhradně používají pro značkování metody statistické, založené<br />
na strojovém učení. Počítač se tedy naučí, že po určitých předložkách<br />
následují jen některé pády, že na začátku věty nalezneme spíše pád první než<br />
jakýkoliv jiný, nebo že slovo při je téměř vždy předložka, jen velmi málokdy<br />
tvar slova pře, a téměř nikdy rozkazovací způsob od slovesa přít (a k tomu se,<br />
doufejme, naučí i to, kdy jde přeci jen o (soudní) při).<br />
Jak se však může počítač takovou věc naučit? Potřebuje k tomu (alespoň<br />
v dosud nejúspěšnějších metodách) předem ručně označkovaný korpus. Takový<br />
korpus je samozřejmě velmi pracnou záležitostí; pro spolehlivé naučení, kdy<br />
procento chyb klesá (pro češtinu) pod 5 %, bylo třeba označkovat přes 1.5 miliónu<br />
výskytů slov v textu (přitom každé zdvojnásobení tohoto počtu přinese jen<br />
několik desetin procenta zlepšení, a jistou hranici úspěšnosti zřejmě nelze překročit<br />
vůbec). Označkované korpusy jsou proto velmi cenným zdrojem lingvistických<br />
informací (nejen pro automatické strojové učení, ale samozřejmě i pro<br />
vyhodnocování jiných metod, použitých pro značkování). Příkladem takových<br />
korpusů jsou např. Brown Corpus (první značkovaný korpus na světě z konce<br />
60. let), Penn Treebank (Marcus 1993) a pro češtinu čerstvě vydaný Pražský<br />
závislostní korpus (Hajič et al. 2001b).<br />
Učení z ručně označkovaného korpusu (takovému korpusu se říká trénovací<br />
data) může probíhat několika způsoby. Velmi jednoduchý a účinný (a<br />
dosud prakticky nepřekonaný) je postup, při kterém se spočítají relativní<br />
18
STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)<br />
četnosti značek následujících po dvojici bezprostředně předcházejících značek<br />
v textu (takový způsob se nazývá HMM tagging: viz (Church 1992, Hladká<br />
1994, Mírovský 1999, Hladká 2000, Hajič et al. 2001a). Pro každou dvojici<br />
značek (tzv. historii) se tak vytvoří menší či větší tabulka, ve které jsou uvedeny<br />
relativní četnosti značek po ní následujících v trénovacích datech. Jakkoli je<br />
tento systém lingvisticky jasně neadekvátní, značkování založené na efektivním<br />
algoritmu aplikace těchto tabulek (virtuálně rozšiřujícím délku historie<br />
(kontextu) na mnoho slov na obě strany od analyzovaného slova) na kontinuální<br />
text (Jelinek 1998) dává velmi dobré výsledky: pro angličtinu se dosahuje<br />
i méně než 3 % chyb na prakticky libovolném textu, pro češtinu pak<br />
okolo 5 %.<br />
Pro češtinu vyvíjíme při její bohatosti značek ještě jeden systém (Hajič<br />
2001), který, jak doufáme, přiblíží úspěšnost značkování angličtině. Tento systém<br />
je založen na individuálním „předpovídání“ hodnot jednotlivých morfologických<br />
kategorií. Statisticky, automaticky vybraná vhodná „pravidla“ (features<br />
neboli rysy) se ohodnotí váhami (opět zcela automaticky v procesu učení z předem<br />
ručně označkovaných dat). Takto ohodnocená „pravidla“ se pak používají<br />
v procesu automatického značkování tak, že se pro každou hodnotu spočítá její<br />
pravděpodobnost v daném kontextu, a výsledná značka je pak „kompromisem“,<br />
neboť se pochopitelně vybírá pouze mezi značkami nabídnutými morfologickou<br />
analýzou. Tato metoda je nyní stejně úspěšná jako výše uvedená metoda HMM<br />
taggingu, potřebuje však méně statistických dat při vlastním značkování (avšak<br />
je velmi náročná v průběhu učení na čas výpočtu).<br />
Kromě čistě statistických přístupů uvažujeme rovněž o možné kombinaci<br />
s metodami „nestatistickými“, tj. tradičně lingvistickými, které především<br />
pracují s ručně vytvořenými pravidly s komplexními podmínkami. Tato<br />
pravidla použitá samostatně vykazují poměrně malou úspěšnost z hlediska počtu<br />
víceznačností, které jsou schopny řešit, avšak jsou poměrně přesná (v případech,<br />
které řešit umějí). Systém pak pracuje tak, že tato „lingvistická“ pravidla<br />
jsou aplikována nejdříve, čímž se víceznačnost zredukuje (aniž by byla ovšem<br />
odstraněna správná varianta), a pak „statistická“, tj. automaticky naučená<br />
„pravidla“ zjednoznačňování dokončí (Hajič et al. 2001a).<br />
Jako konkrétní příklad uveďme opět větu Pekař peče housky. Funguje-li<br />
disambiguace správně, na základě vstupu z obr. 2 obdržíme následující výstup<br />
(obr. 3), ve kterém je pro každé vstupní slovo už jen jedna značka a jedno lema:<br />
PekařpekařNNMS1----A----<br />
19
JAN HAJIČ<br />
pečepéciVB-S---3P-AA---<br />
houskyhouskaNNFP4-----A----<br />
<br />
..Z:-------------<br />
Obr. 3: Zjednoznačněný výsledek morfologické analýzy<br />
U slova Pekař nebylo nutno rozhodovat o ničem, neboť již bylo jednoznačně<br />
určeno morfologickým analyzátorem 5 . Slovo peče je samozřejmě v této<br />
větě v přítomném čase a 3. osobě (nikoli jako přechodník!) a housky jsou zde<br />
ve 4. pádě množného čísla.<br />
3. Syntaktická závislostní analýza<br />
Jakkoli jsou morfologická analýza a (morfologické) značkování zajímavé<br />
a užitečné, nedotýká se přímo struktury věty. Z hlediska skladby věty potřebujeme<br />
zjišťovat, která slova jsou ve vztahu gramatické závislosti: řídící slovo je<br />
„důležitější“, ve větě jej obvykle nelze vynechat bez narušení gramatické skladby<br />
věty, a obyčejně určuje většinu gramatických kategorií slova závislého (např.<br />
na základě shody).<br />
Přímo zjišťovat skladbu věty je však velmi obtížné: důvodem jsou kromě<br />
již známé nejednoznačnosti jazyka i např. elipsy (slova ve větě vynechaná, byť<br />
z hlediska významu a standardní definice syntaxe nezbytná), konstrukce bez<br />
slovesa, koordinace a apozice, parenteze (vsuvky) apod. Proto jsme se rozhodli<br />
vložit mezi rovinu morfologickou a syntaktickou tzv. rovinu analytickou, která<br />
zhruba odpovídá rovině povrchové syntaxe známé z jiných teoretických přístupů.<br />
Pracujeme tedy se dvěma syntaktickými rovinami: rovinou analytickou<br />
a rovinou vlastní syntaxe, tzv. rovinou tektogramatickou (Sgall et al. 1986).<br />
3.1 Analytická rovina syntaxe<br />
Na analytické rovině se reprezentace věty zachycuje závislostním stromem<br />
6 s vrcholy, případně i hranami ohodnocenými jedním nebo několika<br />
atributy. Ke každému slovu z analyzované věty (token, tj. i interpunkce) příslu-<br />
5 Lze ovšem oprávněně namítnout, že slovo Pekař mělo být morfologickým analyzátorem určeno<br />
též jako první pád jednotného čísla rodu mužského životného od vlastního jména Pekař. To je samozřejmě<br />
nedostatek slovníku, ovšem jen těžko řešitelný v plném rozsahu.<br />
20
STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)<br />
ší právě jeden vrchol závislostního stromu. Závislostní vztahy jsou určeny hranami<br />
takového stromu a hodnoty příslušné k jednotlivým hranám určují (povrchově)<br />
syntaktickou funkci závislého uzlu vzhledem k uzlu řídícímu. Hodnotami<br />
u vrcholů jsou pak dva údaje: příslušné lema (pro interpunkci se definuje jako<br />
identické s původní formou interpunkce) a morfologická značka (soubor značek –<br />
tagset – se rovněž vhodně rozšiřuje kvůli interpunkci, podobně jako na rovině<br />
morfologické). Pro lepší čitelnost se u každého vrcholu zaznamenává i původní<br />
tvar daného slova (ačkoli jej lze jednoznačně vyvodit z lematu a morfologické<br />
značky) a je zde i řada dalších, technických a pomocných atributů. Z technických<br />
důvodů se rovněž hodnota hrany (tj. povrchově-syntaktická funkce závislého<br />
slova) uvádí u závislého uzlu.<br />
Jako příklad lze uvést jednoduchou větu Kominík vymetá komíny (obr. 4).<br />
Obr. 4: Analytická reprezentace věty Kominík vymetá komíny.<br />
Vidíme, že Kominík je podmětem věty (Sb), vymetá je predikát (řídící<br />
sloveso hlavní věty, Pred), a komíny je předmět (Obj). Závěrečná interpunkce<br />
podle zásady co slovo (token) to vrchol stromu je rovněž přítomna, a to s funkcí<br />
AuxK (speciální funkce pro koncovou interpunkci).<br />
Lze tedy říci, že analytická rovina je velmi podobná tomu, co jsme se<br />
všichni učili na základní a střední škole, snad s výjimkou postavení podmětu<br />
6 Strom je matematicky definován jako souvislý acyklický orientovaný graf s jedním kořenem<br />
(tj. vrcholem, do kterého nevede žádná hrana). Obvykle se znázorňuje „vzhůru nohama“, tj. kořen se<br />
kreslí nahoře a orientace hran se zachycuje pomocí šipek, které vedou shora dolů, od řídícího k závislému<br />
vrcholu. Z technických důvodů se ovšem v elektronické podobě využívá s výhodou toho, že do každého<br />
vrcholu (někdy nazývaného podle angličtiny též „uzlem“) vede pouze jedna hrana, a směr závislosti<br />
se uchovává obráceně – to však nemá žádný vliv na skutečný směr závislosti.<br />
21
JAN HAJIČ<br />
(podmět není na stejné úrovni jako predikát) a toho, že na analytické rovině<br />
jsou přítomna všechna slova z věty (to se týká nejen interpunkce, ale samozřejmě<br />
i předložek, spojek, pomocných a sponových sloves atd.).<br />
Účelem analytické anotace jako předstupně k rovině tektogramatické (sekce<br />
3.2) je zachytit základní závislostní vztahy (tj. vybudovat kompletní závislostní<br />
strom s analytickými funkcemi), označit pomocná slova a jejich vztah k<br />
jiným jednotkám na této rovině (i když jistě nejde o skutečnou závislost v obvyklém<br />
smyslu), označit elipsu, pospojovat koordinované a aponované členy<br />
věty, označit vsuvky apod.<br />
Podmínka, že každému slovu ze vstupního textu odpovídá právě jeden vrchol<br />
závislostního stromu, není náhodná. Umožňuje totiž vytvořit relativně<br />
efektivní nástroj pro automatickou povrchově-syntaktickou analýzu vět přirozeného<br />
jazyka (tj. v našem případě češtiny). Obecný postup je zde podobný jako<br />
při morfologickém značkování (sekce 2.3): používají se primárně statistické metody<br />
založené na strojovém učení parametrů (pravděpodobností), používaný pravděpodobnostní<br />
model pro takovou analýzu je však mnohem komplikovanější. V<br />
našem případě používáme analyzátor (Collins 1997) adaptovaný pro češtinu na<br />
letním Workshopu na Johns Hopkins University v roce 1998 (Hajič 1998), který<br />
dokáže správně určit kolem 80 % všech závislostí v testovacím textu.<br />
Pochopitelně i pro učení syntaktického analyzátoru jsou třeba trénovací data<br />
(tj. ručně syntakticky anotovaný korpus). Práce na ručním syntaktickém<br />
anotování je mnohem náročnější než obdobná práce na zjednoznačňování morfologickém,<br />
a to jak z hlediska softwarové přípravy (anotovací nástroje musí pracovat<br />
s grafickým obrázkem analyzovaného stromu, tak, jak jsou na to lingvistéanotátoři<br />
zvyklí), z hlediska přípravy pokynů pro anotování (s trochou nadsázky<br />
lze říci, že jsme museli přepsat, či snad explicitně dopracovat povrchovou syntax<br />
češtiny, viz Hajič et al. 1997), i z hlediska vlastní anotovací práce. Pro češtinu<br />
jsou taková data obsažena na CDROM Pražský závislostní korpus (Hajič 1998,<br />
Hajič et al. 2001b), spolu se všemi potřebnými nástroji na (ruční) syntaktické<br />
anotování korpusu. Na tomto CD je anotováno téměř 1.5 miliónu slov (asi 90 tisíc<br />
vět) na analytické rovině.<br />
3.2 Tektogramatická rovina syntaxe<br />
Naším cílem však není zastavit se na rovině povrchové syntaxe. Připravujeme<br />
proto anotaci na rovině tektogramatické, kde se používá jiný repertoár<br />
závislostních funkcí (které označují význam, nikoli jen povrchový vztah), kde<br />
22
STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)<br />
odpadají vrcholy s pomocnými slovy a částečně i s interpunkcí, naproti tomu<br />
přibývají na povrchu vypuštěné, leč z významového hlediska přítomné elipsy.<br />
Navíc zde přibývá označení koreference a aktuální členění. Příklad věty<br />
anotované na této rovině je na obr. 5.<br />
Obr. 5: Anotace věty na tektogramatické rovině<br />
Bližší popis tektogramatické roviny je možné nalézt z teoretického hlediska<br />
v (Sgall et al. 1986, Petkevič 1995) a pak přímo ve formě příručky pro<br />
anotátory (Hajičová et al. 2000).<br />
Tektogramatická rovina je jakýmsi mezičlánkem mezi lingvistickou analýzou<br />
a další analýzou sémantickou, logickou, analýzou textu apod., vedoucí ke<br />
skutečnému porozumění přirozenému jazyku. Předpokládáme, že pro češtinu<br />
dokážeme na této rovině anotovat řádově obdobný počet vět jako na rovině<br />
analytické (cca 60 tisíc) do konce r. 2004.<br />
4. Strojový překlad mezi blízkými jazyky<br />
4.1 Základní idea a její zjednodušení<br />
23
JAN HAJIČ<br />
Ačkoli reprezentaci věty na tektogramatické rovině, jak byla popsána<br />
v předchozí sekci, považujeme za hlavní formální nástroj k popisu lingvistického<br />
významu, který by měl být jádrem každé aplikace vyžadující porozumění<br />
přirozenému jazyku, někdy se obejdeme s prostředky mnohem jednoduššími.<br />
Takovou aplikací je například strojový překlad mezi velmi blízkými<br />
jazyky, jako je <strong>čeština</strong> a slovenština, a jistě by se našly další příklady (někdy<br />
nejde jen o blízké jazyky, ale může jít i o varianty jednoho jazyka, ať už<br />
pravopisné, nářeční apod.). Pro jazyky vzdálenější (jako např. <strong>čeština</strong> a ruština,<br />
viz Hajič et al. 1987) je otázka složitější: je jasné, že syntax je v jistých okamžicích<br />
potřebná, avšak není jasné, zda chyby, jichž se nutně v syntaktické analýze<br />
dopustíme, vyváží tuto výhodu.<br />
I při zjednodušené analýze ve strojovém překladu mezi češtinou a slovenštinou<br />
(podrobněji viz Hajič et al. 2000) zachováváme tradiční scénář strojového<br />
překladu (obr. 6).<br />
Zdrojový jazyk Cílový jazyk<br />
Obr. 6: Obecné schéma strojového překladu<br />
4.2 Tři fáze překladu: analýza, transfer, syntéza<br />
Při analýze zdrojového jazyka se jednotlivé věty analyzují bez ohledu na<br />
to, do kterého jazyka se překládá. Buduje se reprezentace věty vhodná pro fázi<br />
transferu („vlastního překladu“). Ve složitých systémech touto reprezentací<br />
může být hloubková syntaktická reprezentace, nebo dokonce logická struktura<br />
užité věty, avšak v našem zjednodušeném případě bude touto analýzou pouze<br />
analýza morfologická, zjednoznačněná pomocí statistického modulu (taggeru,<br />
viz sekce 2).<br />
Transfer pak bude zcela deterministický proces, který nahradí každé<br />
zdrojové (české) slovo (resp. jeho lemma) jeho cílovým (slovenským)<br />
ekvivalentem, a českou morfologickou značku značkou slovenskou (ve většině<br />
případů bude tato značka zcela stejná, nebo jen formálně odlišná). V některých<br />
případech však musíme slovenskou značku poněkud zobecnit, neboť se výji-<br />
24<br />
Analýza<br />
Transfer<br />
Syntéza
STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)<br />
mečně mění rod substantiva, zvláštní varianta koncovky v určitém pádě se překládá<br />
standardně, apod.<br />
Ve fázi syntézy (generování) se pak ze slovenských lemat a slovenských<br />
morfologických značek vytvoří výsledná forma slovenského slova. Na závěr se<br />
pak doplní velká písmena podle pravidel pravopisu a věta se zformátuje, případně<br />
se do textu vloží zpět původní formátování české věty, bylo-li v ní přítomno.<br />
4.3 Analýza<br />
Ve fázi analýzy proběhne tokenizace textu (pokud již vstupní text není<br />
takto zpracován, což obvykle není), uchování formátovací informace (to je důležité<br />
např. tehdy, je-li původní text např. v HTML, RTF a chceme původní formátování<br />
pokud možno zachovat) a převedení do jednotného formátu pro další<br />
zpracování, což je SGML formát obdobný formátu uchovávání textů v ČNK,<br />
neboť se pochopitelně používají podobné nástroje (morfologie, tagger, atd.).<br />
Proběhne i identifikace hranic vět, a speciálně se označí úseky, které je třeba<br />
překládat (na rozdíl od např. formátovacích značek).<br />
Příklad:<br />
Věta Transakce slouží k zobrazení zamčených záznamů v databázi. bude<br />
po tokenizaci a převodu do SGML vypadat takto:<br />
<br />
Transakce<br />
slouží<br />
k<br />
zobrazení<br />
zamčených<br />
záznamů<br />
v<br />
databázi<br />
<br />
.<br />
Obr. 7: Tokenizovaný vstup do systému překladu<br />
SGML značkou jsou označeny hranice vět, označuje slova, <br />
interpunkci, a je značka pro nepřítomnost mezery.<br />
25
JAN HAJIČ<br />
Po tokenizaci se text zpracuje morfologickou analýzou a značkovačem<br />
(taggerem) (viz sekce 2). Na výstupu bude u každého slova uvedeno lemma a<br />
tag po zjednoznačnění (jen připomínáme, že zjednoznačnění probíhá na základě<br />
kontextu, a to kontextu v české větě). Tato část systému je posledním<br />
krokem ve zjednodušeném systému překladu, neboť další analýza (syntaktická)<br />
již v systému není. Je tedy možné říci, že morfologické zjednoznačnění je<br />
jádrem lingvistické analýzy celého systému překladu. Tato fáze je zároveň zcela<br />
nezbytná, neboť i když <strong>čeština</strong> a slovenština mají prakticky shodnou syntax, liší<br />
se výrazně právě ve slovníku a morfologii (v paradigmatech), a ve z toho vyplývajících<br />
typech homonymie. Např. české slovo zobrazení z výše uvedené věty<br />
může být použito ve 12 různých morfologických interpretacích, řada z nich pak<br />
má různý slovenský překlad: zobrazení, zobrazenia, zobrazenie, zobrazeniu atd.<br />
Překlad „(slovní) tvar za tvar“ tedy evidentně není možný (i kdybychom vyřešili<br />
technické obtíže s milióny slovních tvarů, které by musely být ve slovníku takového<br />
systému).<br />
Příklad:<br />
Výsledek po morfologické analýze a jejím zjednoznačnění je na obr. 8.<br />
TransakcetransakceNNFS1-----A----<br />
sloužísloužitVB-S---3P-AA---<br />
kk-1RR--3----------<br />
zobrazenízobrazeníNNNS3-----A----<br />
zamčenýchzamčenýAAIP2----1A------1A----<br />
záznamůzáznamNNIP2-----A----<br />
vv-1RR--6----------<br />
databázidatabázeNNFS6-----A----<br />
<br />
..Z:-------------<br />
Obr. 8: Zjednoznačněný výsledek morfologické analýzy<br />
SGML značky slouží k označení lematu, uvádí morfologickou<br />
značku. Slovo zobrazení se zde tedy jednoznačně určilo (velmi pravděpodobně<br />
díky předcházející předložce k, která vyžaduje třetí pád) jako neutrum v<br />
dativu; jeho určení jako singuláru pak plyne spíše z faktu, že v obdobných konstrukcích<br />
se používá spíše singulár (kontext nic takového nevyžaduje).<br />
26
STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)<br />
Věta je nyní připravena pro vlastní překlad, který nazýváme tradičně<br />
transferem.<br />
4.4 Transfer<br />
Ve fázi transferu se nahradí česká lemata slovenskými a značky se rovněž<br />
„přeloží“ do zobecněné formy, vyhovující slovenskému systému morfologických<br />
značek. V této fázi tedy teprve do hry vstupuje slovenština (dosud se systém zabýval<br />
pouze zpracováním češtiny jako zdrojového jazyka). Podobně teprve zde<br />
by se zapojila např. polština, pokud bychom chtěli překládat právě do ní.<br />
Překlad značek lze zařídit poměrně snadno. Překlad je řízen tabulkou, ve<br />
které je ke každé české morfologické značce přiřazena jedna nebo více zobecněných<br />
slovenských morfologických značek, v prioritním pořadí.<br />
Zobecněnou morfologickou značkou se myslí morfologická značka, která<br />
není plně specifikována. Modul generování (viz dále sekce 4.5) je přizpůsoben<br />
tak, že za nespecifikovanou hodnotu určité morfologické kategorie (např.<br />
rodu) dosadí všechny možnosti, které přicházejí pro dané slovo v úvahu. (V případě<br />
více možností vybere první, která zpracováním projde.) V námi používaném<br />
pozičním systému se pro nespecifikovanou hodnotu používá znak tečka<br />
(‚.‘). Tedy například morfologická značka pro třetí pád (dativ) jednotného čísla<br />
(sg.) obyčejných substantiv s nespecifikovaným rodem vypadá takto:<br />
NN.S3-----A----<br />
Prioritní seznam cílových morfologických značek pak ve spolupráci s modulem<br />
generování zajistí, že na výstupu se objeví první vytvořený slovní tvar<br />
(za použití morfologické značky s nejvyšší prioritou). Tím se ošetřují jednotně<br />
jak případy změny rodu u substantiv, tak i případy, kdy rod je nejednoznačný a<br />
je třeba dát přednost rodu použitému v češtině.<br />
Příkladem takového seznamu je např. posloupnost dvou značek:<br />
NNNS3-----A---- NN.S3-----A----<br />
která říká, že nejprve je třeba zkusit rod střední, ale pokud taková<br />
značka s daným lematem nic nevygeneruje, má se použít libovolný rod.<br />
Prioritní systém spolu s ideou zobecněných morfologických značek<br />
umožňuje elegantně a bez dalších zásahů do slovníku řešit i případy, kdy některé<br />
gramatické charakteristiky slovenštiny neodpovídají češtině.<br />
27
JAN HAJIČ<br />
Vlastní slovník (tj. překladový slovník lemat) je vytvořen tak, že může zpracovávat<br />
i víceslovnou terminologii. Pomocí pravidla „delší vyhraje“ pak<br />
umožňuje řešit i nejednoznačné případy, kdy ve slovníku je zvlášť uveden jak<br />
několikaslovný termín, tak i jeho počátek.<br />
Terminologický slovník však znamená jednu nevyhnutelnou komplikaci:<br />
ve flektívních jazycích může být část termínu skloňovaná spolu s řídícím<br />
slovem termínu, ale část může být fixní a tedy i ve slovníku uvedená v příslušném<br />
pádě (nebo i čísle). Při analýze češtiny však ještě nevíme, a ani nemůžeme<br />
vědět, zda určité slovo je součástí nějakého termínu nebo ne, a proto všechna<br />
slova jsou lematizována jednotlivě. Potřebujeme proto, aby slovník obsahoval<br />
ve formě lemat i ty části termínů, které nepodléhají ohýbání.<br />
Například termín daň z příjmů je třeba ve slovníku uvést jako daň z příjem,<br />
jinak by se v textu nemohlo najít poslední slovo termínu (příjmů).<br />
Abychom vyloučili pracné ruční zpracování slovníku, používáme naprosto<br />
stejný morfologický analyzátor a značkovač i pro předzpracování slovníku, a to<br />
na obou jeho stranách (české i slovenské). Tím je zaručena naprostá shoda lemat<br />
s morfologickými moduly, a to i tehdy, jestliže lemata obsahují nějakou<br />
vnější identifikaci, jako např. číslo významu (viz k-1, k jako předložka).<br />
Transfer tedy vydá posloupnost slovenských lemat s morfologickými značkami;<br />
v této posloupnosti už česká slova ani značky nemusí být (obr. 9).<br />
transakciaNNFS1-----A----NN.S1-----A----<br />
slúžiťVB-S---3P-AA---<br />
k-1RR--3----------<br />
zobrazenieNNNS3-----A----NN.S3-----A----<br />
zamknutýAAIP2----1A----<br />
záznamNNIP2-----A----NN.P2-----A----<br />
v-1RR--6----------<br />
databázaNNFS6-----A----NN.S6-----A----<br />
<br />
.Z:-------------<br />
Obr. 9: Výsledek transferu (vlastního překladu lemat a morf. značek)<br />
SGML značky označují slovenské lema, pak každou slovenskou<br />
morfologickou značku, a to jak v případě, že je uvedena značka jediná,<br />
tak i v prioritním seznamu.<br />
28
4.5 Syntéza (Generování)<br />
STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)<br />
Vzhledem k tomu, že na české straně je analýza ukončena po morfologické<br />
analýze a značkování, je i syntéza na slovenské straně výlučně morfologickou<br />
(a formátovací) záležitostí. Morfologický generátor (program, jehož funkce je inverzní<br />
k funkci morfologického analyzátoru) pak z každého lematu a prioritního<br />
seznamu zobecněných značek vytvoří posloupnost slovenských slov v odpovídajících<br />
formách.<br />
Morfologický generátor slovenštiny používá stejná data jako morfologický<br />
analyzátor slovenštiny použitý pro předzpracování slovníku pro transfer (viz<br />
sekce 4.4), automaticky zkonvertovaný pro efektivní vyhledávání mezi kmeny,<br />
vzory a koncovkami pro účely morfologické syntézy.<br />
V našem příkladu je tedy výsledkem věta na obr. 10.<br />
transakcia<br />
slúži<br />
k<br />
zobrazeniu<br />
zamknutých<br />
záznamov<br />
v<br />
databáze<br />
<br />
.<br />
Obr. 10: Výsledek překladu do slovenštiny<br />
Po závěrečném formátování pak dostaneme konečný výsledek Transakcia<br />
slúži k zobrazeniu zamknutých záznamov v databáze.<br />
4.6 Použití v praktických systémech<br />
Strojový překlad sám o sobě nemá valnou praktickou hodnotu, není-li použit<br />
ve vhodně koncipovaném softwarovém systému, ať už pro malé „domácí“<br />
nebo on-line použití, nebo pro profesionální překlad ve velkém.<br />
4.6.1 Systémy s překladovou pamětí<br />
29
JAN HAJIČ<br />
Nejefektivnější systémy pro profesionální strojový překlad jsou založeny<br />
na využití tzv. překladových pamětí. Překladová paměť si pamatuje veškerý již<br />
jednou přeložený text (ukládá si vždy dvojici zdrojová věta → její překlad)<br />
a při překladu dalšího, nového textu je schopna porovnat nově překládanou větu<br />
s touto pamětí, a nabídnout překladateli překlad, který je u příslušné zdrojové<br />
věty uložen. Přitom tyto věty nemusí být zcela identické, mohou se lišit v<br />
jednom nebo několika slovech, v číselné hodnotě, interpunkci apod. Efektivnost<br />
systémů strojového překladu založených na překladových pamětech pak plyne z<br />
faktu, že většina „průmyslově“ prováděných překladů se týká jen málo změněných<br />
verzí toho, co již jednou bylo přeloženo (např. příručka k textovému editoru<br />
se jistě změní od verze k verzi jen málo, zvlášť při vysoké frekvenci „upgradů“<br />
takových softwarových produktů).<br />
Do tohoto systému je velmi jednoduché zapojit strojový překlad tak, že vytvoříme<br />
„překladovou paměť“ a naplníme ji všemi překládanými větami spolu se<br />
strojově vytvořeným překladem. Překladatel pak ke každé jím překládané větě<br />
dostane pro něj obvyklým způsobem návrh překladu, jako kdyby daná věta byla<br />
již někým v minulosti přeložena. Je samozřejmé, že překladatel musí být varován,<br />
že se jedná o strojový překlad, a ne o překlad „lidský“. Navíc je třeba zajistit<br />
(technickými prostředky), aby tatáž věta, byla-li dříve již přeložena<br />
člověkem, dostala při výběru z překladové paměti přednost před větou přeloženou<br />
strojově.<br />
4.6.2 Vícejazyčný překlad<br />
Jednoduchý, rychlý a relativně kvalitní překlad mezi blízkými jazyky pomocí<br />
popsané metody vede i k návrhu organizace překladu v případech, kdy<br />
z textu v jednom jazyce je třeba vytvořit překlad v mnoha dalších jazycích. To<br />
je případ návodů k domácím spotřebičům, příruček k softwarovým systémům,<br />
a vůbec všech příruček, které doprovázejí výrobky nebo služby exportované do<br />
mnoha různých jazykových oblastí.<br />
Základní schéma je na obr. 11. Z původního jazyka se text přeloží ve vysoké<br />
kvalitě (tj. profesionálními překladateli) jen do několika „centrálních“<br />
jazyků („bridge languages“), a z těch se při překladu do jazyků jim blízkých<br />
použije automatický překlad (jen s manuální postredakcí).<br />
30
STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)<br />
Obr. 11: Využití „centrálního“ jazyka při vícejazyčném překladu<br />
4.7 Výsledky experimentů s překladem do slovenštiny a polštiny, další<br />
výhled<br />
Experimenty s úplným systémem překladu z češtiny do slovenštiny jsme<br />
prováděli s technickými příručkami pro použití databázového software.<br />
Úspěšnost jsme měřili s použitím software pro podporu překladu TRADOS,<br />
resp. jeho části, která počítá tzv. „match“ (souhlas) mezi ručně „dopřeloženou<br />
větou“ a její předchozí variantou (v našem příkladě touž větou přeloženou automaticky).<br />
Systém evaluace systému TRADOS je velmi přísný, neboť evaluační<br />
systém se v tomto systému používá k určení obtížnosti překladu (obecně platí,<br />
že překladatelské firmy účtují podstatně více, je-li shoda s předcházející verzí<br />
(tj. v našem případě s výsledkem automatického překladu) menší než 90 %).<br />
Shoda se počítá na základě modifikované Loewensteinovy vzdálenosti (zhruba<br />
řečeno, jde o počet editačních zásahů, které je nutno udělat, aby věta byla v<br />
„definitivně správné“ podobě).<br />
Pro slovenštinu jsme tohoto cíle dosáhli (shoda se pohybovala těsně nad<br />
hranicí 90 %, pro polštinu jsme však zůstávali na úrovni 75 % (na tomtéž textu).<br />
Texty použité pro testování byly texty, z nichž byl částečně zapracován<br />
slovník, ale např. česká morfologická analýza a český značkovač (coby jádro<br />
systému) pracovaly na nich nezávisle, tj. testy byly dostatečně realistické a<br />
„férové“.<br />
Předpokládáme, že systém budeme dále vyvíjet (zejména systém překladu<br />
do slovenštiny) jak zvětšováním slovníku, tak i zlepšováním českého značkovače<br />
(a morfologie, pochopitelně). Polský systém bude nutno zdokonalit podstatněji,<br />
zejména s ohledem na jisté rozdíly v syntaxi – zdá se, že alespoň základní<br />
analýza jmenných frází bude nutná pro podstatnější zlepšení. Pak by<br />
ovšem bylo možno uvažovat i o ruštině, ukrajinštině a dalších jazycích podobně<br />
„vzdálených“ od češtiny.<br />
5. Závěr<br />
V tomto příspěvku jsme se snažili popsat metody počítačového zpracování<br />
dvou klíčových rovin (morfologie a syntaxe) přirozeného jazyka, a také přiblížit<br />
možnou aplikaci těchto metod na reálný problém. Ukazuje se, že ač v některých<br />
aplikacích je možné použít i analýzu jen částečnou (a to nemluvíme o takových<br />
31
JAN HAJIČ<br />
z jazykového hlediska velmi jednoduchých aplikacích, jako je vyhledávání nebo<br />
extrakce informací z textu), je jasné, že úplné porozumění vyžaduje analýzu<br />
jazyka dost hlubokou. Právě pro tyto účely budujeme jazykové zdroje, jako jsou<br />
morfologicky a důkladně syntakticky anotované texty.<br />
Podrobnější informace o budování anotovaných korpusů je možno nalézt na<br />
webových stránkách Ústavu aplikované a komputační lingvistiky a Centra komputační<br />
lingvistiky na MFFUK v Praze (http://ufal.mff.cuni.cz a http://ckl.<br />
mff.cuni.cz). Pro hlubší studium statistických a pravděpodobnostních metod<br />
v lingvistice, které jsou s danou problematikou úzce svázány, lze doporučit<br />
zejména publikace Manning a Schuetze (2001), Jurafsky a Martin (2000),<br />
Charniak (1998) a Jelinek (1998). Kompletní materiály k vlastnímu studiu této<br />
problematiky jsou umístěny na volně dostupné adrese http://ufal.mff.cuni.cz/<br />
~hajic/courses/pfl043/0102/syllabus.html. Téměř kompletní bibliografie jak k<br />
problematice tvorby anotovaných korpusů, tak jejich zpracování a využití, je<br />
pak na již zmíněném CD „Prague Dependency Treebank 1.0“ (Hajič et al.<br />
2001b), ve většině případů s plnými texty článků, příruček a manuálů (a samozřejmě<br />
i s kompletními českými korpusy!); kopii dokumentace k tomuto CD je<br />
pak možné nalézt i na webu na http://ufal.mff.cuni.cz/pdt.<br />
Literatura<br />
COLLINS, Michael. 1997. Three Generative, Lexicalised Models for Statistical Parsing. In:<br />
Proceedings of the 35th ACL/EACL. Madrid, s. 16-23.<br />
COLLINS, Michael – HAJIČ, Jan – BRILL, Eric – RAMSHAW, Lance – TILLMANN,<br />
Christopher. 1998. A Statistical Parser for Czech. In: Proceedings of the 37th ACL. College Park, MD,<br />
USA, s. 505 – 512.<br />
ČERMÁK, František. 2001. Český národní korpus. In: Alexandra Jarošová (ed.). <strong>Slovenčina</strong> a<br />
<strong>čeština</strong> v <strong>počítačovom</strong> <strong>spracovaní</strong>. Bratislava: Veda, s.168.<br />
HAJIČ, Jan. 1998. Building a Syntactically Annotated Corpus: The Prague Dependency<br />
Treebank. In: Eva Hajičová (ed.): Issues of Valency and Meaning. Studies in Honor of Jarmila<br />
Panevová. Praha: Karolinum, Charles University Press, s. 12 – 19.<br />
HAJIČ, Jan. 2001. Disambiguation of Rich Inflection (Computational Morphology of Czech).<br />
Praha: Karolinum, Charles University Press.<br />
HAJIČ, Jan – ROSEN, Alexandr – SKOUMALOVÁ, Hana. 1987. RUSLAN – systém strojového<br />
překladu z češtiny do ruštiny. Výzkumná zpráva. Praha: Výzkumný ústav matematických strojů.<br />
HAJIČ, Jan – PANEVOVÁ, Jarmila – BURÁŇOVÁ, Eva – UREŠOVÁ, Zdeňka – BÉMOVÁ,<br />
Alla- ŠTĚPÁNEK, Jan – PAJAS, Petr – KÁRNÍK, Jiří. 1997. Anotace na analytické rovině (manuál<br />
pro anotátory). Technická zpráva TR-1997-03. Praha: ÚFAL MFF UK.<br />
32
STATISTICKÉ MODELOVÁNÍ A AUTOMATICKÁ ANALÝZA PŘIROZENÉHO JAZYKA (MORFOLOGIE, SYNTAX, PŘEKLAD)<br />
HAJIČ, Jan – BRILL, Eric – COLLINS, Michael – HLADKÁ, Barbora – JONES, Douglas –<br />
KUO, Cynthia – RAMSHAW, Lance – SCHWARTZ, Oren – TILLMANN, Christopher – ZEMAN,<br />
Daniel. 1998. Core Natural Language Processing Technology Applicable to Multiple Languages.<br />
Research Note 37. Center for Language and Speech Processing, Johns Hopkins University, Baltimore,<br />
MD, USA. http://www.clsp.jhu.edu.<br />
HAJIČ, Jan – HRIC, Jan – KUBOŇ, Vladislav. 2000. Česílko: Machine Translation Between<br />
Closely Related Languages. In: Proceedings of the 6th Applied NLP, Seattle, WA, USA. ACL / MIT<br />
Press, s. 7 – 12.<br />
HAJIČ, Jan – KRBEC, Pavel – KVĚTOŇ, Pavel – OLIVA, Karel – PETKEVIČ, Vladimir.<br />
2001a. Serial Combination of Rules and Statistics: A Case Study in Czech Tagging. In: Proceedings of<br />
ACL'01, Toulouse, France, s. 160 – 167.<br />
HAJIČ, Jan – HAJIČOVÁ, Eva – PAJAS, Petr – PANEVOVÁ, Jarmila – SGALL, Petr –<br />
VIDOVÁ HLADKÁ, Barbora. 2001b. The Prague Dependency Treebank 1.0. CDROM. Philadelphia:<br />
Linguistic Data Consortium LDC2001T10. ISBN 1-58563-212-0.<br />
HAJIČOVÁ, Eva – PANEVOVÁ, Jarmila – SGALL, Petr. 2000. Anotace na tektogramatické<br />
rovině (manuál pro anotátory). Technická zpráva TR-2000-09. Praha: ÚFAL MFF UK.<br />
HLADKÁ, Barbora. 2000. Czech Language Tagging. PhD thesis, Praha: ÚFAL MFF UK.<br />
CHARNIAK, Eugene. 1996. Statistical Language Learning. Cambridge: The MIT Press.<br />
CHURCH, Kenneth. 1992. Current Practice in Part of Speech Tagging and Suggestions for the<br />
Future. In: Simmons (ed.), Studies in Slavic Philology and Computational Linguistics: In Honour of<br />
Henry Kučera. Michigan Slavic Publications, s. 13 – 48.<br />
CHYTIL, Michal. 1984. Automaty a gramatiky. Praha: SNTL. Matematický seminář, roč. 19.<br />
JELINEK, Frederick. 1998. Statistical Methods for Speech Recognition. Cambridge: The MIT<br />
Press.<br />
JURAFSKY, Daniel – MARTIN, James. 2000. Speech and Language Processing. Prentice-<br />
Hall.<br />
KOSKENNIEMI, Kimmo. 1983. Two-level morphology. PhD thesis. Technical reports No. 11.<br />
Helsinki: Dept. of Linguistics, University of Helsinki.<br />
MANNING, Christopher – SCHUETZE, Heinrich. 1999. Foundations of Statistical Natural<br />
Language Processing. Cambridge: The MIT Press.<br />
MARCUS, Mitch – SANTORINI, Beatrice – Marcinkiewicz M. 1993. Building a Large<br />
Annotated Corpus of English: the Penn Treebank. Computational Linguistics, 19 (2), s. 313 – 330.<br />
MÍROVSKÝ, Jiří. 1999. Morfologické značkování textu: automatická disambiguace. Mgr.<br />
Thesis. Praha: MFF UK.<br />
MOHRI, Mehryar – RILEY, Michael – PEREIRA, Fernando C. N. 1998. A Rational Design for<br />
a Weighted Finite-State Transducer Library. Lecture Notes in Computer Science 1436. Berlin:<br />
Springer Verlag.<br />
PETKEVIČ, Vladimír. 1995. A New Formal Specification of Underlying Representations. In:<br />
Theoretical Linguistics, Vol. 21. s. 7 – 61<br />
SGALL, Petr – HAJIČOVÁ, Eva – PANEVOVÁ, Jarmila. 1986. The Meaning of the Sentence<br />
and Its Semantic and Pragmatic Aspects. Prague/Netherlands: Academia/Reidel Publishing Company.<br />
SKOUMALOVÁ, Hana. 1997. Czech lexicon by two-level morphology. In:R. Marcinkevičiene<br />
– N. Volz (eds.), Proceeedings of the 2nd European Seminar of TELRI -- Language Applications for<br />
a Multilingual Europe. Mannheim/Kaunas: IDS/VSU. s. 123 – 145.<br />
33
JAN HAJIČ<br />
34
IDENTIFIKÁCIA PARADIGMATICKÝCH<br />
A SYNTAGMATICKÝCH VZŤAHOV<br />
V TEXTE<br />
Karol Furdík: Juvier, s.r.o., Košice<br />
Abstract: Paper describes the algorithm of inductive incremental learning for identification and representation<br />
of paradigmatic and syntagmatic relationships in written texts. Probabilistic methods are used for determination<br />
of structural similarities on morphological, syntactical, and semantic level.<br />
1. Problematika analýzy textu<br />
Analýza textu, čiže identifikácia jazykových jednotiek (znakov) a vzťahov<br />
medzi nimi, je kľúčovým problémom azda všetkých súčasných systémov na<br />
spracovanie prirodzeného jazyka. Dôvodov, prečo sa tento problém stále vymyká<br />
úspešnému a vyčerpávajúcemu riešeniu, je niekoľko. Predovšetkým je to<br />
zložitosť samotného jazyka: „Jazyk je nesporně nejsložitější a nejbohatší<br />
známý systém (mimo přírodní vědy) mající mnoho stránek, a tedy i možností<br />
přístupu k jeho chápání, popisu, popř. i třídění; v důsledku toho je právě komplexní<br />
pohled na něj, jakkoliv žádoucí, také neobyčejně obtížný.“ (Čermák<br />
1994, s. 13). Alebo, formálnejšie, prirodzený jazyk v celej svojej šírke nemôže<br />
byť generovaný menej výkonnou gramatikou, ako je gramatika typu 0 (všeobecná)<br />
podľa delenia N. Chomského (Csontó – Sabol 1991, s. 42). Dôsledkom<br />
toho je, že prirodzený jazyk môže byť bez dodatočných ohraničení akceptovaný<br />
iba programom s výkonnosťou Turingovho stroja, čo znamená, že takýto program<br />
si bude vyžadovať neobmedzený prístup k dynamickej pamäti.<br />
Druhým dôvodom, pre ktorý analýza textu v prirodzenom jazyku naďalej<br />
ostáva výzvou, je tesná prepojenosť jazyka a myslenia. Pri pokuse analyzovať<br />
text ako jazykový prejav nie je dosť dobre možné oddeliť to, ako jazyk funguje<br />
(v zmysle formálneho systému), od toho, o čom vypovedá (v rovine sémantickej<br />
a pragmatickej, v rovine vedomostí a ich reprezentácie, v konečnom dôsledku<br />
v rovine vedomia a myslenia). Vzájomná podmienenosť jazyka a myslenia naznačuje,<br />
že tieto dva fenomény nemožno skúmať oddelene, že ide skôr o dve<br />
strany jednej mince (dôkazom toho môže byť aj tzv. Linguistic Turn, posledný<br />
veľký obrat vo filozofii – pozri napr. v Michalovič – Minár (1997, s. 12). Sú-<br />
35
KAROL FURDÍK<br />
vislosť je vari až taká, že vyriešenie problému analýzy jazyka predpokladá objavenie<br />
mechanizmov a prípadnú formalizáciu myslenia (a vice versa).<br />
Posledným, možno trochu diskutabilným dôvodom, avšak rozhodne so silným<br />
vplyvom na skúmanie analýzy jazykového prejavu, je metodológia. Donedávna<br />
sa prakticky všetky prístupy k skúmaniu jazyka vyznačovali snahou o explicitný<br />
popis jednotiek, z ktorých jazykový systém pozostáva, vrátane vzťahov,<br />
pravidiel, zásad a noriem ich vzájomného kombinovania. Tento prístup predpokladá,<br />
že existuje všeobecný, spoločný, a relatívne stály abstraktný systém jazyka<br />
– langue (Čermák 1994, s. 18). Percepcia jazyka sa v takomto prípade dá<br />
modelovať ako „postupná identifikace povrchových (vnějškových) struktur slyšené<br />
/ čtené promluvy srovnáváním se známým, t. j. jednotkami a pravidly v langue“<br />
(tamže, s. 19). Hrubá schéma systému analyzujúceho text na základe<br />
porovnávania s vopred známou a nemennou štruktúrou langue je na obrázku 1.<br />
Problémom tohto prístupu však je otázka, či je vôbec možné vyčerpávajúco explicitne<br />
a formálne vyjadriť všetky jednotky a pravidlá v langue tak, aby sa<br />
analyzovaný text (resp. jazykový prejav) dal s nimi porovnávať. Zrejme to možné<br />
nie je, pretože, ako bolo spomenuté vyššie, takýto formalizmus by musel byť<br />
vyjadrený gramatikou typu 0 a zodpovedajúci porovnávací mechanizmus by<br />
musel dosahovať potenciálne nekonečnú zložitosť a výkonnosť Turingovho<br />
stroja.<br />
Vstupný text<br />
(parole)<br />
Porovnávací modul<br />
Znalostná báza<br />
(Explicitné jednotky a pravidlá langue)<br />
Obrázok 1. Známa a nemenná štruktúra langue.<br />
2. Intencionalita, inkrementálne učenie<br />
Identifikácia<br />
Výstup<br />
Aký prístup k analýze textu teda zvoliť, aby sa prekonali naznačené problémy?<br />
Musí to byť prístup, ktorý je dynamický, ktorý sa blíži k predpokladaným<br />
modelom myslenia, a ktorého formalizmus sa výkonnosťou blíži k výkonnosti<br />
Turingovho stroja. Jedným z možných riešení je napríklad subjektivizá-<br />
36
IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE<br />
cia jazykovej percepcie (Furdík 1999, s. 276). Do popredia tu vystupuje mentálna<br />
(kognitívna) funkcia jazyka, zameraná najmä na predikciu budúcich interakcií<br />
subjektu s prostredím na základe vedomých subjektívnych skúseností.<br />
Komunikačná funkcia jazyka, všeobecne považovaná za základnú a dominantnú<br />
funkciu langue (Michalovič – Minár 1997, s. 19), sa pri subjektívnom prístupe<br />
stáva sekundárnou. Langue (ako abstraktný systém, model jazyka) vzniká<br />
a modifikuje sa pre každý subjekt zvlášť, a to na základe vstupov (zmyslovo<br />
vnímaných ako parole) v interakcii s okamžitým stavom tohto „subjektívneho<br />
langue“ (azda presnejší je v tomto prípade Chomského termín competence, čiže<br />
„systém pravidel k produkování promluv a jejich rozumění, pojatý jako znalost<br />
mluvčích; odpovídá langue“ (Čermák 1994, s. 62, 208)). Subjektivizácia však<br />
sama osebe nie je dostatočná na konštrukciu systému schopného vnímať jazyk a<br />
analyzovať text. Naopak, je iba nevyhnutným predpokladom cieľavedomého<br />
budovania štruktúry vedomých subjektívnych skúseností, ktoré sa zvykne<br />
označovať ako intencionalita. Ako uvádza van Gulick (1992, s. 86), zhŕňajúc<br />
tvrdenia Searla a Nagela: „Schopnosť mať vedomé subjektívne skúsenosti je<br />
nevyhnutnou podmienkou akýchkoľvek stavov s vlastným intencionálnym obsahom.“<br />
Intencionalita v tomto zmysle nie je samoúčelná, jej cieľom je už<br />
spomínaná predikcia možných budúcich stavov prostredia na základe už rozpoznaných<br />
stavov a ich porovnávania s okamžitými vnemami – subjekt si vytvára<br />
vnútorný model prostredia, konfrontuje ho so svojimi vstupmi, a pokúša<br />
sa jednak interpretovať aktuálne vstupy na základe existujúceho modelu prostredia,<br />
a jednak meniť tento vnútorný model tak, aby čo najviac zodpovedal<br />
vnímanému prostrediu. Tento proces „vedomej“ zmeny vnútornej reprezentácie<br />
(samočinnej optimalizácie), ktorý je cieľovo zameraný na predikciu možných a<br />
pravdepodobných budúcich stavov prostredia ako dôsledku „zmyslových“ vnemov<br />
(ukážkových príkladov), sa nazýva učenie (Furdík 1999, s. 277, pozri aj<br />
Csontó – Sabol 1991, s. 83).<br />
Realizovaný jazykový prejav (parole, resp. text), ktorý je vstupom pre subjektívny<br />
intencionálny systém, sa vyznačuje vlastnosťou sekvenčnosti – jednotlivé<br />
jazykové znaky sú zoradené a následne aj rozpoznávané sekvenčne, za<br />
sebou, pričom ich poradie je relevantným štruktúrotvorným prvkom. Sekvenčný<br />
prísun vstupnej informácie spolu s obmedzením pamäti systému implikuje inkrementálnosť<br />
učenia – učenie nie je jednorázový akt, ale skôr proces „permanentného<br />
doučovania“. Samozrejme, množina vstupných príkladov nemôže<br />
byť nikdy úplná – systém musí mať schopnosť učiť sa induktívne, t. j. zovšeobecňovať.<br />
Pre takýto charakter vstupných príkladov sa dá použiť induktívne<br />
37
KAROL FURDÍK<br />
inkrementálne učenie (Csontó – Sabol 1991, s. 83), ktoré môže byť buď kontrolované,<br />
alebo nekontrolované. Pri nekontrolovanom učení (bez učiteľa) systém<br />
odvodzuje informáciu o správnosti svojho rozhodnutia pomocou spätnej<br />
väzby; pri kontrolovanom učení (s učiteľom) je informácia o rozhodnutí a jeho<br />
správnosti priamo súčasťou vstupu (pozri schému na obrázku 2).<br />
Vstupný text<br />
(parole)<br />
Adaptabilná znalostná báza<br />
Porovnávací modul<br />
Identifikácia<br />
(Subjektívny abstraktný model jazyka)<br />
Modifikácia<br />
znalostnej<br />
bázy<br />
Obrázok 2. Analyzátor textu ako učiaci sa systém.<br />
3. Algoritmus inkrementálneho učenia<br />
Výstup<br />
Spätná väzba<br />
systému<br />
Zásah učiteľa<br />
Ďalšou úlohou je špecifikovať vlastný algoritmus induktívneho inkrementálneho<br />
učenia. Je potrebné nájsť a identifikovať také javy v analyzovanom texte,<br />
ktoré dovoľujú inkrementálne vytvárať subjektívny abstraktný model jazyka<br />
vo vnútri systému. Vstupný text v prirodzenom jazyku je realizáciou predpokladanej<br />
všeobecnej abstraktnej štruktúry langue. Preto jazykové jednotky v<br />
ňom sú dozaista vzájomne prepojené syntagmatickými a paradigmatickými<br />
vzťahmi. Tieto vzťahy možno považovať za vzájomne komplementárne, pričom<br />
syntagmatické vzťahy majú v zásade lineárnu povahu, kým paradigmatické<br />
zasa povahu asociačnú. Existencia oboch týchto vzťahov je však spôsobená<br />
tým istým princípom, ktorý je vlastný jazykovému znaku – princípom différence.<br />
Odlišnosť, diferencia voči iným znakom systému je práve to, čo znak tvorí,<br />
čo určuje jeho miesto v systéme. Prípadne, ak je to z praktických dôvodov výhodnejšie,<br />
dá sa vzťah rozdielnosti dvoch objektov jednoduchou inverziou zmeniť<br />
na vzťah vzájomnej podobnosti (porov. Michalovič – Minár 1997,<br />
s. 35, 36).<br />
Algoritmus učiaceho sa systému na analýzu textov by mal byť schopný abstrahovať,<br />
identifikovať, a následne explicitne vyjadriť vzájomné podobnosti<br />
jazykových jednotiek. Explicitná reprezentácia identifikovaných podobností je<br />
abstrakciou spoločných čŕt jazykových jednotiek, ktoré spôsobili jej vznik.<br />
38
IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE<br />
Naviac, ak sa zvolí vhodný formálny jazyk na vyjadrenie explicitných reprezentácií<br />
podobností, je možné postulovať, že získané explicitné relácie sú meta-jazykovými<br />
znakmi. Dajú sa vzájomne porovnávať, dá sa vyjadriť ich vzájomná<br />
podobnosť, čím môžu vzniknúť ďalšie meta-meta-jazykové znaky. Vzniká tým<br />
štruktúra, zodpovedajúca subjektívnemu abstraktnému modelu jazyka – „subjektívnemu<br />
langue“.<br />
V ďalšom sa pokúsime presnejšie popísať jednotlivé moduly a kroky navrhovaného<br />
algoritmu, ktorého schéma je zobrazená na obrázku 3.<br />
Vstup<br />
Text,<br />
reťazec<br />
znakov<br />
Predspracovanie<br />
vstupného<br />
reťazca<br />
Adaptabilná znalostná báza<br />
(Subjektívny abstraktný model jazyka)<br />
Štruktúra tried podobností jazykových jednotiek:<br />
• morfologický modul<br />
• syntaktický modul<br />
• sémantický modul<br />
3.1 Predspracovanie vstupu<br />
Sekvencia<br />
elementárnych<br />
jazykových<br />
jednotiek<br />
Porovnávací<br />
modul<br />
Identifikácia<br />
Obrázok 3. Schéma algoritmu inkrementálneho učenia.<br />
Spätná väzba<br />
systému<br />
Výstup<br />
Zásahy na zmenu štruktúry<br />
znalostnej bázy<br />
Vznik novej triedy<br />
Zánik existujúcej triedy<br />
Zmena pravdepod. váh<br />
Zásah<br />
učiteľa<br />
Vstupný analyzovaný text je pre počítačový systém sekvenciou, reťazcom<br />
znakov. Úlohou modulu predspracovania vstupu je rozdeliť vstupný reťazec na<br />
postupnosť jazykových jednotiek, t. j. rozpoznať jednotlivé jazykové jednotky<br />
v tomto reťazci. Avšak identifikácia takých jazykových jednotiek, ako sú slová,<br />
frazémy, vety a pod., je v učiacom sa systéme možná iba na základe konzultácie<br />
so znalostnou bázou, teda s aktuálnym subjektívnym modelom jazyka. Inými<br />
slovami, systém sa musí najprv naučiť, čo je slovo, veta, frazéma a podobne,<br />
a až potom je schopný tieto jednotky vo vstupnom reťazci identifikovať.<br />
Tento „dôsledný“ prístup však nie je veľmi výhodný, pretože na začiatku<br />
predpokladáme prázdnu znalostnú bázu. V takomto prípade by systém nemal<br />
žiadne „vedomosti“ o tom, čo považovať za jazykovú jednotku, a je otázkou, či<br />
a za aký dlhý čas by tieto vedomosti získal.<br />
39
KAROL FURDÍK<br />
Tu je zrejme vhodné spomenúť miesto a vplyv apriórnych vedomostí na<br />
činnosť učiaceho sa systému. Apriórne vedomosti sú také fakty, ktoré systém<br />
nezíska sám v procese učenia, ale ktoré dodáme systému zvonka (kontrolované<br />
učenie, pozri vyššie). Potom platí, že sa zrejme (ak sú učiteľom dodané fakty<br />
„správne“, t. j. ak sa potvrdia v budúcich vstupoch) zvýši efektívnosť a rýchlosť<br />
systému, skráti sa čas prehľadávania znalostnej bázy. Na druhej strane však<br />
klesne univerzálnosť, systém sa bude snažiť aplikovať dodané fakty namiesto<br />
toho, aby sa pokúšal prispôsobovať svoju znalostnú bázu aktuálnemu vstupu<br />
vytváraním „svojich“ znalostí v procese učenia sa. 1 Tento princíp, ktorý nazveme<br />
ako princíp apriórnych vedomostí, platí aj pri ďalších etápách algoritmu<br />
všade tam, kde sa uplatňuje inkrementálne učenie.<br />
Zrejme je potrebné modul predspracovania vstupu vybaviť istými apriórnymi<br />
vedomosťami o tom, čo je tzv. elementárny jazykový znak. Modul potom<br />
bude schopný transformovať vstupný reťazec na sekvenciu takýchto<br />
elementárnych jazykových znakov, ktoré sa v ďalších etapách algoritmu budú<br />
môcť spájať do vyšších štruktúr.<br />
Rozdelíme všetky znaky, ktoré sa môžu vyskytovať vo vstupnom reťazci,<br />
do nasledujúcich kategórií:<br />
a) alfanumerické znaky (pre slovenskú abecedu sú to znaky a – ž, A - Ž) ,<br />
b) prázdne znaky (Space, Tab, EndOfLine, EndOfFile, ...),<br />
c) špeciálne znaky (ostatné, t. j. 0 – 9, _, ?, „, :, ...).<br />
Potom elementárnym jazykovým znakom bude každý reťazec:<br />
a) zložený iba z alfanumerických znakov alebo<br />
b) tvorený jedným špeciálnym znakom.<br />
Na identifikáciu elementárneho jazykového znaku sa dajú použiť aj iné<br />
metodiky, iné rozdelenia do kategórií, napríklad špeciálne kategórie pre číselné<br />
reťazce, pre dátum, čas a podobne. Dá sa dokonca postulovať, že elementárnym<br />
jazykovým znakom je každý jednotlivý znak zo vstupu. Pri každom z týchto<br />
delení však platí princíp apriórnych vedomostí, teda čím „presnejšie“ určíme,<br />
čo je elementárny jazykový znak, tým menej flexibilný bude systém.<br />
3.2 Morfologické štruktúry<br />
1 Určitým kompromisom môže byť kontrolované učenie s nedokonalým učiteľom (Csontó – Sabol<br />
1991, s. 83), pri ktorom fakty dodané zvonka nemajú absolútnu platnosť, ale sú ohodnotené istou<br />
pravdivostnou (alebo pravdepodobnostnou) váhou. Ak sa zmení charakter vstupu, systém môže po istom<br />
čase takéto fakty „zabudnúť“, čím sa adaptuje na novú situáciu.<br />
40
IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE<br />
Úlohou modulu morfológie je zoskupovať rozpoznané jazykové jednotky<br />
do tried podľa podobnosti ich formálnej reprezentácie. Týmto procesom vzniká<br />
abstraktná štruktúra popisujúca paradigmatické vzťahy jazykových jednotiek.<br />
Paradigmatický vzťah morfologickej úrovne asociuje jazykové jednotky na základe<br />
ich tvarovej, formálnej podobnosti. Z dvoch alebo viacerých jazykových<br />
jednotiek vznikajú triedy (kategórie), ktoré abstrahujú spoločné formálne vlastnosti<br />
týchto jednotiek. Vzniknuté triedy však majú zároveň charakter (abstraktných)<br />
jazykových jednotiek, vyjadrujú, ktoré formálne vlastnosti sú pre systém<br />
v danom okamihu relevantné.<br />
Abstraktná jazyková jednotka má charakter triedy (kategórie) v tom<br />
zmysle, že vieme povedať, ktoré jazykové jednotky do tejto triedy patria (spĺňajú<br />
formálne vlastnosti vyjadrené abstraktnou jazykovou jednotkou), a ktoré do<br />
triedy nepatria. Zároveň má abstraktná jazyková jednotka charakter atribútu<br />
pre tie jazykové jednotky, ktoré spĺňajú formálne vlastnosti abstraktnou jednotkou<br />
vyjadrené (Furdík 1999, s. 280). Dvojica atribút – trieda je komplementárna,<br />
t. j. ak nejaká jednotka patrí do určitej abstraktnej triedy, zároveň má aj<br />
atribút (príznak, vlastnosť) príslušnosti k tejto triede. Relácia<br />
Patriť_do_triedy(Ji , Tx) vytvára štruktúru v priestore jazykových jednotiek.<br />
Triedy sa dajú explicitne vyjadriť napríklad pomocou vhodného formálneho<br />
jazyka. Formálny jazyk na explicitné vyjadrenie tried treba voliť tak, aby:<br />
a) jazykové jednotky a triedy boli vyjadrené kvalitatívne rovnakým spôsobom,<br />
aby sa dali vzájomne porovnávať, zoskupovať a triediť,<br />
b) triedy mohli byť použité ako klasifikačné pravidlá, t. j. aby bolo možné<br />
rozhodnúť, či ľubovoľná jazyková jednotka do danej triedy patrí alebo<br />
nie,<br />
c) triedy boli generické v tom zmysle, aby bolo možné z danej triedy rekonštruovať<br />
jazykové jednotky, ktoré spôsobili vznik tejto triedy.<br />
Samozrejme najdôležitejšou vlastnosťou formálnej reprezentácie abstraktných<br />
morfologických tried je schopnosť vyjadriť formálne, tvarové podobnosti<br />
(resp. rozdiely) jazykových jednotiek.<br />
Explicitné vyjadrenie triedy sa dá realizovať formálnym jazykom generovaným<br />
buď bezkontextovou, alebo kontextovou gramatikou. Bezkontextová<br />
gramatika má síce menšiu vyjadrovaciu schopnosť, môže sa stať, že isté morfologické<br />
podobnosti sa pomocou nej nedajú vyjadriť, je však jednoduchšia a rýchlejšia.<br />
Kontextová gramatika má kapacitu vyjadriť azda všetky relevantné morfologické<br />
podobnosti, je tu však reálne riziko veľkej, až exponenciálnej výpočtovej<br />
zložitosti.<br />
41
KAROL FURDÍK<br />
V práci P. Kostelníka (2000, s. 33) bola navrhnutá a použitá metóda troch<br />
operátorov prepisu, zodpovedajúca zložitosti bezkontextovej gramatiky. Táto metóda<br />
vychádza z predpokladu, že pre každé dve rôzne jazykové jednotky existujú<br />
transformácie, pomocou ktorých možno prepísať jednu jednotku na druhú.<br />
Práve tieto transformácie sa definujú ako tzv. operátory prepisu. Rozlišujú sa tri<br />
typy týchto operátorov:<br />
1. operátor doplnenia zľava OL; napríklad reťazec ník je operátorom doplnenia<br />
zľava pre jazykové jednotky podvod a podvodník: OL(podvod,<br />
podvodník)=ník.<br />
2. operátor doplnenia sprava OP; napríklad reťazec ne je operátorom doplnenia<br />
sprava pre jazykové jednotky šťastie a nešťastie: OP(šťastie, nešťastie)=ne.<br />
3. operátor zmeny OZ; napríklad dvojica reťazcov {imista, ímia} je operátorom<br />
zmeny pre jazykové jednotky alchimista a alchímia: OZ(alchimista,<br />
alchímia)= {imista, ímia}.<br />
Metóda sa aplikuje postupne na každú dvojicu elementárnych jazykových<br />
jednotiek identifikovaných na vstupe. Získava sa množina operátorov, ohodnotená<br />
pravdepodobnostnou váhou podľa toho, ako často sa ten-ktorý operátor<br />
uplatnil pri transformácii. Operátory, ktorých pravdepodobnostná hodnota presiahne<br />
určitý prah, vytvoria tzv. priestor typických reťazcov, ktoré zodpovedajú<br />
abstraktným morfologickým triedam. Táto metóda pracuje iteračne, využíva<br />
princíp inkrementálneho učenia.<br />
Modifikáciou metódy operátorov prepisu môže byť napríklad tzv. metóda<br />
podreťazcov. Okrem operátorov sa zo vstupných jazykových jednotiek získavajú<br />
aj kontextové vyjadrenia zhodných podreťazcov. Napríklad vstupné jednotky<br />
kniha a knihe generujú operátor zmeny {a, e}, a zároveň podreťazec knih*, kde<br />
znak ‘*’ označuje ľubovoľný podreťazec. Nasledujúci príklad ukazuje použitie<br />
tejto metódy na získanie štruktúry abstraktných morfologických tried:<br />
Nech vstupom sú nasledujúce elementárne jazykové jednotky:<br />
{kniha, knihe, knihou, mačka, mačke, mačkou}<br />
Potom aplikáciou metódy podreťazcov dostávame nasledujúce abstraktné<br />
morfologické triedy:<br />
{a, e}; {a, ou}; {e, ou}; {knih*}; {mačk*}<br />
Ďalej platí:<br />
{kniha} patrí do tried {a, e}, {a, ou}, a {knih*},<br />
{knihe} patrí do tried {a, e}, {e, ou}, a {knih*},<br />
42
IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE<br />
{mačka} patrí do tried {a, e}, {a, ou}, a {mačk*},<br />
{mačkou} patrí do tried {e, ou}, {a, ou}, a {mačk*} atď.<br />
Ďalej:<br />
do triedy {knih*} patria jednotky: {kniha}, {knihe}, {knihou},<br />
do triedy {mačk*} patria jednotky: {mačka}, {mačke}, {mačkou}<br />
Je zrejmé, že obe triedy podreťazcov zodpovedajú štruktúre, ktorá sa<br />
zvykne označovať ako morfologické (resp. slovotvorné) hniezdo. Trieda podreťazcov<br />
obsahuje v tomto prípade niečo ako abstrahovaný koreň tých slov<br />
(jazykových jednotiek), ktoré túto triedu vytvorili.<br />
Teraz ak porovnáme operátory zmien členov oboch tried podreťazcov, zistíme,<br />
že sú rovnaké – tvoria ich operátory {a, e}; {a, ou}; {e, ou}. Tieto operátory<br />
možno považovať za abstraktné, pritom však explicitné, vyjadrenie skloňovacieho<br />
vzoru (resp. jeho časti).<br />
Samozrejme, v skutočnosti sa pomocou tejto metódy generuje aj množstvo<br />
chybných abstraktných tried. Tomuto javu sa nedá dosť dobre zabrániť, systém<br />
nevie sám rozhodnúť, ktorá trieda je generovaná správne, a ktorá chybne.<br />
Jednou z možností, ako sa dá eliminovať chybovosť, je zohľadnenie pravdepodobnosti<br />
výskytu jednotlivých abstraktných tried na základe ich rozpoznávania<br />
v sekvenčnom vstupnom texte (pozri Furdík 1999, Kostelník 2000). Abstraktné<br />
triedy sa generujú spolu s určitou počiatočnou hodnotou pravdepodobnosti P0.<br />
Formalizmus ich explicitného vyjadrenia dovoľuje testovať ďalšie jazykové<br />
jednotky na ich príslušnosť k tej-ktorej abstraktnej triede. Ak sa rozpozná taká<br />
jednotka, ktorá vyhovuje vyjadreniu triedy, zvýši sa pravdepodobnostná hodnota<br />
tejto triedy o prírastok ΔP. Napríklad, nech trieda {knih*} z nášho príkladu<br />
vznikla z jednotiek {kniha} a {knihe}. V tom okamihu jej pravdepodobnosť<br />
bola P0. Po rozpoznaní jednotky {knihou} sa zdvihla hodnota pravdepodobnosti<br />
o ΔP na hodnotu P({knih*}) = P0 + ΔP, keďže táto jednotka spĺňa<br />
kontextové vyjadrenie triedy {knih*}.<br />
Ďalšou možnosťou zníženia chybovosti je kontrolovanie učenia zvonka.<br />
Tento algoritmus je citlivý na poradie, v akom sa jazykové jednotky objavujú na<br />
vstupe. Napríklad chybovosť a efektivita sa dajú zvýšiť vstupom textu, ktorý<br />
obsahuje vyskloňované vzory substantív a podobne. Tiež možno zvonka doplniť<br />
niektoré triedy, ktoré systém „neobjavil“, avšak používateľ „vie“, že sú<br />
relevantné (viac o tom v časti 3.5).<br />
Dôležitým predpokladom úspešnej činnosti algoritmu je pevná veľkosť<br />
pamäti generovaných tried. Poradie abstraktných tried (a jazykových jednotiek<br />
43
KAROL FURDÍK<br />
vôbec) v pamäti je dané pravdepodobnosťou ich výskytu. Systém, ak má byť<br />
schopný adaptovať sa na zmenené podmienky (t. j. na zmenený vstupný text),<br />
musí „zabúdať“ to, čo je chybné, nepotrebné, teda málo pravdepodobné. Ak sa<br />
pamäť zaplní, systém zmaže, zabudne triedy a jazykové jednotky s najmenšou<br />
pravdepodobnosťou, aby mohol generovať nové triedy podľa nového vstupu.<br />
3.3 Syntaktické štruktúry<br />
Identifikácia syntagmatických (najmä syntaktických) štruktúr sa kvalitatívne<br />
líši od činnosti morfologického modulu. Syntaktický modul má za úlohu<br />
hľadať štruktúry, ktoré popisujú lineárne vzťahy medzi jazykovými jednotkami,<br />
pravidlá, ako za sebou jazykové jednotky nasledujú v texte. Činnosť modulu je<br />
znova založená na princípe différence, avšak tentokrát sa skúmajú podobnosti<br />
a rozdiely v poradí a zoskupení jednotiek. Triedy, ktoré sa identifikovali na úrovni<br />
morfologického modulu, slúžia pre identifikáciu syntagmatických štruktúr<br />
ako vstup. Na výstupe modulu očakávame explicitnú reprezentáciu abstraktných<br />
štruktúr popisujúcich najfrekventovanejšie syntagmatické celky.<br />
Je zrejmé, že pre potreby syntaktického modulu musia už elementárne<br />
jazykové jednotky rozpoznávané vo fáze predspracovania niesť so sebou aspoň<br />
minimálnu informáciu o svojej pozícii vo vstupnom texte. Stačí, ak touto informáciou<br />
bude údaj o tom, ktorá elementárna jednotka bola identifikovaná ako<br />
predchodca práve rozpoznávanej elementárnej jednotky. Tieto smerníky spolu<br />
s morfologickými charakteristikami by mali byť dostatočnou vstupnou informáciou<br />
pre činnosť syntaktického modulu.<br />
Kľúčovým problémom pri identifikácii syntagmatických štruktúr je voľba<br />
vhodného formalizmu na vyjadrenie ich explicitnej reprezentácie. Jednou z<br />
možností je použiť algoritmus podmienených pravdepodobností, prípadne jeho<br />
zjednodušenie – trigramový model (pozri napr. Furdík 1999, s. 286). Tento algoritmus<br />
však poskytuje iba implicitnú (pravdepodobnostnú), a nie explicitnú<br />
reprezentáciu, a naviac, n-gramový model dovoľuje identifikovať iba syntagmatické<br />
štruktúry dĺžky maximálne n. Druhou možnosťou je zotrvať pri symbolickej<br />
reprezentácii pomocou formálnych jazykov – touto možnosťou sú rozšírené<br />
prechodové siete (ATN – Augmented Transition Networks), založené<br />
na bezkontextovej gramatike s n-ticou argumentov (tzv. DCG gramatika, Definite<br />
Clause Grammar; Páleš 1993, s. 77). ATN sieť je syntaktický analyzátor<br />
pozostávajúci z orientovaného grafu, zoznamu podmienok a zoznamu akcií.<br />
Každá hrana grafu je samostatným pravidlom bezkontextovej gramatiky a zod-<br />
44
IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE<br />
povedá podmienke vyjadrenej nutnosťou zhody argumentov ľavej a pravej časti<br />
pravidla. Toto pravidlo zodpovedá podmienke, pri ktorej možno cez hranu<br />
prejsť, a akcii, ktorú treba pri tom vykonať. Zvyčajne sú podmienky na hranách<br />
označené slovným druhom s požadovanými gramatickými kategóriami, akcie<br />
sú označenia zodpovedajúcich syntaktických kategórií (obrázok 4).<br />
NF<br />
(nominálna fráza)<br />
adj<br />
subst<br />
Hrana Podmienky Akcie<br />
adj adj(_, P1, C1, R1, Z1) DETERMINANT<br />
subst subst(_, P1, C1, R1, Z1)<br />
Podmienky k hranám adj a subst požadujú zhodu vetných<br />
členov v rode, čísle, páde a životnosti. Ak sú podmienky<br />
splnené, potom akcie priraďujú syntaktické roly, ktoré sú<br />
výsledkom analýzy.<br />
Obrázok 4. Príklad fragmentu ATN siete pre nominálnu frázu.<br />
Vstupom pre syntaktický analyzátor využívajúci ATN siete sú úplne morfologicky<br />
ohodnotené slová vety. Výstupom sú identifikované vetné členy – syntaktické<br />
kategórie. Samozrejme, predpokladá sa, že existuje nemenný a úplný zoznam<br />
všetkých ATN sietí pre daný jazyk. Tento prístup nezodpovedá princípom<br />
systému založeného na inkrementálnom induktívnom učení, preto je nevyhnutné<br />
formalizmus ATN sietí prispôsobiť potrebám učiaceho sa algoritmu analýzy textu.<br />
Analogicky s morfologickým modulom, syntaktické štruktúry nesmú byť<br />
pevné a vopred určené, ale musia vznikať ako abstrakcie v procese učenia. Ich<br />
platnosť nie je absolútna, ale je daná pravdepodobnosťou, ktorá sa počas činnosti<br />
algoritmu môže meniť. Syntaktické štruktúry, ktoré sú pod určeným minimálnym<br />
prahom, zanikajú, zabúdajú sa.<br />
Vstupom pre učiaci sa syntaktický analyzátor nie sú vety, pretože systém<br />
apriórne nie je schopný členiť vstupný text na vety. Zároveň vstupom nemôžu<br />
byť ani slová ohodnotené tradičnými gramatickými kategóriami, pretože učiaci<br />
sa systém si vytvára svoje vnútorné kvázi-morfologické kategórie. Dokonca<br />
apriórne morfologický modul nie je schopný určiť ani slovný druh jazykovej<br />
jednotky. Vstupom pre učiaci sa syntaktický modul sú elementárne jazykové<br />
jednotky rozpoznané vo fáze predspracovania, kontextovo pospájané smerníkmi<br />
na svojich predchodcov. Súčasťou tohto vstupu je aj celá štruktúra abstraktných<br />
tried, identifikovaných morfologickým modulom. Čiže syntaktické<br />
štruktúry nemôžu byť pevné a dopredu určené, pretože gramatické kategórie,<br />
ktoré sú ich súčasťou, sú premenlivé.<br />
45
KAROL FURDÍK<br />
Výstupom učiaceho sa syntaktického analyzátora nie sú syntaktické kategórie,<br />
ale vlastné pravdepodobnosťou ohodnotené ATN siete, ktoré sú explicitnou<br />
reprezentáciou abstraktných štruktúr popisujúcich najfrekventovanejšie<br />
syntagmatické celky. Sú to vlastne abstraktné a elementárne jazykové jednotky,<br />
ktoré sa spolu, v určitých syntagmatických vzťahoch, najčastejšie vyskytujú.<br />
Nasledujúci príklad demonštruje, aké syntaktické štruktúry možno očakávať na<br />
výstupe syntaktického modulu:<br />
Jano<br />
som<br />
Nech na vstupe boli rozpoznané nasledujúce fragmenty textu:<br />
– Jano číta knihu<br />
– bol by som čítal tento zaujímavý časopis, keby...<br />
– Keby som to bol vedel, nebol by som sa začal venovať<br />
spracovaniu prirodzeného jazyka na počítači.<br />
Potom syntaktický modul generuje napríklad takéto fragmenty ATN siete:<br />
číta*<br />
zaujímavý<br />
knih*<br />
časopis<br />
bol<br />
by som<br />
sa<br />
čítal<br />
začal<br />
kde každý z elementov je zároveň začlenený do paradigmatických štruktúr<br />
morfologického modulu.<br />
Chybovosť sa rieši, podobne ako pri morfologickom module, pravdepodobnostným<br />
ohodnotením generovaných syntaktických štruktúr. Tu sa však,<br />
azda viac ako pri morfologických abstraktných štruktúrach, stáva aktuálnou<br />
otázka „rozumného“ riadenia procesu učenia zvonka. Ako upozorňuje Páleš<br />
(1993, s. 76), počet pravidiel DCG gramatiky pre slovenskú syntax je neúmerne<br />
veľký, a aj keď použitie ATN sietí reprezentáciu zjednodušuje, výpočet alternatív<br />
v procese učenia môže dosahovať exponenciálnu zložitosť. Do určitej<br />
miery sa dá toto riziko eliminovať tým, že učiteľ vopred vloží „známe“ ATN<br />
fragmenty do systému a priradí im vhodné pravdepodobnostné hodnoty.<br />
3.4 Sémantické štruktúry<br />
46
IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE<br />
Sémantický modul sa svojím charakterom odlišuje od oboch predchádzajúcich<br />
modulov. Na rozdiel od morfologických a syntaktických štruktúr, ktoré<br />
sa viac či menej dajú abstrahovať z formy jazykového prejavu, sémantické<br />
štruktúry sú primárne založené aj na iných než na jazykových skúsenostiach.<br />
Riešením by azda bolo, ak by sme systému simulovali aj iné „zmysly“, teda aj<br />
iné vstupy, ako len vstup písaného textu – napríklad vstupy zvukovej a obrazovej<br />
informácie. Takéto komplexné riešenie však zameraním aj zložitosťou presahuje<br />
problematiku analýzy textu.<br />
Čiastočne sa isté sémantické podobnosti a vzťahy dajú abstrahovať aj zo<br />
štruktúr identifikovaných predchádzajúcimi dvoma modulmi, napríklad:<br />
• do triedy {knih*} patria slová ako kniha, knihár, knihovníčka a podobne,<br />
ktoré rozhodne vzájomne sémanticky súvisia (patria do toho istého<br />
slovotvorného hniezda),<br />
• do triedy OL={ár} patria slová ako rybár, knihár, stolár, vinár a podobne,<br />
ktoré patria k tomu istému slovotvornému typu – k typu „pracovať s ...“,<br />
• z textov číta knihu a čítal tento zaujímavý časopis vzniká fragment ATN<br />
siete, ktorá sa dá interpretovať ako časť valenčného rámca slovesa čítať.<br />
Zároveň sa dá dedukovať, že {knih*} (ako abstrakcia tvaru knihu) a<br />
časopis spolu sémanticky súvisia, a to tak, že sú v pravom valenčnom<br />
okolí jazykovej jednotky číta (respektíve jej abstrakcie {číta*}).<br />
Avšak prisudzovať sémantickú blízkosť slovám podľa ich pozície vo vete<br />
je veľmi problematické, a to aj v jazykoch s oveľa prísnejšími pravidlami slovosledu,<br />
ako má slovenčina. Zdá sa byť nevyhnutnosťou doplniť do systému<br />
niečo, čo by pomohlo spoľahlivejšie identifikovať vzťahy sémantickej podobnosti<br />
medzi rozpoznanými jazykovými jednotkami.<br />
Zároveň vzniká problém, akú formálnu reprezentáciu zvoliť na explicitné<br />
vyjadrenie štruktúr sémantickej podobnosti. Povaha týchto štruktúr je totiž<br />
„zmesou“ paradigmatických a syntagmatických vzťahov, preto sa na ich reprezentáciu<br />
zvyknú používať špeciálne formalizmy, vyznačujúce sa sieťovou<br />
štruktúrou. Patria medzi ne napríklad rámce a skripty, sémantické siete, ontológie<br />
a podobne (Csontó – Sabol 1991, s. 113, pozri tiež Furdík 2000). Tieto formalizmy<br />
umožňujú definovať tzv. znalosti pomocou pojmov a relácií medzi<br />
nimi, pritom poskytujú aj isté možnosti odvodzovania, transformácií a vyhľadávania.<br />
Znalosti, explicitne vyjadrené zvoleným formalizmom, sú však doménovo<br />
závislé – opisujú iba určitý ohraničený „výsek“ reality, a aj to zväčša subjektívnym<br />
spôsobom. Ak by však intencionálny učiaci sa systém mal schopnosť<br />
efektívne vytvárať a modifikovať na základe svojich vstupov a vnútorných<br />
47
KAROL FURDÍK<br />
stavov svoju subjektívnu štruktúru znalostí, formálne reprezentovaných napríklad<br />
ontológiou, potom by táto štruktúra znalostí mala pre systém absolútnu<br />
platnosť. Ibaže, ako sme ukázali vyššie, samotná morfologická a syntaktická<br />
analýza na budovanie subjektívnej štruktúry znalostí zrejme nestačí. Je potrebné<br />
doplniť ju o informácie „zvonka“, z reálneho sveta. Podmienkou je, aby formát<br />
napĺňaných externých znalostí zodpovedal formalizmu implementovanému<br />
v systéme. Využiť sa pritom nemusia iba ontológie, sémantické siete a rôzne iné<br />
sofistikované metódy reprezentácie znalostí. Cenným zdrojom externých<br />
znalostí môže byť napríklad výkladový slovník, prípadne sémanticky anotovaný<br />
korpus jazyka – v týchto prípadoch však bude zrejme potrebná transformácia<br />
do formalizmu použitého v systéme. Systém by potom mohol v procese učenia<br />
svoju reprezentáciu znalostí modifikovať na základe svojich nových vstupov, a<br />
spätnou transformáciou by sa azda získal cenný materiál pre slovníky alebo pre<br />
jazykový korpus.<br />
3.5 Riadenie algoritmu<br />
Ak sa má zachovať intencionálny charakter navrhovaného učiaceho sa<br />
systému, je potrebné minimalizovať riadiace zásahy zvonka. Na druhej strane,<br />
pri analýze textu hrozí neustále nebezpečenstvo príliš veľkej zložitosti, prílišného<br />
množstva alternatív. V takomto prípade je vhodné zvýšiť efektívnosť<br />
metódou kontrolovaného učenia, dodaním vzorky „správnych“ údajov na<br />
vstup. Tento prístup je najmenej „deštruktívny“, nemení samotný algoritmus<br />
ani jeho parametre, aj tak však čiastočne znižuje „samostatnosť“ systému –<br />
platí tu princíp apriórnych vedomostí, definovaný v časti 3.1. Metóda kontrolovaného<br />
učenia sa používa pri všetkých troch stupňoch analýzy textu. V morfologickom<br />
module je ňou napríklad vstup vyskloňovaných vzory substantív, v<br />
syntaktickom naplnenie známych fragmentov ATN sietí, a v sémantickom doplnenie<br />
externých sémantických znalostí.<br />
Ďalšou z možností, ako efektívne obmedziť priestor prehľadávania a zrýchliť<br />
činnosť systému, je riadenie zabúdania nastavením vhodných pravdepodobnostných<br />
prahových hodnôt. Na rozdiel od kontrolovaného učenia, prahové<br />
hodnoty ovplyvňujú vlastný spôsob učenia, sú súčasťou kódu algoritmu. Zmenou<br />
pravdepodobnostných prahových hodnôt sa vlastne menia kľúčové konštanty<br />
algoritmu, aj keď samotná činnosť algoritmu ostáva nezmenená.<br />
Je možné implementovať aj taký spôsob učenia, že rozhodovanie a činnosť<br />
algoritmu (napríklad porovnávacieho modulu) je funkciou vstupu a<br />
48
IDENTIFIKÁCIA PARADIGMATICKÝCH A SYNTAGMATICKÝCH VZŤAHOV V TEXTE<br />
vnútorného stavu systému – tento spôsob sa zvykne nazývať ako výpočet<br />
riadený údajmi. V takomto prípade sa nemení iba vnútorná štruktúra údajov v<br />
znalostnej báze, ale mení sa samotný spôsob spracovania vstupného textu. Algoritmus<br />
však v takomto prípade stráca determinickosť v tom zmysle, že ak nevieme<br />
presne, v akom stave sa systém práve nachádza, nedokážeme predpovedať,<br />
aké zmeny daný vstup v systéme spôsobí.<br />
Napokon sa principiálne dá uvažovať nad riadením systému pomocou<br />
metavedomostí. Systém v takomto prípade chápe vstupné údaje ako pokyny, a<br />
mal by byť schopný adekvátne reagovať. To však už zrejme predpokladá, aby bol<br />
systém schopný text nielen analyzovať, ale aj pochopiť jeho zmysel vo vzťahu k<br />
sebe ako k subjektu, a na základe rozpoznaného zmyslu aj vykonávať príslušné<br />
akcie.<br />
4. Záver<br />
Analýza písaného textu realizovaná pomocou algoritmu induktívneho inkrementálneho<br />
učenia transcenduje problém zložitosti jazyka a metodologický<br />
problém jeho explicitného popisu tým, že buduje subjektívnu a v tomto zmysle<br />
úplnú štruktúru abstraktných pravidiel a vzťahov, ktorá predstavuje subjektívny<br />
model jazyka. Učenie je založené na porovnávaní podobností a rozdielov vo<br />
vstupnom texte. Tieto podobnosti a rozdiely systém identifikuje a abstrahuje<br />
z nich štruktúry na morfologickej, syntaktickej, a čiastočnej aj na sémantickej<br />
úrovni. Navrhnuté formalizmy symbolickej reprezentácie týchto štruktúr dovoľujú<br />
jednak efektívne riadiť algoritmus pomocou vstupov, jednak zohľadňujú<br />
prípadné využitie vytvoreného modelu jazyka v iných aplikáciách, napríklad pri<br />
vyhľadávaní textov, v systémoch na spracovanie prirodzeného jazyka, v textových<br />
korpusoch a podobne.<br />
Literatúra<br />
CSONTÓ, Július – SABOL, Tomáš. 1991. Umelá inteligencia. Košice: Edičné stredisko TU v<br />
Košiciach.<br />
ČERMÁK, František. 1994. Jazyk a jazykověda. Praha: Pražská imaginace.<br />
FURDÍK, Karol. 2000. Pojmové modelovanie. In: M. Nábělková (ed.), Varia IX. Zborník<br />
materiálov z IX. kolokvia mladých jazykovedcov. Bratislava: SJS pri SAV (v tlači).<br />
FURDÍK, Karol. 1999. Pravdepodobnostné modelovanie vzniku a vývoja jazykových štruktúr.<br />
In: M. Nábělková – Ľ. Králik (ed.), Varia VIII. Zborník materiálov z VIII. kolokvia mladých<br />
jazykovedcov. Bratislava: SJS pri SAV, s. 276 – 289.<br />
van GULICK, Robert. 1992. Vedomie, vlastná intencionalita a stroje, ktoré rozumejú samy sebe.<br />
In: E.Gál – J.Kelemen (eds.), Myseľ / telo / stroj. Bratislava: Bradlo, s. 80 – 100.<br />
49
KAROL FURDÍK<br />
KOSTELNÍK, Peter. 2000. Získavanie informácií s využitím algoritmov zhlukovej analýzy.<br />
Diplomová práca. Košice: Katedra kybernetiky a umelej inteligencie.<br />
MICHALOVIČ, Peter – MINÁR, Pavol. 1997. Úvod do štrukturalizmu a postštrukturalizmu.<br />
Bratislava: Vydavateľstvo Iris.<br />
PÁLEŠ, Emil. 1993. SAPFO – Parafrázovač slovenčiny. Doktorská dizertačná práca.<br />
Bratislava: JÚĽŠ SAV.<br />
50
SPRACOVANIE MORFOLOGICKEJ<br />
ROVINY SLOVENČINY POČÍTAČOM<br />
Eduard Kostolanský – Jana Hašanová: Laboratórium počítačovej<br />
lingvistiky, Pedagogicka fakulta Univerzity Komenského, Bratislava<br />
1. Úvod<br />
Lingvistický výskum, ktorého hlavným cieľom je tvorba adekvátnych lingvistických<br />
teórií umožňujúcich „vypočítať“ všetky slovné tvary daného slova,<br />
resp. identifikovať príslušný slovný tvar, je v jazykoch európskeho typu, či už<br />
s jednoduchou alebo rozsiahlou flektívnou morfológiou, zavŕšený. Pre väčšinu<br />
týchto jazykov je algoritmicky spracovaná flektívna i derivačná morfologická<br />
rovina. Základná schéma a automatizovaný postup rozpoznania/generovania<br />
flektívnej morfológie jednotlivých ohybných slovných druhov sú spracované aj<br />
pre slovenčinu.<br />
Algoritmické spracovanie flektívnej slovenskej morfológie sa budovalo na<br />
báze existencie virtuálneho slovníka. Tento slovník obsahuje iba vybrané údaje<br />
o ohýbaných slovách a vzoroch ohýbania. Keď vznikne potreba sformovať<br />
ktorýkoľvek tvar k ľubovoľnému slovu, vygeneruje sa s využitím virtuálneho<br />
slovníka, ktorý obsahuje komplexné údaje o vzoroch ohýbania a vybrané údaje<br />
o konkrétnych ohýbaných slovách. Pri každom vzore sú komplexné údaje<br />
o zmenách v tvarotvornom základe (TZ), súbor ohýbacích prípon a výpočtové<br />
pravidlá formovania jednotlivých slovných tvarov.<br />
Systémy, ktoré vykonávajú algoritmickú analýzu textov, sú opatrené poznatkami<br />
o morfológii, syntaxi a sémantike príslušného jazyka. Potrebné informácie<br />
sa umiestňujú vo vhodne štruktúrovanej databáze.<br />
2. Vývoj referenčnej morfologickej databázy<br />
V tejto práci predstavíme opis morfologickej roviny lexikálnej databázy.<br />
Príspevok sa delí na dve hlavné časti.<br />
V prvej časti sa sústreďujeme na opis slovenskej flektívnej morfológie.<br />
Ukážeme, ako sa formujú skupiny údajov a pravidiel potrebných na vytváranie<br />
slovných tvarov jednotlivých slov. Napr. skupiny údajov predstavujú pádové<br />
51
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />
prípony skloňovacieho vzoru chlap: -ø, -a, -ovi, -a, -ovi, -om atď. alebo tvarotvorné<br />
základy pri vzore mráz: mráz-, mraz-. Príkladom pravidla je napr. alternácia<br />
spoluhlások ch/s v nominatíve plurálu pri vzore černoch: černoch –<br />
černosi. Poznatky a skúsenosti z práce s rozsiahlou množinou podstatných<br />
mien, ktoré sú obsiahnuté v Krátkom slovníku slovenského jazyka (1997), sme<br />
zhrnuli vo viacerých prácach (Benko – Hašanová – Kostolanský 1996, 1997,<br />
1998). V tomto príspevku podáme iba základnú informáciu o podstatných<br />
menách a uvedieme údaje o ostatných ohybných slovných druhoch. Všetky poznatky<br />
plánujeme uverejniť v širšej knižnej forme.<br />
Možno povedať, že explicitnosť opisu morfológie odstraňuje výnimky,<br />
zvláštne prípady, varianty a stanovuje transformačné pravidlá, vzory a skupiny<br />
prípon na presný opis formovania a analýzy slovných tvarov. Hlavným cieľom<br />
je dosiahnuť, aby formovanie/analýza slovných tvarov boli mechanické postupy,<br />
t. j. vykonateľné aj strojom a aplikovateľné ku každému slovu. Prvá časť<br />
sa teda sústreďuje na paradigmy vzorov. Skloňovací vzor chápeme v zmysle definície:<br />
„Skloňovací vzor je jednak množina slov s rovnakým skloňovaním,<br />
jednak jedno vzorové slovo, ktoré danú množinu slov ako typický príklad vhodne<br />
reprezentuje svojimi (formálnymi i významovými) vlastnosťami“ (Oravec –<br />
Bajzíková – Furdík 1984).<br />
V druhej časti nášho príspevku opisujeme modelovanie referenčnej morfologickej<br />
databázy pomocou relačného dátového modelu. Ide o morfologické<br />
údaje – primerane štruktúrované a detailizované – o najpoužívanejších slovách<br />
v súčasnej spisovnej slovenčine (Krátky slovník slovenského jazyka 1997). Ku<br />
každému slovu je priradený údaj o jeho slovnodruhovej príslušnosti a v závislosti<br />
od toho ďalšie údaje, napr. pri jednotlivých podstatných menách vzor skloňovania<br />
a tvarotvorný základ (základy).<br />
Predpokladá sa, že vo všeobecnosti sa bude môcť počet atribútov slov zvyšovať,<br />
takže morfologická databáza bude postupne prerastať na databázu, ktorá sa<br />
využije aj pri analýze textu v iných smeroch (syntaktická rovina, sémantická<br />
rovina, kvantitatívna analýza a pod.) a pri tvorbe iných, už spomenutých aplikácií.<br />
Ďalej stručne opíšeme virtuálne slovníky patriace k jednotlivým ohybným<br />
slovným druhom. Základnými zdrojmi morfologických údajov sú práce Morfológia<br />
slovenského jazyka (1966), Oravec – Bajzíková – Furdík (1984), Páleš<br />
(1994), Pauliny – Ružička – Štolc (1968).<br />
Opis morfológie slovného druhu má gramatickú časť, ktorá obsahuje<br />
gramatické údaje, prípadne výsledky podrobnejšieho štúdia, potrebné pri algo-<br />
52
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />
ritmickom <strong>spracovaní</strong> morfologickej roviny. Potom nasledujú vzory ohýbania.<br />
Informácie o každom slovnom druhu sú zhrnuté v prehľadných tabuľkách.<br />
Zhromaždené morfologické údaje o vzoroch považujeme za vhodné predstaviť<br />
v dvoch rovinách.<br />
V prvej rovine je základom, okolo ktorého sa zhromažďujú ďalšie údaje,<br />
tvarotvorný základ (TZ) a zmeny v ňom, ktoré spôsobujú alternácie, ako aj<br />
zmeny v sústave ohýbacích prípon. TZ chápeme ako bazálnu časť slova po oddelení<br />
tvarotvornej prípony – formantu. Pri každej zmene v týchto dvoch zložkách<br />
zavádzame nový vzor. Napr. pri stupňovaní prídavných mien majú slová<br />
biely, blízky, krátky samostatné vzory, pretože pri ohýbaní má ich TZ rôznu<br />
podobu – bel-ší, bliž-ší, krat-ší. Slovo čierny má iný vzor preto, že okrem zmeny<br />
TZ má inú ohýbaciu príponu – čern-ejší. Túto rovinu voláme prvá rovina – lingvistická,<br />
pretože pri práci na nej bolo nahromadených mnoho údajov zaujímavých<br />
práve z lingvistického hľadiska. Údaje sú prezentované, pokiaľ možno,<br />
v takej podobe, aby boli zrozumiteľné čo najširšiemu okruhu používateľov.<br />
V druhej rovine hrá podstatnú úlohu sústava ohýbacích prípon. TZ boli<br />
vytvorené v rámci prvej roviny a na to, aby počítač správne generoval/stanovil<br />
príslušnú morfologickú podobu, potrebuje zodpovedajúcu skupinu prípon. Teda<br />
za predpokladu existencie TZ a ich uvažovania ako doplňujúcich údajov pri<br />
analýze/generovaní slovných tvarov sa redukuje počet ohýbacích vzorov, pretože<br />
vzory sa charakterizujú predovšetkým sústavou prípon. TZ vstupujú do procesu<br />
analýzy/generovania ako konštanty. TZ1, TZ2 sú podoby TZ pri ohýbaní. Dokumentovať<br />
to môžeme znovu na vzoroch stupňovania prídavných mien. Napr.<br />
adjektíva biely, blízky, krátky majú v druhej rovine len jeden vzor, pretože majú<br />
rovnakú ohýbaciu príponu komparatívu a príslušný TZ je k dispozícii ako konštanta:<br />
biely – belší (TZ1-y, TZ2-ší), blízky – bližší (TZ1-y, TZ2-ší), krátky –<br />
kratší (TZ1-y, TZ2-ší) atď.<br />
Na počítačové spracovanie morfologickej roviny je určená vlastne len<br />
druhá rovina. Ale kvôli zachovaniu výsledkov analýzy a vzhľadom na možnosti<br />
využívania zhromaždených a štruktúrovaných údajov aj pre ďalšie výskumné<br />
práce, budeme pri každom slovnom druhu špecifikovať obe tieto<br />
roviny. Prvá rovina je pritom prezentovaná formou základných informácií, na<br />
ktorých možno stavať ďalší špeciálny jazykovedný výskum. Podrobnejšie informácie<br />
o prvej rovine podstatných mien sú obsiahnuté v už spomínanej<br />
publikácii Benko – Hašanová – Kostolanský (1998). Úplný gramatický opis<br />
vzorov všetkých ohybných slovných druhov je mimo rámca tohto príspevku,<br />
53
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />
preto pri každom slovnom druhu uvádzame len niekoľko príkladových opisov<br />
vzorov prvej i druhej roviny.<br />
3. Morfológia podstatných mien<br />
Pri spracúvaní morfológie substantív a ostatných slovných druhov na<br />
účely počítačového spracovania slovenských textov vychádzame zo všeobecných<br />
základných pojmov (Morfológia slovenského jazyka 1966). Základnou<br />
jednotkou morfologickej roviny je slovný tvar, ktorý tvorí tvarotvorný základ<br />
(TZ) a relačná časť. Pri substantívach relačnú časť predstavuje sústava pádových<br />
prípon, pomocou ktorých sa tvoria jednotlivé slovné tvary.<br />
3.1 Podstatné mená – prvá morfologická informačná rovina<br />
Skloňovací vzor chápeme, ako sme už uviedli, v zmysle definície podľa<br />
Oravec – Bajzíková – Furdík (1984). Určenie formálnych vlastností vzoru je v<br />
našej práci prísnejšie, podrobnejšie. Formovanie nových vzorov sa riadi pravidlom,<br />
že každá zmena v sústave ohýbacích prípon alebo zmena v TZ spôsobí zavedenie<br />
nového vzoru. Podľa toho napr. rôzne zakončenia substantív mužského<br />
rodu v nominatíve plurálu (-i, -ia, -ovia), ktoré sa pri klasických vzoroch uvádzajú<br />
ako variantné prípony (tamže), v našom chápaní vzoru vyžadujú nové vzory:<br />
chlap – chlapi, kresťan – kresťania, sok – sokovia. Rozbor robíme pre potreby písaného<br />
textu, preto berieme do úvahy grafickú podobu slovných tvarov, nie fonetickú<br />
(napr. kosť--ø/kost-i – dva TZ: kosť-, kost-).<br />
Vzory rozdeľujeme do okruhov, ktoré majú názvy klasických vzorov<br />
(napr. „chlap“, „dub“), ale aj nové názvy („mláďa“). Pri určovaní členov týchto<br />
okruhov sa vychádza zo sústavy prípon vzorového slova – reprezentanta<br />
okruhu, prípadne zmeny v TZ. Reprezentant potom slúži ako porovnávací vzor<br />
pre nové vzory patriace do jeho okruhu. Vzorové slová nemajú variantné prípony.<br />
Výnimkou sú vzory, ktoré majú pri svojom názve číslice 0, 1, 2, 3.<br />
„Zvieracie“ vzory mužského rodu sú zaradené do osobitnej podskupiny,<br />
pretože majú osobitné sústavy ohýbacích prípon: v singulári podľa vzorov mužských<br />
substantív životných a v pluráli podľa vzorov mužských substantív neživotných<br />
(had – hady, mravec – mravce).<br />
Slová, ktoré nemajú úplnú paradigmu – hromadné a pomnožné – nemajú<br />
samostatné vzory. Je im pridelený vzor zo skupiny substantív s úplnou paradigmou,<br />
ktorý má rovnaké skloňovanie v singulári alebo v pluráli ako príslušné<br />
54
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />
substantíva s neúplnou paradigmou (nožnice – vzor ulica). Pri jednotlivých<br />
slovách je v databáze uvedený údaj v stĺpci SA (t. j. špecifické atribúty), ktorý<br />
„upozorňuje“, že pomnožné podstatné mená treba skloňovať len v pluráli a<br />
hromadné len v singulári.<br />
V stĺpci SA sú zoskupené aj príznakové tvary oslovenia v pôvodnom vokatíve<br />
(Bože, synu).<br />
Odlíšenie vzorov v rámci jedného okruhu sa vykonáva už spomenutým<br />
porovnávaním s reprezentantom, pričom si najprv všímame zmeny v TZ a potom<br />
zmeny v sústave prípon.<br />
Pod A sa uvádzajú typy alternácií, ktoré spôsobujú zmeny v TZ slova (k/c:<br />
vodník-, vodníc-). Pod B sa uvádzajú odlišnosti v sústave ohýbacích prípon<br />
(chlap-i, sok-ovia).<br />
Niektoré skupiny slov s dubletnými príponami majú také sústavy ohýbacích<br />
prípon, ktoré zodpovedajú niektorému zo vzorov v zozname len v jednom<br />
variante. V druhom variante sa skloňujú podľa osobitného vzoru, ktorý má pri<br />
svojom názve číslicu 0. Napr. slovo tvár sa skloňuje podľa vzoru dlaň. V genitíve<br />
singuláru má aj príponu -i, preto sa skloňuje aj podľa vzoru tvár-ø. Niektoré<br />
skupiny slov s dubletnými príponami sa skloňujú podľa osobitného vzoru v<br />
jednom aj v druhom variante. Vtedy majú pri svojom názve číslice 1, 2. Napr.<br />
oko-1 (očí), oko-2 (očú). Číslicu 3 majú pri svojom názve vzory zveličených<br />
substantív, ktoré majú dva rody. (Číslica 3 je pri názve vzoru v inom ako strednom<br />
rode, napr. skalisko3 – ženský rod.)<br />
Výsledkom takéhoto prístupu je podstatné rozšírenie počtu vzorov podstatných<br />
mien v porovnaní s doterajšími prácami (Morfológia slovenského<br />
jazyka 1966, Pauliny – Ružička – Štolc 1968). V súčasnosti má náš systém 199<br />
vzorov podstatných mien.<br />
Homonymá sú do počtu substantív zarátané len jedenkrát, pretože sa berie<br />
do úvahy len ich rovnaký morfologický tvar, nie rozdiel vo význame. Ak majú<br />
v niektorých tvaroch rozdiely, sú uvedené dvakrát (napr. ucho – uši, ucho –<br />
uchá).<br />
Každý okruh je označený menom jeho vzoru – reprezentanta (napr.<br />
„chlap“).<br />
Pri podstatných menách sú to tieto okruhy: „chlap“, „hrdina“, „dub“,<br />
„stroj“, „nesklonné“ – mužský rod; „žena“, „ulica“, „dlaň“, „kosť“, „gazdiná“,<br />
„nepravidelné“, „nesklonné“ – ženský rod; „mesto“, „srdce“, „vysvedčenie“,<br />
„mláďa“, „nesklonné“ – stredný rod. Samostatný okruh majú aj pod-<br />
55
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />
statné mená s nepravidelným skloňovaním, pričom žiaden zo vzorov okruhu<br />
nie je reprezentant.<br />
Napr. okruh vzorov „ulica“ obsahuje tieto vzory: ulica, fakľa, dyňa, funkcia,<br />
hrádza, jedľa, míľa, nedeľa, ovca, pomyje-ø, ruža, svieca, víchrica, vládkyňa,<br />
vôňa.<br />
Morfologická databáza obsahuje v súčasnosti asi 22 500 podstatných<br />
mien.<br />
Podobný postup ako pri podstatných menách využívame aj pri ostatných<br />
ohybných slovných druhoch.<br />
Ako ukážku opisu vzorov uvedieme niekoľko príkladov ohýbacích typov<br />
prvej roviny.<br />
Okruh „chlap“ a jeho vybrané vzory.<br />
Vzor chlap je vzor reprezentant, podľa ktorého sa skloňuje skupina životných<br />
podstatných mien mužského rodu zakončených v N sg. na nulovú morfému.<br />
V TZ u nich nedochádza k zmenám. Majú túto sústavu ohýbacích prípon:<br />
N chlap-ø chlap-i<br />
G chlap-a chlap-ov<br />
D chlap-ovi chlap-om<br />
A chlap-a chlap-ov<br />
L chlap-ovi chlap-och<br />
I chlap-om chlap-mi<br />
Vzor vodník je príkladom vzoru, ktorý patrí do okruhu „chlap“ a od reprezentanta<br />
sa odlišuje takto:<br />
A: alternácia spoluhlások k/c v N pl.<br />
B: –<br />
N vodník-ø vodníc-i<br />
G vodník-a vodník-ov<br />
D vodník-ovi vodník-om<br />
A vodník-a vodník-ov<br />
L vodník-ovi vodník-och<br />
I vodník-om vodník-mi<br />
Vzor černoch je príkladom vzoru, ktorý patrí do okruhu „chlap“ a od reprezentanta<br />
sa odlišuje takto:<br />
56<br />
A: alternácia spoluhlások ch/s v N pl.
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />
B: –<br />
N černoch-ø černos-i<br />
G černoch-a černoch-ov<br />
D černoch-ovi černoch-om<br />
A černoch-a černoch-ov<br />
L černoch-ovi černoch-och<br />
I černoch-om černoch-mi<br />
3.2 Podstatné mená – druhá morfologická informačná rovina<br />
Ako sme už vyššie zdôraznili, vzor druhej roviny sa formuje zo sústavy<br />
ohýbacích prípon a príslušných variantov TZ, ktoré vystupujú ako konštanty.<br />
Napr. substantíva mesto, laso, gazdovstvo majú v prvej rovine každé osobitný<br />
vzor, pretože pri ohýbaní dochádza v každom z ich TZ k inej zmene (miest,<br />
lás, gazdovstiev). V druhej rovine je vzorec vyjadrujúci ich ohýbanie vždy rovnaký:<br />
TZ1, TZ2 (použité na rovnakom mieste) + rovnaká sústava ohýbacích<br />
prípon, t. j. jeden vzor.<br />
Aj keď sa počet vzorov v druhej rovine zredukuje, zostáva ich škála pomerne<br />
veľká, pretože je veľa odlišností v sústavách ohýbacích prípon aj v počtoch<br />
TZ.<br />
Nasledujúce príklady ilustrujú opis vzorov druhej roviny.<br />
Vzor 2chlap<br />
N TZ1-ø TZ1-i<br />
G TZ1-a TZ1-ov<br />
D TZ1-ovi TZ1-om<br />
A TZ1-a TZ1-ov<br />
L TZ1-ov TZ1-och<br />
I TZ1-om TZ1-mi<br />
TZ1: chlap-<br />
Vzor 2vodník využíva oproti vzoru chlap dva druhy TZ na rovnakom<br />
mieste.<br />
N TZ1-ø TZ2-i<br />
G TZ1-a TZ1-ov<br />
D TZ1-ov TZ1-om<br />
57
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />
A TZ1-a TZ1-ov<br />
L TZ1-ovi TZ1-och<br />
I TZ1-om TZ1-mi<br />
TZ1: vodník-, TZ2: vodníc-<br />
Vzor černoch je „pohltený“ vzorom 2vodník. Počítač vyberá zložky týchto<br />
dvoch vzorov podľa rovnakej schémy.<br />
4. Morfológia slovies<br />
Požiadavka presnosti počiatočných údajov pri <strong>počítačovom</strong> <strong>spracovaní</strong><br />
morfológie slovies si vyžadovala dôslednú inventarizáciu informácií o morfologickej<br />
stavbe slovesa a poskytnutie základných informácií v jednoduchej podobe.<br />
Najprv bolo nevyhnutné skompletizovať potrebné údaje o časovacích vzoroch.<br />
Postupovalo sa ako pri podstatných menách. Nepripúšťali sa žiadne výnimky<br />
a sledovala sa homogenita informácií o vzoroch. Dôsledkom akceptovania<br />
výnimiek a alternácií bol nárast počtu vzorov slovies prvej roviny na 79. Pri<br />
každom druhu alternácie a každej zmene v sústave ohýbacích prípon je zavedený<br />
nový vzor. Aj časovacie vzory sú rozdelené do okruhov. Koreň a tematická<br />
morféma dohromady tvoria slovesný kmeň: robi-. Pri slovesách sa najvýraznejšie<br />
prejaví rozdiel pri prezentovaní nazhromaždených morfologických údajov o<br />
vzoroch časovania (a o slovesách vôbec) v dvoch rovinách. V prvej rovine je základom,<br />
okolo ktorého sa zhromažďujú ďalšie údaje, slovesný koreň. Presnejšie,<br />
koreňom tu nazývame časť slovesa bez ohýbacej prípony a tematickej morfémy<br />
(rob-). V druhej rovine je týmto základom kmeň (robi-), teda koreň a tematická<br />
morféma spolu a najmä sústava ohýbacích prípon.<br />
Keďže predmetom nášho záujmu v tejto práci je flektívna morfológia, pri<br />
strojovom <strong>spracovaní</strong> tejto morfologickej roviny je jednotkou spracovania slovo,<br />
t. j. reťazec znakov vymedzený dvoma medzerami. Z toho vyplýva, že súčasťou<br />
vzoru sú len jednoduché slovesné tvary: indikatív prézenta, imperatív, prechodník,<br />
činné príčastie prítomné, neurčitok, l-ové príčastie, činné príčastie minulé,<br />
n/t-ové príčastie, slovesné podstatné meno. Zložené slovesné tvary sú viacslovné<br />
výrazy.<br />
Pri nepravidelných slovesách vzhľadom na zložitosť zmien v často sa<br />
meniacej báze neuvádzame typy alternácií v prvej rovine. Neuvádzame tiež tvary,<br />
ktoré sa pri nepravidelných slovesách nevyskytujú. Opierame sa pritom o<br />
údaje uvedené v práci J. Mistríka (1988).<br />
58
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />
Neosobné slovesá nemajú osobitné vzory. Teoreticky je možné utvoriť pri<br />
nich všetky jednoduché slovesné tvary. Majú pri sebe znak – 3. os. n., napr. vyčasiť<br />
sa. Pri slovesách, ktoré sa používajú len v 3. os. sg., je označenie – iba<br />
3. os., napr. bolieť. Údaje sú v databáze slov pod atribútom SA.<br />
4.1 Slovesá – prvá morfologická informačná rovina<br />
Prvá rovina poskytuje v rámci jednotlivých vzorov údaje formou opisu<br />
koreňov, tematických morfém, sústavy ohýbacích prípon a alternácií. Pre každý<br />
druh zmeny je iný vzor. Pri opise alternácií, ktoré sa vyskytujú v jednotlivých<br />
vzoroch, vychádzame z prác Morfológia slovenského jazyka (1966), Oravec –<br />
Bajzíková – Furdík (1984), Pauliny – Ružička – Štolc (1968). Pri slovesách je<br />
problematika alternácií v prvej rovine riešená menej podrobne ako pri podstatných<br />
menách. Napr. alternácia A1 zahŕňa spoločne zmeny spoluhlások pred tematickou<br />
morfémou -e-: t/c, d/dz, s/š, z/ž... Každý druh spoluhláskovej zmeny<br />
nie je prezentovaný ako nová alternácia. Sústredili sme sa na správne vytváranie<br />
jednotlivých TZ a nie na presné pravidlá alternovania.<br />
Časovacie vzory prvej roviny – zásady formovania<br />
Do okruhu patrí vzor – reprezentant, ktorý je vo všetkých ukazovateľoch<br />
zhodný s klasickým vzorom, resp. so vzorovým slovom, a skupina vzorov, ktoré<br />
majú určité odchýlky. Napr. do okruhu vzorov „chytať“ patrí vzor – reprezentant<br />
chytať (chytá) a tiež vzor čítať (číta), ktorý má krátku prézentnú tematickú<br />
morfému v dôsledku rytmického krátenia. Za každým vzorom, v ktorom dochádza<br />
k zmenám v koreni, je uvedený príslušný typ alternácie (napr. hynúť A4 –<br />
hyň!).<br />
Okruhy vzorov prvej roviny sú tieto: „brať“, „chudnúť“, „chytať“,<br />
„hynúť“, „kričať“, „niesť“, „pracovať“, „robiť“, „rozumieť“, „trieť“,<br />
„vidieť“, „česať“, „žať“, „žuť“, „nepravidelné“.<br />
Napr. okruh vzorov „robiť“ obsahuje tieto vzory: robiť, hájiť, krášliť,<br />
kresliť, kúpiť, tajiť.<br />
Kompletný súbor morfologických informácií prvej roviny dokumentujeme<br />
na dvoch príkladoch z okruhu „robiť“.<br />
Vzor kresliť<br />
sloveso v neurčitku: kresl-i-ť<br />
59
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />
tematická morféma prítomníková TMPA1: -ítematická<br />
morféma prítomníková TMPB1: -ø-<br />
1. podoba prítomníkového koreňa RPA1: kresl-(í-)<br />
2. podoba prítomníkového koreňa RPB1: kresl-(0-)<br />
prítomník (okrem 3. os. pl.): RPA1 + -í-m, -í-š, -í-ø; -íme,<br />
-í-te<br />
prítomník (3. os. pl.): RPB1 + -ia<br />
imperatív: RPB1 + -ø!, -me!, -te!<br />
prechodník: RPB1 + -iac<br />
činné príčastie prítomné: RPB1 + -iaci, -iaca, -iace;<br />
-iaci, -iace, -iace, -iace<br />
vzor pre činné príčastie prítomné: rýdzi<br />
tematická morféma neurčitková TMIA1: -itematická<br />
morféma neurčitková TMIB1: -i-<br />
1. podoba neurčitkového koreňa RIA1: kresl-(i-)<br />
2. podoba neurčitkového koreňa RIB1: kresl-(i-)<br />
minulý čas: RIB1 + -i-l, -i-la, -i-lo; -ili<br />
činné príčastie minulé: RIB1 + -i-vší, -i-všia, -ivšie;<br />
-i-vší, -i-všie, -i-všie,<br />
-i-všie<br />
vzor pre činné príčastie minulé: cudzí<br />
trpné príčastie: RPB1 + -ený, -ená, -ené;<br />
-ení, -ené, -ené, -ené<br />
vzor pre trpné príčastie: pekný<br />
slovesné podstatné meno: RIB1 + -enie<br />
vzor pre slovesné podstatné meno: vysvedčenie<br />
A: A26 – IZ s morfémou -i<br />
Aa: zmena tematickej morfémy oproti vzoru –<br />
reprezentantu<br />
B: –<br />
Vzor kúpiť<br />
sloveso v neurčitku: kúp-i-ť<br />
tematická morféma prítomníková TMPA1: -itematická<br />
morféma prítomníková TMPB1: -ø-<br />
60
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />
1. podoba prítomníkového koreňa RPA1: kúp-(i-)<br />
2. podoba prítomníkového koreňa RPB1: kúp-(0-)<br />
prítomník (okrem 3. os. pl.): RPA1 + -i-m, -i-š, -i-ø; -ime,<br />
-i-te<br />
prítomník (3. os. pl.): RPB1 + -ia<br />
imperatív: RPB1 + -ø!, -me!, -te!<br />
prechodník: RPB1 + -iac<br />
činné príčastie prítomné: RPB1 + -iaci, -iaca, -iace;<br />
-iaci, -iace, -iace, -iace<br />
vzor pre činné príčastie prítomné: rýdzi<br />
tematická morféma neurčitková TMIA1: -itematická<br />
morféma neurčitková TMIB1: -i-<br />
1. podoba neurčitkového koreňa RIA1: kúp-(i-)<br />
2. podoba neurčitkového koreňa RIB1: kúp-(i-)<br />
minulý čas: RIB1 + -i-l, -i-la, -i-lo; -ili<br />
činné príčastie minulé: RIB1 + -i-vší, -i-všia, -ivšie;<br />
-i-vší, -i-všie, -i-všie,<br />
-i-všie<br />
vzor pre činné príčastie minulé: cudzí<br />
trpné príčastie: RPB1 + -ený, -ená, -ené;<br />
-ení, -ené, -ené, -ené<br />
vzor pre trpné príčastie: pekný<br />
slovesné podstatné meno: RIB1 + -enie<br />
vzor pre slovesné podstatné meno: vysvedčenie<br />
A: –<br />
Aa: TMPA1 -i- kúp-i-m<br />
B: –<br />
4.2 Slovesá – druhá morfologická informačná rovina<br />
Druhá morfologická rovina, ktorá je hlavným predmetom nášho záujmu<br />
v spojitosti s algoritmickým <strong>spracovaní</strong>m morfológie slovies, je predstavená<br />
prostredníctvom kmeňov a prípon.<br />
Časovacie vzory druhej roviny – zásady formovania<br />
61
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />
Časovací vzor v našom ponímaní je sloveso alebo množina slovies s rovnakým<br />
súborom osobných, tvarových a menných prípon, príslušných variácií<br />
podôb neurčitkových a prítomníkových kmeňov a imperatívneho základu. Základným<br />
dištinktívnym prvkom nie sú ani tematické morfémy, pretože počítač<br />
pracuje s celým kmeňom, ktorého súčasťou je aj tematická morféma (chytá-m).<br />
Opis vzorov časovania slovies druhej roviny obsahuje všetky jednoduché<br />
tvary. Pri každom vzore sú uvedené podoby neurčitkových kmeňov, podoby<br />
prítomníkových kmeňov a príslušná sústava ohýbacích prípon. Pre tvary, ktoré sa<br />
skloňujú (činné príč. prít., činné príč. min., trpné príč., slovesné pods. meno), je<br />
uvedená sústava ohýbacích prípon v základnom tvare a skloňovací vzor.<br />
V druhej rovine sú tieto okruhy vzorov: „2chudnúť“, „2kričať“,<br />
„2niesť“, „2česať“, „2robiť“, „2nepravidelné“.<br />
Ako príklad opisu slovesných vzorov druhej roviny uvádzame vzor 2robiť.<br />
Vzor 2robiť je vzor reprezentant. Charakterizuje ho príslušná množina<br />
kmeňov a ohýbacích prípon.<br />
neurčitok: KIA1 + -ť<br />
prítomníkový kmeň – 1. podoba KPA1: robí-<br />
2. podoba KPB1: robimperatívny<br />
základ IZ: robprítomník<br />
(okrem 3. os. pl.): KPA1 + -m, -š, -ø; -me, -te,<br />
prítomník (3. os. pl.): KPB1 + -ia<br />
imperatív: IZ + -ø; -me, -te<br />
prechodník: KPB1 + -iac<br />
činné príčastie prítomné: KPB1 + -iaci, -iaca, -iace;<br />
-iaci, -iace, -iace, -iace<br />
ohýbací vzor pre činné príčastie prítomné: rýdzi<br />
neurčitkový kmeň – 1. podoba KIA1: robi-<br />
2. podoba KIB1: robiminulý<br />
čas: KIB1 + -l, -la, -lo; -li<br />
činné príčastie minulé: KIB1 + -vší, -všia, -všie;<br />
-vší, -všie, -všie, -všie<br />
ohýbací vzor pre činné príčastie minulé: cudzí<br />
trpné príčastie: KIB1 + -ený, -ená, -ené;<br />
-ení, -ené, -ené, -ené<br />
ohýbací vzor pre trpné príčastie: pekný<br />
62
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />
slovesné podstatné meno: KIB1 + -nie<br />
ohýbací vzor pre slovesné podstatné meno: vysvedčenie<br />
Aj pri slovesných vzoroch vidíme, ako sa v druhej rovine redukuje počet<br />
vzorov. Na ukážke môžeme sledovať, ako sa slová, ktoré sa v prvej rovine časovali<br />
podľa troch rôznych vzorov (robiť, kresliť, kúpiť), ohýbajú v druhej rovine<br />
podľa jedného vzoru (2robiť).<br />
V ďalšej časti sa budeme zaoberať zostávajúcimi ohybnými slovnými<br />
druhmi, ktorými sú prídavné mená, príslovky, zámená a číslovky. Výsledkom<br />
morfologickej analýzy sú aj v tomto prípade zoznamy a opisy vzorov, predstaviteľov<br />
ohýbacích typov. Ako príklad uvedieme pri každom z týchto<br />
slovných druhov niekoľko vzorov. Kladieme si týmto za cieľ objasniť rozdiely<br />
medzi prvou a druhou rovinou prezentácie morfologických údajov.<br />
5. Morfológia prídavných mien<br />
Skloňovací vzor prídavných mien má 38 tvarov. Oproti podstatným<br />
menám je zmena v tom, že prídavné mená všetkých troch rodov sú reprezentované<br />
jedným heslovým slovom (pekný – N sg., mužský rod). Všetky majú v N<br />
sg. rovnaký TZ. V mužskom rode pristupuje osobitná skupina ohýbacích prípon<br />
pre mužskú osobu prídavných mien. Súčasťou vzoru je uvedenie prípadných alternácií<br />
v TZ a zmeny v sústave ohýbacích prípon.<br />
Stupňovací vzor, pomocou ktorého sa určuje miera vlastnosti, je charakterizovaný<br />
použitím prípony -ší alebo -ejší v komparatíve (star-ší, jasn-ejší).<br />
Mnohé prídavné mená nadobúdajú kategóriu stupňovania v prenesenom<br />
význame. Preto sme stupňovací vzor pridelili každému stupňovateľnému<br />
prídavnému menu. Delenie na stupňovateľné a nestupňovateľné prídavné mená<br />
sme robili ručne na základe vlastného jazykového vedomia.<br />
Superlatív – 3. stupeň – tvoríme pridaním predpony naj- k tvaru komparatívu<br />
(naj-starší, naj-jasnejší).<br />
Stupňovací vzor prvej roviny teda obsahuje informáciu o stupňovacej<br />
prípone a údaje o alternáciách v TZ.<br />
5.1 Prídavné mená – prvá morfologická informačná rovina<br />
63
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />
Pri prídavných menách závisí sformovanie nového vzoru skloňovania od<br />
zakončenia slova a zachovania rytmického krátenia v TZ. To má potom vplyv<br />
aj na súbor ohýbacích prípon. Pri stupňovaní dochádza k väčším zmenám v TZ<br />
a pri niektorých prídavných menách sa prejavuje aj supletívnosť bázy.<br />
Postup rozširovania skupiny vzorov prídavných mien – prvá rovina<br />
Okruhy vzorov skloňovania prídavných mien – prvá rovina: „pekný“, „cudzí“,<br />
„extra“.<br />
Okruhy vzorov stupňovania prídavných mien – prvá rovina: „nový“, „belasý“,<br />
„bosý“.<br />
Ako príklad opisu vzorov skloňovania prídavných mien prvej roviny je<br />
uvedený vzor pekný ako reprezentant a vzor krásny ako člen okruhu. Napriek<br />
tomu, že ide o všeobecne známe informácie, z dôvodu komplexnosti uvedieme<br />
aj tieto údaje.<br />
Okruh vzorov „pekný“: pekný, krásny, hoden.<br />
Vzor pekný je vzor reprezentant. Skloňujú sa podľa neho prídavné mená<br />
zakončené v N sg. mužského rodu na -ý. V TZ nie je alternácia.<br />
Sg. Pl.<br />
M živ. M neživ. F N M živ. M neživ.<br />
F N<br />
N pekn-ý pekn-ý pekn-á pekn-é pekn-í pekn-é<br />
G pekn-ého pekn-ého pekn-ej pekn-ého pekn-ých pekn-ých<br />
D pekn-ému pekn-ému pekn-ej pekn-ému pekn-ým pekn-ým<br />
A pekn-ého pekn-ý pekn-ú pekn-é pekn-ých pekn-é<br />
L pekn-om pekn-om pekn-ej pekn-om pekn-ých pekn-ých<br />
I pekn-ým pekn-ým pekn-ou pekn-ým pekn-ými pekn-ými<br />
A: – B: –<br />
Vzor krásny<br />
Sg. Pl.<br />
M živ. M neživ. F N M živ. M neživ. F N<br />
N krásn-y krásn-y krásn-a krásn-e krásn-i krásn-e<br />
G krásn-eho krásn-eho krásn-ej krásn-eho krásn-ych krásn-ych<br />
D krásn-emu krásn-emu krásn-ej krásn-emu krásn-ym krásn-ym<br />
64
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />
A krásn-eho krásn-y krásn-u krásn-e krásn-ych krásn-e<br />
L krásn-om krásn-om krásn-ej krásn-om krásn-ych krásn-ych<br />
I krásn-ym krásn-ym krásn-ou krásn-ym krásn-ymi krásn-ymi<br />
A: – B: krátke ohýbacie prípony<br />
Príklady vzorov stupňovania prídavných mien.<br />
Okruh vzorov „nový“: nový, tenký, vysoký, hlboký, pekný-s (stupňovací),<br />
dobrý, malý, veľký, zlý, biely, blízky, krátky.<br />
Vzor nový sa v N sg. mužského rodu v pozitíve končí na -ý. Stupňuje sa<br />
pomocou prípony -ší. Pri stupňovaní nedochádza k alternáciám.<br />
rod číslo 1. stupeň 2. stupeň 3. stupeň<br />
M Sg. nov-ý nov-ší naj-novší<br />
F Sg. nov-á nov-šia naj-novšia<br />
N Sg. nov-é nov-šie naj-novšie<br />
M živ. Pl. nov-í nov-ší naj-novší<br />
M neživ., F, N Pl. nov-é nov-šie naj-novšie<br />
A: – B: –<br />
Vzor biely sa v N sg. mužského rodu v pozitíve končí na -y. TZ sa končí<br />
na jednu spoluhlásku, pred ktorou je dlhá samohláska, ktorá sa skracuje (A1).<br />
Stupňuje sa pomocou prípony -ší.<br />
rod číslo 1. stupeň 2. stupeň 3. stupeň<br />
M Sg. biel-y bel-ší naj-belší<br />
F Sg. biel-a bel-šia naj-belšia<br />
N Sg. biel-e bel-šie naj-belšie<br />
M živ. Pl. biel-i bel-ší naj-belší<br />
M neživ., F, N Pl. biel-e bel-šie naj-belšie<br />
A: A1 B: krátke ohýbacie prípony<br />
Vzor vysoký sa v N sg. mužského rodu v pozitíve končí na -ý. TZ sa končí<br />
na -ok-, pred ktorým je sykavka. Pri stupňovaní -ok- vypadáva (A4) a sykavka<br />
sa zmäkčuje (A5). Stupňuje sa pomocou prípony -ší.<br />
rod číslo 1. stupeň 2. stupeň 3. stupeň<br />
M Sg. vysok-ý vyš-ší naj-vyšší<br />
F Sg. vysok-á vyš-šia naj-vyššia<br />
65
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />
N Sg. vysok-é vyš-šie naj-vyššie<br />
M živ. Pl. vysok-í vyš-ší naj-vyšší<br />
M neživ., F, N Pl. vysok-é vyš-šie naj-vyššie<br />
A: A4, A5 B: –<br />
5.2 Prídavné mená – druhá morfologická informačná rovina<br />
Okruhy vzorov skloňovania prídavných mien – druhá rovina: „2pekný“, „2cudzí“,<br />
„2extra“.<br />
Okruhy vzorov stupňovania prídavných mien – druhá rovina: „2nový“, „2belasý“,<br />
„2bosý“.<br />
Príklady na skloňovanie prídavných mien druhej roviny neuvádzame, pretože<br />
postup je jednoduchý. Vzory prvej roviny (pekný, krásny), ktoré sme<br />
uviedli ako príklady, majú v druhej rovine rovnaký TZ a rozdiel v dĺžke prípon:<br />
TZ1-ý (pekn-ý), TZ1-y (krásn-y).<br />
Príklady vzorov stupňovania prídavných mien.<br />
Okruh vzorov „2nový“: 2nový, 2vysoký, 2biely.<br />
Vzor 2nový – stupňujú sa podľa neho prídavné mená zakončené na -ý,<br />
u ktorých pri stupňovaní nedochádza k zmenám v báze a komparatív sa tvorí<br />
pomocou prípony -ší.<br />
rod číslo 1. stupeň 2. stupeň 3. stupeň<br />
M Sg. TZ1-ý TZ1-ší naj-TZ1-ší<br />
F Sg. TZ1-á TZ1-šia naj-TZ1-šia<br />
N Sg. TZ1-é TZ1-šie naj-TZ1-šie<br />
M živ. Pl. TZ1-í TZ1-ší naj-TZ1-ší<br />
M neživ., F, N Pl. TZ1-é TZ1-šie naj-TZ1-ie<br />
TZ1: nov-<br />
Vzor 2vysoký – stupňujú sa podľa neho prídavné mená zakončené na -ý,<br />
u ktorých pri stupňovaní dochádza k zmenám v báze a komparatív sa tvorí pomocou<br />
prípony -ší.<br />
rod číslo 1. stupeň 2. stupeň 3. stupeň<br />
M Sg. TZ1-ý TZ2-ší naj-TZ2-ší<br />
F Sg. TZ1-a TZ2-šia naj-TZ2-šia<br />
N Sg. TZ1-e TZ2-šie naj-TZ2-šie<br />
66
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />
M živ. Pl. TZ1-i TZ2-ší naj-TZ2-ší<br />
M neživ., F, N Pl. TZ1-e TZ2-šie naj-TZ2-šie<br />
TZ1: vysok-, TZ2: vyš-<br />
Pod vzor 2vysoký patria prídavné mená viacerých vzorov prvej roviny,<br />
napr. vysoký, hlboký, tenký, dobrý, malý, zlý a pod.<br />
Vzor 2biely – stupňujú sa podľa neho prídavné mená zakončené na -y,<br />
u ktorých pri stupňovaní dochádza k zmenám v báze a komparatív sa tvorí pomocou<br />
prípony -ší.<br />
rod číslo 1. stupeň 2. stupeň 3. stupeň<br />
M Sg. TZ1-y TZ2-ší naj-TZ2-ší<br />
F Sg. TZ1-a TZ2-šia naj-TZ2-šia<br />
N Sg. TZ1-e TZ2-šie naj-TZ2-šie<br />
M živ. Pl. TZ1-i TZ2-ší naj-TZ2-ší<br />
M neživ., F, N Pl. TZ1-e TZ2-šie naj-TZ2-šie<br />
TZ1: biel-, TZ2: bel-<br />
6. Morfológia prísloviek<br />
Gramatická forma prísloviek – vzťah príslovky k nadradenému slovu je<br />
nediferencovaný. Pri niektorých príslovkách sa uplatňuje kategória stupňovateľnosti,<br />
ktorou sa vyjadruje miera vlastnosti deja.<br />
6.1 Príslovky – prvá morfologická informačná rovina<br />
Prvý stupeň je zhodný so základným tvarom príslovky, t. j. s heslovým<br />
slovom.<br />
Druhý stupeň sa tvorí spravidla pomocou prípon -šie alebo -ejšie, zriedka<br />
aj inými príponami. Tieto prípony sa pripájajú k TZ po odtrhnutí prípon pozitívu:<br />
-o, -e, -y. Pri tvorení druhého stupňa dochádza často k spoluhláskovým, samohláskovým<br />
a supletívnym zmenám v báze.<br />
Tretí stupeň sa tvorí pripojením predpony naj- k druhému stupňu príslovky.<br />
67
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />
Stupňovateľnosť prísloviek sme zisťovali sčasti pomocou počítača, porovnaním<br />
stupňovateľných prídavných mien a im zodpovedajúcich deadjektívnych<br />
prísloviek. Zároveň sme názvy stupňovacích vzorov prísloviek odvodili od príslušných<br />
vzorov prídavných mien (novo, bielo, zle...). Stupňovacie vzory prvej<br />
roviny sa delia podľa toho, aká stupňovacia prípona sa v nich využíva a aký<br />
druh alternácie sa v jednotlivých príslovkách pri ohýbaní prejavuje.<br />
Okruhy vzorov stupňovania prísloviek – prvá rovina: „novo“, „belaso“,<br />
„mocne“, „ľudsky“, „nepravidelné“, „boso“.<br />
Napr. okruh vzorov „novo“: novo, bielo, tenko, hlboko, vysoko, krátko,<br />
blízko, malo.<br />
Vzor novo – stupňujú sa podľa neho príslovky zakončené v pozitíve na -o,<br />
ktoré pri ohýbaní nemenia TZ. Stupňuje sa pomocou prípony -šie.<br />
1. stupeň 2. stupeň 3. stupeň<br />
nov-o nov-šie naj-novšie<br />
A: – B: –<br />
Vzor bielo je vzorom pre stupňovanie prísloviek zakončených v pozitíve<br />
na -o, ktoré majú v TZ dvojhlásku alebo dlhú samohlásku, ktorá sa skracuje<br />
(A4). Stupňuje sa pomocou prípony -šie.<br />
1. stupeň 2. stupeň 3. stupeň<br />
biel-o bel-šie naj-bel-šie<br />
A: A1 B: –<br />
6.2 Príslovky – druhá morfologická informačná rovina<br />
Okruhy vzorov stupňovania prísloviek – druhá rovina: „2novo“, „2belaso“,<br />
„2mocne“, „2ľudsky“, „2nepravidelné“, „2boso“.<br />
Napr. okruh „2novo“: 2novo, 2bielo.<br />
Vzor 2novo<br />
1. stupeň 2. stupeň 3. stupeň<br />
TZ1-o TZ1-šie naj-TZ1-šie<br />
TZ1: nov-<br />
Vzor 2bielo<br />
1. stupeň 2. stupeň 3. stupeň<br />
68
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />
TZ1-o TZ2-šie naj-TZ2-šie<br />
TZ1: biel, TZ2: bel-<br />
Vzor 2bielo zahŕňa v druhej rovine aj príslovky, ktoré v prvej rovine patria<br />
pod vzory krátko, blízko, hlboko, vysoko, tenko... a pod. Ich zložité zmeny<br />
v TZ počas ohýbania sú k dispozícii vždy v rovnakom stĺpci pod rovnakým<br />
atribútom. Vzorec stupňovania je, ako vidíme vyššie, vždy rovnaký.<br />
7. Morfológia zámen<br />
Zámená sú slová so všeobecným významom, vyjadrujú však gramatické<br />
významy konkrétnych názvov (Morfológia slovenského jazyka 1966, s. 233).<br />
Výsledkom analýzy morfológie sú aj v tomto prípade zoznamy a opisy vzorov,<br />
predstaviteľov ohýbacích typov.<br />
7.1 Zámená – prvá morfologická informačná rovina<br />
Z hľadiska morfologického delíme zámená na zámená typu „ja“, „kto“,<br />
„on“, „sám“, „môj“, „akýsi“, „čísi“, ktoré plnia úlohu reprezentantov jednotlivých<br />
okruhov.<br />
Pri <strong>spracovaní</strong> zámen vychádzame sčasti z monografie J. Horeckého<br />
(1964). Všímame si odlišnosti v sústave relačných morfém. Slovám, ktoré majú<br />
niektoré tvary variantné, prideľujeme dva vzory. Pri osobných zámenách sú<br />
slová, ktoré majú viac ako dva variantné tvary. Napr. genitív singuláru zámena<br />
on (jeho, neho, ho). V takom prípade pridelíme vzory pre dva tvary a ostatné<br />
uvedieme v databáze v stĺpci SA.<br />
Napr. okruh vzorov „ja“: ja1, ja2, ty1, ty2, my, vy, sa1, sa2.<br />
Vzory zodpovedajú (v zásade) svojím súborom ohýbacích prípon tomuto<br />
typu:<br />
Sg. Pl.<br />
N G D A L I N G D A L I<br />
-ø -a -e -a -e -ou -ø -ás -ám -ás -ás -ami<br />
Vzor ja1 vyjadruje kategóriu 1. osoby, nerozlišuje rod, číslo – len singulár.<br />
číslo N G D A L I<br />
Sg. ja-ø mň-a mn-e mň-a mn-e mn-ou<br />
A: ZB (zložité zmeny v báze) B: –<br />
Vzor vy vyjadruje kategóriu 2. osoby, nerozlišuje rod, číslo – len plurál.<br />
číslo N G D A L I<br />
69
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />
Pl. vy-ø v-ás v-ám v-ás v-ás v-ami<br />
A: A6 (vy-/v-) B: –<br />
7.2 Zámená – druhá morfologická informačná rovina<br />
Vzory pre zámená druhej roviny v podstate zodpovedajú svojím obsahom<br />
vzorom prvej roviny, odlišná je len forma opisu.<br />
Napr. okruh vzorov „2ja“: 2ja1, 2ja2, 2ty1, 2ty2, 2vy, 2sa.<br />
Vzor 2ja1<br />
číslo N G D A L I<br />
Sg. TZ1-ø TZ4-a TZ2-e TZ4-a TZ2-e TZ2-ou<br />
TZ1: ja-, TZ2: mn-, TZ4: mň-<br />
Vzor 2vy<br />
číslo N G D A L I<br />
Pl. TZ1-ø TZ2-ás TZ2-ám TZ2-ás TZ2-ás TZ2-ami<br />
TZ1: vy-, TZ2: v-<br />
8. Morfológia čísloviek<br />
Číslovky nemajú osobitné gramatické vlastnosti, ale s mnohými obmedzeniami<br />
sa pri nich uplatňujú gramatické kategórie podstatných mien, prídavných<br />
mien a prísloviek.<br />
V jazykovedných prácach nájdeme rôzne charakteristiky čísloviek a ich<br />
rozdelenia na jednotlivé skupiny. Pri našom <strong>spracovaní</strong> morfologických vlastností<br />
čísloviek sa budeme pridŕžať morfologických informácií uvedených<br />
v Krátkom slovníku slovenského jazyka (1997):<br />
1. ohybné podľa vzorov podstatných mien (sto, milión),<br />
2. ohybné podľa vzorov prídavných mien (prvý, tretí),<br />
3. nesklonné (tristo),<br />
4. osobitné skloňovanie – so znakmi charakteristickými len pre číslovky<br />
(šesť, dvanásť).<br />
Prvé tri skupiny skloňovania sme riešili pri iných slovných druhoch, preto<br />
sa budeme venovať najmä poslednej skupine.<br />
8.1 Číslovky – prvá morfologická informačná rovina<br />
70
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />
Pri číslovkách, rovnako ako pri zámenách, neuvádzajú príručky slovenskej<br />
gramatiky žiadne pevné „klasické“ vzory. Opierame sa preto aj tu o už<br />
citovanú prácu J. Horeckého (1964) a zoskupujeme jednotlivé číslovkové vzory<br />
okolo autorom uvedených typických súborov relačných morfém. Z morfologického<br />
hľadiska je pri číslovkách charakteristická kategória mužského osobného<br />
rodu (napr. tri – traja).<br />
Okruhy vzorov: „jeden“, „dva“, „tri“, „štyri“, „päť“, „dvesto“.<br />
Napr. okruh vzorov „päť“ obsahuje vzory: päť, sedem, jedenásť. V sústave<br />
relačných morfém zodpovedá nasledujúcej schéme:<br />
Pl.<br />
N G D A L I<br />
-ø -ich -im -ø -ich -imi<br />
-i -ich -im -ich -ich -imi<br />
Vzor päť – dochádza k alternácii A1 (zmena samohlásky na dvojhlásku)<br />
a A21 (zmena ď/d, ť/t, ň/n, ľ/l) v TZ.<br />
M, F, N M živ.<br />
N päť-ø piat-i<br />
G piat-ich piat-ich<br />
D piat-im piat-im<br />
A päť-ø piat-ich<br />
L piat-ich piat-ich<br />
I piat-imi piat-imi<br />
A: A1, A21 B: –<br />
Vzor sedem – dochádza k alternáciám A1, A2 (vypustenie samohlásky)<br />
v TZ.<br />
M, F, N M živ.<br />
N sedem-ø siedm-i<br />
G siedm-ich siedm-ich<br />
D siedm-im siedm-im<br />
A sedem-ø siedm-ich<br />
L siedm-ich siedm-ich<br />
I siedm-imi siedm-imi<br />
A: A1, A2 B: –<br />
71
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />
8.2 Číslovky – druhá morfologická informačná rovina<br />
Okruhy vzorov: „2dva“, „2tri“, „2štyri“, „2päť“, „2dvesto“.<br />
Napr. okruh vzorov „2päť“: 2päť.<br />
Vzor 2päť<br />
M, F, N M živ.<br />
N TZ1-ø TZ2-i<br />
G TZ2-ich TZ2-ich<br />
D TZ2-im TZ2-im<br />
A TZ1-ø TZ2-ich<br />
L TZ2-ich TZ2-ich<br />
I TZ2-imi TZ2-imi<br />
TZ1: päť-, TZ2: piat-<br />
Číslovky vzoru sedem sa stávajú v druhej rovine súčasťou vzoru 2päť.<br />
9. Dátový model referenčnej morfologickej databázy slovenského jazyka<br />
Pripomeňme, že v tejto práci sa zaoberáme lingvistickými informáciami,<br />
ktoré sú potrebné na vykonanie automatickej analýzy/generovania slovných<br />
tvarov ohybných slov slovenského jazyka.<br />
Potrebné informácie sú umiestnené v referenčnej morfologickej databáze<br />
slovenského jazyka (RMDSJ). Databáza obsahuje všetky morfologické informácie<br />
o najpoužívanejších slovách súčasnej slovenčiny (okrem vlastných<br />
mien a pomenovaní) v rozsahu stanovenom v predchádzajúcich častiach, primerane<br />
štruktúrované a detailizované. Dynamika jazyka vyžaduje databázu vyvíjať<br />
tak, aby ju bolo možné rozširovať a použiť v pôvodnej podobe, s určitými<br />
modifikáciami alebo v transformovanej podobe ako prvok komplexnejších systémov<br />
spracovania textov. Preto musí byť možnosť ku každému slovu priradiť<br />
údaje, ktoré sú potrebné pri analýze textu v rôznych smeroch (morfologická<br />
rovina, syntaktická rovina, sémantická rovina, kvantitatívna analýza a pod.).<br />
Takými údajmi sú napr. štylistická charakteristika, frekvencia a pod. Typickú<br />
skupinu údajov, ktorá sa využíva v kvantitatívnej lingvistike, uvádza Koehler –<br />
Schmied (1992). Ďalej budeme špecifikovať konceptuálnu schému referenčnej<br />
morfologickej databázy. Opisujeme konceptuálnu schému morfologickej databázy,<br />
ktorá pozostáva z konceptuálnych schém vzorov a z konceptuálnych<br />
schém k jednotlivým slovným druhom. Pri algoritmickom <strong>spracovaní</strong> morfológie<br />
slovných tvarov využívame údaje obsiahnuté v databázach druhej roviny.<br />
72
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />
9.1 Modelovanie RMDSJ pomocou relačného dátového modelu<br />
Na základe vykonanej analýzy slovenskej lexiky, vlastností morfologických<br />
údajov, očakávaného rozširovania databázy a vlastností relačného modelu<br />
dát považujeme za výhodné využiť na modelovanie morfologických údajov<br />
relačný dátový model.<br />
Pripomeňme, že v relačnom modeli skupina príbuzných dát, nazývaných<br />
relačné n-tice, tvorí reláciu. Reláciu si možno predstaviť ako tabuľku, v ktorej<br />
každý riadok predstavuje jeden člen – (n-ticu) relácie – a každý stĺpec zodpovedá<br />
zložke relácie, nazývanej atribút relácie. Každý stĺpec relácie obsahuje údaje toho<br />
istého typu, napr. koncovka skloňovania v datíve singuláru. Teda napr. každá ntica<br />
relácie (riadok tabuľky) obsahuje všetky uvažované informácie o danom<br />
slove.<br />
Meno relácie a množina atribútov tvoria relačnú schému. Naplnenie (výskyt)<br />
relačnej schémy R sa volá relácia (Lanka – Pal 1993). Na zápis výskytu<br />
relácie sa obyčajne využíva len meno relácie, čo realizujeme aj my. Vzhľadom<br />
na rôznorodosť morfologických údajov pri jednotlivých slovných druhoch v<br />
slovenčine sme k jednotlivým slovným druhom definovali samostatné relácie, t.<br />
j. samostatné tabuľky. Uvádzame opisy relačných schém k týmto skupinám<br />
slov: podstatné mená, slovesá, prídavné mená, zámená, príslovky, číslovky.<br />
9.1.1 Relačné schémy a relácie k podstatným menám<br />
Pri podstatných menách, podobne ako pri ostatných ohybných slovných<br />
druhoch, budeme uvažovať dva typy relačných schém a relácií. Prvý typ zahŕňa<br />
relačné schémy a relácie k vzorom skloňovania a druhý typ relačné schémy<br />
a relácie k samotným podstatným menám ako heslovým slovám. Relácie skloňovacích<br />
vzorov budú obsahovať údaje o vzorových podstatných menách –<br />
vzoroch skloňovania. Relácie k podstatným menám budú obsahovať údaje<br />
o jednotlivých heslových slovách, ktoré sú potrebné na morfologické spracovanie<br />
podstatných mien. Pri stanovení relačnej schémy sa za menom relačnej<br />
schémy v jednoduchých zátvorkách vymenujú mená atribútov relácie.<br />
Relačné schémy a relácie vzorov skloňovania podstatných mien<br />
Konkrétne relačné schémy vzorov skloňovania podstatných mien a príslušné<br />
relácie k týmto schémam sú uvedené v tvare tabuliek. Záhlavie tabuľky<br />
– pomenovanie tabuľky a mená stĺpcov – formujú príslušnú relačnú schému a<br />
samotná tabuľka je zodpovedajúcou reláciou k tejto schéme. Špecifikovanie<br />
73
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />
atribútov – stĺpcov tabuliek je uvedené za každou tabuľkou. Ukážky tabuliek<br />
relácií vzorov skloňovania pre podstatné mená sú tieto:<br />
1. rovina – okruh vzorov „ulica“<br />
PODSP1:<br />
SK<br />
ALTER<br />
R VZOR SN SG SD SA SL SI PN PG PD PA PL PI<br />
i<br />
-NÁCIA<br />
dyň dyňa a e i u i ou e ø iame ach amiA1 A21<br />
i<br />
fak fakľa a e i u i ou e ø iame ach amiA10 A21<br />
fun funkcia a e i u i ou e í ám e ách ami–<br />
hrá hrádza a e i u i ou e í am e ach ami–<br />
i<br />
jea jedľa a e i u i ou e í iame ach amiA21<br />
míľ míľa a e i u i ou e ø am e ach amiA21<br />
i<br />
ned nedeľa a e i u i ou e ø iame ach amiA2 A21<br />
i<br />
ovc ovca<br />
pomy-<br />
a e i u i ou e ø iame ach amiA10<br />
po0 je-0 – – – – – – e – am e ach amiA1<br />
i<br />
ruž ruža a e i u i ou e í iame ach ami–<br />
sva svieca a e i u i ou e ø am e ach ami–<br />
i<br />
ia ac am<br />
uli ulica a e i u i ou e ø m e h i A1<br />
víchri-<br />
i<br />
víc ca a e i u i ou e ø iame ach ami–<br />
vládky-<br />
i<br />
vlá ňa a e i u i ou e ø iame ach amiA21<br />
vôň vôňa a e i u i ou e í am e ach amiA21<br />
Relačná schéma má meno PODSP1 a obsahuje tieto atribúty: (SKR,<br />
VZOR, SN, SG, SD, SA, SL, SI, PN, PG, PD, PA, PL,PI ALTERNÁCIA).<br />
74<br />
Špecifikácia atribútov:
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />
SKR – skratka vzoru<br />
VZOR – vzor skloňovania<br />
SN, SG ... SI – 6 pádov singuláru<br />
PN, PG ... PI – 6 pádov plurálu<br />
ALTERNÁCIA – pravidlá zmien v TZ (s hodnotou reťazca)<br />
2. rovina – okruh vzorov „2ulica“<br />
PODSP2:<br />
SKR VZOR SN SG SD SA SL SI PN PG PD PA PL PI Druhy<br />
TZ<br />
2dyň 2dyňa a e i u i ou e ø iam e iach ami 1,2,4<br />
2fun 2funkcia a e i u i ou e í ám e ách ami 1<br />
2hrá 2hrádza a e i u i ou e í am e ach ami 1<br />
2jea 2jedľa a e i u i ou e í iam e iach ami 1,4<br />
2míľ 2míľa a e i u i ou e ø am e ach ami 1,4<br />
2po0 2pomyje-0 – – – – – – e ø am e ach ami 1,2<br />
2ruž 2ruža a e i u i ou e í iam e iach ami 1<br />
2sva 2svieca a e i u i ou e ø am e ach ami 1<br />
2uli 2ulica a e i u i ou e ø iam e iach ami 1,2<br />
2víc 2víchrica a e i u i ou e ø iam e iach ami 1<br />
2vlá 2vládkyňa a e i u i ou e ø iam e iach ami 1,4<br />
2vôň 2vôňa a e i u i ou e í am e ach ami 1,4<br />
Špecifikácia atribútov je totožná s predchádzajúcou tabuľkou prvej roviny.<br />
Namiesto atribútu ALTERNÁCIA je atribút Druhy TZ.<br />
Druhy TZ – použité druhy TZ (TZ1, TZ2...).<br />
Predpokladáme, že princíp relačnej schémy a relácie vzorov je dostatočne<br />
vysvetlený a ďalej môžeme prezentovať len meno a záhlavie tabuľky ako relačnú<br />
schému vzorov.<br />
Relačné schémy a relácie k jednotlivým podstatným menám:<br />
Relačná schéma podstatných mien mužského rodu má 11 atribútov. Tie<br />
isté atribúty má aj relačná schéma podstatných mien ženského rodu a stredného<br />
rodu. Mená relačných schém sú: PMM – pre mužský rod, PMF – pre ženský<br />
rod, PMN – pre stredný rod a PMD – pre podstatné mená dvojrodové.<br />
Relačná schéma mužských podstatných mien:<br />
75
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />
PMM(PARA, PAR1, LEMMA, MORPH, TZ1, TZ2, TZ3, TZ4, SA, PA-<br />
RA2, PAR2_1)<br />
Špecifikácia atribútov:<br />
PARA je skratka pre vzor ohýbania (paradigmy) – ok1 (oko1)<br />
PAR1 je skratka pre druhý vzor, ak má podstatné meno variantné tvary<br />
– ok2 (oko2)<br />
LEMMA základný tvar slova, heslové slovo – oko<br />
MORPH výber morfologických tvarov, ako ich ponúka KSSJ – -a s. 1.<br />
mn. oči, očí/ arch. očú -iam –iach<br />
TZ1,TZ2 obmeny tvarotvorného základu, ktoré sa vyskytnú pri ohýbaní<br />
TZ3,TZ4 podstatného mena: TZ1 – ok-, TZ2 – oč-<br />
SA špecifické atribúty, ktoré sa vyskytnú nad rámec štandardných<br />
informácií (napr. uvedenie vokatívu pri niektorých podstatných<br />
menách)<br />
PARA2 je skratka pre vzor ohýbania v 2. rovine – 2ok1 (2oko-1)<br />
PAR2_1 je skratka pre druhý vzor v 2. rovine, keď má podstatné meno<br />
variantné tvary – 2ok2 /(2oko-2)<br />
Všetky atribúty nadobúdajú reťazcové hodnoty.<br />
9.1.2 Relačné schémy a relácie k slovesám<br />
Relačné schémy a relácie vzorov skloňovania slovies<br />
Relačné schémy a relácie k vzorom časovania slovies sú obsiahnuté v tabuľkách.<br />
Relácia obsahuje vzorové slová a ich atribúty. Z dôvodu väčšej efektívnosti<br />
a úspory tlače je tabuľka – relácia predstavená tak, že jej stĺpce (nie<br />
riadky) tvoria n-ticu relácie, t. j. obsahujú príslušné údaje k vzoru. Mená<br />
atribútov sú uvedené na začiatku riadkov. Špecifikácia atribútov a význam<br />
značiek (TMPA1, RPB1... pre prvú rovinu, KPA1, KPB2... pre druhú rovinu) je<br />
vysvetlený v prvej časti pri opise vzorov slovies.<br />
1. rovina – ukážka z okruhu vzorov „chudnúť“: chudnúť, vládnuť, ľnúť,<br />
KVITNÚŤ.<br />
SLOVP1:<br />
76
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />
skratka chu vlá ľnú KVI<br />
vzor chudnúť vládnuť ľnúť KVITNÚŤ<br />
TMPA1 e e e e<br />
TMPB1 ø ø ø ø<br />
RPA1 chudn vládn ľn kvitn<br />
RPB1 chudn vládn ľn kvitn<br />
RPA2 – – – pokvitn<br />
RPB2 – – – pokvitn<br />
1.os.pr.č.j.č. m m m m<br />
2.os.pr.č.j.č. š š š š<br />
3.os.pr.č.j.č. ø ø ø ø<br />
1.os.pr.č.mn.č. me me me me<br />
2.os.pr.č.mn.č. te te te te<br />
3.os pr.č.mn.č. ú u ú ú<br />
imper.2.os.j.č. ø ø ø ø<br />
imper.1.os.mn.č. me me me me<br />
imper.2.os.mn.č. te te te te<br />
prechodník úc uc úc úc<br />
čin.príč.prít.j.č.m.r. úci uci úci úci<br />
čin.príč.prít.j.č.ž.r. úca uca úca úca<br />
čin.príč.prít.j.č.s.r. úce uce úce úce<br />
čin.príč.prít.mn.č.m.r. úci uci úci úci<br />
čin.príč.prít.mn.č.ž.r. úce uce úce úce<br />
čin.príč.prít.mn.č.s.r. úce uce úce úce<br />
č.pr.prít.mn.č.m.r.živ. úce uce úce úce<br />
vzor pre čin.príč. rýdzi rýdzi rýdzi rýdzi<br />
TMIA1 ú u ú ú<br />
TMIB1 ø ø u ø<br />
RIA1 chudn vládn ľn kvitn<br />
RIB1 chud vlád ľn kvitn<br />
min.čas m.r.j.č. ol ol l ol<br />
min.čas ž.r.j.č. la la la la<br />
min.čas s.r.j.č. lo lo lo lo<br />
min.čas.mn.číslo li li li li<br />
čin.príč.min.j.č.m.r. vší vší vší vší<br />
77
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />
2. rovina – ukážka z okruhu vzorov „2chudnúť“: 2chudnúť, 2vládnuť, 2ľnúť,<br />
2KVITNÚŤ, 2HRNÚŤ, 2objať.<br />
Tabuľka – relácia je riešená ako relácie pre 1. rovinu.<br />
SLOVP2:<br />
skratka 2chu 2vlá 2ľnú 2objať<br />
vzor 2chudnúť 2vládnuť 2ľnúť 2objať<br />
KPA1 chudne vládne ľne objíme<br />
KPB1 chudn vládn ľn objím<br />
1.os.j.č. m m m m<br />
2.os.j.č. š š š š<br />
3.os.j.č. ø ø ø ø<br />
1.os.mn.č. me me me me<br />
2.os.mn.č. te te te te<br />
3.os..mn.č. ú u ú u<br />
imperatív 2.os.j.č. ø ø ø ø<br />
imperatív 1.os.mn.č. me me me me<br />
imperatív 2.os.mn.č. te te te te<br />
prechodník úc uc úc uc<br />
čin.príč.prít.j.č.m.r. úci uci úci uci<br />
čin.príč.prít.j.č.ž.r. úca uca úca uca<br />
čin.príč.prít.j.č.s.r. úce uce úce uce<br />
čin.príč.prít.mn.č.m.r.živ úci<br />
.<br />
uci úci uci<br />
čin.príč.prít.mn.č.ž.r. úce uce úce uce<br />
čin.príč.prít.mn.č.s.r. úce uce úce uce<br />
čin.príč.prít.mn.č.m.r. úce uce úce uce<br />
oh.vzor pre čin.príč.prít. rýdzi rýdzi rýdzi rýdzi<br />
KIA1 chudnú vládnu ľnú obja<br />
KIB1 chud vlád ľnu obja<br />
KIB2 chudnu vládnu – –<br />
IZ chudni vládni ľni objím<br />
min.čas j.č.m.r. ol ol l l<br />
min.čas j.č.ž.r la la la la<br />
min.čas j.č.s.r. lo lo lo lo<br />
78
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />
min.čas mn.č. li li li li<br />
čin.pr.m.čas j.č.m.r.živ. vší vší vší vší<br />
čin.pr.m.čas j.č.ž.r. všia všia všia všia<br />
čin.pr.m.čas j.č.s.r. všie všie všie všie<br />
čin.pr.m.čas mn.č.m.r. vší vší vší vší<br />
čin.pr.m.čas mn.č.ž.r. všie všie všie všie<br />
čin.pr.m.čas mn.č.s.r. všie všie všie všie<br />
čin.pr.m.čas m.r. všie všie všie všie<br />
ohýb.vz.pre čin.pr.min. cudzí cudzí cudzí cudzí<br />
trp.príč.j.č.m.r. tý tý tý tý<br />
trp.príč.j.č.ž.r. tá tá tá tá<br />
trp.príč.j.č.s.r. té té té té<br />
trp.príč.mn.č.m.r. tí tí tí tí<br />
trp.príč.mn.č.ž.r. té té té té<br />
trp.príč.mn.č.s.r. té té té té<br />
trp.príč.mn.č.iné té té té té<br />
ohýb.vzor pre trp.príč. pekný pekný pekný pekný<br />
slov.podstatné meno tie tie tie tie<br />
ohýb.vzor pre sl.pod.m. vysvedčenie vysvedčenie vysvedčenie vysvedčenie<br />
Relačné schémy a relácie k jednotlivým slovesám<br />
VER(PARA, LEMMA, V, MORPH, RAD_INF_A, TM_INF_A, RAD_INF_B1,<br />
TM_INF_B1, RAD_INF_B2, TM_INF_B2, RAD_PRZ_A1, TM_PRZ_A1,<br />
RAD_PRZ_A2, TM_PRZ_A2, RAD_PRZ_B1, TM_PRZ_B1, RAD_PRZ_B2,<br />
TM_PRZ_B2, IZ, SA, PARA_2, KME_INF_A, KME_INF_B1, KME_INF_B2,<br />
KME_PRZ_A1, KME_PRZ_A2, KME_PRZ_B1, KME_PRZ_B2)<br />
Meno schémy je VER, má 28 atribútov, ktoré sú špecifikované takto:<br />
PARA je skratka pre vzor ohýbania (paradigmy) – dža (džavotať)<br />
LEMMA základný tvar slova, heslové slovo – džavotať<br />
V informácia o poradí variantov<br />
MORPH výber morfologických tvarov, ako ich ponúka KSSJ – -ce<br />
-cú -tajúc ndk<br />
79
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />
RAD_INF_A 1. podoba neurčitkového koreňa – džavot-<br />
TM_INF_A 1. podoba infinitívnej tematickej morfémy – -a-<br />
RAD_INF_B1 1. variant 2. podoby neurčitkového koreňa – džavot-<br />
TM_INF_B1 1. variant 2. podoby infinitívnej tematickej morfémy – -a-<br />
RAD_INF_B2 2. variant 2. podoby neurčitkového koreňa<br />
TM_INF_B2 2. variant 2. podoby infinitívnej tematickej morfémy<br />
RAD_PRZ_A1 1. variant 1. podoby prítomníkového koreňa – džavoc-<br />
TM_PRZ_A1 1. variant 1. podoby prézentnej tematickej morfémy – -e-<br />
RAD_PRZ_A2 2. variant 1. podoby prítomníkového koreňa<br />
TM_PRZ_A2 2. variant 1. podoby prézentnej tematickej morfémy<br />
RAD_PRZ_B1 1. variant 2. podoby prítomníkového koreňa<br />
TM_PRZ_B1 1. variant 2. podoby prézentnej tematickej morfémy<br />
RAD_PRZ_B2 2. variant 2. podoby prítomníkového koreňa – džavot-<br />
TM_PRZ_B2 2. variant 2. podoby prézentnej tematickej morfémy – -aj-<br />
IZ imperatívny základ – džavotaj-<br />
SA špecifické atribúty nad rámec štandardných informácií<br />
PARA_2 je skratka pre vzor ohýbania v 2. rovine – 2dža (2džavotať)<br />
KME_INF_A 1. podoba neurčitkového kmeňa – základ neurčitku – džavota-<br />
KME_INF_B1 1. variant 2. podoby neurčitkového kmeňa – džavota-<br />
KME_INF_B2 2. variant 2. podoby neurčitkového kmeňa<br />
KME_PRZ_A1 1. variant 1. podoby prítomníkového kmeňa – džavoc-<br />
KME_PRZ_A2 2. variant 1. podoby prítomníkového kmeňa<br />
KME_PRZ_B1 1. variant 2. podoby prítomníkového kmeňa – džavoc-<br />
KME_PRZ_B2 2. variant 2. podoby prítomníkového kmeňa – džavotaj-<br />
Všetky atribúty majú ako hodnoty reťazce znakov.<br />
9.1.3 Relačné schémy a relácie k prídavným menám<br />
Relačné schémy a relácie vzorov skloňovania prídavných mien<br />
Ukážka relačnej schémy a relácie k vzorom skloňovania prídavných mien.<br />
(Ide o jednu tabuľku, ktorá je z tlačových dôvodov umiestnená v častiach pod<br />
sebou.)<br />
1. rovina<br />
PRIDP1:<br />
80
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />
S S S S S S<br />
S S<br />
SK V N_Ž_G_Ž_<br />
D_Ž A_Ž_L_Ž<br />
I_Ž_ SN SG D_ SA L_ S<br />
R ZOR M M _M M _M M _M _M M _M M I_M<br />
pek-<br />
ém<br />
ém<br />
pek ný ý ého u ého om ým ý éhou<br />
ý om ým<br />
krás-<br />
em<br />
em<br />
kry ny y eho u eho om ym y ehou<br />
y om ym<br />
i<br />
i i<br />
cud cudzí í ieho emuieho om ím í ehoemuí<br />
om ím<br />
em<br />
em<br />
rýd rýdzi i eho u eho om im i ehou<br />
i om im<br />
⇒<br />
SN S SD SA S S S S S S S S<br />
_F G_F_F<br />
_F L_F I_F N_NG_N<br />
D_N A_N L_N I_N<br />
á ej ej ú ej ou é ého ému é om ým<br />
a ej ej u ej ou e eho emu e<br />
i<br />
om ym<br />
ia ej ej iu ej ou ie ieho emu ie om ím<br />
a ej ej u ej ou e eho emu e om im<br />
PN PG PD PA P P<br />
_Ž_ _Ž_ _Ž_ _Ž_ L_ŽI_Ž<br />
P P P P P P<br />
⇒ M M M M _M _M N_X G_X D_X A_X L_X I_X<br />
í ých ým ých ých ýmié ých ým é ých ými<br />
i ych ym ych ych ymie ych ym e ych ymi<br />
í ích ím ích ích ími ie ích ím ie ích ími<br />
i ich im ich ich imi e ich im e ich imi<br />
Špecifikácia atribútov:<br />
SKR – skratka vzoru<br />
VZOR – vzor skloňovania<br />
SN_Ž_M, SG_Ž_M ... SI_Ž_M – 6 pádov singuláru pre mužský<br />
rod – životný<br />
SN_M, SG_M ... SI_M – 6 pádov singuláru pre mužský rod<br />
– neživotný<br />
SN_F, SG_F ... SI_F – 6 pádov singuláru pre ženský rod<br />
SN_N, SG_N ... SI_N – 6 pádov singuláru pre stredný rod<br />
81
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />
PN_Ž_M, PG_Ž_M ... PI_Ž_M – 6 pádov plurálu pre mužský<br />
rod – životný<br />
PN_X, PG_X ... PI_X – 6 pádov plurálu pre mužský rod –<br />
neživotný, ženský rod, stredný rod<br />
Druhá rovina obsahuje rovnaké vzory ako prvá rovina, preto ukážku neuvádzame.<br />
Relačná schéma k jednotlivým prídavným menám<br />
PRIDME(PARA, PRG, PRG1, LEMMA, MORPH, TZ1, TZ2, TZ_G1, TZ_G2,<br />
SA, GR, PARA2, PRG2, PRG2_1)<br />
Schéma má meno PRIDME a jej 12 atribútov je špecifikovaných nasledovne:<br />
PARA skratka pre vzor skloňovania prídavného mena – pek<br />
(pekný)<br />
PRG skratka pre vzor stupňovania prídavného mena – dob<br />
(dobrý)<br />
PRG1 skratka pre 2. vzor stupňovania, ak má prídavné meno<br />
variantné tvary<br />
LEMMA základný tvar slova, heslo – dobrý<br />
MORPH výber morfologických tvarov, ako ich ponúka KSSJ –<br />
lepší príd.<br />
TZ1,TZ2 obmeny TZ, ktoré sa vyskytnú pri skloňovaní prídavného<br />
mena – dobr-<br />
TZ_G1,TZ_G2 obmeny TZ, ktoré sa vyskytnú pri stupňovaní prídavného<br />
mena – dobr- lepš-<br />
SA špecifické atribúty, ktoré sú nad rámec štandardných informácií<br />
GR údaj o stupňovateľnosti<br />
PARA2 skratka pre vzor skloňovania prídavného mena v 2.<br />
rovine – 2pek (2pekný)<br />
PRG2 skratka pre vzor stupňovania v druhej rovine – 2bie<br />
(2biely)<br />
PRG2_1 skratka pre vzor stupňovania v druhej rovine ak má<br />
slovo varianty<br />
82
Hodnoty všetkých atribútov sú reťazcové hodnoty.<br />
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />
83
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />
9.1.4 Relačné schémy a relácie k príslovkám, zámenám a číslovkám<br />
Relačné schémy a relácie k vzorom stupňovania prísloviek<br />
1. rovina<br />
PRÍSLP1:<br />
SKR VZOR F_POZIT F_KOMP ALTERNÁCIA<br />
noo novo o šie –<br />
bio bielo o šie A1<br />
kro krátko o šie A1 A3<br />
beo belaso o ejšie –<br />
čio čierno o ejšie A1<br />
ľud ľudsky y ejšie –<br />
moc mocne e ejšie –<br />
Špecifikácia atribútov:<br />
SKR – skratka vzoru<br />
VZOR – vzor stupňovania<br />
F_KOMP – formant komparatívu<br />
F_POZIT – formant pozitívu<br />
ALTERNÁCIA – pravidlá zmien v TZ (s hodnotou reťazca)<br />
2. rovina<br />
PRÍSLP2:<br />
SKR VZOR F_POZIT F_KOMP DRUHY TZ_G<br />
2noo 2novo o šie 1<br />
2beo 2belaso o ejšie 1<br />
2čie 2čierno o ejšie 1,2<br />
2ľud ľudsky y ejšie<br />
2moc mocne e ejšie<br />
84<br />
Špecifikácia atribútov:<br />
SKR – skratka vzoru<br />
VZOR – vzor stupňovania<br />
F_KOMP – formant komparatívu<br />
F_POZIT – formant pozitívu
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />
DRUHY TZ_G – počet použitých TZ pri stupňovaní (TZ_G1,<br />
TZ_G2)<br />
Relačné schémy a relácie k vzorom skloňovania zámen<br />
1. rovina<br />
ZÁMP1:<br />
S<br />
V N_Ž SG_ŽSD_Ž_SA_Ž_<br />
SL_Ž_ SI_Ž_<br />
SKR ZOR _M _M M M M M<br />
on2 on-2 ø eho emu eho om ím<br />
tvo tvoj<br />
žiade<br />
ø ho mu ho om ím<br />
žia n ø eho emu eho om ym<br />
éhoému- aže akýže ýže žeže éhože omže ýmže<br />
iehoiemu- čže číže íže žeže iehožeomže ímže<br />
⇒<br />
⇒<br />
S S<br />
N_M G_M SD_M SA_M SL_M SI_M<br />
ø eho emu ho om ím<br />
ø ho mu ø om ím<br />
ø eho emu ø om ym<br />
éhoému- ýže žeže ýže omže ýmže<br />
iehoiemu- íže žeže íže omže ímže<br />
S<br />
N_F SG_FSD_F SA_F SL_F SI_F<br />
a ej ej u ej ou<br />
a ej ej u ej ou<br />
a ej ej u ej ou<br />
áže ejže ejže úže ejže ouže<br />
iaže ejže ejže iuže ejže ouže<br />
85
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />
⇒<br />
⇒<br />
⇒<br />
S S<br />
N_N G_N SD_N SA_N SL_N SI_N<br />
o eho emu ho om ím<br />
e ho mu e om ím<br />
e eho emu e om ym<br />
éhoému- éže žeže éže omže ýmže<br />
iehoiemu- ieže žeže ieže omže ímže<br />
P<br />
N_Ž<br />
_M<br />
PG_Ž<br />
_M<br />
PD_Ž_PA_Ž_<br />
PL_Ž_ PI_Ž_<br />
M M M M<br />
i ich im ich ich imi<br />
i ich im ich ich imi<br />
i ych<br />
ých-<br />
ym ych ych ymi<br />
íže že ýmže ýchže ýchže ýmiže<br />
íže íchže ímže íchže íchže ímiže<br />
P<br />
PI_X ALTER-<br />
N_X PG_XPD_X PA_X PL_X NÁCIA<br />
y ich im e ich imi ZB<br />
e ich im e ich imi –<br />
e ych ym e ych ymi A2<br />
ých-<br />
ýmiže<br />
éže že ýmže éže ýchže –<br />
ieže íchže ímže ieže íchže ímiže –<br />
Špecifikácia atribútov:<br />
SKR – skratka vzoru<br />
VZOR – vzor skloňovania<br />
SN_Ž_M, SG_Ž_M ... SI_Ž_M – 6 pádov singuláru pre mužský<br />
rod – životný<br />
86
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />
SN_M, SG_M ... SI_M – 6 pádov singuláru pre mužský rod<br />
– neživotný<br />
SN_F, SG_F ... SI_F – 6 pádov singuláru pre ženský rod<br />
SN_N, SG_N ... SI_N – 6 pádov singuláru pre stredný rod<br />
PN_Ž_M, PG_Ž_M ... PI_Ž_M – 6 pádov plurálu pre mužský<br />
rod – životný<br />
PN_X, PG_X ... PI_X – 6 pádov plurálu pre mužský rod –<br />
neživotný, ženský rod, stredný rod<br />
ALTERNÁCIA – pravidlá zmien v TZ (s hodnotou reťazca)<br />
Druhá rovina zámen obsahuje rovnaké vzory, len namiesto atribútu AL-<br />
TERNÁCIA je atribút DRUHY TZ.<br />
Relačné schémy a relácie k vzorom skloňovania čísloviek<br />
1. rovina<br />
ČÍSLP1:<br />
P P P<br />
V P G_ D_ A_ P P<br />
SKR ZOR N_M M M M L_MI_M<br />
dva dva a och om a och oma<br />
päť päť<br />
sede<br />
ø ich im ø ich imi<br />
sed m ø ich im ø ich imi<br />
⇒<br />
P<br />
N_Ž<br />
_M<br />
⇒ P<br />
N_F<br />
P P P P<br />
G_Ž D_Ž A_Ž L_Ž<br />
_M _M _M _M<br />
PI_Ž<br />
_M<br />
aja och om och och oma<br />
i ich im ich ich imi<br />
i ich im ich ich imi<br />
P P<br />
G_F<br />
P P P<br />
D_F A_F L_F I_F<br />
ALTERNÁCIA<br />
87
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />
N N N N N N<br />
e och om e och oma–<br />
ø ich im ø ich imi A1<br />
ø ich im ø ich imi A1, A2<br />
Špecifikácia atribútov:<br />
SKR – skratka vzoru<br />
VZOR – vzor skloňovania<br />
PN_M, PG_M ... PI_M – 6 pádov plurálu pre mužský rod –<br />
neživotný<br />
PN_Ž_M, PG_Ž_M ... PI_Ž_M – 6 pádov plurálu pre mužský<br />
rod – životný<br />
PN_FN, PG_FN ... PI_FN – 6 pádov plurálu pre ženský a<br />
stredný rod<br />
ALTERNÁCIA – pravidlá zmien v TZ (s hodnotou reťazca)<br />
88
2. rovina<br />
ČÍSLP2:<br />
V P P P P P P<br />
SKRZOR<br />
2<br />
N_M G_M D_M A_M L_M I_M<br />
dva 2dva a och om a och oma<br />
2päť2päť ø ich im ø ich imi<br />
⇒<br />
⇒<br />
P P P P P<br />
N_Ž G_Ž_D_Ž<br />
A_Ž_L_Ž_<br />
PI_Ž<br />
_M M _M M M _M<br />
aja och om och och oma<br />
i ich im ich ich imi<br />
P<br />
N_F<br />
N<br />
P<br />
G_F<br />
N<br />
P<br />
D_F<br />
N<br />
P<br />
A_F<br />
N<br />
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />
P<br />
L_F<br />
N<br />
PI_F<br />
N DRUHY<br />
TZ<br />
e och om e och oma 1<br />
ø ich im ø ich imi 1, 2<br />
Špecifikácia atribútov:<br />
SKR – skratka vzoru<br />
VZOR – vzor skloňovania<br />
PN_M, PG_M ... PI_M – 6 pádov plurálu pre mužský rod –<br />
neživotný<br />
PN_Ž_M, PG_Ž_M ... PI_Ž_M – 6 pádov plurálu pre mužský<br />
rod – životný<br />
PN_FN, PG_FN ... PI_FN – 6 pádov plurálu pre ženský a<br />
stredný rod<br />
DRUHY_ TZ – druhy použitých TZ (TZ1, TZ2, ...)<br />
Relačné schémy a relácie k jednotlivým príslovkám, zámenám a číslovkám,<br />
ak sú ohybné, sú tvorené podľa vyššie uvedených relačných schém pre<br />
podstatné mená, slovesá a prídavné mená, preto ich nebudeme opakovať.<br />
89
EDUARD KOSTOLANSKÝ – JANA HAŠANOVÁ<br />
9.2 Fyzická referenčná morfologická databáza slovenčiny<br />
Cieľom nášho snaženia bolo zhromaždiť morfologické údaje o každom<br />
slove súčasnej slovenskej lexiky, ako ju zachytáva Krátky slovník slovenského<br />
jazyka (1997), a dať ich k dispozícii v štruktúrovanej podobe a usporiadané<br />
napr. podľa slovných druhov a paradigiem. To sme dosiahli vytvorením relácií<br />
– počítačových súborov. Samostatný súbor tvoria vzory ohýbania slovných<br />
druhov. Ku každému slovnému druhu existuje dátový súbor, ktorý obsahuje<br />
najpoužívanejšie slová z daného slovného druhu v súčasnej spisovnej slovenčine.<br />
Tieto súbory sú k dispozícii na ďalší výskum alebo tvorbu jazykových<br />
aplikácií.<br />
10. Poznámky k realizácii (implementácii) referenčnej morfologickej databázy<br />
Prvým krokom na ceste tvorby referenčnej morfologickej databázy slovenčiny<br />
bolo získanie elektronickej podoby KSSJ ako základného lexikálneho<br />
zdroja, obsahujúceho tiež veľa gramatických údajov. Poznatky z práce na KSSJ<br />
je možné aplikovať aj na iné informačné zdroje.<br />
Literatúra<br />
ALLÉN, Sture. 1981. The Lemma-Lexeme Model of the Swedish Lexical Data Base. In:<br />
Progress in Empirical Semantics. Bochum: Brockmeyer.<br />
BENKO, Vladimír – HAŠANOVÁ, Jana – KOSTOLANSKÝ, Eduard. 1996. Počítačové<br />
spracovanie slovenčiny – výskumná správa. Bratislava: Pedagogická fakulta UK.<br />
BENKO, Vladimír – HAŠANOVÁ, Jana – KOSTOLANSKÝ, Eduard. 1997. Morfologické<br />
údaje o slovenských substantívach na účely algoritmickej analýzy textov. <strong>Slovenský</strong> jazyk a literatúra<br />
v škole, č. 5, s. 154 – 166.<br />
BENKO, Vladimír – HAŠANOVÁ, Jana – KOSTOLANSKÝ, Eduard. 1998. Počítačové<br />
spracovanie slovenského jazyka – časť: Morfológia podstatných mien. Bratislava: Pedagogická<br />
fakulta Univerzity Komenského.<br />
HORECKÝ, Ján. 1964. Morfematická štruktúra slovenčiny. Bratislava: Vydavateľstvo SAV.<br />
KAČALA, Ján – PISÁRČIKOVÁ, Mária (eds.). 1997. Krátky slovník slovenského jazyka. (3.<br />
vydanie) Bratislava: Veda.<br />
KOEHLER, R. – SCHMIED, P. 1992. Lexikondateien fuer Quantitative Lexikologie. FB II,<br />
Universitaet Trier.<br />
LANKA, S. – PAL, S. 1993. Database Systems. New York: Elsevier Science Pub.<br />
90
SPRACOVANIE MORFOLOGICKEJ ROVINY SLOVENČINY POČÍTAČOM<br />
MISTRÍK, Jozef. 1988. Moderná slovenčina. Bratislava: Slovenské pedagogické nakladateľstvo.<br />
ORAVEC Ján – BAJZÍKOVÁ, Eugénia – FURDÍK, Juraj. 1984. Súčasný slovenský spisovný<br />
jazyk. Morfológia. Bratislava: Slovenské pedagogické nakladateľstvo.<br />
PÁLEŠ, Emil. 1994. SAPFO – parafrázovač slovenčiny, počítačový nástroj na modelovanie v<br />
jazykovede. Bratislava: Veda.<br />
PAULINY, Eugen – RUŽIČKA, Jozef – ŠTOLC, Jozef. 1968. Slovenská gramatika. Bratislava:<br />
Slovenské pedagogické nakladateľstvo.<br />
PECIAR, Štefan. (ed.). 1959 – 1968. Slovník slovenského jazyka. (6 zväzkov). Bratislava:<br />
Vydavateľstvo SAV.<br />
Projekt „Referenčná morfologická báza dát slovenského jazyka“. Záverečná správa.<br />
Bratislava: Laboratórium počítačovej lingvistiky PdF UK 1998.<br />
RUŽIČKA, Jozef. (ed.). 1966. Morfológia slovenského jazyka. Bratislava: Vydavateľstvo SAV.<br />
91
DATABASES FOR SPEECH RECOGNITION<br />
AND SYNTHESIS IN SLOVAK<br />
Milan Rusko – Sachia Daržágín – Marián Trnka: Institute of Informatics,<br />
Slovak Academy of Sciences, Bratislava<br />
1. Introduction<br />
An effort of the scientists and developers to change the approach to automated<br />
speech processing systems building has become evident in recent years.<br />
The older methods based on a set of human-expert defined rules has been replaced<br />
by systems with new architecture. In these systems the needed information<br />
on the properties and behavior of the speech signal is obtained automatically<br />
from large speech databases. This paper reflects an effort to apply the data<br />
driven approach in the telephone-speech recognizer and speech synthesizer in<br />
Slovak, at the Department of the Speech Synthesis and Speech Analysis of the<br />
Institute of Informatics.<br />
The automatic speech processing technology has reached such a high degree,<br />
that it is being implemented in various applications in different areas of life.<br />
More and more voice driven teleservices (Rusko 1998) are offered by companies<br />
to allow the customer easier access to information (e.g. traintable information), to<br />
transaction services (e.g. teleshopping or telebanking), or more comfortable way<br />
of communication (call processing services, e.g. voice mail handling).<br />
The American companies having a benefit of a large and rich monolingual<br />
market are in a much better position than companies of the multilingual<br />
Europe. Not to loose the market, the European companies have to create an effective<br />
infrastructure to deal successfully with their multilingual environment.<br />
While the mathematical principles and algorithms of the speech recognition<br />
and speaker identification systems (based usually on Hidden Markov Models<br />
and Neural Nets) are more or less language independent, the training databases<br />
must include native speakers recordings. Their preparation as well as postprocessing<br />
needs a skilled team of local scientists and engineers capable of solving<br />
problems concerning computer linguistics, speech acoustics, phonetics, programming<br />
and management. Very similar situation is that in the field of the<br />
modern speech synthesis.<br />
92
2. Speech Recognition – The need of the speech database<br />
DATABASES FOR SPEECH RECOGNITION AND SYNTHESIS IN SLOVAK<br />
After the era of rule-based speech recognition systems the Dynamic Time<br />
Warping (DTW) algorithm has become most popular and many of the functional<br />
applications with a vocabulary up to several tenths of words use it also today<br />
(e.g. voice dialed telephone).<br />
The idea of the data driven approach is not to force the recognition system<br />
to follow the predefined rules, but rather to let the system extract the<br />
knowledge on the properties and behavior of the speech signal automatically<br />
from the information stored in huge speech databases. This process of extracting<br />
information and setting own rules for further recognition is called<br />
training. Such a recognizer based generally on Hidden Markov Models<br />
(HMMs) and/or Artificial Neural Nets (ANNs) can be considered as a selflearning<br />
system. The problem was, that no speech database had been built for<br />
Slovak speech, that would be large enough for training before we started to<br />
build our database.<br />
Database<br />
signal<br />
interface<br />
Databases<br />
X<br />
Speech<br />
samples<br />
Feature<br />
extraction<br />
Y<br />
Prob.<br />
density<br />
functions<br />
P(Y t |S t )<br />
Phonetic<br />
training<br />
Recognition<br />
Transition<br />
probabilities<br />
P(S t |St-1)<br />
Strings of words: W<br />
HMMs<br />
Word<br />
statistics<br />
P(W |W )<br />
t t-1<br />
Word class<br />
training<br />
Fig. 1: Functional scheme of a data driven speech recognizer based on HMM<br />
For HMM based speaker independent recognizer, a database containing<br />
5000 recorded telephone calls (of different speakers) is considered a reasonable<br />
volume. The database must have predefined structure and content (which can<br />
W*<br />
93
MILAN RUSKO – SACHIA DARŽÁGÍN – MARIÁN TRNKA<br />
be application-dependent), and must reflect all the phonetical and phonological<br />
phenomena which the recognizer should be capable to employ in its work. The<br />
most time-consuming phase of the database-building is that of annotation and<br />
labelling. In this process an orthographic (written text) and orthoepic (phonetic<br />
representation) information is linked to all the recorded speech files. Instead of<br />
the fact, that there are some possibilities to do the annotation automatically, one<br />
comes to a paradox:<br />
a) an annotated training database is needed for the speech recognizer building,<br />
b) a reliable speech recognizer is needed for the automatic speech-database<br />
annotation.<br />
Fig. 2: Display of the program Label 1.0, used for manual annotation of the database records<br />
and running check of the signal quality and some other database features.<br />
This simply means, that the first speech database must be annotated<br />
manually by human expert. After it is finished, it can be used for the first recognizer<br />
training, and this recognizer can possibly be included in a system for<br />
automatic annotation of future databases.<br />
94
DATABASES FOR SPEECH RECOGNITION AND SYNTHESIS IN SLOVAK<br />
For illustration we present on Fig. 2 a typical display of the program used<br />
for manual annotation (program Label 1.0 developed at our Department of<br />
Speech Analysis and Synthesis).<br />
3. SpeechDat-e, the first Telephone speech database in Slovak<br />
SpeechDat-E is a set of databases following the standard defined with<br />
SpeechDat II (Winski 1997). The collection is performed automatically telephone<br />
via the ISDN connection (on the recording side). As a compromise<br />
between the need and the economical possibilities, it was decided to build a<br />
1000 speakers database for Czech, Polish, Slovak and Hungarian and a 2500<br />
speakers database for Russian. After the preliminary statistical research a set of<br />
the so called promptsheets had to be generated. The promptsheet is a list of<br />
sentences and words to be read by the caller and a set of questions to be<br />
answered. The promptsheets were formed according to the possible areas of the<br />
speech recognizer applications (computers, banking, shopping, marketing, travelling<br />
and tourist information, telecommunication etc.). Every of them include:<br />
– isolated digits and its sequences<br />
– digit / number strings<br />
– natural number<br />
– money amounts in Slovak crowns, Dollars and Euro and their<br />
smaller units<br />
– yes/no questions (spontaneous answer)<br />
– dates, prompted phrases with date, relative and general date expression<br />
– time and time-phrases<br />
– application words / keyphrases<br />
– word spotting phrase using embedded application word<br />
– directory assistance names: city of birth (spontaneous), company,<br />
agency, surname, forename plus surname, own forename<br />
(spontaneous)<br />
– spellings: artificial sequence, city name, own forename (spontaneous)<br />
– phonetically rich words<br />
– phonetically rich sentences.<br />
To reflex the real-life features the database has to be statistically balanced<br />
according to:<br />
95
MILAN RUSKO – SACHIA DARŽÁGÍN – MARIÁN TRNKA<br />
a) regional coverage – representation of the main phonetic groups. The repartition<br />
of speakers should be proportional to the population in regions<br />
with 5 % tolerance and with a minimum 5 % speakers per region;<br />
b) age of the callers;<br />
c) sex of the callers.<br />
It is the first large telephone speech corpus collected in Slovakia. Speech-<br />
Dat-E Slovak is available for the users now. It is being used in our experiments<br />
for training of several types of recognizers. The companies which are members<br />
of the SpeechDat-E Consortium has already started to develop commercial recognizers<br />
using this database. We also hope that the database will be useful not<br />
only for the universities and academic institutions, but primarily for companies<br />
in the telecommunications and teleservices. The liberalization of the Slovak<br />
telecommunication market, hand in hand with recent boom in speech processing<br />
technology, will lead to a competition among operators and also other<br />
companies in the field of voice-driven teleservices. The created database can be<br />
the first step to the professional design of such services.<br />
A new database intended for building the speech synthesis systems in<br />
Slovak is under development .<br />
4. Data driven approach to speech synthesis<br />
Speech synthesis has been considered to be less complex problem than<br />
that of speech recognition. This statement is true only up to a certain level of<br />
quality of the synthesis systems.<br />
96<br />
Fig. 3: Schematic diagram of the recent version of the Slovak speech synthesizer
DATABASES FOR SPEECH RECOGNITION AND SYNTHESIS IN SLOVAK<br />
Modern approaches aim at reaching high naturalness of speech. One of<br />
the ways how to incorporate the difficult phenomena of the natural speech prosody<br />
and rhythm, is to use a large training database of the speech of one speaker,<br />
optimized for text-to-speech applications.<br />
The content of the database must allow for the extraction of the following<br />
synthesis elements:<br />
– the basic elements of the signal waveform used for concatenative<br />
synthesis (e.g. diphones), these must be available in accented<br />
an unaccented form, in different contexts, and positions in the<br />
word and sentence. Advanced systems allow for the concatenation<br />
from the non-uniform speech units. The choose of these<br />
units is optimized regarding the actual text and the speech material<br />
in the database;<br />
– the pitch and energy contours of the syllables, words and sentences;<br />
– rhythmical rules (e.g. phone and syllable durations) for different<br />
speech rates and speaking styles.<br />
Annotation of such a training database is extremely difficult task. The information<br />
which should be linked to the recorded speech is of several levels:<br />
Level Annotated information<br />
Sentence level orthographic and<br />
orthoepic<br />
representations<br />
Word level orthoepic<br />
representation<br />
Syllable level orthoepic<br />
sentence type<br />
(syntax)<br />
sentence boundary<br />
pointers (BP)<br />
accent word BP<br />
grammatical type<br />
(syntax)<br />
consonant-vocal accent syllable BP<br />
representation structure<br />
syllable nuclei BP<br />
Phoneme level orthoepic representation BP to phonemes and pauses<br />
Microsegment level F0 energy BP to microsegments<br />
Tab. 1: Level structure of the information annotated in the speech database<br />
for speech synthesis purposes<br />
For the automatic annotation we have developed a set of tools analyzing<br />
the signal in the time and frequency domains, measuring energy, pitch, and the<br />
97
MILAN RUSKO – SACHIA DARŽÁGÍN – MARIÁN TRNKA<br />
position of important instants (boundaries) in the speech signal. The signal<br />
analysis system (developed at the Department of Speech Analysis and Synthesis)<br />
is Called SOUNDY 4.0.<br />
Fig. 4.: Typical appearance of the screen of the SOUNDY 4. 0. signal analysis system<br />
5. The automatic phonetic labeller<br />
Text to phoneme conversion is performed by an automatic orthographicto-orthoepic<br />
converter.<br />
Many of modern speech synthesis and speech recognition systems require<br />
phonetic information to be incorporated in the training database – namely<br />
pointers to the phoneme boundaries and orthoepic transcription of the recorded<br />
utterances.<br />
The architecture of our automatic phonetic labeller is shown in Fig. 5.<br />
98
DATABASES FOR SPEECH RECOGNITION AND SYNTHESIS IN SLOVAK<br />
Fig. 5: The architecture of the automatic phonetic labelling system<br />
5.1 Pitch synchronous analysis on the microsegmental level<br />
The microsegment recognition process itself can be divided into several<br />
steps:<br />
a) Microsegmentation<br />
b) Time domain acoustic feature extraction<br />
c) Filter-bank based frequency domain analysis<br />
d) Assignment to one of the main phonetic groups<br />
e) Identification of the microsegments (assignment to one of the phonemes).<br />
5.2 Microsegmentation of the speech signal<br />
99
MILAN RUSKO – SACHIA DARŽÁGÍN – MARIÁN TRNKA<br />
For this purpose we use our rule-based microsegmentation procedure developed<br />
for the speaker-independent speech recognizer (Daržágín – Trnka<br />
1995).<br />
In the first step the voiced/unvoiced/pause decision must be taken for the<br />
analyzed frame of the signal. In the next step of the acoustic pre-processing,<br />
the speech signal is pitch-synchronously divided into frames of the length corresponding<br />
to one period of the fundamental on the voiced portion of the signal<br />
and into frames of a constant length on the unvoiced part. These frames, called<br />
microsegments, are the elementary analysis time-intervals in our system. Every<br />
microsegment is then analyzed and a hypothesis on its correspondence to some<br />
of the phonemes of the Slovak phoneme-inventory is created.<br />
5.3 Text input and orthographical to orthoepical form conversion<br />
The text of the utterance which was read by the speaker is sent to the input<br />
of the text processing branch in an ASCII-coded form. The automatic orthographic<br />
to orthoepic form conversion is made by a rule based routine that<br />
was originally written for the Slovak speech synthesizer. This orthoepical transcription<br />
gives a sequence of the phonemes that should theoretically be pronounced<br />
when reading the source text. Thus the system can send the information<br />
on the expected actual phoneme and the succeeding one too.<br />
5.4 Comparing logic and phoneme labelling<br />
The comparison process of the expected phonemes and the sequence of<br />
the microsegments has two levels:<br />
a) a coarse phonetic labelling based on the automatically recognized phonetic<br />
structure of the utterance;<br />
b) phoneme-boundary label position refining using the information from the<br />
text processing branch. The acoustic characteristics of the microsegment<br />
are compared to the typical acoustic characteristics of both of the phonemes<br />
at the actual boundary.<br />
The pointer to the refined position of the phoneme-boundary in the wavesignal<br />
(the label) is then included into the output file.<br />
5.5 Output – linked database files<br />
100
DATABASES FOR SPEECH RECOGNITION AND SYNTHESIS IN SLOVAK<br />
The whole automatic labelling is finished by creating two types of linked<br />
database-files, one of them containing the PCM coded wave-data, and the second<br />
one containing the text, the phonetical (orthoepical) transcription of the given utterance<br />
as well as the pointers to the phoneme boundaries in the wave-file.<br />
6. Conclusion<br />
The important part of the datadriven speech recognizer – Slovak speech<br />
database for training purposes is available now. This makes the development of<br />
the HMM based recognition systems possible. The main areas of application<br />
can be found for instance in telephone services. The developed speech signal<br />
analysis system and the database labelling tool can be used for further database<br />
building and speech research.<br />
The recent version of the speech synthesizer in Slovak works rather well,<br />
but a new, data driven version, is under development.<br />
The described phonetic labelling tool executes its task in acceptable quality<br />
but the operator's assistance is needed. Most problems occur if the signal is<br />
of poor quality, or if there are severe mistakes in the pronunciation of the<br />
speaker. The tool is suitable for the speech-database building purposes and it is<br />
now being used in the process of the "synthesis database" development.<br />
The authors are members of the Department of Speech Analysis and Synthesis,<br />
Institute of Informatics of the Slovak Academy of Sciences.<br />
This work is supported by the Slovak Grant Agency VEGA project number<br />
47/0214/99.<br />
References<br />
DARŽÁGÍN, Sachia – TRNKA, Marian. 1995. Speaker independent speech recognition system<br />
in Slovak. In: Proceedings of the international conference Telecommunications '95. Bratislava: Dom<br />
techniky ZSVTS. s. 118 – 123.<br />
RUSKO, Milan. 1998. Voice Driven Teleservices in Slovak. In: Proceedings of the 2 nd international<br />
conference Where are You Going ATM? Bratislava: ADAPT. s. 45 – 49.<br />
WINSKI, R. 1997. Definition of corpus, scripts and standards for fixed networks. Technical report.<br />
SpeechDat-II, January 1997, Deliverable SD 1.1.1., workpackage WP1, http://www.speechdat.org.<br />
101
SAMPA V SLOVENČINE A JEJ VÝZNAM<br />
Z POHĽADU VIACJAZYČNÝCH<br />
SYSTÉMOV NA ROZPOZNÁVANIE REČI<br />
Jozef Ivanecký: IBM Voice Systems, European Speech Research;<br />
Katedra kybernetiky a umelej inteligencie, Fakulta elektrotechniky<br />
a informatiky Technickej univerzity Košice (ivanecky@de.ibm.com)<br />
Abstract: The paper deals with the phonetic alphabet SAMPA. In a brief survey of the development of<br />
the SAMPA transcription we are indicating possible problems in the formation of the SAMPA transcription<br />
for new languages and the significance of the SAMPA transcription for computer speech recognition<br />
from the multilingual systems’ view. The core of the paper is the procedure used in the formation of<br />
the SAMPA transcription for Slovak as well as for a current status of the Slovak version of the SAMPA<br />
transcription.<br />
1. Úvod<br />
Význam fonetickej transkripcie v <strong>počítačovom</strong> rozpoznávaní reči nie je<br />
potrebné zdôrazňovať. Transkripcia je použitie príslušných znakov abecedy na<br />
reprezentáciu zvukov reči. Systém na počítačové rozpoznávanie reči rozpoznáva<br />
na najnižšej úrovni jednotlivé zvuky, ktoré sú označované znakmi fonetickej<br />
abecedy zvolenej pre danú fonetickú transkripciu. Keďže ide o počítačové<br />
spracovanie, znakmi sú vo väčšine prípadov kvôli jednoduchosti a prenositeľnosti<br />
7 bitové ASCII znaky. Priradenie ASCII znakov jednotlivým zvukom – t.<br />
j. kódovanie – je záležitosť tvorcu daného systému, pričom medzi konkrétnymi<br />
transkripčnými systémami sú – aj vzhľadom na fonetické rozdiely v spracúvaných<br />
jazykoch – väčšie či menšie rozdiely.<br />
Tento stav viac-menej pretrváva dodnes, aj keď potreba jednotného kódovania<br />
v poslednom desaťročí narastá. Dôvodom je nielen potreba vzájomnej<br />
kompatibility (transkripčné systémy) a uľahčenie komunikácie pri výmene<br />
skúseností, no v poslednom čase aj nárast viacjazyčných systémov na rozpoznávanie<br />
reči. Na tento účel sa dnes takmer výhradne používa kódovanie SAM-<br />
PA (Speech Assestment Methods – Phonetic Alphabet).<br />
2. SAMPA – vývoj a súčasnosť<br />
102
SAMPA V SLOVENČINE A JEJ VÝZNAMZ POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI<br />
Transkripcia SAMPA vznikla na základe kódovania použitého v niekoľkých<br />
projektoch na rozpoznávanie reči na konci deväťdesiatych rokov. Každý<br />
z týchto projektov sa zaoberal jednojazyčným systémom, no pre rôzne jazyky.<br />
Kódovanie použité v týchto projektoch zobrazuje tabuľka 1.<br />
Výsledkom dohôd v rámci SAM – European collaborative speech technology<br />
assessment research – boli odporúčania pre štandardný transkripčný<br />
systém aplikovateľný na mnohé európske jazyky. Pojem transkripčný systém<br />
má v tomto prípade oveľa širší význam. Problematika bola riešená v júni 1987<br />
na University College v Londýne v rámci práce na Labelling, Transcription a<br />
Management Methods for speech databases (Fourcin – Harland – Barry – Hazan<br />
1989).<br />
Súčasťou týchto prác bolo aj vytvorenie jednotného kódovania, dnes<br />
známeho ako SAMPA abeceda. Z tabuľky č. 1 je evidentné, že kódovacie tabuľky<br />
COST 209, Esprit 291 a Alvey majú veľa spoločného. Na základe toho boli<br />
postavené základy pre európsky štandard. Z princípov formulovaných v projekte<br />
Esprit 291 vyplýva nasledujúce: ASCII znaky v IPA tabuľke ostávajú nezmenené.<br />
Nie ASCII znakom – do tej miery, do akej je to možné – sú priradené<br />
veľké ASCII znaky. Použitím týchto pravidiel na tabuľku č. 1 dostaneme ASCII<br />
reprezentáciu pre nasledujúce znaky z fonetickej abecedy IPA:<br />
IPA znaky <br />
kódované<br />
ako ASCII A O D E @ G I N T S U Y Z ? :<br />
Na základe tohto a ďalších pravidiel bola formovaná SAM-PA fonetická<br />
abeceda, prvýkrát publikovaná v práci J. C. Wellsa (1987). Táto fonetická abeceda,<br />
predstavujúca prvý – počítačovo jednoducho reprezentovateľný – kódovací<br />
systém dohodnutý medzi predstaviteľmi ôsmich európskych krajín spolupracujúcich<br />
na projekte SAM, je v tabuľke č. 2 a č. 3. Prvá verzia SAMPA pokrývala<br />
tieto jazyky: angličtina, dánčina, francúzština, nemčina, španielčina a taliančina.<br />
V čase vzniku projektu SAMPA nebol doň zahrnutý žiaden zo slovanských<br />
jazykov, z čoho vyplýva značná limitácia použitia SAMPA abecedy pre<br />
slovanské jazyky. Napriek týmto obmedzeniam sme v roku 1995 vytvorili prvú<br />
neoficiálnu verziu SAMPA abecedy pre slovenčinu (Krokavec – Filasová – Ivanecký<br />
1996).<br />
103
JOZEF IVANECKÝ<br />
V posledných piatich rokoch bola v rámci niekoľkých projektov SAMPA<br />
značne rozšírená a dnes už pokrýva mnohé – nie len indoeurópske – jazyky.<br />
104
SAMPA V SLOVENČINE A JEJ VÝZNAMZ POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI<br />
Tab. 1: Prehľad počítačovo reprezentovateľných fonetických transkripcií.<br />
105
JOZEF IVANECKÝ<br />
(Znak ’!’ v treťom stĺpci poukazuje na dohodu medzi COST 209, Esprit 291<br />
a Alvey tabuľkami. Kódovanie v DIN a ISO stĺpci sú v hexa formáte.)<br />
106
SAMPA V SLOVENČINE A JEJ VÝZNAMZ POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI<br />
Z priestorových dôvodov nie je možné, aby súčasná verzia SAMPA abecedy<br />
bola súčasťou tohto príspevku. Aktuálny stav SAMPA abecedy je možné nájsť<br />
na adrese http://www.phon.ucl.ac.uk/home/sampa/home.htm.<br />
Napriek tomu, že zo slovanských jazykov dnes existujú oficiálne verzie<br />
SAMPA abecedy pre bulharčinu, chorvátčinu, poľštinu, ruštinu a slovinčinu, oficiálna<br />
verzia pre slovenčinu a rovnako ani pre češtinu dodnes nie je k dispozícii.<br />
3. SAMPA a slovenčina<br />
Slovenskú fonetickú transkripciu ovplyvnili najmä dva činitele:<br />
• úzus v zapisovaní slovenských nárečových textov,<br />
• technické vybavenie tlačiarní.<br />
Vývin našej fonetickej transkripcie súvisí aj s inými okolnosťami: s užším<br />
využívaním transkripcie IPA u nás a s ťažkosťami pri jej používaní na zápis prejavov<br />
v slovanských jazykoch podobne ako aj v mnohých orientálnych jazykoch<br />
(Isačenko – Romportl 1966). Zostavovatelia transkripcie IPA sa totiž opierali<br />
predovšetkým o poznanie neslovanských jazykov. Vývin slovenskej transkripcie<br />
závisel ďalej od toho, že staršie výskumné ciele nevyžadovali takú techniku<br />
(podrobnosť) zápisu, akú umožňuje IPA. Zápisy slovenských textov boli určené<br />
predovšetkým domácim bádateľom. Z tohto dôvodu sa vystačilo s jednoduchým<br />
systémom založeným na gramatickej sústave jazyka, v ktorom sa na prepis hlásky<br />
volí to písmeno, ktoré je v ortografickej forme jeho základným ekvivalentom.<br />
V tabuľke č. 4 je uvedený zoznam fónov spisovnej slovenčiny kódovaných<br />
znakmi používanými v slovenskej fonetickej transkripcii podľa A. Kráľa<br />
(1983). Takáto fonetická abeceda je síce plne vyhovujúca domácemu použitiu,<br />
avšak v žiadnom prípade nevyhovuje pri použití na medzinárodnom poli, na čo<br />
upozorňujú už A. V. Isačenko a M. Romportl (1966). Tento stav v oblasti<br />
slovenskej fonetickej transkripcie pretrváva dodnes. Pri pokuse vytvoriť inventár<br />
slovenských fónov kódovaných pomocou SAMPA fonetickej abecedy sme<br />
narazili na dva základné problémy:<br />
• Nekompatibilita slovenskej fonetickej transkripcie s tranksripciou IPA.<br />
Riešenie tohto problému malo pre nás veľký význam z toho dôvodu, že<br />
SAMPA je popisovaná práve na základe znakov IPA. Predpokladá sa roz-<br />
107
JOZEF IVANECKÝ<br />
šírenosť IPA systému a na základe toho jednoduchá konverzia zo znakov<br />
IPA na znaky SAMPA.<br />
• SAMPA abeceda v čase svojho vzniku pokrývala len dosť malú časť repertoáru<br />
IPA. S určitými obmedzeniami a zavedením dvoch nových znakov ju<br />
bolo možné použiť na vytvorenie fonematickej abecedy slovenčiny (Ivanecký<br />
1996), avšak na vytvorenie jej fonetickej abecedy nebola vhodná vôbec.<br />
Tento stav bolo možné zovšeobecniť pre väčšinu slovanských jazykov.<br />
Pri vytváraní IPA verzie slovenskej transkripcie sme okrem deficitu zdrojov<br />
zaoberajúcich sa možnosťami aplikácie IPA systému na slovenčinu narazili<br />
aj na isté malé rozdiely u A. Kráľa (1983) a J. Sabola (1988) v opise transkripčného<br />
systému používaného pre slovenčinu Na naše účely sme ako východiskový<br />
zdroj použili prácu A. Kráľa (1983).<br />
Z vyššie uvedených problémov vyplýva, že naším prvým logickým krokom<br />
malo byť vytvorenie IPA systému, na základe ktorého by sme mohli vytvoriť<br />
SAMPA systém. Nakoniec ale vzhľadom na problémy so získavaním informácií<br />
108
SAMPA V SLOVENČINE A JEJ VÝZNAMZ POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI<br />
Tab. 4: Tabuľka znakov slovenskej fonetickej transkripcie<br />
o IPA systéme – získať informácie o SAMPA systéme bolo pre nás nepomerne<br />
jednoduchšie – sme v mnohých prípadoch použili opačný postup. Najprv sme<br />
vytvorili prepis zo slovenského transkripčného systému do systému SAMPA.<br />
Znak IPA pre daný prepis sme na základe tohto prepisu už len vyhľadali v príslušnej<br />
tabuľke. Napriek nekompatibilite slovenskej transkripcie s IPA systémom<br />
sa určité percento znakov prekrýva. Medzi zhodné znaky patria:<br />
a, p, b, m, t, d, n, k<br />
109
JOZEF IVANECKÝ<br />
Týmto znakom sme mohli priamo priradiť aj rovnaké SAMPA znaky, čo<br />
vyplýva z princípov definovaných pre vytváranie transkripčného systému SAM-<br />
PA. Ďalšie znaky, ktorých prepis bol relatívne bezproblémový napriek tomu, že<br />
sú pre ne použité v IPA systéme odlišné symboly, boli:<br />
, l, ľ, ň, v, f, g, x, s, z, š, ž, j, c, č, <br />
Z tohto zoznamu sa môže zdať, že prepis prebiehal bez ťažkostí. Musíme<br />
však poznamenať, že prvú verziu SAMPA pre slovenčinu sme vytvárali na<br />
fonologickej úrovni, čo značne zjednodušovalo riešenie. Dôvodom na to bola<br />
hlavne skutočnosť, že s prvou verziou SAMPA už táto úloha bola neriešiteľná<br />
bez pridania vlastných znakov. Hlavným problémom boli v tomto prípade palatálne<br />
konsonanty ť a ď. Pre ne sme v prvej verzii používali náhradné znaky.<br />
Znaky pre ť a ď boli do SAMPA zavedené až pri rozšírení SAMPA o gréčtinu,<br />
keďže žiaden z jazykov, na základe ktorých bola vytváraná prvá verzia SAM-<br />
PA, tieto palatálne konsonanty nemá.<br />
Znak pre palatalizáciu, ktorý bol zavedený skôr ako rozšírenie pre gréčtinu,<br />
je nevyhovujúci napriek tomu, že sa používa v slovenskom aj v českom<br />
transkripčnom systéme. Pretože slovenčina, rovnako ako <strong>čeština</strong>, obsahuje len<br />
palatálne a nie palatalizované konsonanty (na rozdiel napr. od ruštiny), je používanie<br />
uvedeného znaku v našich jazykoch zavádzajúce.<br />
Ďalším problémom pre nás boli samohlásky. V tomto prípade nešlo o nezrelosť<br />
SAMPA systému na opis samohlások. Problémom bol nejednotný prístup<br />
rôznych zdrojov k prepisu slovenských samohlások do IPA systému. Nakoniec<br />
sme sa rozhodli použiť informácie zo zborníka IPA z roku 1999, v<br />
ktorom bola publikovaná aj IPA pre češtinu (Dankovičová 1999). Problém dvojhlások<br />
bol vyriešený po zavedení znaku pre neslabičnosť.<br />
Na základe aktualizovanej verzie SAMPA, ktorá už pokrývala podstatne<br />
väčšiu jazykovú skupinu ako na začiatku, sme sa v roku 2000 rozhodli zrevidovať<br />
našu verziu SAMPA pre slovenčinu a previesť ju z fonologickej do fonetickej<br />
roviny. V tomto procese rozširovania sme narazili na jeden vážnejší problém,<br />
ktorý sa nám doteraz nepodarilo celkom uspokojivo vyriešiť. Je to prepis<br />
nazály n. Náš predpoklad je, že v rámci SAMPA, rovnako ako aj IPA, nie je<br />
možné pre tento prípad také podrobné rozlíšenie, a preto sa nazálne n prepisuje<br />
vždy ako n. Túto skutočnosť je však potrebné overiť.<br />
110
SAMPA V SLOVENČINE A JEJ VÝZNAMZ POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI<br />
Tab. 5: Porovnanie slovenskej transkripcie, IPA a SAMPA systému<br />
Tabuľka č. 5 obsahuje našu aktuálnu verziu SAMPA pre slovenčinu. Okrem<br />
toho sú v nej uvedené aj príslušné IPA znaky. Problematické znaky sú označené<br />
otáznikom. Keďže stále ide o pracovnú verziu, budeme vďační za akékoľvek pripomienky<br />
a návrhy, ktoré nám pomôžu ku konečnej realizácii SAMPA pre slovenčinu.<br />
4. Viacjazyčné systémy<br />
Prečo má fonetická abeceda použiteľná pre viaceré jazyky taký veľký význam?<br />
Niektoré odpovede sme naznačili už na začiatku. Ak sa na problematiku<br />
pozrieme z pohľadu počítačového rozpoznávania reči, najväčší prínos vidíme<br />
práve pri tvorbe viacjazyčných systémov. Systém, ktorý je schopný rozpoznávať<br />
viaceré jazyky, môže pracovať dvoma spôsobmi:<br />
• paralelne pracujúce systémy – každý systém vie rozpoznávať práve jeden<br />
jazyk;<br />
111
JOZEF IVANECKÝ<br />
• jeden systém schopný rozpoznávať viaceré jazyky.<br />
V prípade prvého systému s počtom jazykov neúmerne narastá požiadavka<br />
na výkon. Výhodou je, že takéto systémy dosahujú vyššiu úspešnosť rozpoznávania,<br />
avšak v prípade zlej začiatočnej identifikácie jazyka je celé rozpoznávanie<br />
chybné.<br />
Pozrime sa teraz bližšie na druhú možnosť. V tomto prípade máme systém,<br />
ktorý zvláda rozpoznávanie celého fonetického repertoáru niekoľkých rôznych<br />
jazykov. Výkonovo je menej náročný ako paralelne pracujúce systémy a aj<br />
v prípade chyby na začiatku môže správne pokračovať. Nevýhodou takýchto<br />
systémov je menšia úspešnosť rozpoznávania ako v predchádzajúcom prípade.<br />
Napriek tomu podľa nášho názoru patrí budúcnosť práve týmto systémom. Dôvodom<br />
je to, že vytvorenie kvalitného systému je časovo aj finančne značne<br />
náročné, z čoho vyplýva, že pre jazyky, ktorými hovorí len malá skupina ľudí,<br />
je to neefektívne. Použiť v takomto prípade systém natrénovaný na iný jazyk a<br />
obsahujúci potrebný fonetický inventár môže byť oveľa schodnejšie. Z tohto dôvodu<br />
je podľa nášho názoru podpora a polupráca pri vytváraní počítačovo<br />
jednoducho kódovateľnej medzinárodnej fonetickej abecedy viac než potrebná.<br />
5. Záver<br />
V príspevku sme sa zamerali na prezentáciu aktuálneho stavu pri vytváraní<br />
SAMPA abecedy pre slovenčinu a poukázali sme na dôležitosť tohto transkripčného<br />
systému z pohľadu viacjazyčných systémov na počítačové rozpoznávanie<br />
reči. V blízkej budúcnosti sa chceme zamerať na potvrdenie správnosti<br />
nami navrhovanej verzie SAMPA pre slovenčinu a doplnenie kódovania pre poslednú<br />
chýbajúcu hlásku, poprípade jej vyradenie. V poslednom kroku chceme<br />
zaradiť slovenčinu do oficiálneho zoznamu jazykov opísaných systémom SAM-<br />
PA.<br />
Literatúra<br />
FOURCIN, A. – HARLAND, G. – BARRY, W. – HAZAN, V. 1989. Speech input and output<br />
assestment–multilingual methods and standards. Ellis Horwood Limited.<br />
DANKOVIČOVÁ, D. 1999. Czech IPA, Handbook of the International Phonetic Assocation.<br />
Cambridge University Press.<br />
ISAČENKO, A. V. – ROMPORTL M. 1966. Návrh fonetické a fonologické transkripce češtiny<br />
a slovenštiny. Slovo a slovesnosť, roč. 27.<br />
112
SAMPA V SLOVENČINE A JEJ VÝZNAMZ POHĽADU VIACJAZYČNÝCH SYSTÉMOV NA ROZPOZNÁVANIE REČI<br />
IVANECKÝ, J. 1996. Automatizácia fonematickej transkripcie slovenčiny. In: Varia VII.<br />
Bratislava: SJS pri SAV.<br />
KRÁĽ, Á. 1983. Pravidlá slovenskej výslovnosti. Bratislava: Slovenské pedagogické<br />
nakladateľstvo.<br />
KROKAVEC, D. – FILASOVÁ, A. – IVANECKÝ, J. 1996. Basic Properties of the Phonetic<br />
Transcription and the Sentence Description in Slovak Language. In: COST-249 Meeting. Košice: FEI<br />
Technical University.<br />
SABOL, J. 1988. Syntetická fonologická teória. Bratislava: Jazykovedný ústav Ľ. Štúra SAV.<br />
WELLS, J. C. 1987. Computer-coded phonetic transcription. Journal of the International<br />
Phonetic Association 17, č. 2, s. 94 – 114.<br />
113
AUTOMATICKÁ TRANSKRIPCIA<br />
SLOVENČINY V POČÍTAČOVOM<br />
ROZPOZNÁVANÍ REČI<br />
Jozef Ivanecký: IBM Voice Systems, European Speech Research;<br />
Katedra kybernetiky a umelej inteligencie, Fakulta elektrotechniky<br />
a informatiky Technickej univerzity Košice (ivanecky@de.ibm.com)<br />
Abstract: The paper reacts on one of the important tasks in the computer speech recognition - phonetic<br />
transcription - whose successful management has a significant impact on the process of both training<br />
and the recognition itself. We present the problems of the automatic transcription, procedures used in the<br />
formation of the system capable to transcribe a common text from an orthographic to orthoepical form.<br />
Furthermore we deal with the need to cope with a various (not only standard) pronunciation in the automatic<br />
transcription.<br />
1. Úvod<br />
Medzi najrozšírenejšie techniky na počítačové rozpoznávanie reči patria<br />
v dnešnej dobe skryté markovovské modely (HMM) a neurónové siete (NN).<br />
V oboch prípadoch je na vytvorenie systému potrebné väčšie množstvo dát (niekoľko<br />
tisíc viet). V prípade kvalitnejších systémov ide o niekoľko desiatok až<br />
stoviek tisíc viet. Vstupom na trénovanie takýchto systémov je okrem nahratých<br />
viet aj ich fonetická transkripcia. Od jej kvality značne závisí kvalita výsledného<br />
systému.<br />
Transkripciu môžeme vytvoriť manuálne, čo je v prípade väčšieho množstva<br />
viet značne prácne a môže viesť k väčšiemu množstvu chýb. V prípade použitia<br />
takýchto údajov pri trénovaní sa znižuje úspešnosť rozpoznávania. Ešte<br />
väčší vplyv má na druhej strane nepoužitie takýchto údajov v procese samotného<br />
rozpoznávania.<br />
Druhý prístup je automatická transkripcia. Na rozdiel od prvej je pri nej<br />
možné vylúčiť mnohé chyby. Na druhej strane je vytvorenie systému na automatickú<br />
transkripciu značne zložitá záležitosť. V niektorých jazykoch natoľko<br />
zložitá, že sa od nej celkom upúšťa. Automatickej transkripcii slovenčiny, určenej<br />
však na syntézu, sa venujú Daržágín – Franeková – Rusko (1994). Na automatickú<br />
transkripciu je potrebné nájsť všeobecné pravidlá, pomocou ktorých<br />
by bolo možné fonetický, resp. fonematický prepis automaticky vytvárať. Tieto<br />
114
AUTOMATICKÁ TRANSKRIPCIA SLOVENČINY V POČÍTAČOVOM ROZPOZNÁVANÍ REČI<br />
pravidlá môžu byť formulované ako produkčné pravidlá a nazývajú sa transkripčné<br />
pravidlá.<br />
Ďalším problémom, ktorým sa zaoberáme v tomto príspevku, je problematika<br />
spisovnej výslovnosti v rozpoznávaní reči. Použitie fonologických<br />
pravidiel zadefinovaných na základe práce Á. Kráľa (1983) síce bude vytvárať<br />
spisovný prepis, ale ten nemusí, a pravdepodobne ani nebude, presne zodpovedať<br />
skutočnej výslovnosti. O to výraznejšie to bude v prípade, keď nahrávky<br />
pokrývajú všetky nárečové skupiny.<br />
2. Transkripcia všeobecne<br />
Úlohy obsiahnuté v systéme na automatickú fonetickú transkripciu môžeme<br />
rozdeliť na dve základné podskupiny:<br />
• jazykovo nezávislé úlohy<br />
• jazykovo závislé úlohy.<br />
V tejto časti sa budeme venovať prvej skupine. Zjednodušene môžeme povedať,<br />
že sem patria všetky úlohy, ktoré sú na vstupnom texte vykonané predtým,<br />
než sú aplikované vlastné jazykovo závislé transkripčné pravidlá.<br />
Segmentácia: Prvým krokom je konverzia všetkých veľkých písmen na malé<br />
a rozdelenie vstupného textu na segmenty vhodné na transkripciu. Na tomto<br />
mieste si musíme uvedomiť, čo je minimálny segment. V prípade, že<br />
počas transkripcie nechceme brať do úvahy ortoepické javy vznikajúce na<br />
hranici slov, realizujeme segmentáciu textu na jednotlivé slová. V opačnom<br />
prípade musíme vstupný text rozdeliť na jednoduché vety s vyznačením<br />
hraníc slov.<br />
Filtrácia: V tomto kroku odstraňujeme všetky nepotrebné znaky z textu.<br />
Kódovanie: Vstupný text môže byť v jednom z N rôznych kódovaní. V prípade<br />
slovenčiny je N= . V našom prípade je kódovanie vstupného textu zmenené<br />
do interného kódovania, ktoré obsahuje len 7 bitové ASCII znaky. Dôvodom<br />
pre toto riešenie bola požiadavka na ľahkú prenositeľnosť medzi<br />
jednotlivými operačnými systémami pri zaručenej čitateľnosti kódu. Celý<br />
systém je napísaný v jazyku Perl a vytváraný pod operačným systémom<br />
Linux. Z hľadiska internej štruktúry údajov bolo potrebné zaručiť jednoznačnú<br />
identifikáciu už prepísaných a ešte neprepísaných častí, keďže výstupná<br />
abeceda pozostáva taktiež zo 7 bitových ASCII znakov, vzhľadom<br />
na to, že pre výstup zo systému bola zvolená SAMPA abeceda. Na tomto<br />
mieste je dôležité poznamenať, že SAMPA abeceda použitá ako výstupná<br />
115
JOZEF IVANECKÝ<br />
abeceda v našom systéme zatiaľ nie je oficiálnou SAMPA abecedou pre<br />
slovenčinu.<br />
Použitie všetkých vyššie opísaných krokov demonštrujeme na nasledujúcej<br />
vete:<br />
Keby som bol vedel, ako je tam zle, nikam by som nešiel...<br />
Po aplikovaní prvého kroku sa dopracujeme k nasledujúcemu tvaru vstupnej<br />
vety:<br />
keby som bol vedel; ako je tam zle; nikam by som nešiel<br />
Bodkočiarka v tomto prípade oddeľuje jednotlivé segmenty. Ak by najmenším<br />
segmentom bolo slovo, nachádzala by sa za každým slovom. Ďalšími<br />
krokmi prechádza každý segment samostatne. Po aplikovaní filtrácie na tretí<br />
segment dostaneme:<br />
nikam–by–som–nešiel<br />
Výsledkom záverečného prekódovania je:<br />
!n! !i! !k! !a! !m! – !b! !y! – !s! !o! !m! – !n! !e! !S! !i! !e! !l!<br />
Znak ! slúži na jasnú identifikáciu znakov patriacich k vstupnej abecede.<br />
Znak – označuje hranicu slov. Všetky ďalšie kroky spadajú do kategórie jazykovo<br />
závislých.<br />
3. Transkripcia slovenčiny<br />
Pri vytváraní transkripčných pravidiel pre slovenčinu sme čerpali hlavne<br />
z práce Á. Kráľa (1983). Na každý segment sú postupne aplikované všetky<br />
pravidlá. Súbor pravidiel môžeme rozdeliť do skupín podľa rôznych kritérií,<br />
napríklad fonetických, ale z nášho pohľadu sa pravidlá delia na dve základné<br />
skupiny:<br />
• jednoznačné transkripčné pravidlá<br />
• nejednoznačné transkripčné pravidlá.<br />
Medzi jednoznačné transkripčné pravidlá zaraďujeme také pravidlá, pri<br />
ktorých je jednoznačný vzťah medzi ortografickou a ortoepickou reprezentáci-<br />
116
AUTOMATICKÁ TRANSKRIPCIA SLOVENČINY V POČÍTAČOVOM ROZPOZNÁVANÍ REČI<br />
ou, a teda transkripcia je možná bez akýchkoľvek ďalších znalostí. Typickým<br />
príkladom tejto skupiny pravidiel sú pravidlá pre samohlásky. Pre samohlásky<br />
sme preto zadefinovali nasledujúce transkripčné pravidlá:<br />
Krátke samohlásky: Dlhé samohlásky:<br />
a → a á → a:<br />
e → E é → e:<br />
i → I í → i:<br />
y → i ý → i:<br />
o → o ó → o:<br />
u → u ú → u:<br />
ä → E<br />
Vyššie uvedené pravidlá sú na samohlásku aplikované vtedy, ak sa samohláska<br />
nachádza medzi dvoma spoluhláskami alebo ak sa nachádza na hranici<br />
slova. Znak ä prepisujeme v našom systéme ako E z nasledujúcich dôvodov:<br />
• Výskyt spisovnej výslovnosti znaku ä je v súčasnosti minimálny. Len tento<br />
dôvod by však bol v rozpore s našimi ďalšími tvrdeniami uvedenými v<br />
nasledujúcom texte.<br />
• V slovenčine vieme len o jednom prípade, kde znak ä má význam pri<br />
rozlíšení významu dvoch slov. Ak však aj v tomto jedinom prípade<br />
berieme do úvahy predchádzajúce tvrdenie, domnievame sa, že prepis<br />
znaku ä ako E je viac než opodstatnený.<br />
Pre tretí segment z vyššie uvedeného príkladu dostaneme po aplikácii<br />
pravidiel pre samohlásky tento výsledok:<br />
!n! I !k! a !m! – !b! I – !s! o !m! – !n! E !S! !i! !e! !l!<br />
Na poslednom slove si môžeme všimnúť, že dvojhlásky ostali nezmenené.<br />
Podobné jednoznačné pravidlá, ako sme zadefinovali pre samohlásky, môžeme<br />
zadefinovať aj pre niektoré spoluhlásky, napríklad p, r, l, m a iné. Na tomto<br />
mieste je potrebné zdôrazniť, že jednoznačnosť pravidiel neznamená aj ich<br />
jednoduchosť. Pre mnohé spoluhlásky existuje viacero transkripčných<br />
pravidiel. Výber pravidla závisí od okolia znaku, na ktorý aplikujeme dané<br />
transkripčné pravidlo. Ako jednoduchý príklad nám môže poslúžiť spoluhláska<br />
m. Á. Kráľ (1983) o výslovnosti znaku m uvádza: „pred spoluhláskami v, f sa<br />
vyslovuje namiesto pernoperného [m] pernozubné [m] ... Spoluhláska [m] sa v<br />
117
JOZEF IVANECKÝ<br />
spisovnej slovenčine vyslovuje vtedy, keď po m vnútri slova bezprostredne nasleduje<br />
v, f ako v slovách domvedúca, komfort...“ (s. 153, 155). Pre znak m sme<br />
preto zadefinovali nasledujúce pravidlá:<br />
!m! !v! → F v<br />
!m! !f ! → F f<br />
!m! → m<br />
Znak F je SAMPA znakom pre nosové m. Ak dodržíme pri aplikovaní<br />
transkripčných pravidiel pre m vyššie uvedené poradie, dosiahneme presné aplikovanie<br />
pravidiel uvedených v citovanej konštatácii (Kráľ 1983). V tomto<br />
prípade sme pravidlá uviedli v internom kódovaní, aby sme ukázali princíp činnosti<br />
transkripčného algoritmu. Z uvedeného príkladu vyplýva aj to, že pravidlá<br />
pre v a f musia nasledovať za pravidlom pre m.<br />
V prípade nejednoznačných pravidiel nie je možné zadefinovať jednoduché<br />
transkripčné pravidlá, pomocou ktorých by bolo možné zaistiť správny prepis<br />
jednoduchým algoritmom len na základe okolia. V takomto prípade sú na<br />
správnu transkripciu potrebné ďalšie informácie. Ako jednoduchý príklad nám<br />
tentokrát poslúžia dvojhlásky.<br />
V spisovnej slovenčine sú štyri dvojhlásky: ia, ie, iu, ô. V prípade, že po<br />
samohláske i bezprostredne nasleduje ďalšia samohláska, nemusí ísť o dvojhlásku.<br />
Príkladom sú predponové slová (priučiť, vyučiť) a prevzaté slová<br />
(Ázia). Prepis dvojhlásky ô a slov tvorených predponou vy- a základom začínajúcim<br />
samohláskou je jednoznačný, preto sa ním nebudeme zaoberať. Problémy<br />
vznikajú až pri slovách vytvorených predponou pri- a slovným základom<br />
začínajúcim samohláskou. V tomto prípade už nie je možné len na základe<br />
jednoduchých pravidiel určiť, či dvojice samohlások ia, ie, iu tvoria samohláskovú<br />
postupnosť alebo dvojhlásku. Prístup k riešeniu tohto problému rozoberieme<br />
pre každú dvojicu samostatne:<br />
ia: Ak sa na začiatku slova nachádza postupnosť znakov pria, na určenie toho,<br />
či ide o dvojhlásku alebo samohláskovú skupinu, sme využili skutočnosť,<br />
že slovenčina má len 23 slov (pozri Kráľ 1983), v ktorých základnom tvare<br />
sa na začiatku vyskytuje postupnosť znakov pria a znaky ia tvoria dvojhlásku.<br />
V prípade, že slovo patrí do tejto skupiny slov, je použité pravidlo<br />
118<br />
^!p! !r! !i! !a! → p r i ^a<br />
v opačnom prípade
^!p! !r! !i! !a! → p r I a<br />
AUTOMATICKÁ TRANSKRIPCIA SLOVENČINY V POČÍTAČOVOM ROZPOZNÁVANÍ REČI<br />
Zoznam slov bez ohýbacej prípony bol vytvorený podľa počítačového korpusu<br />
slovenčiny a údajov z literatúry (Kráľ 1983) a začlenený do pomocnej<br />
databázy. Databáza obsahuje výnimky vzťahujúce sa na konkrétne<br />
pravidlá, v tomto prípade všetky slová začínajúce na pria, kde ia tvorí<br />
dvojhlásku a nie samohláskovú skupinu.<br />
ie: V prípade postupnosti znakov prie sme zvolili opačný prístup, keďže slov,<br />
v ktorých postupnosť pri netvorí predponu ako v predchádzajúcom prípade,<br />
je podstatne viac. V sledovanom korpuse sme našli 593 rôznych slov<br />
začínajúcich sa na prie, pričom vo všetkých prípadoch išlo o dvojhlásku<br />
a nie o spoluhláskovú postupnosť. Ani Á. Kráľ (1983) neuvádza slová,<br />
v ktorých by prie obsahovalo spoluhláskovú postupnosť, teoreticky však<br />
môžu takéto slová vzniknúť spojením prevzatého, resp. cudzieho slova začínajúceho<br />
na e a predpony pri- ako napríklad prielegantný. Pre tento<br />
prípad je, za predpokladu, že dané slovo sa nachádza v pomocnom slovníku,<br />
použité nasledujúce pravidlo: V prípade, že v slovníku existuje výnimka<br />
pre predponu prie-, ktorá je aplikovateľná na dané slovo, použije sa<br />
pravidlo<br />
^!p! !r! !i! !e! → p r I E<br />
v opačnom prípade<br />
^!p! !r! !i! !e! → p r i ^E<br />
iu: Posledná z trojice je postupnosť iu. Keďže slovenčina nemá bezpredponové<br />
slovo začínajúce na priu, kde iu predstavuje dvojhlásku, je možné na každé<br />
slovo aplikovať nasledujúce pravidlo<br />
^!p! !r! !i! !u! → p r I u<br />
V sledovanom korpuse boli jedinými slovami s postupnosťou priu slová<br />
odvodené od slova priučiť. Celkový výskyt dvojhlásky iu je v slovenčine<br />
veľmi nízky, podľa J. Mistríka (1985) je to len okolo 0,016 %.<br />
119
JOZEF IVANECKÝ<br />
Postupy uvedené pre prípad nejednoznačnosti pravidiel pri dvojhláskach<br />
používame aj pre spoluhlásky, rovnako je to pri jednoznačných pravidlách. Po<br />
aplikovaní všetkých pravidiel v systéme na náš tretí segment uvedený na začiatku,<br />
získame nasledujúci prepis:<br />
J I k a m – b I – s o m – J E S i ^E l<br />
4. Správne verzus spisovne<br />
V predchádzajúcej časti sme predpokladali, že text, ku ktorému potrebujeme<br />
vygenerovať fonetickú transkripciu, je vyslovovaný spisovne a zodpovedá<br />
pravidlám, ktoré uvádza Á. Kráľ (1983), a teda rovnako aj nášmu výstupu,<br />
ktorý bol podľa týchto pravidiel vytvorený. Hovorená forma jazyka sa v rôznych<br />
oblastiach viac či menej líši od formy spisovnej a zanedbanie tejto skutočnosti<br />
v prípade počítačového rozpoznávania reči môže viesť k chybnému<br />
označeniu niektorých segmentov reči v prípade, že je tento proces vykonávaný<br />
automaticky a v zozname možných výslovností sa výslovnosť, ktorá presne<br />
zodpovedá nahovorenému textu, nevyskytuje.<br />
Na získanie správneho prepisu výslovnosti sme museli do nášho systému<br />
pridať možnosť generovať aj takzvanú „nespisovnú“ výslovnosť. Pri tvorbe<br />
tohto druhu pravidiel sme čerpali z vlastných skúseností v oblasti rozpoznávania<br />
reči, ako aj z literatúry (Kráľ 1983). Na základe vlastných skúseností<br />
sme vyrobili pravidlá na prepis dlhých samohlások na krátke, čo sa nám<br />
osvedčilo v prípade hovoriacich z východných oblastí Slovenska. Z práce Á.<br />
Kráľa sme napr. čerpali informáciu o hláske m: „V neutrálnom a vyššom štýle<br />
výslovnosti sa v slovenčine nepripúšťa výslovnosť pernozubnej spoluhlásky<br />
m namiesto n, ň v slovách ako dezinfekcia, fanfáry, infekcia, informácia,<br />
kanva, konfekcia, konferencia, konflikt, konvergencia, konvoj, panvica, panvička,<br />
skonfiškovať a v slovných spojeniach ako ten váš, len volaj, jeleň vyskočil“<br />
(Kráľ 1983, s. 155). Pre nás bolo toto pravidlo indikáciou, že takáto<br />
výslovnosť sa môže vyskytnúť, a pridali sme ho medzi pravidlá na generovanie<br />
nespisovnej výslovnosti.<br />
5. Záver<br />
Cieľom tohto príspevku bolo poukázať na problematiku automatizácie<br />
fonetickej transkripcie a prezentovať nami zvolený spôsob riešenia tohto problému.<br />
Doterajšie výsledky dosiahnuté v budovaní systému sú porovnateľné s vý-<br />
120
AUTOMATICKÁ TRANSKRIPCIA SLOVENČINY V POČÍTAČOVOM ROZPOZNÁVANÍ REČI<br />
sledkami podobných systémov v iných jazykoch. Naším ďalším cieľom je zvýšenie<br />
robustnosti systému zameraním sa na frekventované prevzaté slová v<br />
slovenčine, a tým aj rozšírenie databázy výnimiek. Z dlhodobejšieho hľadiska<br />
sa chceme zamerať na kvalitu generovania nespisovnej výslovnosti, čo je však<br />
už podmienené analýzou výsledkov reálnych systémov.<br />
Poďakovanie. Chceli by sme na tomto mieste poďakovať pracovníkom<br />
Jazykovedného ústavu Ľudovíta Štúra v Bratislave za ústretový prístup a možnosť<br />
použitia korpusu slovenčiny, bez ktorého by sme neboli schopní dopracovať<br />
sa k mnohým z našich záverov.<br />
Literatúra<br />
DARŽÁGÍN, Sachia – FRANEKOVÁ, Ľudmila – RUSKO, Milan. 1994. Konverzia a rečová<br />
syntéza slovenčiny. Jazykovedný časopis, roč. 45, č. 1. s. 31 – 43.<br />
KRÁĽ, Ábel. 1983. Pravidlá slovenskej výslovnosti. Bratislava: Slovenské pedagogické<br />
nakladateľstvo.<br />
MISTRÍK, Jozef. 1985. Frekvencia tvarov a konštrukcií v slovenčine. Bratislava: Vydavateľstvo<br />
VEDA.<br />
121
VIACJAZYČNÝ VÝSLOVNOSTNÝ<br />
SLOVNÍK VLASTNÝCH MIEN A NÁZVOV<br />
LOKALÍT<br />
Peter Ďurčo: Akadémia Policajného zboru, Bratislava (durco@<br />
minv.sk)<br />
Abstract: The ONOMASTICA project has successfully produced an important European linguistic resource<br />
in the form of a pronunciation lexicon containing 1.8 million European names in 7 languages, together<br />
with their pronunciations, namely Czech, Slovak, Slovenian, Polish, Estonian, Latvian and<br />
Ukrainian.<br />
The orthographic data is displayed using a True-Type font which matches the MS-DOS code<br />
page of the PC which produced the original data. For most Copernicus languages, this is CP852, but for<br />
Ukrainian, using Cyrillic alphabet, CP866 was used. Transcription data is mapped onto IPA from the<br />
original language-specific ASCII phonemic alphabets developed by each Copernicus partner, and displayed<br />
using the freely available IPAKiel font. The transcription display may be switched between the<br />
ASCII and IPA versions.<br />
Letter-to-sound (grapheme-to-phoneme) correspondences can be difficult to specify, even in text<br />
which does not contain names. The central observation here is that grapheme-to-phoneme correspondences<br />
are different for names with different languages of origin and that the general phonological systems<br />
of languages are only partially reflected in the names of those languages. Their anomalous pronunciations<br />
then often 'fossilise', and even when the names themselves become long-established, their phonemic<br />
form causes problems for grapheme-to-phoneme conversion rules.<br />
The ONOMASTICA lexicon will form the foundation of a range of products in the telematics sector<br />
and its emergent use in speech recognition and speech synthesis systems. Full coverage of names for Europe<br />
will be an on-going task for the language industry in Europe. The ONOMASTICA lexicon provides a very<br />
good research tool to enable to develop new services which require pronunciation of names. The ONO-<br />
MASTICA lexicon provides a resource for evaluating multi-lingual systems.<br />
Cieľom projektu COP-58 ONOMASTICA, ktorý bol financovaný Európskou<br />
komisiou v rámci programu COPERNICUS, bolo vytvorenie výslovnostného<br />
slovníka priezvisk, krstných mien, názvov lokalít a ulíc. Projekt viedol<br />
prof. Mervyn Jack 1 z Univerzity v Edinburgu. Do projektu bolo zapojených<br />
sedem stredo- a východoeurópskych krajín. 2 Projekt sa začal realizovať v janu-<br />
1 Kontakt: Prof. Mervyn Jack, Centre for Communication Interface Research, The University of<br />
Edinburgh, 80 South Bridge, Edinburgh EH1 1HN, UK, e-mail: Mervyn Jack@ed.ac.uk<br />
2 Zúčastnené inštitúcie a riešitelia: Pavel Kolár, Language Institute, Silesian University, Opava,<br />
Czech Republic, e-mail: Pavel.Kolar@fpf.slu.cz; Peeter Päll, Inst. of Estonian Language, Estonian Academy<br />
of Sciences, Tallinn, Estonia, e-mail: peeter@pea.kki.ee; Andrejs Spektors, Inst. of Mathematics<br />
122
VIACJAZYČNÝ VÝSLOVNOSTNÝ SLOVNÍK VLASTNÝCH MIEN A NÁZVOV LOKALÍT<br />
ári 1995 a bol ukončený v marci 1997. Informácie o výsledkoch projektu za<br />
slovenčinu som predstavil na rôznych fórach a boli aj publikované. 3 Zatiaľ však<br />
nedošlo k ich širšiemu využitiu. Hlavný problém spočíva v (ne)dostupnosti dát.<br />
Vzhľadom na rozsah dát nie je možné ich publikovať v tlačenej podobe a všetky<br />
výsledky existujú len v elektronickej verzii. Právo voľne poskytovať údaje<br />
má každý spoluriešiteľ len v rámci svojej časti. 4<br />
Hlavnou úlohou riešiteľov bolo spracovanie pravidiel výslovnosti vlastných<br />
mien pre automatický výslovnostný transkriptor. Vypracovanie transkripčných<br />
pravidiel výslovnosti vlastných mien bolo o to zložitejšie, že pri menách nefungujú<br />
štandardné výslovnostné pravidlá a mechanizmy, typické pre daný jazyk. Jednou<br />
z príčin týchto výslovnostných „anomálií“ je veľká mobilita mena spojená s vrstvením<br />
výslovnostných podôb v závislosti od miery jeho ustálenia a adaptovanosti.<br />
Pomenovania sú pritom veľmi často nositeľmi rôznych „fosilizovaných“ prvkov.<br />
Veľmi zaujímavým sprievodným produktom z hľadiska korpusovej lingvistiky<br />
však bolo zhromaždenie prakticky úplných zoznamov krstných mien,<br />
priezvisk, názvov lokalít, názvov ulíc, v niektorých prípadoch aj názvov firiem<br />
v siedmich jazykoch. Vo väčšine prípadov sa to podarilo vďaka využitiu databáz<br />
registrov obyvateľov v jednotlivých krajinách. Aj v prípade slovenčiny boli<br />
využité dáta bývalého Centrálneho registra pobytu obyvateľov. Takýmto spôsobom<br />
boli získané prakticky úplné údaje k uvedeným kategóriám mien 5 , čo otvá-<br />
and Computer Science, University of Latvia, Riga, Latvia: e-mail: aspekt@ailab.mii.lu.lv; Peter Ďurčo,<br />
Dept. of Foreign Languages, Police Academy, Bratislava, Slovakia, e-mail: durco@ minv.sk; Zdravko<br />
Kačic, Faculty of Technical Sciences, University of Maribor, Maribor, Slovenia, e-mail: kacic@unimb.si;<br />
Jevgenyj Ludovik, Institute of Cybernetics, Ukraine Academy of Sciences, Kiev, Ukraine, e-mail:<br />
lud@lambda.kiev.ua; Prof. Wiktor Jassem, Inst. of Fundamental Technologogical Research, Polish Academy<br />
of Sciences, Poznań, Poland, e-mail: jassem@math.amu.edu.pl<br />
3 ĎURČO, Peter. 1996. Vlastné mená na Slovensku. In: Jozef Mlacek (ed.), Studia Academica<br />
Slovaca, roč. 25. Bratislava: Stimul. s. 54 – 60; ĎURČO, Peter. 1997. Počítačové spracovanie vlastných<br />
mien na Slovensku. In: Slavomír Ondrejovič (ed.), <strong>Slovenčina</strong> na konci 20. storočia, jej normy a<br />
perspektívy. Sociolinguistica Slovaca, roč. 3. Bratislava: Veda. s. 312 – 325; ĎURČO, Peter – MED-<br />
ĽA, Milan – KOŠA, Jozef. 1996. Onomastica. Copernicus. Kop.exe. Users’ Guide. Dept. of Foreign<br />
Languages, Police Academy of the Slovak Republic and Central Residence Register of the Inhabitants<br />
of the Slovak Republic. Bratislava.; ĎURČO, Peter. 1996. Names in Slovakia: Occurrence, pronuntiation,<br />
transcription in computer compilation. In: Keith Edwards (ed.), Onomastica Research Colloquium<br />
digest, No. 1, 23. February, University of Edinburgh. s. 1 – 15.<br />
4 CD s dátami možno získať na adrese: ELRA - elra@calvanet.calvacom.fr<br />
5 Kvantitatívne údaje pre jednotlivé kategórie: krstné mená – 8433; priezviská – 208011; ulice –<br />
8142; lokality – 4060.<br />
123
PETER ĎURČO<br />
ra novú perspektívu pre onomastické výskumy na Slovensku, pretože všetky<br />
mená obsahujú kvantitatívny údaj (počet nositeľov daného krstného mena,<br />
resp. priezviska) s priradením ku všetkým lokalitám jeho výskytu, resp. je možné<br />
zistiť výskyt všetkých priezvisk v príslušnej lokalite.<br />
V tabuľke je uvedená veľkosť korpusov mien za jednotlivé krajiny:<br />
Krajina Počet<br />
Česká republika 244025<br />
Estónsko 208380<br />
Lotyšsko 245331<br />
Poľsko 244632<br />
Slovensko 228646<br />
Slovinsko 283449<br />
Ukrajina 251579<br />
Spolu 1 705256<br />
Pred spustením aplikácie a prezeraním dát je nevyhnutné nainštalovať príslušné<br />
fonty, ktoré používa program a nie je možné ich nainštalovať automaticky.<br />
Ide o štyri skupiny fontov: fonty IPAKiel na zobrazovanie výslovnosti znakmi<br />
medzinárodnej fonetickej abecedy, ďalej tzv. fonty MRPA (Machine Readable<br />
Phonetic Alphabet) na zobrazenie pomocou ASCII, font NRB CP852 na korektné<br />
ortografické zobrazenie znakov pre MS-DOS s kódovou stránkou 852. Špeciálne<br />
fonty existujú pre ukrajinskú databázu s kódovou stránkou 866.<br />
Pre každý jazyk sú dáta uložené v dvoch ASCII textových formátoch. Prvá<br />
tabuľka obsahuje východiskovú grafickú podobu každej jednotky, druhá tabuľka<br />
obsahuje priradené výslovnostné polia, ktoré môžu obsahovať aj viac riadkov,<br />
ak existujú dva alebo viaceré výslovnostné varianty.<br />
Aj keď možno prezerať dáta v ktoromkoľvek bežnom databázovom programe,<br />
dochádza k ťažkostiam pri čítaní ortografických znakov v jednotlivých<br />
jazykoch alebo pri zobrazovaní transkripčných symbolov v IPA štandarde. Aby<br />
bolo možné zobraziť dáta korektne, bol vytvorený špeciálny prehliadač<br />
COPDB, ktorý tento problém rieši. Používateľská obrazovka má nasledujúci<br />
tvar:<br />
124
VIACJAZYČNÝ VÝSLOVNOSTNÝ SLOVNÍK VLASTNÝCH MIEN A NÁZVOV LOKALÍT<br />
V prvej položke je zobrazená grafická podoba. Druhá položka zobrazuje<br />
výslovnosť, pričom tento nástroj umožňuje aj prepínanie medzi transkripciou<br />
pomocou znakov ASCII a IPA. Položka „Etymology“ označuje krajinu výskytu<br />
mena, ďalej je zobrazený kód mena v databáze. Položka „Quality“ označuje<br />
stupeň presnosti transkripčného prepisu v zmysle výslovnostnej normy, pričom<br />
I. stupeň znamená expertne overenú výslovnosť, II. stupeň výslovnosť skontrolovanú<br />
a upravenú po automatickej transkripcii, III. stupeň označuje výslovnosť,<br />
ktorá bola vykonaná automaticky len pomocou automatického transkriptora<br />
na základe predprogramovaných pravidiel. Položka „Comments“<br />
označuje kategóriu pomenovania.<br />
Myslím si, že výsledky tohto projektu možno využiť na ďalší výskum<br />
v oblasti fonetiky, onomastiky a počítačovej lingvistiky.<br />
125
ČESKÝ NÁRODNÍ KORPUS:<br />
STAV V ROCE 2001<br />
František Čermák: Ústav Českého národního korpusu, Filozofická<br />
fakulta University Karlovy, Praha (Frantisek.Cermak@ff.cuni.cz)<br />
Abstract: In a broad context, the contributions surveys the curreny state of preparation, build-up and perspectives<br />
of the Czech National Corpus and its various subcorpora. The corpus grew up out of real need of<br />
better linguistic data and its relevance for various fields of linguistics and outside is paid some attention.<br />
Some of the basic corpus-linguistics terms are revisited and redefined as well as a survey of current needs is<br />
outlined. Finally, various subcorpora, especially the 100-million contemporary corpus of written Czech are<br />
described and various criteria for its build-up discussed and given.<br />
1. Úvod<br />
Současný svět si stále více uvědomuje cenu informace, a to nejen jako pouhého<br />
zboží, ale především jako nezbytného předpokladu pro celkový rozvoj<br />
společnosti. Zvláštní místo tu zaujímá informace jazyková, o jazyku a z jazyka.<br />
Jazyk není jen nejcennější kulturní statek a dědictví společenství, které už dávno<br />
není jednonárodní, který podmiňuje a umožňuje existenci veškeré slovesné<br />
kultury od literatury přes divadlo a žurnalistiku až po osobní korespondenci i<br />
ústní komunikaci. Jazyk nám umožňuje své myšlenky a názory přenášet překladem<br />
jazykovým do jiné společnosti a nazpátek a překladem kulturním nahlížet<br />
do vlastní minulosti a udržovat kontinuitu toho, co stojí za to. Vedle své úlohy<br />
nástroje všeobecné komunikace společnosti je však jazyk i médiem vědeckého<br />
styku, nástrojem techniky a obchodu a všech dalších oblastí společenského<br />
života zrovna tak jako nástrojem sebereflexe a poznání dění kolem nás, a bez<br />
něj by tento život prostě nebyl. Jazyk je však přitom takovou samozřejmostí,<br />
jakkoliv nezbytnou, že se na něj prostě zapomíná, zapomíná se – především investičně<br />
– na to, že je o něj jako o výsostný statek kulturní třeba pečovat co nejlépe<br />
(a nejen o statky hmotné, průmyslové apod.), a tedy co nejlépe ho poznávat,<br />
toto poznání využívat a zpřístupňovat ho všem. Dnes je už zřejmé, že<br />
až dotud nevídanou, epochální možnost jeho poznání tu nabízejí komputery,<br />
které hloubkou, šíří, kvalitou i objevností své nabídky předčí cokoliv, co tu bylo<br />
až dosud.<br />
126
ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001<br />
Mluví-li jeden z dokumentů Evropských společenství v r. 1991 (Commission<br />
1991, s. 20) o tom, že „Technologie mluvy a jazyka vyžadují rozsáhlé<br />
databázové korpusy... pro výzkum a rozvoj, účely testování a k podpoře spisovatelů<br />
a překladatelů“, a odpovídá tak na otázku Proč korpus?, pak o dva roky<br />
později člen téže komise ES DG XIII J. Soler (Soler 1993) si už tuto otázku<br />
vůbec neklade a uvažuje spíše o způsobech jeho využití: „...rozvoj standardizovaných<br />
korpusů a metod a nástrojů jejich správy i aplikace je dlouhodobý podnik<br />
přesahující možnosti projektu individuálního. Nesmírnost úkolu, jehož má<br />
být dosaženo, i jeho náklady naznačují, že standardizované korpusy mají být<br />
budovány spoluprací skrze evropskou koordinaci národních snah, která je otevřená<br />
mezinárodním výměnám, i to, že výsledné korpusy mají být veřejné a<br />
orientované tak, aby uspokojovaly různé potřeby uživatelů.“<br />
2. Pojem jazykového korpusu<br />
Jazykovým korpusem lze rozumět vnitřně strukturovaný, unifikovaný a<br />
obvykle i oindexovaný a ucelený rozsáhlý soubor elektronicky uložených a zpracovávaných<br />
jazykových dat většinou v textové podobě, organizovaný se zřetelem<br />
k využití pro určitý cíl, vůči němuž pak je také považován za reprezentativní.<br />
Existence a smysl tvorby korpusu vycházejí především ze dvou základních<br />
teoretických předpokladů a jazykových faktů zároveň:<br />
1) data nejrůznějšího druhu se v korpusu nacházejí ve své přirozené kontextové<br />
podobě a užití, což umožňuje jejich všestranné a objektivní studium<br />
a indukci závěrů;<br />
2) velký rozsah plánovitě vybudovaného korpusu minimalizuje to, že čistou<br />
náhodou – k níž u malých rozsahů dat dochází – převládnou zvláštní a<br />
okrajová užití jazykových jednotek nad základními a typickými; minimalizuje<br />
se tak však i problematická indukce opřená o nedostatečnou analogii.<br />
Vedle primárně sledované reprezentativnosti korpusu v různém smyslu<br />
a míře (včetně škály typický–zvláštní/výjimečný) se u tvorby korpusu též obvykle<br />
zdůrazňuje i nutnost zachytit v něm variabilitu jazyka v různém smyslu,<br />
obojí výhodně i v kvantifikované podobě.<br />
Možnost správy hromadných jazykových dat a práce s nimi na počítači<br />
vedou ve svých důsledcích nejen k nesmírnému zrychlení a usnadnění lingvistovy<br />
práce, ale i k jejímu dotud nevídanému zkvalitnění. Data takto získaná,<br />
která lze průběžně snadno modernizovat a doplňovat, tak představují dnes absolutně<br />
nejbohatší a nejrealističtější zdroj poznání jazyka vůbec. Možnostmi<br />
127
FRANTIŠEK ČERMÁK<br />
kvalitativními i kvantitativními tento zdroj vysoko předčí všechny lingvistovy<br />
pracně budované kartotéky a archivy minulosti a nabízí se tak proti dosavadní a<br />
tradiční individuální lingvistově introspekci a elicitaci informace od rodilých<br />
mluvčích. Proto také je jazykový korpus předpokladem ke skutečné revoluci v<br />
práci s jazykem a i proto se zcela právem o posledním desetiletí tohoto století<br />
mluví také jako o dekádě korpusové lingvistiky. Mluví-li se v přírodních a dalších<br />
vědách zcela samozřejmě o základním výzkumu, na který navazuje veškerý<br />
další výzkum a aplikace, pak v jazykovědě se právě takovým zdrojem a předpokladem<br />
základního výzkumu stává elektronický korpus. Docenění jeho prvotního<br />
významu vede pak i k pochopení toho, že jeho budoucí studium a široké využívání<br />
znamená skutečně novou epochu v lingvistice, nový způsob výzkumu<br />
jak co do kvality a povahy dosahovaných výsledků (zahrnující do značné míry<br />
poprvé i ve vědě obecně nutnou možnost verifikace), tak ovšem i podoby a povahy<br />
metodologie práce s ním; své důsledky bude mít i pro filozofii přístupu k<br />
jazyku vůbec. Už na samotném začátku tu těsně spolupracují lingvisté s matematiky<br />
a odborníky v komputerové vědě a nové problémy a cíle, které se vynořují<br />
v průběhu práce, si vyžadují a budou vyžadovat zcela nové způsoby řešení a<br />
exaktnější metodologie, užité techniky a nástroje. Rostoucí význam tu nabývá<br />
lingvistické modelování a statistické metody, propojované do probabilitních<br />
modelů, ale i fuzzy logika apod. Lingvistika se právě až v této fázi stává i prakticky<br />
plně interdisciplinární.<br />
3. Korpusová data<br />
Je třeba lišit mezi povahou jazykových dat (data vnější a hrubá) ještě před<br />
jejich vstupem do korpusu a po jejich vstupu do něj (data vnitřní a strojově<br />
čitelná, resp. zpracovatelná), kdy nabývají především unifikovanou podobu.<br />
Zdrojem korpusových dat (vnějších) jsou obě manifestace jazyka, psaná<br />
i mluvená, resp. psané i mluvené texty, ne však zatím ve stejné míře, protože<br />
záznam mluveného jazyka a jeho převod do počítačově čitelné podoby (vlastní<br />
magnetofonová nahrávka a následný přepis) je dosud velmi nákladný; s<br />
ohledem na zlepšující se možnosti počítačového rozpoznávání mluvy a jejího<br />
přímého záznamu komputerem se však situace může dramaticky změnit.<br />
Dosavadní zdroje dat se podle dostupných prostředků člení v zásadě na tři<br />
druhy. Nejlevnější a nejsnadněji využitelná jsou data v podobě elektronické sazby<br />
textů, kterou dnes užívá už většina centrálních novin a časopisů a některá<br />
nakladatelství. Druhou možností, různě úspěšnou v souvislosti s mírou typo-<br />
128
ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001<br />
grafické náročnosti textu, je načítání textů, resp. jejich skenování do počítače<br />
pomocí scannerů; na rozdíl od snímání obrázků je snímání písma v jeho různorodosti<br />
a různé velikosti (jen typografických sad jsou stovky), a tedy i optické<br />
rozpoznávání znaků (OCR, Optical Character Recognition) spíše složitější a<br />
vyžaduje velmi výkonný a specializovaný software. Zvlášť složité texty, např.<br />
slovníkové, však přesto při tom vykazují mnoho chyb a vynucují si mnoho<br />
oprav. Třetí možností je konečně manuální přepisování potřebných textů do počítače<br />
písařkou (prostřednictvím některého z běžných editorů).<br />
Žádný z těchto způsobů tedy nevede k potřebným datům přímo a snadno,<br />
vždy je zapotřebí kontroly a oprav, většinou bohužel i odborných (nejjednodušší<br />
je paradoxně způsob třetí, který jazykového odborníka průběžně nepotřebuje),<br />
každý z nich však navíc vyžaduje řadu větších či menších programátorských a<br />
odborných zásahů v podobě preeditace či posteditace, různých konverzí, sjednocení<br />
aj. (viz 4., korpusová data interní), často v podobě zvláštních dalších<br />
programů. Ať už je elektronický text pořízen tím či oním způsobem (převádí se<br />
napřed většinou do neutrálního mezinárodního ASCII formátu), má pak v zásadě<br />
trvalou, neomezenou platnost a lze ho opakovaně využít při různých dalších příležitostech,<br />
což ho dělá zvlášť cenným. Doprovodnými faktory bývají i některé aspekty<br />
další, zvláště právní.<br />
Protože počet korpusů i jejich rozsah rychle roste, je dnes už zřejmá jak<br />
potřeba standardizace sběru a označování textů, tak možnost jejich vícenásobného,<br />
sdíleného použití (reusability, znovupoužitelnost). Tomu prvnímu je<br />
věnovaná mezinárodní iniciativa TEI (Text Encoding Initiative), sponzorovaná<br />
mj. Evropskými společenstvími a americkou vládou; TEI v několika dokumentech<br />
doporučuje společný výměnný formát textů, zásad kódování nových a<br />
způsoby převodu mezi formáty existujícími. Její různé subkomise už mj. specifikovaly<br />
a doporučily i vhodné znakové sady, zásady textové analýzy v návaznosti<br />
na různé obory i kódovací metajazyk. Za ten byl pro deskriptivní rámec<br />
syntaktické analýzy zvolen SGML (Standard Generalized Markup Language),<br />
uznávaný od r. 1986 jako mezinárodní standard (ISO 8879). Opakovaná, obecná<br />
znovupoužitelnost textů, aktuální zvl. ve světle nákladů na pořízení a přípravu<br />
elektronických textů i jejich mezinárodní výměny, vyžaduje ke své realizaci<br />
vyřešení především otázek polyfunkčnosti korpusu, jeho polyteoretičnosti (tj.<br />
nepoplatnosti jedné úzké teorii), dostupnosti, intelektuálních vlastnických práv,<br />
reprezentativnosti, standardizace aj.<br />
129
FRANTIŠEK ČERMÁK<br />
4. Český národní korpus<br />
Pro češtinu vznikl r. 1994 z inciativy interdisciplinární skupiny Počítačového<br />
fondu češtiny a spojením sil více univerzitních pracovišť a Ústavu pro<br />
jazyk český Akademie věd České republiky Ústav českého národního korpusu,<br />
jehož cílem bylo a je vybudovat rozsáhlý a víceúčelový korpus češtiny obecné povahy<br />
na půdě Filosofické fakulty University Karlovy, korpus, který se nazývá<br />
Český národní korpus. Svou povahou jde o projekt akademický, a tedy nekomerční,<br />
i když jedním ze sponzorů je jedno české nakladatelství. I když je nedostatek<br />
novějších jazykových dat, která by měla být v lexikálním archívu Akademie věd<br />
České republiky, ale bohužel nejsou, jednou z prvotních motivací ke tvorbě ČNK,<br />
promítly se do snah o jeho vytvoření i motivace další a záhy začalo být jasné, že o<br />
takovou informační základnu můžou mít zájem vlastně všichni synchronní lingvisté,<br />
i když si to zatím ne všichni připouštějí a postupný růst ČNK se vždy nesetkává<br />
s obecným porozuměním; nevraživost či lhostejnost zvláště některých<br />
starších lingvistů je však jen přirozeným průvodním jevem, známým odleckud.<br />
Typově projekt Českého národního korpusu předpokládá především vznik<br />
korpusu současných českých textů a klasické slovníkové databáze, které se<br />
můžou každá skládat z více částí. Vedle vlastního korpusu, u kterého se sleduje<br />
naplňovaná struktura složení, vzniká však i volněji pojatý elektronický archív.<br />
Všechny texty se mimoto evidují ve zvláštní evidenční databázi.<br />
Korpus současných českých textů, základní část ČNK, sloužící mj. i jako<br />
vydatný zdroj pro další dvě obecné složky, byl pro první fázi práce uvažován<br />
jako stomiliónový. tj. o rozsahu 100 milónu textových slov (pro srovnání uveďme,<br />
že zahraniční zkušenosti i konkrétní projekty, např. uvedený Britský<br />
národní korpus, dnes ukazují na potřebu 100 a více miliónů výskytů). Tento<br />
první korpus je dokončený a byl uvolněn pro odbornou veřejnost r. 2000. Je nesporné,<br />
že v souvislosti s jeho výstavbou a využíváním se hledala a hledá odpověď<br />
na řadu otázek, především:<br />
– reprezentativní a vyvážené zdroje konkrétních textů, získaných<br />
v elektronicky hotové podobě či optickým scannováním,<br />
– způsobů převodu/konverze textů do jednotného formátu, kompatibilního<br />
mj. i podle mezinárodních standardů (zvl. TEI),<br />
– jejich sloučení v organický celek, popř. propojení s dalšími složkami,<br />
– lingvistického označkování a utřídění i<br />
130
ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001<br />
– efektivního softwarového mapování a analýzy, korelování jeho<br />
různých částí a především<br />
– rychlého prohlížení a vyhledávání podle dané potřeby, popř.<br />
shromáždění vybrané, ale roztroušené informace v ucelený souhrn,<br />
s nímž lze dál pracovat.<br />
Dodejme, že řada nakladatelství a redakcí je dnes už ochotná své texty,<br />
ukládané elektronicky, dávat k dispozici, i když ne však všechna; na druhé<br />
straně však řada typů textu není k dispozici a je třeba je skenovat.<br />
Konkordanční báze, tvořená abecedně uspořádanými tvary slov s jejich<br />
kontexty a jejich frekvencí ve formátu KWIC, je ideálním východiskem jak pro<br />
tvorbu slovníků tak studium syntaxe či analýzu mikrostylistickou, a tedy i pro<br />
poznání kombinatoriky jazyka obecně či zjištění tematizace textů. Mívá obvykle<br />
jen výběrovou ad hoc povahu vždy pro daný účel a může se pružně obměňovat.<br />
Hlavním důvodem této výběrovosti jsou neúnosně velké rozsahy potřebných<br />
konkordancí, které jakožto dvacateronásobky apod. délky původních textů<br />
jsou velkým břemenem pro počítačovou paměť. Lze proto počítat se základní a<br />
typologizovanou referenční konkordancí stálou, na jejímž základě bude možné<br />
se kvalifikovaně rozhodovat o potřebě tvorby dočasných konkordancí dílčích. I<br />
zde vyvstávají tytéž otázky a potřeba odpovědí na ně jako u textového korpusu;<br />
přibývá pak potřeba speciálního softwaru tvorby konkordancí a především<br />
programátorského zvládnutí úskalí obrovské záplavy jazykových dat, často pro<br />
sledovaný cíl redundantních.<br />
Vedle případných konkordancí se zakládají i slovníkové databáze. Budou<br />
široce pojaté tak, aby – mj. v propojení s textovým korpusem – mohly sloužit<br />
jako základní referenční zdroj pro autory budoucích slovníků nejrůznějšího<br />
druhu. Z těchto tří typů svou strukturací do mnoha polí budou bází nejpropracovanější.<br />
Jejich prvním obsahem se stanou největší slovníky současného českého<br />
jazyka a na jejich pozadí bude možné později pro nový slovník češtiny snadno<br />
ověřovat, za použití materiálu nabízeného z textových korpusů, co se v jazyce<br />
změnilo, co chybí, jaké jsou objektivní proporce jevů aj. Konkrétně budou tuto<br />
náplň tvořit především stávající slovníky: čtyřsvazkový Slovník spisovného<br />
jazyka českého (SSJČ) o rozsahu 192 000 hesel na 5600 stranách, který už byl<br />
opticky sejmut a dál se zpracovává; hotové 2. vydání jednosvazkového Slovníku<br />
spisovné češtiny o rozsahu asi 48 000 hesel vyšlo i v disketové podobě a je<br />
tedy počítačově k dispozici hned. Protože i tato databáze bude složena z několika<br />
dílčích, může do sebe zahrnout po příslušné konverzi i počítačově už dostupné<br />
slovníky další, zvl. retrográdní, popř. frekvenční apod.; přepsat by bylo<br />
131
FRANTIŠEK ČERMÁK<br />
zřejmě vhodné pro tyto účely velkou část novodobých vrstev lexikografického<br />
archívu Ústavu pro jazyk český, které už do SSJČ vstoupit nemohly.<br />
Všechny formy či mody existence korpusu mj. závisejí na dobrém a rychlém<br />
vyhledávacím programu, resp. programech; většinou je přímo součástí základních<br />
databázových programů obou typů (viz výše), popř. i programu konkordančního.<br />
Některá členění uvnitř uvedených složek Českého národního korpusu byla<br />
naznačena už výše. Český národní korpus je střechový název pro několik entit<br />
a složek v různém stadiu rozpracovanosti a vývoje. Všechny složky jsou vytvářeny<br />
výhradně z elektronických textů různé povahy, zaměření a rozsahu. Základní<br />
dělení je na (1) synchronní korpus a (2) diachronní korpus. V rámci<br />
synchronního korpusu dominuje svou velikostí (1A) synchronní korpus psaný,<br />
patří sem však také (1B) synchronní korpus mluvený (zvl. Pražský mluvený<br />
korpus) a (1C) synchronní korpus nářeční. Zčásti obdobné je dělení diachronního<br />
korpusu na složku (2A) diachronního korpusu psaného a (2B) diachronního<br />
korpusu nářečního. Nářeční korpusy obojího typu však mají z praktických<br />
důvodů zatím jen výhledovou povahu. Postupně budovanou složkou,<br />
která má však především pomocný charakter, je lexikografická databáze složená<br />
z dostupných elektronických slovníků různého druhu. I když u nás vznikají<br />
specializované korpusy i jiné a jinde, je ČNK pro češtinu a Česko jediným<br />
zdrojem svého druhu a jako takový má i určitý mezinárodní význam. ČNK je<br />
bezprecedentně největší informační bází v ČR a patří dnes i k významným evropským<br />
projektům.<br />
V jazyce se nenabízejí žádná jasná a nepochybná kritéria pro stanovení<br />
časových rozmezí, a tedy ani pro stanovení hranic jednotlivých druhů korpusů.<br />
Časová parcelace ČNK je také proto do jisté míry arbitrární a závislá na činitelích<br />
vnějších, historických. Jistým vodítkem pro oddělení současného jazyka od<br />
jazyka staršího (resp. správněji řady jeho různých diachronních podob) je však<br />
vždy to, jak se dnešní mluvčí k jednotlivým formám jazyka stavějí a co vyciťují<br />
jako ještě živé a co už ne. V podstatě z těchto hledisek byly také vymezeny<br />
spodní časové hranice synchronního korpusu psaného.<br />
V oblasti pokrytí (1) novin a časopisů byl za základ a začátek textového<br />
mapování a zařazování do korpusu vzat rok 1990 se svým přelomovým charakterem<br />
(1990–); starší noviny, plné dobového ideologického newspeaku, můžou<br />
dnes už jen těžko představovat současný jazyk, který se právě v publicistické oblasti<br />
mění nejrychleji. Vzhledem k tomu, že knihy, zvláště beletristické, se nejen<br />
znovu a znovu někdy přetiskují i později, ale že se hojně čtou i někteří autoři<br />
132
ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001<br />
starší, kteří takto do současnosti patří, protože ji svým vlivem spoluvytvářejí, bylo<br />
pro ně stanoveno několik vzájemně se doplňujících kritérií dalších. Vedle (2a)<br />
knih (hlavně románů) poprvé vydaných po r. 1990 včetně (1990–, kritérium<br />
shodné s (1)) bylo rozhodnuto respektovat i (2b) čtené autory starší, jako je Jaroslav<br />
Hašek a Karel Čapek, a to ty, kteří se narodili r. 1880 nebo později (tj. v<br />
letech narození J. Haška a K. Čapka) a konečně (2c) knihy publikované od r.<br />
1945, tj. od konce 2. sv. války (1945–); u tohoto posledního kritéria jde však o<br />
procentuálně řidší zastoupení než u (2a). Jazyk takto vymezených autorů totiž<br />
ještě žije. Jednotkou evidovanou, kterou lze v ČNK zvlášť identifikovat, je takto<br />
buď jednotlivá kniha, nebo číslo novin; vzorky se v tomto přístupu neuplatňují.<br />
Všechna ostatní díla, která těmto kritériím nevyhovují, jsou řazena do<br />
korpusu diachronního. Je však třeba připomenout, že k dispozici ani zdaleka<br />
ještě nejsou všichni vhodní kandidáti pro zařazení do ČNK (problém dostupnosti<br />
textů je trvalým problémem), a že i u dostupných a daným kritériím vyhovujících<br />
knih, textů bylo nutno přikročit k proporcionálnímu výběru (např.<br />
beletrie je v celku synchronního korpusu jen něco přes 11 %). Bylo by tudíž<br />
omylem domnívat se, že ČNK obsahuje celou českou literaturu daného období,<br />
popř. že v rámci projektu ČNK je převod tak rozsáhlého souboru dat proveditelný.<br />
Korpus obsahující všechny texty a autory nikde neexistuje a zřejmě ani<br />
existovat nebude. Jde však o to, mít ho co největší a pružně rozšiřovaný.<br />
Horní časovou hranicí pro zařazení textů do synchronního psaného korpusu<br />
bylo časové rozmezí let 1999, dané v podstatě dostupností textů, které lze<br />
získávat vždy jen s určitým časovým odstupem; nějaký čas si vždy ovšem vyžádá<br />
i jejich interní zpracování. Takto pokrytá časová etapa, tj. od roku 1990 (s<br />
naznačenými přesahy do minulosti do roku 1998/99), je zastoupena k r. 2000,<br />
tj. v době dokončení první etapy ČNK, synchronním korpusem v rozsahu cca<br />
100 miliónů textových slov ve vyvážené reprezentativní podobě. Projekt ČNK<br />
ovšem pokračuje dále a na první etapu a verzi navážou verze další a rozsáhlejší.<br />
Těchto 100 miliónů slov je zároveň označkováno vnějším značkováním co<br />
do typu a původu textu i (pokusným) značkováním vnitřním. Takto je každý<br />
tvar určen co do své morfologické platnosti a zařazení včetně slovního druhu;<br />
přiřazena je lemmatizace. Jednotlivé typy anotace lze zároveň užít i pro vyhledávání,<br />
zadá-li si je uživatel.<br />
Uvedený rozsah jen samotných textů bez označkování je nevídaně velký,<br />
jaký dosud nikdy k dispozici nebyl; pohybuje se v rozmezí 1 – 2 gigabytů a jeho<br />
prosté manuální prohlížení přesahuje lidské možnosti. Máme-li si ho nějak<br />
přiblížit, pak toto číslo v podobě a velikosti průměrných tištěných knižních<br />
133
FRANTIŠEK ČERMÁK<br />
stránek (při knize o cca 250 standardních stranách běžného tisku a tenkého papíru),<br />
odhadem představuje asi 10 zaplněných metrů místa na polici. Jen pouhé<br />
přečtení celého synchronního korpusu by pak při dost rychlém tempu (150 slov<br />
za minutu, 8 hodin denně a 365 dní ročně) zabralo přes 4 roky. Podstatné je, že<br />
příslušný software tento rozsah prohlédne a výsledek uživateli představí (podle<br />
složitosti dotazu) maximálně za pár sekund.<br />
Diachronní korpus je budován s cílem vytvořit elektronickou materiálovou<br />
základnu pro výzkum vývoje českého jazyka od prvních dochovaných<br />
souvislejších záznamů (2. polovina 13. stol.) do doby, kterou pokrývá synchronní<br />
korpus (zhruba do poloviny 20. stol., s přesahem do konce 80. let 20. stol. v<br />
případě novinových a časopiseckých textů). Do korpusu jsou zařazovány pouze<br />
dobové a útvarově autentické texty, tj. texty, u nichž lze s rozumnou mírou jistoty<br />
vyloučit, že do nich byly vneseny prvky pozdějšího jazykového stavu nebo<br />
jiného jazykového útvaru: jsou to především opisy a přetisky, které vznikly podstatně<br />
později než původní text (netýká se kritických edic), a ty, které původní<br />
text zjevně zkreslují nářečními a jinými prvky.<br />
Postup budování diachronního korpusu je pomalý a obtížný, neboť většinu<br />
textů je třeba manuálně přepisovat nebo (v případě spolehlivých novodobých<br />
edic) skenovat a manuálně korigovat. Vzhledem k tomu, že elektronické prohledávání<br />
různorodých paleografických podob textů z odlišných období vývoje<br />
českého pravopisu je prakticky nezvládnutelné, vstupují texty z doby před<br />
rokem 1849 do diachronního korpusu v transkribované podobě. V současné době<br />
není v možnostech ČNK standardně připojovat k transkribovaným starším textům<br />
jejich transliterované podoby, avšak pro budoucnost se počítá s podstatně<br />
užším spojením transkripce s originálem, a to ve formě elektronického propojení<br />
korpusových transkribovaných textů s digitalizovanými obrazy jednotlivých<br />
stránek původních předloh. Toto řešení by mělo nejen dát badatelům příležitost<br />
detailního ověřování jednotlivých případů transkripce, ale i podstatně<br />
rozšířit možnosti korpusového výzkumu na oblast vývoje grafiky a pravopisu.<br />
Jeho realizace je však velmi náročná.<br />
Diachronní korpus dosáhl v roce 2000 celkového objemu 1 750 000 textových<br />
slov. Jeho součástí je mj. banka transliterovaných textů (o celkovém rozsahu<br />
přibližně 100 000 textových slov) a jazyková databáze (v níž se shromažďují<br />
překlady starších českých slov, vysvětlivky jednotlivých obratů, míst v textech<br />
ap., obsažené v jednotlivých edicích).<br />
Mluvený korpus synchronní (Pražský mluvený korpus), který je samostatnou<br />
složkou ČNK, byl původně vytvářen z hlediska výzkumu frekvence<br />
134
ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001<br />
autentické mluvené, především obecné češtiny a jeho rozsah a povaha byly do<br />
vysoké míry dány pragmaticky, možnostmi, které byly k dispozici. Jeho dnešní<br />
rozsah činí přes 700 000 slov. Kvůli limitujícím faktorům je prozatím omezený<br />
na oblast Prahy a okolí, kde míra širší reprezentativnosti je nejvyšší (Praha<br />
ovlivňuje ostatní území nejen mediálně, ale i tím, že v ní pracují lidé z celé<br />
země); je však naděje na získání ještě obdobných korpusů dalších. Mluvený<br />
korpus časově pokrývá období let 1988 – 1996 a představuje zdaleka největší a<br />
nejreprezentativnější záznam autentického mluveného jazyka, který česká lingvistika<br />
ve svém uhranutí téměř výlučně jazykem psaným dosud tradičně ignorovala.<br />
Rozsah 700 000 textových slov je podle dnešních nároků a ve srovnání<br />
s psaným synchronním korpusem malý, ale je třeba vidět, že odpovídá reálným<br />
možnostem. Jde především o to, že získání takového korpusu je<br />
mnohonásobně pracnější a dražší než vybudování korpusu psaného a že dosud<br />
není k dispozici ani celková metodologie výzkumu mluveného jazyka, která –<br />
měla-li být převzata z jazyka psaného – například v oblasti syntaxe zcela selhává.<br />
Povaha mluveného jazyka je v mnohém jiná než jazyka psaného a jeho<br />
komplexní a systematický výzkum je dosud velkým úkolem.<br />
Projekt mluveného korpusu, složený z cca 300 magnetofonových nahrávek<br />
v upraveném přepisu, sledoval reprezentativní zastoupení 4 hlavních sociolingvistických<br />
proměnných: pohlaví mluvčích (muž – žena), věku (vyšší –<br />
nižší s hranicí kolem 35 let, ale s vyloučením jazyka nedospělé mládeže),<br />
vzdělání (nižší – vyšší) a typu textu, resp. nahrávky (formální, tj. podle předem<br />
připravených širokých otázek, nebo neformální, tj. neřízený dialog dvou mluvčích,<br />
kteří se znají). Tak vzniklo několik desítek kombinací těchto čtyř indexů,<br />
které se nahrávkami naplňovaly tak, aby se dosáhlo vyvážené, proporcionální<br />
podoby. Nahrávky se pak manuálně přepisovaly standardním způsobem do počítače<br />
a anotovaly.<br />
Vedle neoznačené, tj. prostě textové podoby, která je už veřejně dostupná,<br />
má být tento korpus po dokončení zpřístupněný včetně bohaté anotace textové<br />
a lingvistické zahrnující i víceslovné jednotky a vůbec poprvé i frazeologii; je<br />
to první korpus v Evropě vůbec obsahující mj. úplné značkování frazeologie.<br />
Jeho hlavní využitelnost je specificky v oblasti lexikonu a morfologie; méně<br />
vhodný je pro studium syntaxe (vzhledem k malému rozsahu) i ke zkoumání tématickému<br />
apod.<br />
Zvláště mluvený korpus představuje značný a specifický problém: v důsledku<br />
v minulosti pěstovaného přezírání a následného opomíjení výlučně ve<br />
prospěch spisovného jazyka tato část jazyka zůstává nemapovaná, a to je lin-<br />
135
FRANTIŠEK ČERMÁK<br />
gvisticky situace jak neudržitelná, tak neopodstatnitelná, na druhé straně však i<br />
metodologicky náročná a nová. Kromě nového asi třičtvrtěmiliónového korpusu<br />
mluvené češtiny, jehož zpracování bude dokončeno v r. 2001, a to zvláště pro<br />
potřeby frekvenčního slovníku mluveného jazyka, k dispozici není nic, a musí<br />
se tudíž, spolu s vypracováváním metodologie sběru a zpracování, která je tu<br />
značně jiná, i začínat prakticky od nuly. Je třeba si uvědomit, že magnetofonové<br />
nahrávání, přepis do počítače a okódování každého slova složitým číselným<br />
kódem, který se realizuje, je jak pracné, tak nesmírně drahé. Dodejme, že<br />
právě vzhledem k nesmírné absurdnosti situace zde, tj. vzhledem k tomu, že<br />
většina naší komunikace je mluvená a přitom pro její výzkum a popis není v<br />
daném smyslu k dispozici nic, kdežto pro menšinovou komunikaci psanou disponujeme<br />
už teď miliónovými záznamy, je třeba tento stav urychleně a koncepčně<br />
řešit v širším měřítku.<br />
Výčet složek ČNK lze konečně uzavřít připomenutím toho, co bylo řečeno<br />
už výše: podle potřeby a cíle i možností vzniku různých dílčích databází<br />
specializovaných. K nim může nesporně patřit terminologická databáze lingvistická<br />
(zvlášť postrádaná mnohými) i z jiných oborů, databáze českých<br />
kořenů a kmenů, registr všech evidovaných forem i lemmat v různých databázích<br />
apod.<br />
5. Aspekty práce a využití<br />
Složení korpusu se řídí řadou kritérií, stále dolaďovaných; jejich základ se<br />
opírá o podniknutý sociologický výzkum. Vedle vlastních obsahových kritérií,<br />
jako je podíl textů žurnalistických, beletristických či odborných, se výběr řídí<br />
podle vymezení statistické populace, a to především kritérii (A) recepce či (B)<br />
produkce, a tedy podle toho, jak jazyk lidé užívají (recepce, tj. jazyka ve skutečnosti<br />
jen několika málo spisovatelů, novinářů apod. pro velmi široké publikum<br />
různých médií), či toho, jak ho píšou a mluví (produkce, tj. jazyka velmi<br />
širokého vzorku aktivních uživatelů pro stejně široké spektrum příjemců).<br />
K primárně řešeným otázkám patřila tedy reprezentativnost, jejíž průzkum<br />
dospěl k několika stupňům poznání. Už první její výzkum, který byl svou<br />
podstatou sociologický a zabýval se průzkumem prosté recepce jazyka, tj. zjišťování<br />
proporcí, v nichž jsou lidé vystaveni různým druhům jazyka, přinesl<br />
některá zásadní překvapení. Tak např. bylo zjištěno, že celá třetina pokrytí patří<br />
textům odborným (33,5 %), zatímco nespecializované, neodborné texty tvoří<br />
zbývající dvě třetiny (66,5 %). Z toho noviny a časopisy pokrývají 56 %, zatím-<br />
136
ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001<br />
co próza a poezie 10 %; 0,5 % připadlo na jiné, tj. okrajové a zvláštní typy textů.<br />
Složité technické otázky značkování, resp. anotace či taggování korpusového<br />
materiálu a jeho automatizace přesahují možnosti této stručné informace,<br />
naznačme jen, že zahrnují stejně tak oblast lemmatizace, a to lexémů jednoslovných<br />
i později víceslovných, jako syntaktického parseru, řešení jednoznačnosti<br />
záznamu či způsoby jeho uložení do korpusu. V pozdějších fázích snad<br />
však zahrnou i propojení jednotlivých korpusů a databází dohromady i jejich<br />
automatické on-line doplňování o nové formy, prvky a lexémy. Dodejme, že<br />
ČNK je experimentálně morfologicky označkovaný a lemmatizovaný. V<br />
současnosti se značkování i lemmatizace pro přílišnou chybovost reviduje a<br />
předělává a výhledově bude nutné řešit i související problém víceslovnosti.<br />
První zkušenosti s korpusy v různých jazycích přinesly už i některé zásadní<br />
zkušenosti metodologické povahy. Jednak je zřejmé, že analýza většiny sémantické<br />
stránky jazyka (srov. mj. Atkins 1987), která je na rozdíl od diskrétní<br />
formy (tu lze opřít programově o binární volbu typu „ano – ne“) spíše většinou<br />
kontinuální a škálové, resp. splývavé povahy (a tedy v závislosti především na<br />
volbě typu „spíše toto než to, popř. ono“), bude mít jinou povahu (M. A. K. Halliday<br />
1991: jazykový systém je inherentně probabilistický, jeho kontinuu s<br />
komplementárními perspektivami gramatiky a lexikonu lépe vyhovuje koncepce<br />
lexikogramatiky). Významným přístupem, založeným na předpokladu různé<br />
statistické pravděpodobnosti výskytu různých jevů formy, je vyhodnocování<br />
těchto aspektů na základě probabilistických odhadů, měření a různých indexů<br />
(o vztahu kvantitativních a kvalitativních aspektů viz mj. Itkonen 1980, srov.<br />
i Brunet 1986). Vždy však ke studiu této stránky bude možné přejít pouze skrze<br />
zřetelně a spolehlivě okódovanou stránku formální; jedno tu tudíž předpokládá<br />
druhé. I ve formální stránce jazykových dat lze však pozorovat, resp. předpokládat<br />
nejednoduchost a nejednoznačnost, především ve smyslu časté variabilnosti<br />
formy, která jako jazykový fakt stojí proti snahám některých ligvistů o<br />
zjednodušenou a násilně sjednocenou kodifikaci. Na druhé straně se jako odraz<br />
určité skepse k síle jednotlivých jazykových teorií také doporučuje (srov. Leech<br />
1993), aby značkování bylo spíše jednodušší, široké a konsensuální (viz dál) a<br />
nevycházelo z jedné konkrétní teorie, protože se později nemusí osvědčit a<br />
označkovaná data by nebyla jinak použitelná ani v přístupech dalších.<br />
Obecně lze uvažovat o více typech zužitkování a třebaže konkrétní podoba<br />
bude dána také zájmem z té či oné strany, lze přesto zmínit především či aspoň<br />
137
FRANTIŠEK ČERMÁK<br />
tři okruhy výstupů. Každý z nich bude mít ovšem různě přímou/nepřímou praktickou<br />
využitelnost a tudíž i různého příjemce.<br />
První okruh představují slovníky výkladové i překladové, gramatiky a učebnice<br />
i samotná data v databázích, na nichž budou stavět, tedy výstupy společensky<br />
a zřejmě i komerčně bezprostředně zajímavé. Není jistě žádným tajemstvím,<br />
že mnohá slova ve slovnících nejsou, ať stará či nová, že mnohá informace<br />
je v lepším případě pokřivená či zastaralá, či že mnohé otázky třeba našich<br />
mluvnic nemohly být pro nedostatek dat vůbec řešeny a není proto ani tak<br />
těžké si představit, co vše se může v této sféře nabídnout lepšího. A v horším<br />
případě nemá už cenu nijak zastírat, že mnohé z autoritativních soudů předchozích<br />
normotvůrců a autorů především gramatik stojí na hliněných nohách, jsou<br />
nepodložené, apriorní a, v tom lepším případě, minimálně problematické a<br />
skutečnému vědeckému výzkumu vzdálené. V zrcadle korpusu a jeho informací<br />
jsou pak především minulé soudy kodifikační povahy krajně problematické,<br />
jazykový svět, stejně tak jako ten reálný, prostě není černobílý.<br />
Hlavním úkolem však bude, což bude starostí některého z návazných pracovišť,<br />
nabídnout Čechům a bohemistům pořádný, objektivní a spolehlivý velký<br />
slovník současné češtiny. Český národní korpus se tak stává hlavním a vlastně<br />
jediným možným zdrojem poznání a dat pro tvorbu takového příštího slovníku.<br />
Není žádným tajemstvím, že náš dosud největší výkladový slovník (SSJČ), jehož<br />
poslední svazek vyšel už před 31 lety, tj. r. 1971, a první dokonce před více než<br />
40 lety, už poněkud nutně zastarává, mnohé – zvláště v důsledku prudce se měnící<br />
češtiny dneška – v něm není a mnohé je nepříjemně poplatné komunistickým<br />
dobám, kdy vznikal. Jakkoliv nelze podceňovat lidskou intuici, bude to především<br />
korpus, odkud bude možné čerpat poznání o tom, co je v jazyce typické, co se<br />
nejčastěji a jak říká či píše a co je naproti tomu řídké a netypické. Na jeho obrovském<br />
podkladě pak bude taky mj. konečně možné zjistit ze skutečného úzu a<br />
způsobů používání jazyka, pokud jde o jeho varianty, kam se ubírá vývoj, a ověřit<br />
si tak objektivně např. i to, nakolik pravopisná pravidla odpovídají životu a nakolik<br />
nikoliv.<br />
Druhý okruh představují zkušenosti, podklady i realizované dílčí výstupy<br />
a programy ve sféře komputerizace jazyka. Půjde především o výstavbu dokonalejších<br />
spelling-, grammar- i style-checkerů, tedy korektorů pravopisu,<br />
mluvnice i stylu, o dělicí programy, automatické gramatiky a analyzátory pro<br />
dané účely i o moduly pro komunikaci s počítačem v přirozeném jazyce a možnosti<br />
další, především ve směru významového zkoumání jazyka. Významným<br />
momentem tu jsou desiderata, která se už teď kladou na kvality a povahu kor-<br />
138
ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001<br />
pusů ze strany Evropské unie především ve smyslu vzájemné kompatibility a<br />
možnosti paralelního zkoumání jazykových dat: členové ÚČNK jsou partnery<br />
dvou velkých evropských multinacionálních projektů v rámci iniciativy Copernicus,<br />
které jsou zaměřeny na otázky budování národních korpusů.<br />
Třetí, nejužší okruh bude polem pro realizaci a precizaci samotné lingvistické<br />
teorie, jejíž bezprostřední využití sice žádné neexistuje, jejíž vliv však<br />
může být zcela zásadní a všudypřítomný. Přestože korpus je pro lingvisty všeho<br />
druhu obecným a základním zdrojem, popř. testovacím prostředím (viz výše),<br />
lze s ohledem na jejich primární orientaci na něj rozlišit především následující<br />
typy profesionálních uživatelů:<br />
A – lexikografové/lexikologové (zdroj informací o skutečném úzu obecně<br />
či specifických slov apod.),<br />
B – komputační lingvisté (zdroj zjišťovaných statistických pravděpodobností<br />
jako klíč k analýze, prostředí k aplikaci teorií a modelů jazyka, automatické<br />
získávání lexikálně-sémantických znalostí, řešení vztahu gramatika – lexikon<br />
aj.),<br />
C – teoretičtí lingvisté (zdroj vzorků jazykových jevů i prostředí ověřování<br />
svých domněnek apod.),<br />
D – úzcí specialisté (zdroj specifických informací, paralelních řešení i úzu<br />
ap. pro překladatele, terminology, dialektology aj.),<br />
E – aplikovaní lingvisté (autoritativní a typický zdroj dat, zvl. pro výuku,<br />
tvorbu jazykových pomůcek.<br />
Mimolingvistické využití korpusu se nabízí vlastně všem oblastem a disciplínám,<br />
které pracují s jazykem, a to hlavně jako referenční zdroj informací<br />
o distribuci zjišťovaného jevu. Především tu jde však o specialisty různých<br />
oborů zaměřené na obsah textů (historikové, literární kritikové, tvůrčí autoři,<br />
sociologové, psychologové) či jejich formu (specialisté na média včetně např.<br />
reklamy, stejně jako právníci apod.).<br />
Do určité míry tu živnou půdu budou skýtat předchozí dva okruhy aplikací<br />
v podobě zatím, tj. stávajícími technikami a teoriemi neřešitelných problémů či<br />
prostých otázek; především však bude usilovat o posunutí hranice poznání<br />
vlastní disciplíny tam, kde jsme se dosud museli spokojovat s prozatímními<br />
závěry a předpoklady. Mám na mysli možnosti řešení, tj. na základě velkého<br />
rozsahu dat a exaktních technik, takových otázek, jako jsou sémantické zákonitosti<br />
kombinace slov, podstata a hranice ustálenosti nebo metafory. Je zřejmé,<br />
že na základě hlubšího poznání v první oblasti budeme pak schopni říct leccos<br />
navíc i o zákonitostech našeho myšlení; v druhé oblasti si nejenom například<br />
139
FRANTIŠEK ČERMÁK<br />
lexikograficky ujasníme, při kolika výskytech dané formy v textu už lze místo<br />
posunu starého významu uvažovat význam nový, popř. samostatnou kombinaci<br />
slov, ale především budeme vědět víc o samotné hranici jazykové synchronie, a<br />
tedy jazyka současného a živého, a o povaze přechodů k diachronii a minulým<br />
stavům jazyka, s nimiž se lingvisté nejsou dnes schopni vyrovnat; konečně v<br />
třetí oblasti naše poznatky umožní nejen kvalifikovaně hodnotit metafory<br />
slovesného umění, jejich zpětný vliv na intelektuální vnímavost lidí, ale i jejich<br />
podíl na samotném vývoji jazyka a tím i kultury.<br />
Literatúra<br />
ATKINS, Sue – CLEAR, Jeremy – OSTLER, Nicholas. 1992. Corpus Design Criteria. Literary<br />
and Linguistic Computing, roč. 7, č. 1, s. 1 – 16.<br />
BIBER, Douglas. 1993. Representativeness in Corpus Design. Literary and Linguistic<br />
Computing, roč. 8, č. 4, s. 243 – 257.<br />
British National Corpus. Written Corpus Design Specification. 1991 (a handout information).<br />
BRUNET, É. (ed.). 1986. Méthodes quantitatives et informatiques dans l’étude des textes<br />
(hommage à Charles Mueller). Collogue international de CNRS. Paris: Université de Nice.<br />
ČERMÁK, František. 1995. Komputační lexikografie. In: F. Čermák – R. Blatná (eds.). Manuál<br />
lexikografie. H+H: Praha.1995, s. 50 – 71.<br />
ČERMÁK, František – BLATNÁ, Renata (eds.). 1995. Manuál lexikografie. H+H: Praha.<br />
ČERMÁK, František. 1997. Czech National Corpus: A Case in Many Contexts. International<br />
Journal of Corpus Linguistics, roč. 2, č. 2, s. 181 – 197.<br />
ČERMÁK, František – KRÁLÍK, Jan – KUČERA, Karel. 1997. Recepce současné češtiny a reprezentativnost<br />
korpusu. Slovo a Slovesnost, roč. 58, s. 117 – 124.<br />
ČERMÁK, František. 1995. Jazykový korpus: Prostředek a zdroj poznání. Slovo a slovesnost, roč.<br />
56, s. 119 – 140 (revidovaná verze In: Studie z korpusové lingvistiky, 2000, s. 15 – 37).<br />
ČERMÁK, František. 1998. Czech National Corpus: Its Character, Goal and Background. In: P.<br />
Sojka – V. Matoušek – K. Pala – I. Kopeček (eds.). Text, Speech, Dialogue. (Proceedings of the First<br />
Workshop on Text, Speech, Dialogue-TSD '98, Brno, Czech Republic, September.). Brno: Masaryk<br />
University, s. 9 – 14.<br />
ČERMÁK, František. 2001. Language Corpora: The Czech Case. In: V. Matoušek et al. (eds.).<br />
Text, Speech and Dialogue, TSD 2001. Berlin – Heidelberg – New York: Springer, s. 21 – 30.<br />
HALLIDAY, M. A. K. 1991. Corpus studies and probabilistic grammar. In: K. Aijmer et al.<br />
(eds.). Corpus Linguistics. Studies in Honour of Jan Svartvik, s. 30 – 43.<br />
ITKONEN, E.: Qualitative vs quantitative analysis in linquistics. In: T. Perry (ed.). Evidence<br />
and Argumentation in Linguistics. Berlin 1980.<br />
LEECH. G. 1993. Corpus annonation schemes. Journal of Literary and Linguistic Computing,<br />
roč. 8, č. 4, s. 275 – 281.<br />
KOCEK, J. – KOPŘIVOVÁ, M. – KUČERA, K. (eds.). 2000. Český národní korpus: Úvod<br />
a příručka uživatele. Praha: Ústav Českého národního korpusu FFUK. (F. Čermák spoluautor. zvl. 1.1,<br />
1.21-1.22 a předmluva.)<br />
140
ČESKÝ NÁRODNÍ KORPUS: STAV V ROCE 2001<br />
KRUYT, J. G. 1993. Design Criteria for Corpora Construction in the Framework of<br />
a European Corpora Network. Final Report. Leiden: Institute for Dutch Lexicology INL.<br />
NORLING-CHRISTENSEN, Ole. 1992. Preparing a Text Corpus. Computational Tools and<br />
Methods for Standardizing, Tagging and Structuring Text Data. In: R. Kiefer et al. (eds.), Papers in<br />
Computational Lexicography COMPLEX '92. Budapest: Research Institute for Linguistics, Hungarian<br />
Academy of Sciences, s. 251 – 259.<br />
SINCLAIR, John McH. 1991. Corpus, Concordance, Collocation. Oxford: Oxford University<br />
Press.<br />
ČERMÁK, F. et al. (eds.). 2000. Studie z korpusové lingvistiky. Praha: Karolinum.<br />
ŠULC, Michal. 1999. Korpusová lingvistika. První vstup. Praha: Karolinum.<br />
ŠULC, Michal. 2001. Tematická representativnost korpusů. Slovo a Slovesnost, roč. 62, s. 53 – 61.<br />
141
ČESKÝ NÁRODNÍ KORPUS –<br />
POČÍTAČOVÁ DEMONSTRACE<br />
Michal Křen: Ústav Českého národního korpusu, Filozofická fakulta<br />
University Karlovy, Praha<br />
Abstract: This paper briefly describes the structure of the Czech National Corpus, the acquisition of texts<br />
and the whole process of their subsequent conversion into the final SGML format. It also deals with the architecture<br />
of the software tool that is provided to the registered users. The emphasis of the workshop<br />
presentation is put on practical computer demonstration of the tool and possibilities of its usage for data<br />
mining.<br />
1. Složení Českého národního korpusu<br />
Český národní korpus je zastřešujícím názvem projektu, který v sobě zahrnuje<br />
vytvoření více různých korpusů, kromě synchronního jsou to zejména diachronní<br />
a mluvený korpus. Nadále se však budu věnovat výhradně korpusu<br />
SYN2000, což je reprezentativní synchronní korpus psaného jazyka, zachycující<br />
nejrůznější žánry a typy textů psané češtiny devadesátých let. Jeho rozsah činí<br />
100 miliónů slovních tvarů. Na základě řady výzkumů, při kterých se brala v<br />
úvahu zejména recepce, bylo jeho složení stanoveno takto: 60 % tvoří publicistika,<br />
tedy především noviny, a to jak celostátní tak regionální, 25 % odborná literatura<br />
a 15 % beletrie. Těžištěm korpusu jsou texty vzniklé v letech 1990 – 1999.<br />
Výjimkou z tohoto vymezení jsou pouze významná beletristická díla, která se stále<br />
čtou a vydávají; podmínkou však je, že se jejich autor narodil po roce 1880.<br />
2. Získávání textů a jejich konverze do SGML<br />
Nyní bych se chtěl ve stručnosti věnovat problematice získávání textů a zejména<br />
procesu jejich převodu do jednotného SGML formátu, ve kterém jsou nakonec<br />
uloženy a připraveny k využívání pomocí korpusových nástrojů. Protože tomuto<br />
tématu nebývá obvykle věnována dostatečná pozornost, chtěl bych celý tento<br />
proces shrnout a stručně popsat, jak probíhá v Ústavu Českého národního<br />
korpusu.<br />
2.1 Získávání textů<br />
142
ČESKÝ NÁRODNÍ KORPUS – POČÍTAČOVÁ DEMONSTRACE<br />
Texty do korpusu získáváme v zásadě třemi různými způsoby: nejvýhodnější<br />
je dostat texty v elektronické podobě přímo od vydavatele, a to na základě<br />
dohody o jejich nekomerčním využití. Bohužel ne všechna nakladatelství<br />
s poskytnutím textů souhlasí, v ideálním případě však lze takto získat celé archivy<br />
jednotlivých titulů novin a časopisů nebo velké množství knih v jednom<br />
formátu. Druhou možností je stahování z internetu. V této souvislosti bych<br />
chtěl vyvrátit poměrně častou domněnku, že získávání textů není žádná velká<br />
věda, stačí jich přeci pomocí automatických programů stáhnout z internetu co<br />
nejvíce. To sice na první pohled vypadá jako velice rychlé a elegantní řešení, je<br />
však použitelné jenom v omezené míře. Na internetu skutečně nalezneme velké<br />
množství textů, jsou však často nekvalitní, bez korektur, v některých případech<br />
dokonce chybí i diakritika. Také internetové archivy novin a časopisů jsou často<br />
neúplné, a je tedy třeba si texty před stažením pečlivě vybírat. Při jakémkoli<br />
získávání nových dat je navíc nutné vyjednat s vlastníky autorských práv podmínky<br />
použití jejich textů, což je časově nejnáročnější fáze, kterou nelze automatizovat.<br />
Při takovém jednání však již většinou není problém získat data<br />
kompletní a v kvalitnější podobě, než by se podařilo on-line. Konečně třetí<br />
možností získávání textů je jejich skenování a přepisování. Protože však jde o<br />
způsoby zdlouhavé, pracné, a tedy drahé, používáme je pouze u textů, které<br />
jsou z nějakého důvodu cenné a nelze je získat jinak. Každý text, který získáme<br />
některým z uvedených způsobů, je ještě evidován v databázi a nakonec zálohován<br />
na CD.<br />
2.2 Konverze do jednotného formátu<br />
Cílem této konverze je dát všem textům jednotný tvar tak, aby další zpracování<br />
mohlo probíhat jednotně, bez ohledu na jejich původ. Texty jsou sice již<br />
v elektronické podobě, ale v různých formátech, někdy jde doslova o změť nejrůznějších<br />
typů souborů, v rámci dat od jednoho nakladatelství lze třeba najít<br />
jednu knihu v několika verzích nebo také nepotřebné soubory, ve kterých žádný<br />
text není, jako například obrázky, spustitelné programy a podobně. Nejprve je<br />
tedy třeba „oddělit zrno od plev“, a pak se pustit do převodu jednotlivých souborů<br />
s texty do meziformátu.<br />
Meziformátem rozumíme prostý ASCII text, který však může navíc obsahovat<br />
SGML entity, v nichž jsou kódovány informace, které by se převodem<br />
do ASCII ztratily: jde zejména o typografické značky (kurzíva, podtržení, horní<br />
a dolní index apod.) a o nečeské znaky s diakritickými znaménky, které se ne-<br />
143
MICHAL KŘEN<br />
vyskytují v daném kódování češtiny. Postup konverze pochopitelně závisí na<br />
tom, v jakém formátu byly soubory s texty vytvořeny. Nejjednodušší je z<br />
prostého ASCII, HTML, RTF nebo z formátů jednoduchých textových editorů<br />
(T602, WordPerfect) – pro tyto případy již máme vyvinuty spolehlivé konverzní<br />
programy, které generují přímo meziformát bez nutnosti texty v těchto editorech<br />
otevírat a ukládat. U složitějších editorů (Word) nebo DTP programů<br />
(QuarkXPress, PageMaker) to již nutné je – pokud jde o Word, problém řešíme<br />
pomocí maker, která automaticky vyexportují všechny soubory v adresáři do<br />
RTF. V případě DTP programů, jejichž používání je bohužel stále častější, však<br />
není jednoduché text vůbec vyexportovat (zvlášť pokud jde o složitou sazbu), a<br />
je proto nutné každý soubor tímto programem otevřít a všechny textové rámce<br />
postupně uložit. Tato metoda je časově, a tedy i finančně náročná, snažíme se<br />
proto takové texty zpracovávat v co nejmenší míře a podobně jako například<br />
skenování ji používat pouze jako doplòkový zdroj textů. Přesto se však nedá<br />
říci, že v případě relativně jednoduchých veřejných formátů zmíněných výše<br />
stačí pouze spustit příslušný program a konverze do meziformátu je hotová.<br />
Vždy je totiž nutné výsledek zkontrolovat a většinou také ještě napsat danému<br />
textu „na míru“ jednoduchý program, který odstraní některé nevhodné jevy, jakými<br />
jsou například odkazy na literaturu, čísla stránek a obrázků a podobně.<br />
2.3 Bibliografická anotace<br />
Kromě vlastní konverze do SGML je ještě nutné k jednotlivým textům doplnit<br />
základní bibliografické informace, aby bylo možné se při vytěžování korpusu na<br />
jednotlivé zdroje odkazovat. Bibliografickou anotací textů zde tedy rozumíme<br />
zjišťování informací o autorech, nakladatelství, roku vydání, typu textu,<br />
žánrovém zařazení aj. a jejich zapsání do databáze a zároveň také přímo do textů v<br />
meziformátu. Tuto část konverze samozřejmě nelze automatizovat a je tedy nutné<br />
ji dělat ručně.<br />
2.4 Převod do SGML, tokenizace, morfologické značkování a lemmatizace<br />
Následuje poslední a také již plně automatická fáze konverze, a tou je<br />
převod do SGML (mezinárodně standardizovaný metajazyk vhodný pro ukládání<br />
strukturovaných textů) a tokenizace (tj. segmentace textu do slov a vět),<br />
následované několika čisticími a kontrolními programy. Zde je myslím třeba<br />
zdůraznit, že se snažíme zachovat v co největší míře autenticitu textu, to znamená,<br />
že do něj nezasahujeme, neopravujeme zjevné chyby ani překlepy, s vý-<br />
144
ČESKÝ NÁRODNÍ KORPUS – POČÍTAČOVÁ DEMONSTRACE<br />
jimkou slov „natvrdo“ rozdělených pomlčkami. Odstraňujeme pouze některé<br />
součásti textů, které nemají pro studium jazyka valný význam a které by svou<br />
přítomností byly spíše na škodu. Jsou to především celky netextového charakteru<br />
(tabulky, vzorce, tiráž, seznamy literatury apod.) a celé odstavce psané cizími<br />
jazyky (nikoli tedy krátké citáty). U novin a časopisů se také poměrně často<br />
stává, že dostaneme v datech z nakladatelství několik verzí jednoho článku, a<br />
proto také kontrolujeme, zda mezi jednotlivými články nejsou dva stejné nebo<br />
velmi podobné, a případné duplicity odstraňujeme.<br />
Nyní je text již připraven k zařazení do korpusu, k jeho plnohodnotnému<br />
používání však ještě chybí morfologická analýza, desambiguace a lemmatizace.<br />
I tyto kroky je nutné vzhledem k obrovskému objemu dat dělat automaticky,<br />
v současné době používáme programy vyvinuté na Úsavu formální a aplikované<br />
lingvistiky Matematicko-fyzikální fakulty University Karlovy pod vedením<br />
Jana Hajiče. Na zlepšení výsledků desambiguace pracuje v současné době tým<br />
Vladimíra Petkeviče na Ústavu teoretické a komputační lingvistiky Filozofické<br />
Fakulty University Karlovy. Výsledkem všech těchto kroků je tedy nakonec<br />
anotovaný strukturovaný text ve formátu SGML, ve kterém je ke každému<br />
slovnímu tvaru přiřazeno jeho lemma (základní slovníkový tvar) a spolu s ním<br />
také morfologická značka, která vyjadřuje jednoznačnou morfologickou interpretaci<br />
daného slova, tedy údaj o slovním druhu a v závislosti na něm také<br />
například o osobě, čísle a času u sloves, stupni u přídavných jmen a příslovcí a<br />
podobně.<br />
3. Programové nástroje pro práci s korpusem<br />
Běžný způsob práce s korpusem, který nabízíme všem našim registrovaným<br />
uživatelům, je pomocí programu GCQP. Jeho autorem je Pavel Rychlý<br />
z Fakulty informatiky Masarykovy university v Brně. Uživatelé si ho mohou<br />
stáhnout z internetových stránek Ústavu Českého náodního korpusu a podle návodu<br />
nainstalovat na svůj počítač. Jde o klientskou aplikaci napsanou v jazyce<br />
Tcl/Tk, a tedy přenositelnou mezi jednotlivými operačními systémy, která<br />
pracuje jak v systémech typu Unix/Linux, tak samozřejmě také pod Windows<br />
95/98/NT/2000. Práce s korpusem tedy vypadá tak, že uživatel na svém počítači<br />
spustí program GCQP, který se přes internet připojí k našemu serveru, posílá<br />
mu požadavky a dostává zpět data, která zpracovává a zobrazuje. Server běží u<br />
nás v Ústavu Českého národního korpusu pod Linuxem, výkonným jádrem celého<br />
systému je program CQP (Corpus Query Processor), vyvinutý na univerzi-<br />
145
MICHAL KŘEN<br />
tě ve Stuttgartu. Nad tímto jádrem, které zajišťuje vlastní vyhledávání, běží<br />
ještě program cqsd, který komunikuje s klientskými aplikacemi, předává jejich<br />
požadavky CQP a posílá zpět výsledky vyhledávání.<br />
Při práci s korpusem je možné používat bohatý dotazovací jazyk vycházející<br />
z regulárních výrazů, který umožňuje nejenom vyhledávat jednotlivá slova<br />
a slovní spojení, ale samozřejmě také při hledání využívat lemmata a morfologické<br />
značky. Při další práci s konkordančními řádky je možné používat všechny<br />
běžné funkce, jako jsou například možnost jednotlivé řádky označit a dále s<br />
nimi pracovat, třídit je, mazat, tisknout a ukládat na disk, dále lze také u každého<br />
konkordančního řádku zjistit zdrojový text. Velkou výhodou je možnost<br />
takřka neomezeně rozšiřovat kontext vyhledaného slova nebo slovního spojení<br />
a v neposlední řadě je třeba zmínit také statistické funkce GCQP – frekvenční<br />
distribuci a výpočet nejčetnějších kolokací.<br />
Program CQP byl v době svého vzniku bezesporu jedním z nejlepších<br />
korpusových nástrojů, které byly k dispozici. Přestože většinou svých parametrů<br />
stále ještě vyhovuje dnešním požadavkům, některá jeho omezení jsou takového<br />
charakteru, že je nelze obejít ani pomocí nadstavby, jakou je například GCQP<br />
nebo cqsd. Protože jsou navíc nejasnosti okolo dalšího vývoje CQP, nebylo by<br />
z dlouhodobého hlediska vhodné se na něj vázat. Vytvoření zcela nového<br />
korpusového nástroje se ujal Pavel Rychlý, autor GCQP. Tato nová aplikace,<br />
používající opět architekturu klient/server a nazvaná Bonito/Manatee, by měla<br />
v blízké budoucnosti nahradit celý současný systém, založený na CQP. Kromě<br />
zrychlení vyhledávání by měla odstranit také některá omezení současného systému<br />
a umožnit tak zejména vytváření virtuálních korpusů a používání strukturních<br />
značek při vyhledávání, tj. vyhledávání pouze v textech, splňujících<br />
určitá uživatelem zadaná kritéria.<br />
4. Závěr<br />
Další informace o dostupných korpusech a možnostech jejich využívání,<br />
manuál ke GCQP, popis morfologických značek a jiné lze najít na adrese<br />
http://ucnk.ff.cuni.cz, kde je možné vyzkoušet také veřejný přístup ke korpusu,<br />
ovšem s několika poměrně významnými omezeními. Lze totiž vyhledávat<br />
jedině ve dvacetimiliónovém vyváženém korpusu PUBLIC (jde o menší obdobu<br />
korpusu SYN2000), a to pouze jednotlivá slova (nikoli tedy slovní spojení),<br />
dále nelze používat lemmata, morfologické značky ani statistické funkce, a konečně<br />
je omezen kontext i celkový počet zobrazených konkordančních řádků. V<br />
146
ČESKÝ NÁRODNÍ KORPUS – POČÍTAČOVÁ DEMONSTRACE<br />
případě vážnějšího zájmu tedy rozhodně doporučuji stát se naším registrovaným<br />
uživatelem a získat tak bezplatně plný přístup ke korpusu SYN2000<br />
bez jakýchkoli omezení. Jedinou podmínkou k jeho získání je podepsání prohlášení<br />
o nekomerčním využití textů, kromě akademické obce tedy korpus<br />
může plnohodnotně využívat i široká veřejnost.<br />
Literatura<br />
HAJIČ, Jan – HLADKÁ, Barbora. 1997. Probabilistic and Rule-Based Tagger of an Inflective<br />
Language – a Comparison. In: Proceedings of the Fifth Conference on Applied Natural Language<br />
Processing. Washington D. C.<br />
HAJIČ, Jan – HLADKÁ, Barbora. 1998. Tagging Inflective Languages: Prediction of<br />
Morphological Categories for a Rich, Structured Tagset. In: Proceedings of the Conference COLING<br />
– ACL ’98. Montreal.<br />
HLAVÁČOVÁ, Jaroslava. 1998. Technical Insight into Birth of a Corpus. In: P. Sojka – V. Matoušek<br />
– K. Pala – I. Kopeček (eds.), Proceedings of the First Workshop on Text, Speech and<br />
Dialogue. Berlin: Springer, s. 55 – 60.<br />
KOCEK, Jan – KOPŘIVOVÁ, Marie – KUČERA, Karel (eds.). 2000. Český národní korpus –<br />
úvod a příručka uživatele. Praha: ÚČNK FF UK.<br />
OLIVA, Karel – HNÁTKOVÁ, Milena – PETKEVIČ, Vladimír – KVĚTOŇ, Pavel. 2000. The<br />
Linguistic Basis of a Rule-Based Tagger of Czech. In: P. Sojka – I. Kopeček – K. Pala (eds.), Proceedings<br />
of the Third International Workshop on Text, Speech and Dialogue. Berlin: Springer, s. 3 – 8.<br />
RYCHLÝ, Pavel. 2000. Korpusové manažery a jejich efektivní implementace. Brno: disertační<br />
práce FI MU.<br />
RYCHLÝ, Pavel. 2000. GCQP – Multiplatform Graphical User Interface to the CQP Corpus<br />
Manager. In: Proceedings of the Ninth EURALEX International Congress. Stuttgart: Institut für<br />
Maschinelle Sprachverarbeitung, s. 149 – 154.<br />
147
INFORMÁCIE V TERMINOLOGICKÝCH<br />
DATABÁZACH A ICH VYUŽÍVANIE PRI<br />
PREKLADE ODBORNÝCH TEXTOV<br />
Vlasta Křečková: Fakulta humanitných vied Univerzity Mateja<br />
Bela, Banská Bystrica<br />
Abstract: The basic unit of the terminological database is a terminological record, the structure of<br />
which is formed by three kinds of information. The first group contains information of linguistic nature<br />
related to the term: grammatical label, pronunciation, orthography, synonyms, abbreviations, context,<br />
equivalents of the term in different languages etc. The second group is constituted by information of encyclopaedical<br />
character related to the concept: definition, graphic representation of the concept, subject<br />
label etc. The third group includes „administrative“ information: term identifier, institution code, source<br />
identifier documenting the terminological data, as well as documeting the source of particular pieces of<br />
information etc. Different groups of users of terminological database make use of different terminological<br />
data, and that to a different extent. The analysis of the results of the translators’ terminological needs<br />
survey organised in Slovakia in the second half of 2000 by the Section of Terminology and Lexicography<br />
of the Translators and Interpreters Union in cooperation with the participants of the research project<br />
VEGA No. 1/7296/20 presents information searched for by the scientific texts translators in the terminological<br />
dictionaries and databases.<br />
1. Terminologická databáza a terminologický slovník<br />
Terminologická databáza (TDB) má veľa spoločného s elektronickým terminologickým<br />
slovníkom, ale jej koncepcia a využitie sú rozdielne. Terminologická<br />
databáza predstavuje komplexný súbor informácií o termínoch z ľubovoľnej<br />
tematickej oblasti v jednom alebo vo viacerých jazykoch. Tento súbor je vytvorený<br />
a uložený na počítačových médiách vo forme terminologických záznamov,<br />
pričom jeden terminologický záznam zodpovedá jednému pojmu a je<br />
spracovaný v jednom jazyku (Machová 1995). Tvorbu terminologických databáz<br />
umožňujú špeciálne počítačové programy a viaceré programy na počítačovú<br />
podporu prekladu. Na rozdiel od „tradičných“ terminologických slovníkov<br />
v elektronickej forme majú terminologické databázy mnohé výhody: aktualizácia<br />
údajov je veľmi jednoduchá; TDB môže poskytnúť používateľom oveľa viac<br />
informácií ako terminologický slovník; TDB umožňuje identifikáciu všetkých<br />
autorov terminologických záznamov a identifikáciu všetkých použitých zdrojov;<br />
z jednej terminologickej databázy je možné generovať rôzne typy termi-<br />
148
INFORMÁCIE V TERMINOLOGICKÝCH DATABÁZACH A ICH VYUŽÍVANIE PRI PREKLADE ODBORNÝCH TEXTOV<br />
nologických slovníkov publikovaných tlačou alebo na elektronických nosičoch<br />
s rôznou štruktúrou hesiel podľa potrieb cieľovej skupiny používateľov. Prístup<br />
k informáciám v terminologickej databáze je možný aj priamo z počítačovej<br />
siete.<br />
1.1 Tvorba terminologických databáz na Slovensku<br />
Podľa výsledkov prieskumu terminologických aktivít na Slovensku a v Českej<br />
republike, ktorý spolu s prieskumom terminologických potrieb organizovala<br />
v druhej polovici roka 2000 Sekcia terminológie a lexikografie Jednoty tlmočníkov<br />
a prekladateľov v spolupráci s riešiteľmi projektu VEGA č. 1/7296/20<br />
Manažment terminologických údajov a možnosti jeho uplatnenia v oblastiach<br />
poznania a praxe, existujú v súčasnosti na Slovensku viaceré terminologické<br />
projekty. Ich výstupmi sú najmä tradičné knižné terminologické slovníky, terminologické<br />
slovníky v elektronickej forme, ale aj terminologické databázy. 1<br />
Vo Výskumnom ústave práce, sociálnych vecí a rodiny v Bratislave vznikla<br />
v rámci európskeho programu Consensus II (Phare) databáza termínov z oblasti<br />
sociálnej ochrany s názvom Glossary and Dictionary of Social Protection<br />
Terms. Jedným z výstupov tejto TDB, ktorá je spracovaná v programe<br />
TRADOS, je dvojjazyčný Terminologický slovník z oblasti sociálnej ochrany:<br />
slovensko-anglický a anglicko-slovenský (European Commission, Consensus<br />
Program, 2000), ktorý obsahuje 1100 hesiel a nasledujúce informácie: termín<br />
vo východiskovom a v cieľovom jazyku, skratky, index, príklady a citácie, poznámky,<br />
definície. Ďalším výstupom projektu je viacjazyčný terminologický<br />
slovník z oblasti sociálnej ochrany Glossary of Social Protection Terms English-Bulgarian--Macedonian-Romanian-Slovakian<br />
(European Commission,<br />
Consensus Program, 2000). 2<br />
Terminológia vodohospodárstva a ochrany životného prostredia je obsiahnutá<br />
v TDB realizovanej inštitúciou CEIT Bratislava v databázovom <strong>počítačovom</strong><br />
programe pre knižnice a terminológiu PROFLIB. Spracovaná terminoló-<br />
1 KŘEČKOVÁ, Vlasta. 2001. Prieskum terminologických aktivít v SR (1. časť). ToP (tlumočení<br />
– překlad), roč. XII, č. 56, s. 29/1447; KŘEČKOVÁ, Vlasta. 2001. Prieskum terminologických aktivít<br />
v SR (2. časť). ToP (tlumočení – překlad), roč. XII, č. 58, s.10/1472 – 11/1473.<br />
2 O projekte informoval v rámci Ankety o terminologických aktivitách v SR doc. PhDr. Rastislav<br />
Bednárik, CSc. Autori projektu: VEGHTE, Benjamin – SCHMITZ, Klaus Dirk – BEDNÁRIK, Rastislav<br />
- BUJNOVSKÁ, Daniela – BRUCHÁČOVÁ, Zora – KRIŽKOVÁ, Elena – JAROŠOVÁ, Alexandra<br />
– ŠEBESTOVÁ, Anna.<br />
149
VLASTA KŘEČKOVÁ<br />
gia je publikovaná na CD disku, ktorý obsahuje terminológiu vodného hospodárstva<br />
(4 411 termínov s definíciami a obrázkami), vodohospodárske normy<br />
a štvorjazyčný slovník termínov vodného hospodárstva a životného prostredia. 3<br />
Terminologická databáza, ktorá obsahuje terminológiu z oblasti knižničnej<br />
a informačnej vedy, vznikla na základe viacročného terminologického výskumu<br />
na Katedre knižničnej a informačnej vedy Filozofickej fakulty Univerzity<br />
Komenského v Bratislave. Pri jej tvorbe boli akceptované niektoré zásady<br />
terminologickej práce obsiahnuté v norme STN ISO 10241 Medzinárodné terminologické<br />
normy – Tvorba a úprava. Na vytvorenie databázy bol použitý<br />
databázový systém MS ACCESS. Východiskom pre tvorbu databázy bola jedna<br />
z posledných počítačových verzií na katedre spracovaného terminologického a<br />
výkladového slovníka Informačná výchova. Publikovaným výstupom TDB je<br />
Terminologický slovník z knižničnej a informačnej vedy na CD disku. 4 Všetky<br />
spracované termíny sú systematicky zaradené do tematických oblastí podľa<br />
čísla systematického triedenia. Štruktúra hesla (terminologického záznamu),<br />
ktoré je spracované v slovenčine, je nasledujúca: poradové číslo terminologického<br />
záznamu, heslový termín v základnom tvare, ekvivalent termínu v angličtine,<br />
synonymum, skratka, neodporúčaný termín, systematické triedenie, definícia,<br />
autor záznamu, zdroj a poznámka, ktorá objasňuje použitie termínu, ak je<br />
to potrebné. Elektronická podoba slovníka umožňuje rýchly prístup k termínom<br />
niekoľkými spôsobmi. Termíny možno prezerať v základnom súbore v abecednom<br />
usporiadaní. Ďalej sú vytvorené registre: systematický (termíny sú<br />
usporiadané podľa systematického triedenia do jednotlivých oblastí), abecedne<br />
usporiadaný register anglických ekvivalentov termínov a autorský register. Zo<br />
všetkých registrov sa dá pristúpiť priamo k celým terminologickým záznamom.<br />
Najrýchlejším prístupom k termínom je vyhľadávanie podľa začiatočného<br />
reťazca. Tento sa hľadá nielen v poli termín, ale aj v synonymách, neodporúčaných<br />
termínoch a v skratkách. Terminologická databáza sa v súčasnosti v rámci<br />
projektu VEGA č. 1/7296 /20 ďalej aktualizuje a rozširuje o ďalšie príbuzné tematické<br />
oblasti a o ďalšie terminologické informácie. 5<br />
3 STANČÍKOVÁ, Pavla – ŠMIHLA, Marek. 2000. Multilingual Vocabulary of Water Terms<br />
EN – SK – HU – RU (Viacjazyčný vodohospodársky slovník ang.-slov.-maď.-ruš.). Bratislava: CEIT.<br />
4 KRIŠTOFIČOVÁ, Eva – JURČACKOVÁ, Zora – ONDRIŠOVÁ, Miriam. 1999. Terminologický<br />
slovník z knižničnej a informačnej vedy. Bratislava: Stimul.<br />
5 Riešiteľmi projektu VEGA č. 1/7296/20 s názvom Manažment terminologických údajov<br />
a možnosti jeho uplatnenia v oblastiach poznania a praxe sú Eva KRIŠTOFIČOVÁ, Zora JURČAC-<br />
KOVÁ, Miriam ONDRIŠOVÁ a Vlasta KŘEČKOVÁ.<br />
150
INFORMÁCIE V TERMINOLOGICKÝCH DATABÁZACH A ICH VYUŽÍVANIE PRI PREKLADE ODBORNÝCH TEXTOV<br />
2. Informácie v terminologickom zázname<br />
Za základnú jednotku terminologickej databázy sa považuje terminologický<br />
záznam. Jeden terminologický záznam sa vzťahuje na jeden pojem a jeho<br />
pomenovanie (termín) a je vytvorený v jednom jazyku. Ak má jeden termín<br />
viac významov v jednom odbore, resp. v jednej tematickej oblasti, každý pojem<br />
( ~ význam) je spracovaný na osobitnom zázname. Štruktúru terminologického<br />
záznamu tvoria tri základné skupiny informácií (Jurčacková 1999, Gouadec<br />
1990). Do prvej skupiny patria informácie jazykového charakteru, ktoré sa<br />
vzťahujú na termín: termín (termíny) v základnej forme (synonymá, varianty<br />
termínu, skrátené alebo úplné formy termínu, symboly, inojazyčné ekvivalenty<br />
termínu), gramatické informácie, miera akceptovateľnosti termínu, kolokácie,<br />
antonymá, kontext, odvodené termíny a pod. Druhú skupinu tvoria informácie<br />
encyklopedického charakteru vzťahujúce sa na pojem: definícia, grafické reprezentácie<br />
pojmu, identifikátory tematickej oblasti, hyponymá, hyperonymá, encyklopedická<br />
poznámka a pod. Do tretej skupiny patria „administratívne“ informácie:<br />
identifikátor termínu, symbol jazyka, dátum vytvorenia terminologického záznamu,<br />
identifikátor tvorcu záznamu, kód inštitúcie, informácie o zdrojoch, z<br />
ktorých pochádzajú termíny, ale aj o zdrojoch, z ktorých pochádzajú jednotlivé<br />
informácie, identifikátor overovateľa správnosti a spoľahlivosti terminologického<br />
záznamu atď.<br />
2.1 Informácie jazykového charakteru<br />
Základnou jazykovou informáciou v terminologickom zázname je heslový<br />
termín, ktorý sa uvádza vo svojej základnej gramatickej forme. Heslový termín<br />
býva zvyčajne dokumentovaný kontextom, v ktorom sa vyskytol. Kontext poukazuje<br />
na existenciu termínu a zároveň termín vysvetľuje (objasňuje). Zohráva<br />
významnú úlohu aj pri formulovaní definície termínu. V štruktúre terminologického<br />
záznamu sa k heslovému termínu vzťahujú všetky uvádzané informácie<br />
jazykového a encyklopedického charakteru.<br />
Pokiaľ ide o informácie jazykového charakteru, sú to v prvom rade<br />
gramatické informácie, ktoré sú rôzne podľa charakteru jednotlivých jazykov.<br />
V slovenčine sa zvyčajne uvádza informácia o slovnom druhu. Z menných charakteristík<br />
sa uvádza najmä informácia o rode a čísle, prípadne zvláštnosti týkajúce<br />
sa deklinácie. Gramatické informácie využívajú nielen prekladatelia odborných<br />
textov, ale aj používatelia databázy, ktorých cieľom je písanie odbor-<br />
151
VLASTA KŘEČKOVÁ<br />
ných prác v materinskom alebo aj v cudzom jazyku. Nezanedbateľnou jazykovou<br />
informáciou sú informácie o variantoch termínu: zemepisné varianty (pri<br />
termínoch vo svetových jazykoch, ako sú angličtina, španielčina, francúzština a<br />
pod.; pravopisné varianty alebo morfologické a syntaktické varianty). Ak je výslovnosť<br />
termínu netypická, je vhodné uvádzať aj informáciu o výslovnosti,<br />
ktorú uvítajú najmä tlmočníci.<br />
Pri preklade odborných textov sa javí ako veľmi dôležitá informácia o<br />
kolokáciách termínu, čiže o spojeniach, v ktorých sa termín v textoch najčastejšie<br />
vyskytuje. Nedostatočná znalosť kolokácií znižuje vo veľkej miere kvalitu<br />
prekladu. Vyhľadávanie kolokácií je náročnou činnosťou, ale v súčasnosti ju<br />
uľahčujú počítačové programy na textovú analýzu a programy na preklad podporovaný<br />
počítačom. Užitočná môže byť informácia o odvodených termínoch a<br />
o synonymách. Medzi synonymiou vo všeobecnej slovnej zásobe a v terminológii<br />
je základný rozdiel. V terminológii sa považujú za synonymá len tie termíny,<br />
ktoré pomenúvajú ten istý pojem. Aj keď je synonymia v terminológii<br />
javom nežiaducim, v praxi sa s ňou prekladatelia často stretávajú, najmä pokiaľ<br />
ide o nové termíny. Preto je vhodné v terminologickom zázname uvádzať informáciu<br />
o spisovnosti, resp. „akceptovateľnosti“ termínu (termín spisovný, nespisovný,<br />
odporúčaný, neodporúčaný, zastaraný a pod.) a pokiaľ ide o tzv.<br />
„čiastočné“ synonymá, špecifikovať oblasť a spôsob ich použitia. Zaujímavá<br />
môže byť pre prekladateľov informácia o jazykovej štruktúre termínu.<br />
Cennými informáciami sú informácie o skrátených alebo úplných formách<br />
termínu a o inojazyčných ekvivalentoch. Pre kvalitu odborného prekladu je<br />
žiaduce, aby boli inojazyčné ekvivalenty doplnené explicitným vyjadrením<br />
miery ich ekvivalencie najmä vtedy, ak sa neuvádza pôvodná inojazyčná definícia.<br />
Ekvivalencia termínov sa realizuje na základe ekvivalencie pojmov, ktoré<br />
sú v jednojazyčných terminologických záznamoch vyjadrené definíciou. Medzi<br />
pojmom termínu v jazyku A a pojmom ekvivalentného termínu v jazyku B<br />
môžu nastať tri základné typy vzťahov. Ekvivalencia pojmov, a teda i termínov,<br />
môže byť úplná alebo čiastočná. Na čiastočnú ekvivalenciu je potrebné vo viacjazyčných<br />
terminologických súboroch upozorniť. Avšak môže nastať i situácia,<br />
že pojem pomenovaný v jednom jazyku nemá v druhom jazyku žiadne pomenovanie.<br />
V takom prípade môže terminológ utvoriť (navrhnúť) termín pomenúvajúci<br />
pojem v tom jazyku, v ktorom termín chýba, avšak je potrebné používateľov<br />
terminologickej databázy na tento fakt upozorniť.<br />
Jazykové zvláštnosti termínu, ktoré nemohli byť uvedené v rámci žiadnej<br />
zvolenej jazykovej charakteristiky, bývajú uvádzané v jazykovej poznámke.<br />
152
INFORMÁCIE V TERMINOLOGICKÝCH DATABÁZACH A ICH VYUŽÍVANIE PRI PREKLADE ODBORNÝCH TEXTOV<br />
2.2 Informácie encyklopedického charakteru<br />
V štruktúre terminologického záznamu je základnou encyklopedickou<br />
informáciou definícia. Definícia vyjadruje jazykovými prostriedkami znaky,<br />
ktorými je vymedzený príslušný pojem, ako aj jeho miesto v sústave pojmov<br />
tematickej oblasti. Je dôležité, aby sa opis pojmu realizoval pomocou<br />
známych pojmov a známych jazykových prostriedkov. Východiskom definície<br />
je logické spektrum pojmu. Podľa medzinárodnej normy ISO 704 je pre terminologickú<br />
prácu najvhodnejšia tzv. klasická definícia (obsahová, intenzionálna:<br />
genus proximum + differentiam specificam alebo enumeratívna definícia<br />
(rozsahová, extenzionálna). Veľká opisnosť pri formulovaní terminologickej<br />
definície, definovanie vzorcom, číselným údajom, prípadne synonymom,<br />
kruhové definície alebo tautologické definície sa nejavia byť vhodnými<br />
definíciami pre terminologickú prax. Okrem jazykového vyjadrenia pojmu<br />
definíciou môže byť pojem v terminologickom zázname vyjadrený ikonickou<br />
(nejazykovou) jednotkou, ktorá vyjadruje predstavu ľudí o reálnom objekte<br />
(obrázok, vzorec, graf). Ilustrácia pojmu by však nemala nahrádzať definíciu<br />
vyjadrenú jazykovými prostriedkami.<br />
Ďalšie informácie dôležité pre opis pojmu, ktoré neumožňuje vyjadriť<br />
štruktúra definície, sa zvyčajne uvádzajú v encyklopedickej (technickej) poznámke.<br />
Medzi informácie vzťahujúce sa na pojem patrí informácia o tematickej<br />
oblasti, do ktorej termín patrí. Informácie o antonymách, hyponymách<br />
alebo hyperonymách umožnia prekladateľovi správne situovať termín v<br />
štruktúre pojmov danej tematickej oblasti.<br />
2.3 Administratívne informácie<br />
Základnými administratívnymi údajmi sú číslo terminologického záznamu,<br />
dátum tvorby terminologického záznamu a meno alebo kód autora<br />
(autorov) terminologického záznamu. V prípade potreby môžu byť tieto informácie<br />
doplnené kódom spoľahlivosti terminologického záznamu, bibliografickými<br />
údajmi o zdrojoch všetkých informácií uvedených v terminologickom<br />
zázname, informáciou o kontrole a potvrdení správnosti údajov v terminologickom<br />
zázname odborníkom, názvom inštitúcie, na ktorej bol terminologický<br />
záznam vypracovaný, prípadne i menami sponzorov, ktorí podporili<br />
tvorbu terminologickej databázy.<br />
153
VLASTA KŘEČKOVÁ<br />
3. Anketa o využívaní informácií v terminologických databázach a v terminologických<br />
slovníkoch pri preklade odborných textov<br />
Rôzne skupiny používateľov terminologickej databázy využívajú v rôznej<br />
miere jednotlivé terminologické informácie. Analýza výsledkov prieskumu terminologických<br />
potrieb prekladateľov, ktorý bol realizovaný na Slovensku v<br />
rámci Jednoty tlmočníkov a prekladateľov, uvádza informácie, ktoré hľadajú v<br />
terminologických slovníkoch a databázach prekladatelia odborných textov.<br />
Okrem termínov vo východiskovom a v cieľovom jazyku sú to najmä definície<br />
termínov, pričom pri dvojjazyčných alebo viacjazyčných terminologických<br />
súboroch sú žiaduce pôvodné definície v každom zo zastúpených jazykov. Na<br />
druhom mieste prekladatelia vyhľadávajú informácie o kolokáciách termínu a o<br />
synonymách. Väčšina prekladateľov dáva prednosť terminologickým slovníkom<br />
a databázam, v ktorých nájde informáciu o tematickej oblasti, do ktorej<br />
termín patrí, a informáciu o používaní terminologických skratiek. Prekladateľov<br />
zaujímajú aj gramatické informácie a informácie o spisovnosti termínu.<br />
Výsledky uskutočneného prieskumu ukazujú, že len málo prekladateľov sa zaujíma<br />
o to, z akých zdrojov pochádzajú jednotlivé termíny, prípadne z akých<br />
zdrojov pochádzajú jednotlivé informácie. Menej sú vyhľadávané informácie o<br />
výslovnosti termínu, o pôvode termínu, o antonymách, hyponymách a hyperonymách.<br />
Veľmi málo prekladateľov hľadá v terminologickom slovníku grafické<br />
reprezentácie pojmov, jazykové a encyklopedické poznámky, kontexty a informáciu<br />
o miere ekvivalencie inojazyčných termínov. 6<br />
V súvislosti s preberaním technických a iných noriem a ich prispôsobovaním<br />
európskym alebo svetovým normám, ako i v súvislosti s aproximáciou<br />
práva právu krajín Európskej únie a vzhľadom na stále intenzívnejšie kontakty<br />
slovenských inštitúcií a podnikov so zahraničím sa zvyšujú nároky na kvalitu<br />
prekladov odborných textov. Kvalitné pomôcky (terminologické slovníky alebo<br />
terminologické databázy) môžu v mnohom uľahčiť prekladateľom odborných<br />
textov ich náročnú a zodpovednú prácu.<br />
Tvorba veľkých terminologických databáz je činnosťou náročnou na<br />
materiálne a ľudské zdroje a vyžaduje si spoluprácu odborníkov z jednotlivých<br />
tematických oblastí s odborníkmi terminológmi a informatikmi. Možnosti využitia<br />
kvalitných terminologických databáz sú však veľké. Okrem odborného<br />
6 KŘEČKOVÁ, Vlasta – DOVČIAKOVÁ, Anna. 2001. Analýza terminologických potrieb prekladateľov<br />
na Slovensku. ToP (tlumočení – překlad), roč. XII, č. 59, s. 12/1510 – 13/1511.<br />
154
INFORMÁCIE V TERMINOLOGICKÝCH DATABÁZACH A ICH VYUŽÍVANIE PRI PREKLADE ODBORNÝCH TEXTOV<br />
prekladu zohrávajú terminologické databázy dôležitú úlohu pri normalizácii<br />
termínov, v dokumentácii, pri organizácii poznania. Viacjazyčná terminologická<br />
databáza je dôležitým nástrojom úspešnej komunikácie v rozvinutej viacjazyčnej<br />
informačnej spoločnosti.<br />
Literatúra<br />
BESSÉ, Bruno (de). 1992. Cours de terminologie. Genève: ETI Université de Genève.<br />
CABRÉ, Maria Teresa. 1998. La terminologie. Théorie, méthode et applications. Paris –<br />
Ottawa: Armand Colin – Les Presses de l´Université d´Ottawa.<br />
GOUADEC, Daniel. 1990. Terminologie. Constitution des données. Paris: Afnor Gestion.<br />
GOUADEC, Daniel. 1997. Terminologie et Phraséologie pour Traduire. Paris: La Maison du<br />
Dictionnaire.<br />
JURČACKOVÁ, Zora. 1999. Viacnásobné využitie terminologických údajov. In: Zborník<br />
Filozofickej fakulty Univerzity Komenského. Knižničná a informačná veda, roč. XVIII. Bratislava:<br />
Univerzita Komenského.<br />
MACHOVÁ, Svatava. 1995. Terminografie. In: František Čermák – Renata Blatná (eds.). 1995,<br />
Manuál lexikografie. Nakladatelství H&H, s. 137 – 157.<br />
MASÁR, Ivan. 1991. Príručka slovenskej terminológie. Bratislava: Veda SAV.<br />
Medzinárodné terminologické normy. Tvorba a úprava. STN ISO 102 41, január 2000.<br />
Principes et méthodes de la terminologie. ISO 704, 1997 (F).<br />
155
PROJEKT SLOVNÍKA ŠTÚROVSKEJ<br />
SLOVENČINY A JEHO POČÍTAČOVÁ<br />
PODPORA<br />
Ľubomír Kralčák: Katedra slovenského jazyka, Filozofická fakulta<br />
Univerzity Konštantína Filozofa, Nitra<br />
Abstract: The specificity of the dictionary of the Slovak language from the Štúr period lies in the fact<br />
that it is a historical dictionary whose lexical basis is defined by the texts originated in a relatively exactly<br />
confined period, i.e. more or less in the first half of the nineteenth century. The conception of the<br />
project requires that the following problems are considered: the specification of the Štúr Slovak texts<br />
canon (for example, the question whether only the printed texts or also unpublished manuscripts will be<br />
included), then to what extent new words occurring in the work of only one author and displaying signs<br />
of being occasional words (which means that they have not occurred in any other periods of the existence<br />
of the Standard Slovak) can be included in the database, how to include the tautonyms (dialectical<br />
synonyms) reflecting a momentary state of the emerging Štúr Slovak, how to assess the words which, in<br />
spite of their occurrence in some texts, were linguistically refused by the contemporary criticism as inappropriate<br />
or un-Slovak, as well as some other specific problems.<br />
In the lexicographic work at this dictionary we expect to make a significant use of computer technology.<br />
The building of an electronic corpus of texts has already begun. So far the corpus has reached approximately<br />
half a million of verbal forms, although our aim is to reach the final size of 15 million verbal<br />
forms. As a significant contribution of the computer technology can be considered, among other things,<br />
also the fact that - having in mind the possibility of a relatively exact specification of the Štúr Slovak<br />
text inventory - within individual entries it will be possible to give a frequency index of the word as<br />
well. This would solve the problem of the occasional words, that is neologisms with low frequency rate.<br />
Je celkom prirodzené a samozrejmé, že lexikografia a informatika našli<br />
veľmi rýchlo spoločnú oblasť záujmu. Preto sa dnes stáva takmer nemysliteľné<br />
uvažovať o tvorbe akéhokoľvek slovníka bez využitia počítačovej technológie.<br />
Takéto využite sa dnes stáva bežnou praxou i v slovenskej lexikografii a uplatnilo<br />
sa pri zostavovaní Historického slovníka slovenského jazyka, Slovníka<br />
slovenských nárečí, Krátkeho slovníka slovenského jazyka, Synonymického<br />
slovníka slovenčiny i slovníkovej časti Pravidiel slovenského pravopisu. V niektorých<br />
prípadoch išlo, ako je známe, o konvertovanie tzv. papierovej podoby<br />
ručne spracovaných lexikografických údajov na elektronickú lexikálnu databázu<br />
(porov. napr. Benko 1992, Jarošová 1997). Posledné tri menované slovníky<br />
má možnosť využívať široká verejnosť aj v elektronickej podobe ako tzv. počítačové<br />
slovníky na kompaktnom disku.<br />
156
PROJEKT SLOVNÍKA ŠTÚROVSKEJ SLOVENČINY A JEHO POČÍTAČOVÁ PODPORA<br />
Ak sa dnes pozrieme na celé dlhé obdobie fungovania slovenčiny ako<br />
spisovného alebo aspoň písaného (literárneho) jazyka, zreteľne sa ukazuje, že<br />
lexikograficky je najskromnejšie spracované obdobie štúrovskej spisovnej<br />
slovenčiny. Slovník štúrovskej slovenčiny (SŠS) je dávnejšie zamýšľaný projekt<br />
na nitrianskej Katedre slovenského jazyka. Pôvodné predstavy sa však predtým<br />
nepremietli do konkrétnej realizácie, neboli začaté práce na zhromažďovaní<br />
jazykového materiálu, ba nebol načrtnutý ani špecifikovanejší postup či rozsah<br />
lexikografických prác. V súčasnosti tu však projekt slovníka nadobúda zreteľnejšie<br />
kontúry, pričom podstatný vplyv na jeho oživenie malo to, že sa vyskytli<br />
nové možnosti, ktoré ponúka využitie počítačovej podpory pri zbieraní a lexikografickom<br />
štruktúrovaní jazykového materiálu.<br />
Projekt SŠS predpokladá tri okruhy prác: zhromažďovanie jazykového<br />
materiálu, lexikografická analýza textov a vytvorenie lexikálnej bázy dát.<br />
l. Zhromažďovanie jazykového materiálu<br />
Táto etapa lexikografickej práce má dva aspekty: lingvistický a informatický.<br />
Lingvistická stránka zahŕňa v prípade SŠS potrebu riešenia otázok periodizácie<br />
štúrovskej slovenčiny a vymedzenia pramennej základne slovníka.<br />
Informatická stránka sa týka predovšetkým problematiky elektronického zápisu<br />
textov.<br />
1.1 Problém periodizácie štúrovskej slovenčiny a vymedzenia pramennej<br />
základne<br />
1.1.1 Vertikálne vymedzenie inventára textov (periodizácia)<br />
Pri skúmaní vývinového úseku v dejinách slovenčiny, ktorý sa všeobecne<br />
nazýva štúrovská slovenčina, sa ukazuje ako jeden zo základných problémov<br />
presnejšie časové ohraničenie tohto úseku. Časové ohraničenie potom, samozrejme,<br />
rozhoduje o rozsahu textového materiálu zahrnutého pod takéto periodické<br />
vymedzenie. Z tohto hľadiska však vzniká aj ďalší problém, a to časový<br />
nesúlad pri vymedzovaní pojmov štúrovské obdobie a štúrovská slovenčina.<br />
Štúrovské obdobie vymedzuje E. Pauliny (1983, s. 175), a to v lingvistickom<br />
zmysle slova tridsiatymi a štyridsiatymi rokmi minulého storočia. Za spodnú<br />
hranicu pokladá rok 1834, resp. 1835, keď sa objavili prvé básne písané zámerne<br />
strednou slovenčinou (Chalupka 1834, Kuzmány 1835). Hornú hranicu pod-<br />
157
ĽUBOMÍR KRALČÁK<br />
ľa neho udáva rok 1852, keď vyšla Hattalova Krátka mluvnica slovenská. Naproti<br />
tomu napr. J. Furdík (1971, s. 23) ohraničuje štúrovské obdobie štúrovskou<br />
kodifikáciou – podľa neho rok 1843 (ako spodná hranica) – a koncom<br />
päťdesiatych rokov, t. j. do r. 1860.<br />
Uvedené vymedzenia štúrovského obdobia sa teda rozchádzajú v stanovení<br />
hornej i dolnej hranice, pričom sa pracuje aj s takým výrazným periodizačným<br />
pojmom, akým je kodifikácia. Lingvistické vymedzenie štúrovského obdobia<br />
bude teda iné z hľadiska kodifikácie a iné z hľadiska výskytu textov písaných<br />
v štúrovskej (resp. strednej) slovenčine. Naše riešenie vertikálneho vymedzenia<br />
pramennej základne smeruje k maximalizácii, teda k vyčleneniu čo najširšieho<br />
inventára textov, aby sa nestratili niektoré vzácne jazykové prostriedky.<br />
To predpokladá posunúť predovšetkým dolnú časovú hranicu pred kodifikáciu<br />
štúrovskej slovenčiny.<br />
1.1.2 Horizontálne vymedzenie inventára textov<br />
Pokiaľ ide o vymedzenie šírky pramennej základne, ani tu, ako sa ukazuje<br />
v predbežných diskusiách, sotva nastane všeobecná zhoda. Ak by aj bola zhoda<br />
v periodizačnom ohraničení štúrovčiny, zostáva zatiaľ nevyjasnená otázka, či<br />
do korpusu textov zaradiť aj rukopisné štúrovské texty, teda aj texty nepublikované.<br />
Vzhľadom na prirodzený dokumentačný charakter zamýšľaného<br />
slovníka predpokladáme do korpusu zaradiť aj niektoré významnejšie rukopisné<br />
pamiatky, napr. texty levočských štúrovcov.<br />
1.2 Informatický aspekt (tvorba korpusu)<br />
Informatickú stránku zhromažďovania jazykového materiálu predstavuje<br />
proces, ktorý možno charakterizovať ako vytváranie textového korpusu štúrovskej<br />
slovenčiny. Ide o kroky, ktoré sme už začali realizovať. Z dvoch možností<br />
prepisovania textov do elektronickej podoby, a to pomocou textového editora<br />
alebo pomocou optického snímača znakov, sme zvolili prvý postup, pretože<br />
optické snímanie strácalo svoju efektivitu pre množstvo chýb, ktoré vznikali<br />
najmä v dôsledku menej kvalitnej tlače spracovávaného materiálu. Doteraz vytvorený<br />
elektronický korpus textov má zatiaľ rozsah približne pol milióna<br />
slovných tvarov, pričom náš plán je vytvorenie cieľového korpusu v rozsahu<br />
najmenej 15 miliónov slovných tvarov s takýmto členením textov:<br />
I. umelecký štýl<br />
158
PROJEKT SLOVNÍKA ŠTÚROVSKEJ SLOVENČINY A JEHO POČÍTAČOVÁ PODPORA<br />
II. publicistický štýl<br />
III. odborný štýl.<br />
Tieto tri sféry predstavujú reálne funkčnoštýlové rozpätie štúrovskej<br />
spisovnej slovenčiny. Oproti stavu v dnešnej slovenčine je tu zreteľná najmä<br />
absencia administratívnej a právnej lexiky.<br />
2. Lexikografická analýza<br />
V rámci lingvistického prístupu k zostavovaniu SŠS je potrebné riešiť<br />
viaceré špecifické lexikografické problémy:<br />
Do rámca špecifickej diskusie zatiaľ patrí otázka, či súčastou lexikálnej<br />
bázy slovníka majú byť aj také novotvary, ktoré vykazujú znaky okazionálnych<br />
jazykových prostriedkov. Ide nielen o slová s neprehľadnou slovotvornou<br />
štruktúrou, resp. s nejasným významom, ale aj o nové slová, ktoré sa objavia<br />
iba raz alebo iba u jedného autora. V tejto súvislosti ide predovšetkým o niektoré<br />
texty M. M. Hodžu (porov. napr. Větín o slovenčine, Dobruo slovo Slovákom<br />
súcim na slovo). Na ilustráciu možno uviesť napr. slová ako majeť (majetok),<br />
osobňivec (sebec), ťäžkulavať si (ponosovať sa), živoch (živočích) a pod.<br />
Sem patrí aj pokus M. Godru (porov. 1851, s. 95 – 103, 115 – 121) o zavedenie<br />
novej slovenskej odbornej terminológie z oblasti logiky, geometrie,<br />
matematiky a techniky, ale aj pomenovania z oblasti všeobecných abstraktných<br />
pojmov. Z týchto navrhnutých termínov (spolu okolo 700 odborných výrazov)<br />
sa v neskoršom vývine ujal iba zlomok, no Godrov „slovníček“ je pozoruhodný<br />
najmä preto, že sa v ňom nahrádzajú cudzie, zväčša latinské, ale aj české odborné<br />
termíny slovenskými novotvarmi (napr. rozväzba „analýza“, odlusk „odbor“,<br />
odsamnina „unikát“ a pod.).<br />
Ďalšou špecifickou otázkou je výskyt tautoným. Ľ. Štúr pripúšťal obohacovanie<br />
lexikálneho fondu spisovnej slovenčiny z viacerých slovenských nárečí,<br />
preto sa napr. v <strong>Slovenský</strong>ch <strong>národný</strong>ch novinách objavujú nárečové synonymá<br />
ako zemjaki, švábka, krumple.<br />
Iným špecifickým problémom je kritika jazykovej kultúry niektorých textov,<br />
ktorá odmieta už použité výrazy ako nesprávne, napr. Štúrova recenzia<br />
spisu S. Vozára Hlas od Tatjer (porov. Štúr, 1851, s. 182 – 185). Ľ. Štúr ostro<br />
odmieta v tomto spise použité cudzie slová ako napr. princíp (namiesto neho<br />
navrhuje už prijaté slovo zásada), charakter (navrhuje ráz), organizácia (odporúča<br />
ustrojenosť, ústrojnosť) a pod.<br />
159
ĽUBOMÍR KRALČÁK<br />
Informatická stránka tejto etapy spracovania jazykového materiálu predpokladá<br />
využitie softvéru na vytvorenie kódovanej podoby korpusu textov. V<br />
rámci nášho projektu sme zatiaľ skúšobne použili program WordCruncher. Za<br />
významný prínos počítačovej podpory pokladáme napr. aj to, že vzhľadom na<br />
možnosť pomerne presného vymedzenia inventára textov štúrovskej slovenčiny<br />
(počet a rozsah textov dovoľuje ich takmer úplné elektronické spracovanie)<br />
bude možné v hesle uvádzať aj index frekvencie slova, čím by sa vyriešila napr.<br />
otázka okazionalizmov, resp. málo frekventovaných novotvarov.<br />
3. Vytvorenie lexikálnej bázy dát<br />
Táto etapa predstavuje elektronické kódovanie informačných kategórií pri<br />
súčasnom uplatnení štandardnej lexikografickej analýzy. Na budovanie jednotlivých<br />
hesiel bude potrebné použiť aj taký špecifický počítačový program, ktorý<br />
bude umožňovať vstup do databázy cez viaceré parametre hesla, teda napr. cez<br />
gramatickú charakteristiku, štylistický kvalifikátor a pod., a zároveň bude<br />
slúžiť na výrazné zefektívnenie prípravy slovníka do tlače. Pri použití tohto<br />
programu predpokladáme nevyhnutnú spoluprácu s inými pracoviskami –<br />
predovšetkým s Laboratóriom počítačovej lingvistiky Pedagogickej fakulty UK,<br />
ale aj s Jazykovedným ústavom Ľ. Štúra SAV.<br />
Literatúra<br />
BENKO, Vladimír. 1992. (Neskorá) počítačová podpora lexikografického projektu: Slovník<br />
slovenských nárečí. In: Zápisník slovenského jazykovedca, roč.11, s. 25 – 26.<br />
FURDÍK, Juraj. 1971. Zo slovotvorného vývoja slovenčiny. In: Acta Facultatis Philosophicae<br />
Universitatis Šafarikanae Prešovensis. Spoločenský zošit 7. Bratislava: SPN.<br />
GODRA, Michal. 1851. Príňesok ku vedecko-slovenskjemu názvoslovú. Slovenskje Pohladi,<br />
roč. II, č. 3, s. 95 –103 a č. 4, s. 115 – 121.<br />
JAROŠOVÁ, Alexandra. 1997. Lexikografia a počítače – slovenský variant. In: S. Ondrejovič<br />
(ed.), <strong>Slovenčina</strong> na konci 20. storočia, jej normy a perspektívy. Sociolinguistica Slovaca 3.<br />
Bratislava: Veda, s. 304 – 311.<br />
PAULINY, Eugen. 1983. Dejiny spisovnej slovenčiny od začiatkov po súčasnosť. Bratislava:<br />
SPN.<br />
ŠTÚR, Ľudovít. 1851. Úvahy o spise Hlas od Taťjer. Slovenskje Pohladi, roč. I., č. 5, s. 182 –<br />
185.<br />
160
NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE<br />
Karel Pala: Katedra informačních technologií, Fakulta informatiky<br />
Masarykovy university, Brno (pala@fi.muni.cz)<br />
Abstract: In the contribution we describe a framework in which we plan to build a representative<br />
Czech lexical database (CLD) that could serve as a base for the new representative Czech dictionary. It<br />
should be also used as a resource for the partial knowledge representation in various NLP applications.<br />
Within CLD the following basic units have to be considered: single lemmata: dům (house) as well as<br />
standard collocations like vysoká škola (university). The assumed size of CLD is approximately 60 000<br />
entries and 105 000 meanings, We intend to pay a special attention to the verbs that should represent<br />
about one third of all entries.<br />
1. Úvod<br />
Cílem příspěvku je představit koncepci české lexikální databáze (CLD),<br />
z níž by v blízké budoucnosti mohl a měl vzejít i nový reprezentativní slovník<br />
současné češtiny. Danou koncepci chápeme jako východisko pro budování reprezentativní<br />
CLD, která by měla sloužit jako zdroj lexikální informace pro češtinu<br />
a také jako dílčí reprezentace znalostí v různých aplikacích v oblasti počítačového<br />
zpracování přirozeného jazyka (dále NLP) (Ingria, Boguraev, Pustejovsky,<br />
1992).<br />
Základními jednotkami v CLD mohou být buď jednotlivá lemmata jako<br />
dům, nebo standardní kolokace jako např. vysoká škola (=univers/zita). Předpokládaný<br />
rozsah navrhované CLD je přibližně 50 000 hesel. Na prvním místě<br />
bychom se rádi maximálně soustředili na česká slovesa, tj. předpokládáme, že<br />
počet zpracovávaných sloves by se měl pohybovat kolem 20 000 (podle našeho<br />
odhadu je v češtině asi 40 000 sloves). Orientace na slovesa vychází z faktu,<br />
že slovesa reprezentují v přirozených jazycích hlavní relační prvky, které na<br />
sebe vážou ostatní prvky, většinou substantiva.<br />
I když jsme si vědomi toho, že víceúčelové, plně univerzální slovníky jsou<br />
do značné míry problematické, rádi bychom se pokusili o budování databáze,<br />
která by obsahovala co nejvíce dostupných údajů o současné češtině.<br />
2. Výchozí struktura CLD<br />
161
KAREL PALA<br />
Lze ji popsat pomocí vhodného datového typu, tj. DTD, který bude na základě<br />
dosavadních zkušeností definován v XML (k tomu např. Pala – Pavelek<br />
2001) a tvořen následujícími poli (fields, viz např. Faber – Usón 1999):<br />
a1) o zvukové struktuře výrazů konstituujících<br />
dané heslo. To ve skutečnosti znamená, že budeme usilovat o vybudování<br />
(paralelní) řečové databáze pro češtinu, která bude představovat soubor<br />
dat vhodných pro tvorbu algoritmů schopných zpracovávat řečové signály, tj.<br />
např. algoritmů pro syntézu a rozpoznávání řeči, včetně rozpoznávání a verifikaci<br />
mluvčích. Data v řečové databázi lze vhodně napojit na ostatní data v lexikální<br />
databázi. V tomto směru bude třeba vyřešit některé zajímavé problémy:<br />
konkrétně, jednotlivé slovní tvary se budou muset generovat modulem pro řečovou<br />
syntézu, protože je prakticky nemožné charakterizovat všechny tvary všech<br />
slov v lexikální databázi – v češtině existuje přibližně 5,5 milionů slovních tvarů.<br />
a2) o struktuře hesla (heslového slova) – představuje<br />
informaci o slovním druhu a všech příslušných gramatických kategoriích<br />
s ním spojených plus údaje o základní segmentaci. U substantiv to lze zajistit<br />
uvedením , protože počítáme<br />
s tím, že morfologický analyzátor/generátor AJKA bude integrován do CLD<br />
(Sedláček 1999) tak, že poskytne morfologickou informaci dynamicky na požádání.<br />
U sloves to standardně zahrnuje 8 kategorií (atributů): ,<br />
, , , , , a . Jejich hodnoty lze získávat dynamicky skrze . Je patrné, že tuto informaci bude možno z morfologického<br />
analyzátoru/generátoru získávat podobným způsobem jako u substantiv.<br />
V samostatném podpoli lze mít i relevantní informaci slovotvornou, která zachytí<br />
relevantní a formálně zachytitelné vazby/vztahy mezi příslušnými heslovými<br />
slovy včetně zachycení jejich sémantické povahy, vztahů mezi slovními<br />
druhy a vztahů slovotvorných (včetně směru fundace) jako např. řetězce typu:<br />
práce pracovat, tj. v konečném úhrnu celé slovotvorné čeledi. Plyne z toho<br />
potřeba co možná formálně formulovat slovotvorná pravidla (viz níže např.<br />
Klímová – Pala, 2000). Lze tu vyjít z dřívějších popisů slovotvorných procesů<br />
(Dokulil 1962), je však potřeba doplnit je a modifikovat tak, aby byly použitelné<br />
pro reprezentaci znalostí.<br />
a3) , kde pro každý z významů bychom rádi uvedli následující<br />
údaje:<br />
162
NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE<br />
a3.1) jež lze přiřadit heslovému slovu – nabízí se možnost<br />
použít hierarchický soubor sémantických rysů založený např. na vrcholové<br />
ontologii (Top Ontology) vyvinuté v rámci projektu EuroWordNet a<br />
hypero/hyponymických (H/H) hierarchických strukturách (stromech či grafech)<br />
nebo jejich částech (podstromech nebo shlucích) (Vossen 1999). Je třeba zvážit<br />
a rozhodnout, jak velké části stromů či podstromů lze použít – podle našeho<br />
odhadu lze počítat, že rozumný počet použitých uzlů se může pohybovat kolem<br />
5,<br />
a3.2) a se uvedou ve všech substantivních heslech, u nichž to<br />
dává dobrý smysl. V dosavadních slovnících představuje informace o genu<br />
proximum první část slovníkové definice. Rozlišovatele představují jistý problém:<br />
je velmi obtížné je uchopit formálně. Lze to doložit faktem, že jednotlivé<br />
slovníky se mezi sebou nejvíce liší právě v tom, jak uvádějí rozlišovatele – existuje<br />
jen částečná shoda v tom, které rozlišovatele by měly nebo neměly být vybrány<br />
a začleněny v jednotlivých heslech.<br />
a3.3) – u sloves se definice typu genus proximum dají<br />
použít jen pro jejich určitou část, proto u nich navrhujeme uvádět informaci<br />
o sémantické třídě, do níž dané sloveso patří. V tomto ohledu připravujeme sémantickou<br />
klasifikaci českých sloves podobnou té, kterou pro angličtinu navrhla<br />
Levinová (Levin 1995). Je ovšem třeba vzít v úvahu, že v češtině je vybudování<br />
takové sémantické klasifikace spojeno s některými komplikacemi způsobenými<br />
primárně existencí kategorie vidu (díky níž se česká slovesa vyskytují ve<br />
dvojicích. Na druhé straně je ovšem vidět, že sémantické třídy sloves mají těsný<br />
vztah k valenčním rámcům sloves (a slovesným rámcům obecně). Tyto vztahy<br />
bychom chtěli v databázi rovněž zachytit.<br />
a3.4) , které lze najít pro dané heslo (lexikální<br />
jednotku, lemma). Důvod pro použití synonymických řad (synsets) plyne ze<br />
skutečnosti, že vztah synonymie (a antonymie) může sloužit jako jeden z mála<br />
relativně spolehlivých způsobů, jimiž lze charakterizovat význam lexikálních<br />
jednotek. Proto se s nimi běžně pracuje ve standardních slovnících.<br />
a4) o kombinatorických vlastnostech hesla a výrazech,<br />
které se s ním pojí. Je zřejmé, že syntaktické vlastnosti dané lexikální<br />
jednotky úzce souvisí s jejím konkrétním významem a odlišují je od ostatních<br />
významů. Informace uvedená v tomto poli bude zachycena prostřednictvím<br />
pro všechny slovní druhy, u nichž to má smysl, tj. u<br />
163
KAREL PALA<br />
sloves, substantiv, adjektiv, číslovek a některých adverbií. Je evidentní, že v<br />
tomto ohledu musíme rozlišit formálně syntaktické (povrchové) valenční rámce,<br />
jež v češtině zahrnují kombinatorickou informaci o sedmi (šesti) morfologických<br />
pádech, případně informaci další, a hloubkové (sémantické) valenční<br />
rámce obsahující potřebné údaje o sémantických pádech (rolích), které jsou vyjadřovány<br />
povrchovými pády. Příklad notace propojující syntaktické a sémantické<br />
valence je uveden níže, je však třeba pokládat ji za předběžnou, dokud<br />
nebude stanoven finální inventář hloubkových pádů pro češtinu (viz např. Sgall<br />
et al.1986, též Fillmore – Atkins 1998, s. 417 – 423, ).<br />
To ale není všechno, podle našeho názoru bude užitečné začlenit do valenčních<br />
rámců i vhodné konkrétní lexikální údaje. Pro aplikace v oblasti NLP<br />
nestačí znát jen odpovídající hodnoty morfologických (povrchových) pádů, ale<br />
i jejich lexikální „obsazení“, což lze doložit např. relevantním rozdílem mezi<br />
dvěma akuzativy v držet v ruce knihu a držet tvar. Dá se argumentovat, že sémantické<br />
valence by měly zachytit tyto významové diference, nezachycují ovšem<br />
přímo, jaké lexikální obsazení se skrývá za jednotlivými sémantickými<br />
pády. Tento druh informace může být velmi užitečný pro praktické aplikace a z<br />
tohoto důvodu pokládáme za výhodné mít je v CLD v explicitní podobě.<br />
a5) , tj. kontexty typické pro dané heslo, např. hezká<br />
dívka nebo šikovný chlapec apod., jak patrno, lze je získat z korpusu,<br />
a6) , např. držet nůž v ruce, otočit hlavu,<br />
obrátit stránku, rovněž je můžeme získat z korpusových textů,<br />
a7) doplněné o vhodnou subklasifikaci beroucí v úvahu jejich<br />
sémantické i syntaktické vlastnosti. Např. je vidět, že slovesné kolokace by<br />
měly být klasifikovány ve shodě s již zmíněnými sémantickými třídami sloves.<br />
Podobné postupy lze uplatnit i u substantivních kolokací, ale jsme si vědomi<br />
toho, že tento úkol bude vyžadovat rozsáhlá korpusová data a jejich pracnou<br />
analýzu. Dobrým východiskem tu může být Slovník české frazeologie a idiomatiky<br />
(Čermák et al. 1983 – 1994).<br />
a8) – sem patří dostatečně strukturované údaje<br />
o stylistických vlastnostech heslového slova včetně informace o regionálním<br />
výskytu a sociálních aspektech. Počítáme však jen s uvedením základních informací<br />
tohoto druhu.<br />
a9) – tj. stručná etymologická informace vztahující se k danému<br />
heslovému slovu,<br />
a10) – zde bude uveden údaj o logickém typu heslového<br />
slova, jak se s ním pracuje v transparentní intensionální logice (TIL) (Materna<br />
164
NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE<br />
2000, Pala 2000). Typy v TIL-u jsou budovány na základě rozvětvené teorie typů<br />
a mohou tak vést k formálně konzistentnějším sémantickým reprezentacím výrazů<br />
přirozeného jazyka (češtiny). To podle našeho názoru spolu s hierarchickými<br />
hypero/hyponymickými strukturami umožní využívat posléze údaje z<br />
CLD v systémech pro reprezentaci znalostí. Za samostatný úkol pokládáme<br />
stanovení vztahů mezi vrcholovou ontologií, jak byla definována v projektu<br />
EuroWordNet 1,2, a typovou ontologií definovanou v rámci TIL. To by mělo<br />
poskytnout přesnější a méně arbitrární sémantickou klasifikaci, umožnit konzistentnější<br />
vymezení sémantických hierarchií, sémantických vztahů a sémantických<br />
rysů. Jsme si vědomi toho, že tyto pokusy budou spojeny s určitými<br />
problémy, např. mohou být aplikovatelné jen pro některá hesla a jen pro některé<br />
slovní druhy (slovesa, substantiva, adjektiva, adverbia).<br />
a12) – mohou být začleněny do CLD zejména<br />
u hesel, u nichž je to vhodné či přímo potřebné z hlediska možných NLP aplikací.<br />
To např. platí o heslech, která se vztahují k informačním technologiím, ale i<br />
mnoha dalším oblastem. Otázka je, zda usilovat o integrování encyklopedických<br />
informací přímo do CLD nebo zvolit pragmatický postup a jen volně napojit<br />
současné encyklopedické zdroje (slovníky) na CLD. V příkladech níže uvádíme<br />
náznaky příkladů, které předpokládají integraci encyklopedických údajů do CLD.<br />
3. Zdroje pro CLD<br />
Situace je příznivá v tom, že nyní jsou k dispozici Český národní korpus<br />
(ČNK na FF UK v Praze) a korpus ESO (na Fakultě informatiky Masarykovy<br />
university, Brno) – můžeme tedy počítat s tím, že budování CLD bude založeno<br />
hlavně na těchto dvou zdrojích. Dále počítáme s následujícími zdroji, konkrétně<br />
s existujícími českými slovníky:<br />
– akademický Slovník spisovného jazyka českého (1960) (v elektronické<br />
podobě), ,<br />
– střední Slovník spisovné češtiny (1984) (v elektronické podobě).<br />
Přirozeně budou použity i další vhodné zdroje, tj. vhodné existující slovníky,<br />
zejména terminologické. Je také potřeba ustavit skupinu odborníků (readers),<br />
kteří by spolupracovali na získávání terminologických a zejména dalších<br />
dat, u nichž je zřejmé, že se nenajdou v korpusu. Má-li se začít pracovat na<br />
novém slovníku češtiny, práce na něm se bez této skupiny neobejdou.<br />
4. Nástroje<br />
165
KAREL PALA<br />
Nedávné výsledky získané u nás v oblasti NLP na Universitě Karlově<br />
(v Ústavu Českého národního korpusu, Ústavu formální a aplikované lngvistikyMatematicko-fyzikální<br />
fakulty a Ústavu teoretické a aplikované lingvistiky<br />
filozofické fakulty) v Praze a v Laboratoři zpracování přirozeného jazyka na<br />
Fakultě informatiky MU v Brně poskytují základní soubor nástrojů, jichž lze<br />
použít při budování CLD.<br />
Konkrétně jde o morfologický analyzátor a generátor AJKA, syntaktické<br />
analyzátory (DIS a GT, Žáčková – Popelínský – Nepil 2000, Horák – Smrž<br />
2000), desambiguátory (Oliva – Petkevič et al. 2000, Hajič 2001), korpusový<br />
manažer Manatee a grafické rozhraní GCQP využívající architektury klient-server<br />
(Rychlý 2000), slovníkový prohlížeč a editor využívající XML formátu, jenž<br />
může pracovat s libovolným slovníkem konvertovaným do XML formátu (Karásek<br />
2000). Vedle toho je k dispozici editor a prohlížeč VisDic, který je určen pro<br />
lokální práci s lexikálními databázemi typu WordNet, ale může pracovat i s jakýmikoli<br />
dalšími slovníky, pokud jsou uloženy ve formátu XML (Pavelek 2001).<br />
Další nástroje zahrnují různé konverzní programy, programy pro budování,<br />
údržbu a editování korpusů (Veber 2001), heuristické programy pro získávání<br />
valenčních rámců z korpusových textů. Samostatným nástrojem je i_par (Veber<br />
2001), což je automatizovaná morfologická databáze, na niž budou navazovat<br />
programy pro automatické odvozování slov (Sedláček 2001) schopné v blízké<br />
budoucnosti pracovat s derivačními řetězy jako učit – učení – učitel – učitelka<br />
– učený – učenec – výuka atd. Je potřeba rozhodnout, zda data tohoto typu<br />
mají být zahrnuta do CLD přímo, nebo by se měla získávat dynamicky ze samostatného<br />
morfologického modulu (viz např. Klímová – Pala 2000). Tento<br />
bod byl dotčen již výše v souvislosti s morfologickými údaji pro jednotlivá hesla.<br />
5. Závěry<br />
V tomto krátkém příspěvku jsme prezentovali výchozí zásady, od nichž se<br />
může odvíjet budování České lexikální databáze. Jsme si vědomi, že některé<br />
probírané body bude potřeba propracovat hlouběji a systematičtěji, máme-li dospět<br />
k plně aplikovatelným výsledkům. Příklady hesel uvedené níže je proto<br />
třeba v řadě ohledů chápat spíše jako experimentální skeletony než jako úplná<br />
hesla. Jsme však přesvědčeni, že popsané techniky, zdroje a nástroje nám<br />
umožní posléze dosáhnout vytčeného cíle.<br />
5.1 Příklady<br />
166
Jako příklad uvádíme heslo pro držet (počítáme s formátem XML):<br />
NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE<br />
<br />
<br />
<br />
KAREL PALA<br />
(roztřídit podle typů)<br />
<br />
<br />
><br />
><br />
<br />
<br />
<br />
%(ve stylu EWN)<br />
<br />
><br />
<br />
<br />
<br />
%(Ve stylu EWN)<br />
<br />
<br />
<br />
<br />
%(Ve stylu EWN)<br />
168
NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE<br />
<br />
<br />
<br />
<br />
%(ve stylu EWN)<br />
<br />
<br />
KAREL PALA<br />
<br />
><br />
<br />
%(Ve stylu EWN)<br />
<br />
<br />
NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE<br />
%(příklady z korpusu)<br />
%(+ sémantická třída kolokace)<br />
<br />
<br />
<br />
><br />
<br />
<br />
<br />
<br />
%ve stylu EWN<br />
%(příklady z korpusu)<br />
%(+ sémantická třída kolokace)<br />
<br />
<br />
<br />
><br />
<br />
<br />
<br />
<br />
%ve stylu EWN<br />
%(příklady z korpusu)<br />
%(+ sémantická třída kolokace)<br />
<br />
<br />
<br />
<br />
<br />
171
KAREL PALA<br />
%ve stylu EWN<br />
%(příklady z korpusu)<br />
%(+ sémantická třída kolokace)<br />
<br />
<br />
<br />
><br />
<br />
<br />
<br />
<br />
%ve stylu EWN<br />
%(příklady z korpusu)<br />
%(+ sémantická třída kolokace)<br />
<br />
<br />
<br />
<br />
Literatura<br />
ČERMÁK, F. et al. 1983 – 1994. Slovník českých frazeologie a idiomatiky. Praha: Academia.<br />
DOKULIL, M. 1962. Tvoření slov v češtině. Praha, Academia.<br />
FABER, P. – USÓN R. M. 1999. Constructing a Lexicon of English Verbs, Berlin – New York:<br />
de Gruyter.<br />
FILLMORE, Ch. – ATKINS, B. 1998. FrameNet and Lexicographic Relevance, In: A. Rubio –<br />
N. Gallardo – R. Castro – A. Tejada (eds.), Proceedings of the First National Conference on<br />
Language Resources and Evaluation, vol. 1, Paris: ELRA, s. 417 – 423.<br />
HAJIČ, J. et al. 2001. Prague Dependency Tree Bank, CD ROM. v. 1.0, Praha: ÚFAL MFF<br />
UK.<br />
INGRIA, R. – BOGURAEV, B. – PUSTEJOVSKY, J. 1992. Dictionary/Lexicon. In: S. C.<br />
Shapiro (ed.), Encyclopedia of Artifical Intelligence. New York: John Wiley, s. 341 – 365.<br />
KARÁSEK, L. 2000. Systém pro tvorbu a presentaci vícejazyčných a výkladových slovníků.<br />
Diplomová práce. Brno: Fakulta informatiky MU.<br />
KLÍMOVÁ, J. – PALA, K. 2000. Application of WordNet ILR in Czech Word-formation. In:<br />
Proceedings of LREC Conference. Athens: ELRA, s. 987 – 991.<br />
LEVIN, Beth. 1995. English Verb Classes and Alternations. Chicago: The University of<br />
Chicago Press.<br />
172
NÁVRH ČESKÉ LEXIKÁLNÍ DATABÁZE<br />
MATERNA, P. 2001. Type-theoretical analysis as a preparation of analyzing expressions of a<br />
natural language. Prague – Brno: Faculty of Informatics MU (manuscript), s. 110.<br />
OLIVA, K. – PETKEVIČ, V. et al. 2000. The Linguistic Basis of a Rule-Based Tagger of Czech.<br />
In: Proceedings of TSD 2000. Berlin: Springer Verlag, s. 3 – 8.<br />
PALA, K. 2000. Word Senses and Semantic Representations - Can We Have Both? In:<br />
Proceedings of TSD 2000. Berlin: Springer Verlag, s. 109 – 114.<br />
PALA, K. – PAVELEK, T. 2001. A Proposal of XML Standard for WordNet (and Other<br />
Dictionaries).In: Senseval Workshop, Conference ACL. Toulouse.<br />
PAVELEK, T. 2001. VisDic. New Tool for Viewing and Editing WordNets – draft. Brno: Faculty<br />
of Informatics MU (September 2001).<br />
RYCHLÝ, P. 2000. Korpusové manažery a jejich efektivní implementace (Corpus Managers<br />
and their Effective Implementation). Ph.D. Dissertation. Brno: Faculty of Informatics MU.<br />
SEDLÁČEK, R. 1999. Morfologický analyzátor pro češtinu (Morphological analyser for<br />
Czech). Master Thesis. Brno: Faculty of Informatics MU.<br />
SEDLÁČEK, R. 2001. Teze disertační práce. Brno: Fakulta informatiky MU.<br />
SGALL, P. et al. 1986. Úvod do syntaxe a sémantiky. Praha: Academia.<br />
Slovník spisovného jazyka českého (Dictionary of Written Czech Language). 1960. Praha:<br />
Academia.<br />
Slovník spisovné češtiny (Dictionary of Written Czech). 1984. Praha: Academia.<br />
VEBER, M. 2001. Teze disertační práce. Brno: Fakulta informatiky MU.<br />
VOSSEN, P. et al. 1999. Final Report on EuroWordNet-2, 2D041. CD ROM, v. 1, Amsterdam:<br />
University of Amsterdam.<br />
ŽÁČKOVÁ, E. – POPELÍNSKÝ, L. – NEPIL, M. 2000. Recognition and Tagging of<br />
Compound Verb Groups in Czech. In: Proceedings of CoNLL-2000 and LLL-2000, Lisbon, ACL New<br />
Brunswick. s.219 – 225.<br />
HORÁK, A. – SMRŽ, P. 2000. Large Scale Parsing of Czech. In: Proceedings of Efficiency in<br />
Large-Scale Parsing Systems Workshop, COLING'2000. Saarbruecken: Universitat des Saarlandes, s.<br />
43 – 50.<br />
173
KAREL PALA<br />
174
SLOVNÍKOVÁ DATA VE FORMÁTU XML<br />
Pavel Smrž: Fakulta informatiky Masarykovy univerzity, Brno<br />
Abstract: This paper deals with transformation, storage and processing of dictionaries in an electronic<br />
form. Various aspects of the XML format are discussed first. Then, a transformation of source data into<br />
a target format is taken into consideration. Such a process is called up-translation. The next section summarizes<br />
our experience with the transformation of large dictionaries, especially of the Dictionary of Literary<br />
Czech (SSJČ). The last section brings recommendations for those who will be engaged in similar<br />
projects.<br />
1. Úvod<br />
Slovníky jsou nejvýznamnějším zdrojem informací o slovní zásobě jazyka.<br />
Jejich užitečnost se však v současnosti neomezuje jen na lidské uživatele – aplikace<br />
v oblasti zpracování přirozeného jazyka potřebují slovníkové informace<br />
téměř pro všechny úkoly, které řeší. Stovky, a snad i tisíce různých slovníků<br />
jsou používány pro podporu vyhledávání informací, automatického vytváření<br />
abstraktů, strojového překladu atd.<br />
Většina v současnosti používaných slovníkových dat nebyla původně určena<br />
pro počítačové aplikace. Mnoho tištěných slovníků bylo v posledních<br />
desetiletích převedeno do elektronické podoby zejména s cílem snížit náklady<br />
spojené s editorskými úpravami, kontrolou konzistence a modifikacemi při<br />
přípravě nových verzí. Ani ryze elektronický slovník, jakým je WordNet (Miller<br />
et al. 1990), nebyl zprvu určen pro aplikační použití – jednalo se o experiment<br />
zaměřený na modelování mentálního slovníku.<br />
Nehledě na historii vzniku jsou dnes dostupné elektronické slovníky, resp.<br />
elektronické lexikální databáze, z aplikačního pohledu nesmírně cenné, neboť<br />
získávání lexikální informace je obyčejně drahé a představuje i dosti obtížný intelektuální<br />
výkon. Výhodnost používání existujících zdrojů platí i přes nutné<br />
investice do nalézání relevantní informace, která je do jisté míry skryta díky<br />
slabé strukturovanosti, nevyhnutelným chybám, nekonzistencím a opomenutím.<br />
Rozumným cílem je potom ovšem uchovávání slovníků v univerzálním, široce<br />
dostupném a znovupoužitelném formátu. Takové prostředí poskytuje rodina formátů<br />
a nástrojů sdružená kolem jazyka XML.<br />
Následující oddíl je věnován stručnému seznámení s formátem XML a souvisejícími<br />
standardy. Dále se budeme zabývat vlastním převodem dat z vý-<br />
175
PAVEL SMRŽ<br />
chozích formátů do cílového XML, tzv. procesem zvyšování informačního obsahu.<br />
Poté uvedeme několik vybraných projektů, které se na různých místech<br />
světa zabývaly tématy příbuznými naší problematice a jejichž výsledky v menší<br />
či větší míře ovlivnily naše postupy. V dalším oddíle potom jako případovou<br />
studii zmíníme převod SSJČ (Slovníku spisovného jazyka českého) do formátu<br />
XML odpovídajícího doporučením TEI (Text Encoding Initiative). Závěrečná<br />
kapitola shrne získané zkušenosti.<br />
2. Formát XML<br />
XML (eXtensible Markup Language; (Bray et al. 2000) je standardem pro<br />
reprezentaci a výměnu dat. Jde o silný nástroj dovolující obecný způsob značkování<br />
všech forem struktury, vzájemné odkazy a víceúrovňové zanoření struktur.<br />
XML je tedy velmi vhodným formátem pro reprezentaci silně strukturované<br />
informace.<br />
V posledních letech vzneslo mnoho uživatelů požadavek převoditelnosti<br />
mezi různými reprezentacemi dat. Dodavatelé programových produktů byli nuceni<br />
reagovat a akceptovat standardizovaný, neproprietární formát kódování<br />
dat. Vývoj, přijetí a postupné nasazování technologií opírajících se o XML tak<br />
souvisí zejména s možnostmi větší interoperability aplikací umožňujících výměnu<br />
dat ve formátu XML. Právě nemožnost převodu mezi formáty je často<br />
důvodem používání starších programových produktů, které již nesplňují nové<br />
požadavky. Je výhodnější použít široce podporovaný formát než navrhovat<br />
vlastní, omezený. Oproti běžným binárním formátům získáváme také výhodu<br />
deklarativnosti a transparentnosti reprezentace dat.<br />
Jazyk XML, vyvinutý zejména s ohledem na použití ve webových aplikacích,<br />
je zjednodušeným dialektem SGML (Standard Generalized Markup Language).<br />
Teoreticky je tedy v některých ohledech méně silný, avšak díky celé<br />
škále navazujících technologií, které např. dovolují transformace mezi dokumenty,<br />
definice omezujících podmínek, ověřování struktury a odkazy uvnitř<br />
jednoho dokumentu i vzájemné odkazy mezi dokumenty, případně jejich částmi<br />
(viz dále), je právě XML nástrojem umožňujícím udržet krok s rychlým tempem<br />
vývoje v oblasti informačních technologií.<br />
Dokumenty založené na XML smazávají rozdíly mezi daty a klasickými<br />
dokumenty. Některé dokumenty ve formátu XML nejsou ničím jiným než AS-<br />
CII reprezentací dat, která jsou typicky ukládána např. do databází. Jiné dokumenty<br />
XML obsahují velmi málo struktury, vyznačeny jsou např. jen hranice<br />
176
SLOVNÍKOVÁ DATA VE FORMÁTU XML<br />
odstavců, jinak jde o volný text. Slovníková data jsou někde uprostřed mezi<br />
těmito dvěma póly – obsahují složité hierarchické struktury, ale také relativně<br />
nestrukturovaný volný text. XML dovoluje definovat přesnou sémantiku obsahu<br />
slovníku a přitom nespecifikovat formát prezentace. Dovoluje tedy měnit<br />
způsob, jakým jsou jednotlivé části textu tisknuty nebo zobrazovány.<br />
Při práci se slovníkovými daty ve formátu XML můžeme využít mnoha<br />
existujících mechanismů pro přístup k datům a manipulaci s nimi. Budeme<br />
mluvit o rodině standardů XML. V základní formě je XML jazykem pro značkování<br />
dokumentů, který tudíž dovoluje vyznačit jednotlivé elementy textu,<br />
hierarchickou strukturu a odkazy. Strukturu textu kódovaného v XML popisuje<br />
tzv. DTD (Document Type Definition), objevující se již u standardu SGML.<br />
DTD definuje zobecněná pravidla pro strukturu a určuje tak, co je v kódování<br />
příslušného dokumentu dovoleno.<br />
Schopnosti validace formy i obsahu dokumentu nabízené DTD rozšiřuje<br />
definiční jazyk XML Schema (Thompson et al. 2001, Biron, Malhotra 2001).<br />
Dovoluje omezit a dokumentovat význam, použití a vztahy jednotlivých částí<br />
dokumentů XML. Mohou být zadávány např. předdefinované hodnoty pro<br />
atributy a elementy. Z koncepčního pohledu lze definici XML Schematu chápat<br />
jako abstraktní datový model popisované třídy dokumentů (Ide 2000).<br />
Dalším členem „rodiny XML“ jsou formátovací jazyky XSL (eXtensible<br />
Stylesheet Language; Adler et al. 2000) a XSLT (eXtensible Stylesheet Language<br />
for Transformations; Clark 1999, Clark 2001). Jde o deklarativní (neprocedurální)<br />
jazyky, kde „stylesheet“ udává, za jakých podmínek se vykoná jaká<br />
akce. Tzv. procesory XSLT pracují s dokumentem XML, reprezentovaným<br />
stromovou strukturou zanořených elementů, a mohou tento dokument transformovat<br />
do libovolného jiného formátu pomocí výběru, přeuspořádání nebo přidávání<br />
informací. Jazyk XSLT podporuje výběr obsahu elementů nebo jejich<br />
částí z jednoho nebo více XML dokumentů a transformaci obsahu i názvů<br />
elementů.<br />
Pro efektivní přístup k obsahu rozsáhlých dokumentů v XML je potřeba<br />
výkonný dotazovací mechanismus. V uplynulém období vzniklo hned několik<br />
návrhů dotazovacích jazyků pro XML. K nejznámějším patří XQuery (XML<br />
Query Language; Chamberlin et al. 2001) umožňující zadávat složité dotazy na<br />
XML dokumenty ve formě snadno čitelné člověkem (alternativou je XqueryX<br />
odpovídající syntaxi jazyka XML).<br />
Bylo navrženo i několik standardů pro definici odkazů mezi dokumenty<br />
XML. Základní mechanismus XLink (DeRose 2001a) dovoluje specifikovat<br />
177
PAVEL SMRŽ<br />
propojení mezi dvěma a více zdroji nebo jejich částmi. Jazyk XPath (XML Path<br />
Language) (Clark, DeRose 1999) rozšiřuje syntaxi adresace o predikáty pro<br />
manipulace s řetězci znaků, takže je možné odkazovat přímo na části jednotlivých<br />
elementů. Ještě propracovanějším je standard Xpointer (DeRose 2001a),<br />
který rozšiřuje syntaxi XPath směrem k adresaci rozsahů, lokalizace informace<br />
pomocí porovnávání řetězců a použití výrazů v odkazech jako identifikátorů<br />
částí dokumentů.<br />
Existuje ještě celá řada nejrůznějších standardů, které rozšiřují „rodinu<br />
XML“ o více či méně specifickou funkcionalitu. Zmiňme na závěr za všechny<br />
ještě alespoň XML Namespaces (Bray et al. 1999) – mechanismus povolující<br />
stejná jména v různých kontextech pomocí definice tzv. prostorů jmen.<br />
Přes všechny výše zmíněné výhody přetrvává i dnes při řešení zásadní otázky,<br />
zda se vyplatí převod již existujících zdrojů, určitá nedůvěra k formátu<br />
XML. Na tomto postoji se jistě podepsal historický vývoj, kdy byly, nikoliv neoprávněně,<br />
technologie spjaté se standardem SGML považovány za příliš drahé.<br />
Dobře placení poskytovatelé programových nástrojů manipulujících s SGML<br />
pracovali pro ministerstva (zejména americké Ministerstvo obrany), mamutí<br />
podniky typu Boeing (má svoji dokumentaci v SGML), pojišťovny a velké vydavatelské<br />
domy a menší firmy nebyly schopny výhod lépe strukturovaných dokumentů<br />
využít. Ne nadarmo byla zkratka SGML v této době vysvětlována jako<br />
„Sounds Great! Maybe Later!“.<br />
S příchodem formátu XML a jeho masivní popularizací se však situace výrazně<br />
zlepšila a tento příznivý vývoj neustále pokračuje. Formát XML je dnes<br />
široce podporován, existuje mnoho komerčních i nekomerčních programů pracujících<br />
s XML. XML přímo podporují poslední verze webových prohlížečů, i když<br />
zatím ne v plné šíři. Každopádně vše mluví pro použití technologií spojených s<br />
XML v mnoha oborech informačních technologií a byla by samozřejmě škoda nevyužít<br />
nabízených možností i pro oblast reprezentace a výměny slovníkových dat.<br />
3. Zvyšování informačního obsahu<br />
Slovníky obsahují celou škálu různých typů informací, kódovaných různými<br />
způsoby. Jsou aplikovány různé strukturální a typografické normy pro reprezentaci<br />
homografů, lexikalizovaných flektivních variant, složených slov, frází<br />
atd. Často se liší i taxonomie informací. Standardizovaný formalismus lexikální<br />
databáze musí definovat jednoznačný způsob reprezentace všech těchto entit.<br />
178
SLOVNÍKOVÁ DATA VE FORMÁTU XML<br />
Nehledě na nejednoznačnost kódování informací lidem obyčejně stačí<br />
podívat se na slovníkové heslo a okamžitě pochopí, z jakých je složeno částí a<br />
co tyto části znamenají. Zapojí tak ovšem znalost o tom, k čemu slovníky<br />
slouží, jak jsou obecně používány. Aby byly stejné informace bez větší námahy<br />
dostupné stroji, musí být z původně implicitní formy převedeny do explicitně<br />
zaznamenaných údajů, s nimiž si počítačové programy snadno poradí.<br />
Hodnota elektronických slovníků se dramaticky zvyšuje, pokud sdílí<br />
společné značkování. Dosažení tohoto stavu je však nesmírně obtížné, neboť<br />
dostatečně rozsáhlé zdroje jsou získávány obyčejně z existujících slovníků, které<br />
mají v převážné většině vlastní strukturu. Převod dat ze zdrojového do cílového<br />
formátu bývá označován jako proces zvyšování informačního obsahu (uptranslation).<br />
Z aplikačního pohledu se jedná o cestu k použitelnějšímu tvaru<br />
slovníkových dat.<br />
Jak vyplývá z předchozí kapitoly, bude naším cílem převod slovníkových<br />
dat do formátu XML, takže procesem zvyšování informačního obsahu zde budeme<br />
rozumět konverzi z libovolného zdrojového formátu do platné instance<br />
XML odpovídající nějakému cílovému DTD. Přitom se samozřejmě snažíme<br />
nalézt (alespoň částečně) automatické metody převodu. Vývoj takových automatických<br />
metod má samozřejmě ekonomické opodstatnění.<br />
Vzhledem k různorodosti zdrojových formátů je velmi obtížné definovat<br />
obecný model procesu zvyšování informačního obsahu. Obecně lze nicméně<br />
identifikovat 3 základní podprocesy (Chahuneau 1994):<br />
1. identifikace skupin objektů zdrojového dokumentu, sdílejících společné<br />
formátovací vlastnosti (typografické charakteristiky a typické textové vzory);<br />
2. mapování nalezených tříd na typy elementů XML odpovídající cílovému<br />
DTD;<br />
3. generování cílové struktury, případná reorganizace dat a přidání chybějících<br />
struktur (elementů i atributů) tak, aby vše odpovídalo DTD.<br />
Přestože lze v zásadě provést celý převod v jednom průchodu, má tento<br />
postup mnoho nevýhod. Většinou je obtížné rozdělit úkoly tak, aby bylo možné<br />
zapojit více programátorů. Monolitický tvar převodních programů navíc nepřispívá<br />
k čitelnosti kódu a problematické jsou rovněž nutné manuální opravy chyb<br />
kódování, případně i chyb obsahu.<br />
Řešením těchto problémů je postupný, víceprůchodový převod, kdy jsou<br />
navíc již pro výstupy z jednotlivých fází definována příslušná DTD, jimž odpovídá<br />
výsledek ve formátu XML. Výhodou je vstup do „arény XML“ již v prv-<br />
179
PAVEL SMRŽ<br />
ních fázích transformace, což přináší výhodu explicitního modelu informačního<br />
obsahu pomocí DTD a dovoluje použití propracovaných nástrojů pro zpracování<br />
struktur XML. Snadněji lze také postihnout případy, kdy se zdrojový formát<br />
silně vymyká požadavkům cílového DTD.<br />
Dekompozici procesu zvyšování informační úrovně na sérii postupných<br />
kroků lze z teoretického pohledu chápat jako proces navazujících transformací<br />
stromových struktur zanořených elementů, probíhajících při převodu z jednoho<br />
stavu do stavu následujícího. Dnes jsou dokonce k dispozici nástroje nabízející<br />
odvozování DTD z výstupů jednotlivých kroků.<br />
Výše popsané transformace lze implementovat různými metodami. Výhodné<br />
je využít některý z řady populárních skriptovacích jazyků, jakými jsou Perl či<br />
Python. Existují však i nástroje přímo specializované pro tento úkol. K nejznámějším<br />
patří produkt OmniMark (http://www.omnimark.com). Ten nabízí<br />
mechanismus porovnávání vzorů podporující událostmi řízené programování,<br />
založené na lexikálních událostech. Naproti méně specializovaným nástrojům je<br />
úzce provázán se začleněným analyzátorem XML (SGML), takže výsledek<br />
porovnávání vzorů může být závislý na kontextu XML. Vzory mohou být pojmenované,<br />
čímž lze zachytit i velmi složité konstrukce. Propracované je také zotavování<br />
z chyb analýzy dokumentu XML, které může sloužit k opravě generovaného<br />
XML tak, aby vznikla platná instance cílového DTD. Tento mechanismus<br />
funguje výborně tam, kde je zdrojová podoba vzhledem k požadované cílové<br />
struktuře jen mírně deformovaná. Mnohem obtížnější je naopak podchycení případů,<br />
kdy zjednoznačňování struktury dokumentu vyžaduje časté pohledy dopředu,<br />
začlenění dalších zdrojů a intenzivní generování přídavných struktur (Chahuneau<br />
1994).<br />
4. Obdobné a příbuzné projekty<br />
Převodem slovníků do formátu XML se zabývala celá řada projektů v různých<br />
koutech světa. Přitom je nesmírně zajímavé a cenné sledovat, jak se v<br />
rámci různých projektů řeší obdobné problémy, především nedostatky spojené s<br />
nekonzistentní strukturou hesel. Uveďme tedy alespoň několik případů.<br />
Jako typického zástupce převodu rozsáhlého výkladového slovníku zmiňme<br />
projekt OED (Oxford English Dictionary) Online (Elliott 2001). Převod do<br />
strojově čitelné podoby začal již v polovině 80. let, kdy se nakladatelství OUP<br />
(Oxford University Press) rozhodlo vydat druhé vydání svého největšího slovníku,<br />
zahrnující originální 12 svazkový soubor se všemi pozdějšími dodatky. Bez-<br />
180
SLOVNÍKOVÁ DATA VE FORMÁTU XML<br />
prostředním důvodem vzniku elektronické verze byla tehdy snaha o ekonomizaci<br />
nezbytných pozdějších revizí. Přibližně 150 písařek přepsalo celý obsah a<br />
po sérii mnoha oprav byl slovník nakonec v roce 1989 úspěšně vydán.<br />
Kódování OED neodpovídalo plně SGML, protože se autorům zdálo nemožné,<br />
„vzhledem k unikátnímu obsahu a dlouhému vývoji editorského stylu“,<br />
svázat celý slovník jednotným formátem. Dokonce i dnes je OED revidován pomocí<br />
vlastního značkování, což vyžaduje speciální softwarové nástroje vyvinuté<br />
na zakázku. Při analýze potřeb OED Online bylo však konstatováno, že by celý<br />
projekt nesmírně komplikovalo, jestliže by nebyl text poskytnut ve standardní<br />
formě. Všichni dodavatelé software by totiž byli nuceni proniknout do zvláštností<br />
interního formátu a nebylo by možné použít dostupná obecná řešení.<br />
Proto bylo z interního formátu odvozeno standardní DTD, nepokrývající sice<br />
všechny informace obsažené v OED, zahrnující však všechny hlavní vlastnosti<br />
slovníku. Jasně jsou identifikovány definice výrazů, výslovnost, variantní ortografie,<br />
etymologie, doklady a jejich datace, včetně jmen autorů a názvů děl, z<br />
nichž je citováno. Definice speciálního DTD pro výběr dat je v (Elliott 2001)<br />
komentována slovy „ ...archeologové v roce 3000 nebudou moci rekonstruovat<br />
všechny aspekty elektronického textu OED z tohoto DTD a úlomků tištěné verze.<br />
Jde o kompromisní řešení.“<br />
Zajímavé jsou rovněž informace o finanční náročnosti celého projektu, které<br />
příliš neodpovídají výše zmiňované dostupnosti příslušných technologií v dnešní<br />
době. Cena za vývoj programových produktů OED Online činila 400.000<br />
amerických dolarů a nakladatelství OUP utratilo přibližně další milion dolarů<br />
za výzkum trhu, konzultace atd.<br />
Jiným projektem, cenným zejména díky praktickým výstupům ve formě<br />
návrhu vhodného univerzálního DTD (Erjavec et al. 2000), byl grantový<br />
projekt CONCEDE (Evans 1999), jehož cílem bylo vytvoření lexikálních databází,<br />
založených na informacích z tištěných slovníků, pro šest středoevropských<br />
a východoevropských jazyků, konkrétně bulharštinu, češtinu, estonštinu,<br />
maďarštinu, rumunštinu a slovinštinu. Formátem lexikální databáze bylo<br />
SGML odpovídající doporučením TEI. Vzhledem ke skutečnosti, že návrhy TEI<br />
pro kódování slovníků podporují přesný popis existujících slovníků, spíše než<br />
vytváření nových zdrojů ve formě přímo uzpůsobené pro použití v aplikacích<br />
zpracování přirozeného jazyka, bylo druhým cílem projektu vyvinout silně<br />
redukovanou variantu DTD, vhodnou pro tyto účely. Projekt se do značné míry<br />
opíral o korpus Orwell“, vytvořený v rámci projektu EU MULTEXT-EAST (Erjavec<br />
– Ide 1998; většina partnerů byla i partnery CONCEDE), tvořený romá-<br />
181
PAVEL SMRŽ<br />
nem George Orwella 1984 v angličtině a překlady tohoto díla ve všech šesti<br />
jazycích. Výběr zpracovávaných slov v projektu CONCEDE např. vycházel z<br />
frekvenčního slovníku získaného z tohoto románu. Zajímavou informací o výstupech<br />
projektu je zmínka o nemožnosti převést veškeré informace do formátu<br />
odpovídajícího cílovému DTD v důsledku limitovaných zdrojů (Kilgarriff<br />
1999).<br />
Historicky starším projektem je systém LDB, vytvořený v počítačové laboratoři<br />
Cambridgeské university jako součást projektu EU ESPRIT ACQU-<br />
ILEX (Copestake 1995). Systém podporuje uživatele při formulování dotazů a<br />
vyhledávání částí hesel z jednoho a více slovníků, implementuje efektivní vyhledávání<br />
a dovoluje definovat subslovníky, tvořené výběrem hesel rozšířených<br />
o doplňující informace, které nejsou dostupné pro ostatní hesla. Implementačním<br />
nástrojem byl v tomto případě jazyk Common Lisp.<br />
5. Převod Slovníku spisovného jazyka českého<br />
Projekt převodu SSJČ (osmisvazkového Slovníku spisovného jazyka českého)<br />
do formátu XML je realizován v rámci komplexního grantového úkolu<br />
GAČR 405/96/K214 (Čeština ve věku počítačů). Laboratoři zpracování přirozeného<br />
jazyka na Fakultě informatiky Masarykovy univerzity v Brně, která se na<br />
projektu podílí, byla předána již data ve formátu dokumentů aplikace MS<br />
Word, vždy deset stran textu v jednom souboru. Data byla v předchozí fázi naskenována,<br />
pomocí OCR převedena a dále zkontrolována, aby byly odstraněny<br />
okamžitě viditelné chyby rozpoznávání. To vše bylo provedeno na Ústavu pro<br />
jazyk český na Akademii věd ČR.<br />
Naším prvním úkolem byl tedy převod z formátu MS Word. Aplikace MS<br />
Word 2000 slibuje uložení do HTML, které zachovává vše potřebné pro transformaci<br />
do prvotní verze XML. Zkušenosti však ukazují, že převod do formátu<br />
XML odpovídajícího normě by vyžadoval enormní množství práce a že výsledek<br />
i potom nabízí malou podporu pro odvození struktury dokumentu ze<br />
značkování. Jinou možností by bylo využití aplikací dostupných v rámci balíku<br />
OpenOffice, který používá pro ukládání dokumentů přímo formát XML a v posledních<br />
verzích (které však nebyly dostupné v době převodu) by měl být<br />
schopen korektně načíst i dokumenty české verze aplikace MS Word. My jsme<br />
nakonec zvolili přímý převod dat za pomoci speciálně vyvinutého kódu v jazyce<br />
Visual Basic for Application, který MS Word dokáže zpracovávat ve formě<br />
182
SLOVNÍKOVÁ DATA VE FORMÁTU XML<br />
maker. Vzhledem k jednorázovosti celého procesu nepředstavovala časová<br />
náročnost tohoto postupu větší problém.<br />
Další fáze představovala vyhledání anomálií ve vstupním formátu, vyřešení<br />
některých nejednoznačností a opravy chyb kódování. Přitom jsme si velmi<br />
silně uvědomili, že definování kompletní gramatiky pro rozpoznání textových<br />
vzorů a převod struktury je téměř nekonečný proces, kterým je možné projít<br />
pravděpodobně pouze postupným úpravami kódu, časově velmi náročnými. V<br />
této etapě se jedná ještě převážně o dosti mechanický převod dat, který se příliš<br />
nesnaží „zvyšovat informační úroveň“. Pokud je tedy dostatečná pozornost<br />
věnována odhalování a opravám chyb převodního kódu, může jít o přímočarý,<br />
deterministický, a tudíž i spolehlivý proces.<br />
Závěrečnou a nejobtížnější úlohou je transformace mezivýsledku do formátu<br />
XML odpovídajícího cílovému DTD (Petkevič 2000). V ideálním případě<br />
odpovídá typ elementu přímo některému typu písma, jindy stačí uvažovat<br />
jednoduchý, unikátní kontext (např. v hranatých závorkách je uváděna výslovnost),<br />
někdy je výhodné uvažovat omezení určitého typu informací, kdy<br />
hodnota musí být v předem daném seznamu (výčty zkratek, jména autorů).<br />
Úspěšnost převodu samozřejmě závisí podstatnou měrou na kvalitě zdrojových<br />
dat, v našem případě především na konzistenci zpracování slovníku. Většina<br />
těžkostí je spojena právě s nekonzistencí struktury hesel, která je potom nesmírně<br />
obtížné převést plně automaticky.<br />
V současné fázi tedy pracujeme s dvěma variantami XML. Nízkoúrovňové<br />
kódování (příklad 1) je výhodnější pro zanášení oprav nalezených chyb, forma<br />
odpovídající cílovému DTD (příklad 2) je i přes dosud velké množství nesprávně<br />
rozpoznaných elementů vhodná pro některé typy dotazů na konkrétní<br />
části hesel, např. pouze na doklady výskytu či původ hesla. Postupně jsou<br />
opravovány nalezené chyby, zejména nesprávně rozpoznané typy písma, jejichž<br />
výskyt by znemožňoval automatický převod do cílového tvaru. Speciální kategorii<br />
tvoří chyby a nekonzistence, které se vyskytují již v tištěné verzi slovníku.<br />
Ty jsou zaznamenávány odděleně, aby bylo možné kdykoliv konfrontovat<br />
původní podobu dat.<br />
<br />
terorismus<br />
způsob vlády vymáhající terorem poslušnost; hrůzovláda, krutovláda,<br />
despotismus:<br />
vojenský t.; nesnesitelný t.; demagogie a t.; <br />
183
PAVEL SMRŽ<br />
přen. expr.<br />
to je t., nedejte si to líbit<br />
<br />
<br />
<br />
Příklad 1: Nízkoúrovňové kódování dat – jsou vyznačeny jen různé typy písma<br />
terorismus<br />
<br />
<br />
socialismus<br />
<br />
<br />
<br />
způsob vlády vymáhající terorem poslušnost<br />
hrůzovláda<br />
krutovláda<br />
despotismus<br />
vojenský terorismus<br />
nesnesitelný terorismus<br />
demagogie a terorismus<br />
<br />
přen. expr.<br />
to je terorismus, nedejte si to líbit<br />
<br />
<br />
<br />
<br />
Příklad 2: Formát kódování hesla SSJČ odpovídající cílovému DTD<br />
Pro efektivní uložení slovníkových dat využíváme systém MAXXL, který<br />
vznikl na Fakultě informatiky jako výsledek diplomové práce (Karásek 2000).<br />
Základní charakteristikou je absolutní nezávislost na konkrétním formátu XML,<br />
systém pracuje s daty na podkladě zadaného DTD a s využitím doplňující informace<br />
o typech jednotlivých elementů, především o elementu, který má sloužit<br />
184
SLOVNÍKOVÁ DATA VE FORMÁTU XML<br />
jako klíč při vyhledávání, vytváří indexy pro velmi výkonné vyhodnocování dotazů.<br />
Systém MAXXL také definuje vlastní dotazovací jazyk, který dovoluje zadávat<br />
specializované dotazy potřebné pro přístup k slovníkovým datům<br />
(spojené např. s propojením na morfologický analyzátor a expanzí dotazu na<br />
všechny slovní tvary odpovídající příslušnému morfologickému vzoru). Nad<br />
serverovou částí je vystavěno klientské grafické uživatelské rozhraní DictView,<br />
zjednodušující zadávání nejčastějších typů dotazů.<br />
Systém MAXXL je masivně využíván při přípravě dat pro nový morfologický<br />
analyzátor češtiny (Sedláček, Smrž 2001), kdy je vedle dat ze SSJČ prezentován<br />
rovněž obsah SSČ (Slovníku spisovné češtiny pro školu a veřejnost)<br />
a SCS (Akademického slovníku cizích slov). Během tohoto používání již systém<br />
prokázal svoje kvality, především spolehlivost a rychlost vyhledávání.<br />
Předpokládá se rovněž využití při práci na české části projektu Balkanet, jehož<br />
cílem je rozšířit stávající lexikální databáze typu WordNet.<br />
6. Závěrečná doporučení pro řešitele obdobných projektů<br />
Shrňme na závěr tohoto článku naše zkušenosti získané během převádění<br />
slovníků do formátu XML. Tato část může být chápána jako snaha o formulaci<br />
jednoduchých doporučení, která by mohla pomoci řešitelům obdobných projektů.<br />
Při převodu slovníkových dat, ať už z papírové podoby či z elektronické<br />
verze v jiném formátu, se často nevyhneme použití WYSIWYG textových editorů<br />
typu MS Word (např. i díky přímému vstupu z aplikace OCR). Tyto prostředky<br />
obyčejně skrývají logickou strukturu textu, kterou je potom obtížné oddělit<br />
od konkrétní formy prezentace. Proto je vždy velmi výhodné:<br />
1. Detailně rozmyslet a předem si uvědomit, které elementy bude třeba<br />
identifikovat, aby byla respektována požadovaná cílová struktura dat.<br />
2. Pokud jsou data převáděna z tištěné podoby, např. pomocí technologií<br />
OCR, je nanejvýš vhodné, nejlépe ještě před započetím práce, rozhodně<br />
však před provedením vizuálních kontrol, probrat tuto fázi s těmi, kdo<br />
budou vlastní převodní programy implementovat. Předejde se tak totiž<br />
zbytečné práci, kterou bylo možné provést již při prvotní kontrole a která<br />
zdržuje všechny následné činnosti.<br />
3. Používat přímo v editoru značkování, dovolující člověku snadno postřehnout<br />
i drobné nedostatky, např. chybně rozpoznaný řez písma, párové<br />
185
PAVEL SMRŽ<br />
znaky neodpovídající si typem písma atd. Nanejvýš vhodné je vedle typů<br />
písma využít barevného rozlišení různé informace obsažené v heslech.<br />
Například aplikace MS Word dovoluje takové náhrady pomocí definovaných<br />
maker, vše lze tedy provést stiskem jediného tlačítka a u kratších<br />
dokumentů (např. výše zmíněná kontrola vždy po deseti stranách textu)<br />
není záměna nijak časově náročná.<br />
Aby se předešlo problémům spojeným s nejednoznačností obsahu slovníkových<br />
hesel, měly by být pro vytváření nových a rozsáhlejší úpravy existujících<br />
zdrojů používány pokud možno nástroje dovolující pracovat přímo s cílovou<br />
podobou XML. Takové nástroje často teprve vznikají a je otázkou, jak má<br />
vypadat vizuální podoba vlastní editace složitějších struktur. Nabízí se možnost<br />
vyplňování určitého formuláře a současné vytváření definované vizuální podoby,<br />
či přímá editace vizualizované podoby se striktní kontrolou konzistence dat,<br />
odpovídající definovaným podmínkám. Toto je dosud otevřený problém, který<br />
tak nabízí prostor pro další výzkum.<br />
Na úplný závěr dovolte zopakovat ne příliš optimistické konstatování<br />
z textu, totiž, že převod slovníkových dat do „vysněné“ zamýšlené struktury je<br />
téměř nekonečný proces, kterým je možné projít pouze postupnými, časově velmi<br />
náročnými kroky.<br />
Literatura<br />
ADLER, S. et al. 2000. Extensible Stylesheet Language (XSL). Version 1.0. W3C Proposed<br />
Recommendation. http://www.w3.org/TR/xsl/.<br />
BIRON, P. – MALHOTRA, A. 2001. XML Schema Part 2: Datatypes. W3C Recommendation.<br />
http://www.w3.org/TR/xmlschema-2/.<br />
BRAY, T. et al. 1999. Namespaces in XML. W3C Recommendation.<br />
http://www.w3.org/TR/REC-xml-names/.<br />
BRAY, T. et al. 2000. Extensible Markup Language (XML) 1.0 (Second Edition). W3C<br />
Recommendation. http://www.w3.org/TR/1998/REC-xml.<br />
COPESTAKE, A. 1995. ACQUILEX. http://www.cl.cam.ac.uk/Research/NL/acquilex/.<br />
CHAHUNEAU, F. 1994. Current Approaches to SGML Up-translation. http://www.oasisopen.org/cover/fcha.html.<br />
CHAMBERLIN, D. et al. 2001. XQuery 1.0: An XML Query Language. W3C Working Draft.<br />
http://www.w3.org/TR/xquery/.<br />
CLARK, J. 1999. XSL Transformations (XSLT). Version 1.0. W3C Recommendation.<br />
http://www.w3.org/TR/xslt/.<br />
CLARK, J. 2001. XSL Transformations (XSLT). Version 1.1. W3C Working Draft.<br />
http://www.w3.org/TR/xslt11/.<br />
186
SLOVNÍKOVÁ DATA VE FORMÁTU XML<br />
CLARK, J. – DEROSE, S. 1999. XML Path Language (XPath). Version 1.0. W3C<br />
Recommendation. http://www.w3.org/TR/xpath/.<br />
DEROSE, S. et al. 2001a. XML Linking Language (XLink). Version 1.0. W3C<br />
Recommendation. http://www.w3.org/TR/xlink/.<br />
DEROSE, S. et al. 2001b. XML Pointer Language (XPointer). Version 1.0. W3C Last Call<br />
Working Draft. http://www.w3.org/TR/xptr/.<br />
ELLIOTT, L. 2001. How the Oxford English Dictionary Went Online. Ariadne, č. 24.<br />
http://www.ariadne.ac.uk/issue24/oed-tech/.<br />
ERJAVEC, T. – IDE, N. 1998. The MULTEXT-East Corpus. In: Proceedings of the 1 st<br />
International Conference on Language Resources and Evaluation, s. 971 – 974.<br />
ERJAVEC, T. et al. 2000. The Concede Model for Lexical Databases. In: Proceedings of the 2 nd<br />
International Conference on Language Resources and Evaluation, s. 355 – 362.<br />
http://nl.ijs.si/et/Bib/LREC00/lrec-cnc.ps.gz<br />
EVANS, R. 1999. CONCEDE: Consortium for Central European Dictionary Encoding.<br />
http://www.itri.bton.ac.uk/projects/concede/.<br />
IDE, N. 2000. The XML Framework and Its Implications for the Development of Natural<br />
Language Processing Tools. In: Proceedings of the COLING Workshop on Using Toolsets and<br />
Architectures to Build NLP Systems.<br />
KARÁSEK, L. 2000. Systém pro tvorbu a presentaci vícejazyčných a výkladových slovníků.<br />
Diplomová práce. Brno: Fakulta informatiky Masarykovy univerzity.<br />
KILGARRIFF, A. 1999. Public Progress Report: Deliverable 0.2.1, CONCEDE Project.<br />
http://www.itri.bton.ac.uk/projects/concede/DR0.2.1_no_pointers.html.<br />
MILLER, G. 1990. Five Papers on WordNet. CSL Report 43. Princeton: Cognitive Science<br />
Laboratory, Princeton University.<br />
PETKEVIČ, V. 2000. Návrh DTD pro SSJČ – 1. verze.<br />
SEDLÁČEK, R. – SMRŽ, P. 2001. A New Czech Morphological Analyser ajka. In:<br />
Proceedings of the 4 th International Conference on Text, Speech and Dialogue.<br />
THOMPSON, H. S. et al. 2001. XML Schema Part 1: Structures. W3C Recommendation.<br />
http://www.w3.org/TR/xmlschema-1/.<br />
187
POČÍTAČOVÁ PODPORA SLOVENSKÝCH<br />
LEXIKOGRAFICKÝCH PROJEKTOV –<br />
RETROSPEKTÍVNY POHĽAD<br />
Vladimír Benko: Laboratórium počítačovej lingvistiky Pedagogickej<br />
fakulty Univerzity Komenského; Jazykovedný ústav Ľudovíta<br />
Štúra Slovenskej akadémie vied, Bratislava (Vladimir.Benko@fedu.<br />
uniba.sk)<br />
Abstract: A short case history of several computationally supported Slovak lexicographical projects is<br />
presented. A proprietary Markup Language MOM is introduced, with examples of entry representiations<br />
of the dictionaries in question, and also some technological problems of our approach are discussed.<br />
1. Úvod<br />
Lexikografia ako aplikovaná jazykovedná disciplína je oblasťou, ktorá sa<br />
príchodom počítačov zmenila v rámci lingvistiky azda najviac. Myšlienka nahradenia<br />
tradičných lexikografických nástrojov – ceruzky, papiera a škatúľ s<br />
excerpčnými lístkami – klávesnicou, obrazovkou a diskom počítača je natoľko<br />
priamočiara, že pokusy o aplikáciu počítačov v lexikografii začali hneď, keď<br />
ich cena poklesla na úroveň, ktorú si aj naše lexikografické pracoviská mohli<br />
dovoliť zaplatiť. Dnes síce parametre počítačov toho obdobia vyvolávajú úsmev<br />
(PC XT, 640 MB operačnej pamäte, pevný disk s kapacitou 20 MB, grafická<br />
karta EGA), podstatné však bolo, že sa na nich dal spustiť textový procesor<br />
schopný vytvoriť text so všetkými slovenskými diakritickými znamienkami a vytlačiť<br />
ho pomocou (rachotiacej 9-ihličkovej) tlačiarne na papier. Bolo to v roku<br />
1990.<br />
V skutočnosti sa počítače aj v našich podmienkach dotkli procesu zrodu<br />
slovníka ešte o niečo skôr – v tlačiarňach sa už v polovici 80. rokov používali na<br />
sadzbu počítačové terminály a počítačom ovládané osvitové jednotky. Tieto počítače<br />
však boli veľké („sálové“) a drahé a práce lexikografov sa priamo nedotkli.<br />
Je zrejmé, že použitie počítačov pri tvorbe slovníka sa nemôže obmedziť<br />
len na prípravu tlačových podkladov – právom sa očakáva, že pomôžu zefektívniť<br />
a skvalitniť všetky etapy životného cyklu lexikografického diela. V našom<br />
príspevku chceme podať stručný pohľad na nedávnu históriu i súčasnosť niekoľkých<br />
počítačom podporovaných lexikografických projektov, ktorých výsled-<br />
188
POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD<br />
kom bola publikácia slovníkov, či už nových alebo vydaných v opravených a<br />
doplnených vydaniach. Príspevok má formu stručných prípadových štúdií<br />
obohatených o niekoľko osobných postrehov.<br />
2. Prvé kroky: Krátky slovník slovenského jazyka<br />
Náš prvý kontakt s lexikografickým dielom v počítačovej podobe sa<br />
uskutočnil v roku 1988. Bolo to v bratislavskej tlačiarni Svornosť, kde sme sa<br />
náhodou a s úžasom dozvedeli, že sadzbu 1. vydania Krátkeho slovníka slovenského<br />
jazyka (1987, ďalej len KSSJ) bude pravdepodobne treba vymazať (tak,<br />
ako sa to rutinne robilo aj s inými textami) pre nedostatok miesta na disku...<br />
Príbeh „záchrany“ tohto cenného lexikálneho materiálu a jeho prevodu do tvaru<br />
spracovateľného na štandardnom osobnom počítači sme podrobnejšie opísali<br />
na inom mieste (Benko – Kostolanský 1997). Tu sa obmedzíme len na konštatovanie,<br />
že toto dielo vlastne iniciovalo našu spoluprácu s Jazykovedným ústavom<br />
Ľudovíta Štúra SAV (ďalej len JÚĽŠ), ktorá pretrváva až dodnes.<br />
Naším cieľom pri tomto projekte bolo jednak to, aby autori slovníka mohli<br />
v budúcnosti jednoduchšie a rýchlejšie pripraviť nové vydanie KSSJ, ako aj to,<br />
aby sa materiál z diela mohol zužitkovať ako zdroj údajov do pripravovanej<br />
lexikálnej databázy slovenského jazyka. Z dnešného pohľadu však za jeho hlavný<br />
výsledok možno považovať návrh značkovacieho jazyka MOM 1 , ktorý sa<br />
osvedčil natoľko, že bol následne (s niektorými malými zmenami a rozšíreniami)<br />
použitý v niekoľkých ďalších lexikografických projektoch realizovaných<br />
v JÚĽŠ. Tento jazyk vznikal postupne počas analýzy typografického formátu<br />
KSSJ a pôvodne mal slúžiť len na vizualizáciu typografických povelov, ktoré v<br />
pôvodnom formáte mali netlačiteľnú reprezentáciu. Nakoniec sa však podarilo<br />
pomocou automatizovaných procedúr prekonvertovať do takejto formy celý text<br />
KSSJ, pričom sa v plnej miere zachovali informácie o štruktúre slovníka z<br />
hľadiska typografickej reprezentácie a vznikol materiál, ktorý sa mohol stať základom<br />
pre ručné opravy a modifikácie textu.<br />
Zápis textu v jazyku MOM vychádza z týchto základných pravidiel:<br />
1. Text slovníka sa reprezentuje pomocou štandardnej množiny tlačiteľných<br />
znakov na danej počítačovej platforme, napr. v prostredí systému MS-DOS<br />
1 Názov pochádza z odpovede na otázku, ktorú sme často dostávali na odborných podujatiach:<br />
„Are you using SGML?“ – „No, I am using My Own Markup.“<br />
189
VLADIMÍR BENKO<br />
sa použilo tzv. kódovanie Kamenických, ktoré bolo v tom čase (1989)<br />
u nás na osobných počítačoch de facto štandardom.<br />
2. Základnou spracúvanou jednotkou textu je heslová stať, ktorú tvorí súvislý<br />
blok textu ukončený prázdnym riadkom.<br />
3. Riadky začínajúce znakom „!“ sa považujú za identifikačné (môže to byť<br />
napr. číslo kartotečného lístka, z ktorého bolo heslo prepísané do počítača,<br />
prípadne číslo hesla vytvorené ľubovoľným spôsobom).<br />
4. Riadky začínajúce znakom „?“ sa považujú za komentár.<br />
5. Typografické vlastnosti textu sa reprezentujú takto:<br />
a) Text v "úvodzovkách" reprezentuje (polo)tučné písmo.<br />
b) Text v 'apostrofoch' predstavuje kurzívu.<br />
c) Text v |zvislých paliciach| reprezentuje zmenšené písmo (obyčajne<br />
nonpareille).<br />
d) Ďalšie typy, rezy, prípadne veľkosti písma možno reprezentovať pomocou<br />
dvojíc znakov percento (%), tilda (~), plus (+), rovná sa (=),<br />
zavináč (@) alebo ampersand (&).<br />
e) Pred horným indexom sa píše znak strieška (^).<br />
f) Znaky s vysokou frekvenciou v texte, ktoré nie sú obsiahnuté v základnom<br />
súbore (napr. grafická značka pred frazeológiou, odkazová<br />
šípka), sa zapisujú pomocou dvojice znakov, z ktorých prvý je znak<br />
dolár ($).<br />
g) Znaky s diakritikou, ktoré nie sú obsiahnuté v miestnom súbore<br />
znakov a majú vysokú frekvenciu, sa reprezentujú pomocou trojice<br />
znakov, z ktorých prvý je znak bez diakritického znamienka a druhý<br />
je znak opačná lomka (\).<br />
h) Na všetky ostatné typografické situácie (napr. grécke písmo, dolné indexy,<br />
špeciálne grafické symboly) je možné ad hoc zaviesť skratku<br />
uzavretú v dvojici uhlových zátvoriek (< a >).<br />
6. Na zvýšenie čitateľnosti textu sa odporúča členiť heslovú stať na odseky<br />
predstavujúce štruktúrne jednotky textu (jednotlivé významy heslového<br />
slova, prihniezdované heslové slová). Toto členenie sa však pri ďalšom<br />
<strong>spracovaní</strong> ignoruje.<br />
190<br />
Ako príklad zápisu vo formáte MOM uvádzame úryvok textu KSSJ:<br />
!041a03_<br />
"baba^1" -y báb |ž.|
POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD<br />
"1." |hovor.| stará žena: ’stará b.’<br />
"2." |pejor.| nepríjemná, zlá, protivná žena:<br />
’klebetná, zlostná b.’<br />
"3." |slang.| mladá žena, dievča: ’b-y z<br />
internátu’<br />
"4." |hovor.| pôrodná asistentka: ’pôrodná b.’<br />
"5." |pejor.| zbabelec, bojazlivec, slaboch:<br />
’nebuď b.!’<br />
"6." ’slepá b.’ det. hra: ’hrať sa na slepú b-u’<br />
|i fraz.| pretvarovať sa<br />
$@ ’čo sa b-e (za)chcelo, to sa b-e (pri)snilo’;<br />
"babský" |príd. k 1-5|: ’b-é lieky’ domáce,<br />
ľudové; ’b-é klebety, reči’; |slang. pejor.| ’b.<br />
internát’ dievčenský; ’b-é správanie’ zbabelé,<br />
slabošské;<br />
"babsky" |prísl.|;<br />
"babisko" -a -bísk |s., N a A jedn. i ž. zvel.<br />
pejor. k 1, 2|<br />
!041a04_<br />
"baba^2" -y báb |ž. hovor.|<br />
"1." prázdny koláč<br />
"2." haruľa: ’zemiaková b.’<br />
"3." pandrava chrústa<br />
"4." jaternica z hrubého čreva<br />
!041a05_<br />
"bába" -y báb |ž. det.| báb(i)ka: ’hrať sa s b-ou’<br />
!041a06_<br />
"bábä" -äťa |mn.| -ätá/-ence -bät/-beniec, "bábo"<br />
-a báb |s. hovor.| novorodeniatko: ’budú mať b.’;<br />
"bábätko" -a -tiek |s. zdrob.|<br />
!041a07_<br />
"babí" |príd.|: ’b-ie leto’ slnečné dni na konci<br />
leta; pavučinkové vlákna poletujúce vo vzduchu v<br />
tomto období;<br />
|pren.| začiatok staroby<br />
Ako sme už spomenuli, v čase spracovania textu KSSJ sa ešte vôbec neuvažovalo<br />
o ďalšom vydaní slovníka, takže sme údaje použili „len“ ako materiál<br />
pre morfologickú databázu slovenského jazyka (Benko – Hašanová –<br />
Kostolanský 2001), ktorá neskoršie vznikla v Laboratóriu počítačovej lingvisti-<br />
191
VLADIMÍR BENKO<br />
ky Pedagogickej fakulty UK. Skúsenosti a nástroje vytvorené počas tohto<br />
projektu sa však veľmi rýchlo uplatnili už v nasledujúcom slovníkovom diele.<br />
3. Na konci životného cyklu slovníka: Slovník slovenských nárečí (I. zväzok)<br />
Začiatkom 90-tych rokov pretrvávali pri vydávaní slovníkov ešte staré „socialistické“<br />
pomery, kde nebolo nezvyčajné, že publikácia pripravená do tlače<br />
čakala na svoje vydanie aj niekoľko rokov. Autori lexikografických diel tomu<br />
čiastočne čelili (a čiastočne to aj zneužívali) tým, že koniec prác na slovníku<br />
deklarovali v predstihu, pričom sa mlčky predpokladalo, že záverečné redakčné<br />
práce sa vykonajú počas „čakacieho“ obdobia a dlhých intervalov tlačiarenských<br />
korektúr.<br />
Tak to bolo aj v prípade prvého zväzku Slovníka slovenských nárečí<br />
(1994, ďalej len SSN): čistopis textu prepísaný na písacom stroji s (ručne) farebne<br />
vyznačenými typmi písma bol podľa vtedajších zvyklostí pripravený na<br />
štítkoch v škatuliach a čakal na odvezenie do tlačiarne. Tak vznikla myšlienka<br />
uskutočniť v tomto medzičase (nešpecifikovanej dĺžky) experiment, 2 ktorý by<br />
overil možnosť využitia počítača pri ďalšom koncipovaní textu slovníka. Počas<br />
experimentu bolo prepísaných niekoľko strán skoncipovaného diela vo formáte<br />
MOM a bol vytvorený program na jeho prevod do formátu vhodného na import<br />
do zalamovacieho systému FERRANTI-TRACT, ktorý sa vtedy používal v<br />
tlačiarňach Svornosť na sadzbu slovníkov. Išlo vlastne o opačný smer prenosu<br />
dát, ako sa predtým uskutočnil s textom KSSJ, takže získané skúsenosti boli veľmi<br />
cenné.<br />
Experiment sa vydaril – autori slovníka po prvýkrát uvideli návrh grafickej<br />
podoby diela, na ktorom už veľa rokov pracovali, ale výsledok sa zdal byť<br />
ešte v nedohľadne. Ukázalo sa tiež, že formát MOM sa dá dobre použiť nielen na<br />
reprezentáciu textu získaného prevodom z iného systému, ale je vhodný aj na<br />
prvotné písanie textu. „Prepisovači“ (a neskoršie aj autori) si na značkovanú<br />
podobu textu veľmi rýchlo zvykli a prijali ju za svoju a neskoršie, keď sa robili<br />
experimenty so systémami typu WYSIWYG, vyhlásili značkovanú podobu za výhodnejšiu<br />
pre prácu lexikografa. (Len malý príklad: na <strong>počítačovom</strong> termináli je<br />
dosť ťažké rozlíšiť, či spojka „i“ je alebo nie je napísaná kurzívou.)<br />
2 Treba poznamenať, že táto iniciatíva pochádzala od dvoch vtedajších mladých doktorandiek<br />
Gabriely Barančokovej-Múcskovej a Ľubice Dvornickej z nárečového oddelenia JÚĽŠ, ktoré sa ujali<br />
prvotného prepisovania textu na jednom z troch vtedajších počítačov v JÚĽŠ – na PC XT.<br />
192
POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD<br />
Dôsledkom tohto experimentu bolo rozhodnutie prepísať na počítači časť<br />
textu skoncipovaného slovníka pochádzajúceho od autorov, ktorí už kolektív<br />
opustili, a vykonať s týmto textom ešte jedno kolo redakčných prác. Neskoršie,<br />
keď sa tlačiarenský termín stále odďaľoval, sa takto spracoval aj zvyšok textu<br />
slovníka.<br />
Z hľadiska štruktúry heslovej state a zvolenej grafickej reprezentácie<br />
jednotlivých jej prvkov sa SSN veľmi podobá na KSSJ. Na prvý pohľad udrie<br />
do očí len pravopis používaný pri zápise nárečových dokladov, ktorý obsahuje<br />
niektoré znaky neznáme v spisovnom pravopise (napr. ć alebo ś), a informácia<br />
o lokalite, z ktorej daný doklad pochádza. Na zápis uvedených znakov sa použila<br />
notácia so znakom „opačná lomka“, čiže napr. znak ć sa zapísal ako c\’, a na<br />
lokality sa zaviedol „nový pár“ operátorových zátvoriek (hranatých) s tým, že<br />
ich výsledná grafická podoba sa určí neskôr. Príklad časti textu SSN vo formáte<br />
MOM je na nasledujúcom obrázku:<br />
!1<br />
"čaba" |ž.| i "čabiak" |m. vin.| sorta skorého bieleho stolového hrozna,<br />
čabianska perla: ’Bola čaba, malaga, to boli skoré hrozni na jedzení’<br />
[Limbach MOD]; ’To boli záliskové hrozni, na čabe ešče dozráli’ [Vinosady<br />
MOD]; ’V águste uš čabág zraje’ [Jur p. Brat. BRA]; ’Bol bílí, červení tokaj,<br />
portogézija, čabák’ [Bernolákovo BRA]<br />
!2<br />
"čabaňa^1" i "čabanka" |ž. trn, pov, jtrenč| malá nádoba s uškom (obyč.<br />
porcelánová al. hlinená), z ktorej sa pije: ’Vipila sis kávu s čabani?’ [Vaďovce<br />
MYJ]; ’Boli také kamené hrnčeki, kamenáčki, aj čabanka sa im hovorilo’<br />
[Vinosady MOD]; ’čabaňa’ [Bošáca TRČ]; ’čabanka’ [Ružindol<br />
TRN]<br />
!3<br />
"čabaňa^2" i "čabianka" |ž.| (’čabanka’) |vin.| sorta skorého bieleho<br />
stolového hrozna, čabianska perla: ’Stolové hrozne boli strapág aj čabana’<br />
[Vištuk MOD]; ’Mán tam rizlink, portugal, mán tan čabanu’ [Bučany HLO]; ’Je<br />
čabaňa a bílí samorodák, kerí má velice slatkú chuť podobnú čabaňe’<br />
[Nitra]; ’Mávali zme skorú sortu čabanku’ [Trakovice HLO]; ’čabianka’<br />
[Pukanec LVI]<br />
!4<br />
"čabarok" |m.| druh chrobáka obžierajúceho lístie stromov, |zool.| chrúst<br />
obyčajný (Melolontha vulgaris): ’Čabarog vľecel do chiži’ [Medzany SAB]<br />
!6<br />
"čabda" |ž. gem| pasca na vtáky: ’čabda’ [Revúca]<br />
193
VLADIMÍR BENKO<br />
Hlavným problémom reprezentácie slovníkového textu vo formáte MOM<br />
bolo to, že sa pri prepise často zabudlo na otváraciu alebo zatváraciu operátorovú<br />
zátvorku. Rozhodli sme sa preto vytvoriť kontrolný program, ktorý zhodu<br />
zátvoriek kontroluje a upozorňuje na všetky „nevyváženosti“ výpisom riadkov<br />
textu, v ktorom sa problém vyskytol. Tento program sa neskôr stal základom<br />
validačného parsera, ktorý kontroluje správnosť syntaxe heslových statí a štandardne<br />
upozorňuje na tieto chyby:<br />
1. nevyváženosť nepárových operátorových zátvoriek;<br />
2. nevyváženosť párových zátvoriek (pričom tieto môžu byť aj vnorené);<br />
3. chýbajúce alebo nadbytočné medzery okolo interpunkčných znamienok<br />
(ide o bodku, čiarku, dvojbodku, bodkočiarku, výkričník, otáznik a operátorové<br />
zátvorky);<br />
4. viacnásobné medzery v texte (často indikujúce napr. chýbajúce jednoznakové<br />
predložky alebo spojky);<br />
5. postupnosť čísel významov (označených polotučným písmom; algoritmus<br />
je tu veľmi jednoduchý: ak sa vyskytne polotučná číslovka, musí to<br />
byť buď jednotka, alebo číslo o jednotku väčšie, ako bol jej predchádzajúci<br />
výskyt v danej heslovej stati);<br />
6. postupnosť písmen „a)“ až „z)“ v rôznych zoznamoch (berie sa do úvahy<br />
aj možnosť „ch)“).<br />
Voliteľne možno navyše žiadať o tieto kontroly:<br />
7. postupnosť čísel v identifikačných riadkoch začínujúcich výkričníkom<br />
(takto sa často objaví vynechanie kartičky pri prepisovaní);<br />
8. prítomnosť nadbytočných medzier na začiatku riadka.<br />
Možno povedať, že pomocou validačného parsera sa hneď v zárodku dá<br />
odstrániť veľké množstvo chýb, ktoré sa pri klasickom spôsobe práce zdĺhavo<br />
hľadali v korektúrach. Zároveň sa postupne zlepšujú aj pisárske návyky autorov<br />
textu s tým, že časom sa počet chýb kontrolovaných typov už pri prvotnom<br />
vstupe podstatne zníži.<br />
V prvých projektoch sme procedúru validačného parsera modifikovali pre<br />
každý nový kontrolovaný slovník, dnešná podoba programu je už rovnaká pre<br />
viacero projektov, pričom odlišnosť vo funkcii sa špecifikuje pomocou vstupných<br />
parametrov.<br />
194
POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD<br />
Celkovo možno konštatovať, že použitie počítača v projekte SSN síce neprinieslo<br />
skrátenie prác, zato však kvalita textu podstatne stúpla.<br />
4. Recyklácia skúseností a nástrojov: Historický slovník slovenského jazyka<br />
(III. a IV. zväzok)<br />
V čase dokončovania prác na 1. zväzku SSN mal iný slovníkový projekt –<br />
Historický slovník slovenského jazyka (ďalej len HSSJ) – za sebou už dva zväzky:<br />
HSSJ I (1992) a HSSJ II (1993), ktoré boli vytlačené tradičnou technológiou.<br />
Po skúsenostiach so SSN sa vedenie JÚĽŠ rozhodlo využiť počítačovú<br />
technológiu aj pri tomto projekte, ktorý bol v podobnej etape rozpracovania ako<br />
SSN I. Vzhľadom na nedostatok pisárskej kapacity na pracovisku sa však text<br />
prepisoval externe, pričom dodávateľ bol schopný pracovať len vo formáte textového<br />
procesora T602, na ktorý boli jeho pracovníčky zvyknuté. Keďže program<br />
T602 neumožňuje pracovať s rôznymi veľkosťami písma, bolo toto písmo<br />
zapisované pomocou písma podčiarknutého.<br />
Štruktúra heslovej state HSSJ je veľmi podobná s predchádzajúcimi, pričom<br />
rozdiely sú dané jednak charakterom dokladového materiálu (zapisovaného<br />
v historickom pravopise) a jednak tým, že bola zvolená „opačná“ konvencia<br />
pri reze písma v zápise výkladov a dokladov: výklady sú v HSSJ zapísané kurzívou<br />
a doklady obyčajným stojatým písmom. 3<br />
!2774d<br />
"oťažiť" [otíž-] |dk práv|<br />
"1." |koho| ’zaťažiť obžalobou, obžalovať niekoho’: kdyz gemu to bude<br />
nagdeno, ze on to dobrze muoz vdielati, tehdy otižes (!) geho podle prawa,<br />
kterak sie gma geho podgiti, ze by gemu mohlo ku pomoczy przigiti k geho<br />
prawu |ŽK 1473|<br />
"2." |komu čo| ’priťažiť niekomu (v súdnom spore)’: kterzyz z nich nagprwe<br />
vmrze, ten obdrzy zalobu a onomu geho rany obtizy |ŽK 1473|<br />
!2774d<br />
"otcovizeň" |p.| "otčizeň"<br />
!2775a<br />
"otcovsko-materinský" |príd| ’týkajúci sa otca i matky’: z običajuv, vúle,<br />
zádosti a činuv otcovskomaterinskích mnoho do dítek prelívano bíva<br />
|BR 1785|<br />
3 Takáto konvencia je obvyklá v niektorých českých lexikografických dielach.<br />
195
VLADIMÍR BENKO<br />
!2775b<br />
"otcovský" |p.| "otec"<br />
!2775c<br />
"otcovstvo" [-o, -í] |s| ’stav toho, kto je otcom’: klekam na swá kolena k Otcy<br />
Pana nasseho Gežjsse Krysta, z kterehožto každe otcowstwo na neby y na<br />
zemy gmenuge se |SK 1697|; nagmilostiwegšý ten Pán i w panstwú swém<br />
na otcowstwj swé |BN 1790|; otcoustvi zalezi v tom, že gich za svich<br />
uznava, duszi telem opatruge, wiučuge, napomina, pokutuge |SS 18. st|<br />
!2775d<br />
"otcozabíjač" |m| ’otcov vrah’: pribyhagú wogáci, publikáni, kúrwi,<br />
modloslužebnjci, otcúwzabigaci, čzarodewnjci, swodnjci |BlR 18. st|<br />
Pri <strong>spracovaní</strong> textu slovníka sa už do značnej miery dosiahla úspora<br />
programátorskej práce – využili sa hotové nástroje, ktoré bolo treba len mierne<br />
upraviť – a ako úplne nová vznikla len procedúra konverzie z formátu programu<br />
T602 do formátu MOM. Ukázalo sa, že je to proces vcelku priamočiary.<br />
Jediným vážnejším problémom bola iná konvencia pri zápise „typu písma“ pri<br />
znaku „medzera“: formát MOM predpokladá, že úvodná a koncová medzera<br />
pri vyznačenom type písma je zapísaná obyčajným písmom, zatiaľ čo vo formáte<br />
T602 medzera vždy má rovnaký typ písma ako predchádzajúci text. Na elimináciu<br />
tohto problému sa však dala pomerne ľahko vytvoriť automatizovaná<br />
procedúra, takže redakčné práce už mohli počítať s textom v štandardnej podobe.<br />
Pri príprave tlačových podkladov sa ukázala ešte jedna výhoda toho, že<br />
text je v počítačovej podobe: pri odhade počtu vytlačených strán vysvitlo, že<br />
pripravený text bude potrebné rozdeliť do dvoch zväzkov (HSSJ III 1994<br />
a HSSJ IV 1995) – počas celého obdobia koncipovania textu autori mali značne<br />
skreslenú predstavu o tom, koľko ho vlastne je.<br />
5. Trochu iný slovník: Synonymický slovník slovenčiny<br />
Projekt Synonymického slovníka slovenčiny (1995, ďalej len SSS) sa z<br />
pohľadu autorov líšil od predchádzajúcich najmä v spôsobe rozdelenia materiálu<br />
medzi jednotlivých členov kolektívu. Na rozdiel od tradičného členenia<br />
textu na „písmená“ tu autori pracovali „podľa slovných druhov“ – táto taktika<br />
bola asi jediná možná vzhľadom na to, že synonymia predstavuje vzťahy medzi<br />
slovami toho istého slovného druhu, a tiež vzhľadom na veľké množstvo odka-<br />
196
POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD<br />
zov, ktoré museli autori pri tvorbe synonymických radov zohľadniť a spracovať.<br />
O tomto projekte podrobnejšie porov. Pisárčiková – Benko (1996). Tu sa<br />
obmedzíme len na niekoľko poznámok. Nasledujúci obrázok obsahuje príklad<br />
textu SSS:<br />
!a69<br />
"čudácky" |p.| čudný<br />
!s115<br />
"čudák" človek, ktorého správanie, prejavy sa vymykajú norme: ’v mladosti<br />
bol čudák’, |hovor. expr.| "patrón": ’je to čudný patrón, nechodí do<br />
spoločnosti’, |expr.:| "odľud, čudo" [J. Horák], |zastar.| "podivín"<br />
!a70<br />
"čudesný" |p.| čudný<br />
!s116<br />
"čudeso" |p.| zázrak<br />
!a71<br />
"čudný" ktorý sa vyznačuje mimoriadnosťou, zriedkavosťou; ktorý je málo<br />
známy, ktorý sa nedá presne pomenovať, určiť, "neobyčajný, nezvyčajný,<br />
nevšedný, zvláštny" (|op.| obyčajný, bežný, všedný): ’čudný, neobyčajný<br />
príbeh; čudné, nezvyčajné správanie; nezvyčajný, nevšedný, zvláštny<br />
strom’, "divný, podivný, podivuhodný, podozrivý, znepokojujúci"<br />
(vzbudzujúci údiv, počudovanie, znepokojenie): ’začuť divné, podivné,<br />
podivuhodné zvuky; podozrivé, znepokojujúce ticho’, "čudácky" (typický pre<br />
čudáka): ’vedie čudácky život’, |kniž.:| "bizarný, pitoreskný": ’bizarné,<br />
pitoreskné tvary’, |expr.:| "čudesný, prečudesný, prečudný, predivný,<br />
prepodivný, prapodivný, prazvláštny", |expr. zried.| "pračudný" (veľmi<br />
čudný): ’čudesná, prečudesná, prečudná krajina; prepodivný, pračudný<br />
pocit’, "nepochopiteľný, záhadný, tajomný" (plný tajomstva, nepoznaný,<br />
nepreskúmaný): ’nepochopiteľná, záhadná osoba; tajomné symboly’,<br />
"nevysvetliteľný": ’nevysvetliteľná záhada, nevysvetliteľný úkaz’<br />
!s117<br />
"čudo" "1." |p.| zázrak "2." |p.| strašidlo 1 "3." |p.| čudák<br />
!v78<br />
"čudovať sa" pociťovať a prejavovať prekvapenie, údiv, "diviť sa, byť<br />
prekvapený": ’diváci sa čudujú, divia, sú prekvapení, že sa predstavenie<br />
ešte nezačalo’, "žasnúť, byť ohromený" (čudovať sa vo veľkej miere): ’žasli<br />
sme nad výkonmi športovcov’, |expr.:| "vyvaľovať oči, otvárať oči, híkať,<br />
ochkať, achkať": ’čudujem sa toľkej odvahe, otváram oči nad toľkou<br />
odvahou; čuduje sa, híka, achká nad toľkou krásou’, "prekvapuje ma" (iba v<br />
3. os.): ’čudujem sa tomu, prekvapuje ma to’, |fraz. expr.| "oči mu vyliezajú<br />
z jamiek/jamôk" (pri veľkom prekvapení)<br />
197
VLADIMÍR BENKO<br />
Aj keď sme sa o tom pri predchádzajúcich projektoch nezmieňovali,<br />
jedným z nástrojov vytvorených na výsledné spracovanie textu slovníka bol<br />
program na abecedné usporiadanie hesiel vo formáte MOM. Vzhľadom na to,<br />
že autori dodávali jednotlivé úryvky textu už abecedne usporiadané, poslúžil<br />
tento program „len“ na zisťovanie drobných chýb, ktorých sa autori pri ručnom<br />
usporadúvaní dopustili. V projekte SSS však existencia takéhoto nástroja bola<br />
takmer nevyhnutnosťou – ručné usporiadanie takto rozsiahleho textu je síce<br />
možné uskutočniť, ale bola by to obrovská práca.<br />
Nebudeme sa tu zmieňovať o nuansách a teoretických i praktických problémoch<br />
implementácie programu na abecedné usporadúvanie, spomenieme len, že<br />
na danom projekte prešiel skúškou ohňom a že je to z celého balíka vytvorených<br />
nástrojov pravdepodobne „najotestovanejší“ program. Jeho použitie umožňovalo<br />
autorom, aby až do posledného momentu mohli pracovať len so „svojím“ textom,<br />
ktorý sa stal súčasťou výsledného tvaru slovníka pri každom korektúrnom cykle<br />
nanovo.<br />
Druhou oblasťou problémov bola verifikácia správnosti odkazov: v heslových<br />
statiach sú jednotlivé členy synonymických radov uvádzané v poradí<br />
klesajúcej zhody významu s tzv. dominantou, t. j. základným členom synonymického<br />
radu. Aby mohol používateľ slovníka nájsť príslušnosť jednotlivých<br />
členov synonymického radu k dominantám, musí byť každý člen radu uvedený<br />
v slovníku na správnom mieste podľa abecedného poradia vo forme odkazu.<br />
V ideálnom prípade by sa všetky takéto odkazy dali vygenerovať automaticky<br />
– v praxi to však nebolo možné z viacerých dôvodov. Prvým je skutočnosť,<br />
že ak sa heslové slovo vyskytuje vo viacerých synonymických radoch,<br />
musia byť aj odkazy členené podľa jednotlivých významov slova, t. j. autor<br />
musí pri spracúvaní odkazov zohľadňovať polysémiu. Ďalej, koncepcia slovníka<br />
predpokladala, že členy radov s učitými charakteristikami (napr. nespisovné<br />
alebo nárečové slová) sa vo forme odkazov uvádzať nebudú, pretože sa neočakáva,<br />
že by používateľ slovníka takúto informáciu v diele hľadal. A nakoniec,<br />
technológia práce autora bola v skutočnosti iteratívna – v niekoľkých kolách sa<br />
pre každý význam polysémického slova autor rozhodoval, či ho spracuje ako<br />
dominantu synonymického radu alebo len vo forme odkazu. Tieto dôvody viedli<br />
k tomu, že odkazy nebolo možné vytvoriť automaticky, ale bolo ich potrebné<br />
verifikovať. Navrhnutá procedúra zaradila každý odkaz a každý výskyt slova v<br />
synonymickom rade do jednej z kategórií:<br />
198
POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD<br />
1. Správny odkaz: pre člen synonymického radu existuje odkazová položka<br />
na správnom mieste v abecede.<br />
2. Chýbajúci odkaz: pre člen synonymického radu neexistuje odkazová<br />
položka – príčinou môže byť buď rozhodnutie autora, alebo omyl.<br />
3. Nadbytočný odkaz: pre danú položku neexistuje buď daná dominanta,<br />
na ktorú slovo odkazuje, alebo pri existujúcej dominante dané slovo<br />
nefiguruje ako člen synonymického radu.<br />
Okrem toho procedúra umožnila odhaliť duplicity v synonymických radoch,<br />
t. j. situácie, keď sa dané slovo vyskytuje v synonymickom rade viackrát<br />
(obyčajne na rôznych miestach), ktorých bolo na počudovanie niekoľko<br />
desiatok. Chyby druhého a tretieho typu boli buď „čisté“, t. j. autorské omyly<br />
v zmysle definície, alebo sa často vyskytovali aj v dôsledku preklepov v zápise<br />
príslušných slov – takéto prípady boli indikované dvojicou chybových zápisov<br />
(druhého a tretieho typu) týkajúcou sa tej istej chyby. Vlastné opravy chýb v odkazoch<br />
si síce vždy vyžadovali autorskú prácu, táto však bola uľahčená presnou<br />
informáciu o lokalizácii problému v dvojici synonymický rad – odkaz.<br />
Procedúra verifikácie a ručných opráv prebehla v niekoľkých cykloch, pričom<br />
po každom jej kole počet nájdených chýb podstatne poklesol: z pôvodných<br />
niekoľko tisícok až na niekoľko desiatok na konci opravného procesu. Pri<br />
prvom kole bolo z rôznych dôvodov označených za chybné takmer 10 % odkazov<br />
– táto skutočnosť jasne demonštruje, že bez použitia automatizovaných verifikačných<br />
procedúr by takýto slovník v rozumnej kvalite ani nebolo možné<br />
pripraviť.<br />
6. Kruh sa uzatvára: tretie vydanie Krátkeho slovníka slovenského jazyka<br />
Práca na novom vydaní KSSJ bola pre nás značnou satisfakciou – pri autorských<br />
zásahoch bolo možné použiť elektronickú verziu druhého vydania, čo<br />
celý proces skrátilo podľa našich odhadov minimálne o jeden rok. Súbor nástrojov<br />
na spracovanie textu bol už v podstate uzavretý a organizácia práce prebiehala<br />
rutinným spôsobom. Zmienime sa tu preto len o jednom novom prvku<br />
použitom pri redakčných prácach – o prezentácii zmien urobených v slovníku.<br />
Porovnávanie dvoch textov pomocou počítača je pomerne priamočiary proces,<br />
problematické je však efektívne zobrazenie nájdených rozdielov. Ako príklad<br />
nášho riešenia uvedieme vizualizáciu rozdielov v heslároch obidvoch vydaní<br />
KSSJ, ktorá sa osvedčila v takejto dvojstĺpcovej podobe:<br />
199
VLADIMÍR BENKO<br />
2c-056c18 "celieť sa"<br />
2c-058b04 "CGT"<br />
2c-058b05 "CIA"<br />
2c-058b15 "CIC"<br />
2c-059a01 "cigánčina"<br />
3c-003___ "celebrovať"<br />
3c-056c70 "celiť"<br />
3c-056c70 "celiť sa"<br />
3c-004___ "celoplošne"<br />
3c-004a__ "celosieťový"<br />
3c-057a73 "celulózovo-papiernický"<br />
3c-005___ "centiliter"<br />
3c-006___ "certifikácia"<br />
3c-006___ "certifikačný"<br />
3c-007___ "cestovka"<br />
3c-008___ "cezhraničný"<br />
3c-009___ "ciachovné"<br />
3c-009a__ "cicavý"<br />
3c-059a01 "cigánčina^1"<br />
3c-059a51 "cigánčina^2"<br />
V ľavom stĺpci sa nachádzajú heslové slová, ktoré sa vyskytujú v 2. vydaní<br />
KSSJ a v 3. vydaní boli vynechané, v pravom stĺpci sú novopridané heslové slová<br />
v 3. vydaní. Ako vidíme, v novom vydaní boli vynechané iniciálové skratky, pribudlo<br />
veľa nových hesiel a k niektorým heslám boli pridané homonymá.<br />
Takýto spôsob prezentácie rozdielov si autori veľmi obľúbili, a preto sme<br />
ho použili aj v iných projektoch, ako aj na vizualizáciu rozdielov medzi heslármi<br />
rôznych slovníkov.<br />
7. Záver: O čom sme nehovorili a čo nás ešte čaká<br />
Predchádzajúce kapitoly sa stručne dotkli počítačového spracovania niekoľkých<br />
slovenských slovníkov. V štúdii daného rozsahu sme sa jednotlivým<br />
projektom nemohli venovať podrobnejšie, a tak sme nespomenuli napr. pomerne<br />
efektívnu metódu vyhľadávania chybných zápisov jednotlivých prvkov metajazyka<br />
slovníka (akými sú napr. rôzne kvalifikátory a údaje o prameňoch, citáciách<br />
a lokalitách), ako aj metodiku na unifikáciu výkladových parafráz pri<br />
heslách patriacich do rovnakej lexikálnej skupiny. Nezmienili sme sa o ostatných<br />
lexikografických projektoch využívajúcich uvedenú technológiu – ide o<br />
niekoľko prekladových slovníkov na jednej strane spektra, ktoré na druhej<br />
200
POČÍTAČOVÁ PODPORA SLOVENSKÝCH LEXIKOGRAFICKÝCH PROJEKTOV – RETROSPEKTÍVNY POHĽAD<br />
strane siaha až po nový projekt viaczväzkového slovníka súčasnej slovenčiny.<br />
Predpokladáme, že tieto údaje budeme môcť uviesť v budúcej monografii.<br />
Všetky naše doterajšie práce sa vykonávali nad tzv. slabo štruktúrovaným textom,<br />
kde je text slovníka reprezentovaný pomocou značkovacieho jazyka blízkeho<br />
typografickej reprezentácii. Má to viacero príčin. Na prvom mieste treba<br />
uviesť stav technického a programového zabezpečenia v čase, keď sa naše<br />
projekty začínali – v roku 1989 sa ešte vôbec nedalo uvažovať ani o systémoch<br />
typu WYSIWYG, ani o platforme schopnej spracúvať text reprezentovaný v jazyku<br />
SGML. Počas celého uvažovaného obdobia sme pociťovali akútny nedostatok<br />
programátorskej kapacity – realizovateľné boli len tzv. „lacné riešenia“. No a nakoniec<br />
tu bol tlak bežiacich projektov: v časovej tiesni sa obyčajne dáva prednosť<br />
„vrabcovi v hrsti“ (MOM) pred „holubom na streche“ (SGML a všetko, čo s tým<br />
súvisí).<br />
Nechceme však povedať, že sme túto cestu zavrhli. S počítačmi so stále<br />
rastúcou výkonnosťou, dostupnejšími nástrojmi pre prácu s jazykmi SGML<br />
a XML a s črtajúcim sa projektom nového korpusového pracoviska v JÚĽŠ SAV<br />
dúfame, že ono – v tomto zborníku už citované (Smrž 2001) – „... Maybe Later“<br />
bude aj u nás hovoriť o budúcnosti nie príliš vzdialenej.<br />
Literatúra<br />
BENKO, Vladimír – HAŠANOVÁ, Jana – KOSTOLANSKÝ, Eduard. 2001. Morfologická<br />
databáza ohybných slovných druhov slovenčiny na účely algoritmického spracovania textov. In: Jazykovedný<br />
časopis, roč. 52, č. 1, s. 3 – 23.<br />
BENKO, Vladimír – KOSTOLANSKÝ, Eduard. 1997. Počítačová verzia Krátkeho slovníka<br />
slovenského jazyka. In: Jazykovedný časopis, roč. 48, č. 1, s. 9 – 20.<br />
KAČALA, Ján – PISARČÍKOVÁ, Mária (eds.). 1987. (1. vydanie). Krátky slovník slovenského<br />
jazyka. Bratislava: Veda.<br />
KAČALA, Ján – PISARČÍKOVÁ, Mária – POVAŽAJ, Matej (eds.). 1997. (3. vydanie). Krátky<br />
slovník slovenského jazyka. Bratislava: Veda.<br />
MAJTÁN, Milan (ed.). 1992. (1. vydanie). Historický slovník slovenského jazyka. I. zv. Bratislava:<br />
Veda.<br />
MAJTÁN, Milan (ed.). 1993. (1. vydanie). Historický slovník slovenského jazyka. II. zv. Bratislava:<br />
Veda.<br />
MAJTÁN, Milan (ed.). 1994. (1. vydanie). Historický slovník slovenského jazyka. III. zv. Bratislava:<br />
Veda.<br />
MAJTÁN, Milan (ed.). 1995. (1. vydanie). Historický slovník slovenského jazyka. IV. zv. Bratislava:<br />
Veda.<br />
201
VLADIMÍR BENKO<br />
PISÁRČIKOVÁ, M. – BENKO, V. 1996. Slovak Synonym Dictionary. In: Gallerstam, M. et al.<br />
(eds.), EURALEX ’96. Proceedings of the Seventh EURALEX International Congress on Lexicography.<br />
Göteborg: Götebog University, s. 689 – 696.<br />
RIPKA, Ivor (ed.). 1994. (1. vydanie). Slovník slovenských nárečí. I. zv. Bratislava: Veda<br />
SMRŽ, Pavel 2001. Slovníková data ve formátu XML. In: Alexandra Jarošová (ed.), <strong>Slovenčina</strong><br />
a <strong>čeština</strong> v <strong>počítačovom</strong> <strong>spracovaní</strong>. Bratislava: Veda, s.168.<br />
202
203
S L O V E N Č I N A<br />
A Č E Š T I N A<br />
V P O Č Í T A Č O V O M<br />
S P R A C O V A N Í<br />
Návrh obálky Hana Kohútová (s použitím grafického motívu P. Kleeho)<br />
Zodpovedná redaktorka Jitka Madarásová<br />
Prvé vydanie. Vydala VEDA, vydavateľstvo Slovenskej akadémie vied, v Bratislave<br />
roku 2001 ako svoju 3378. publikáciu, z tlačových podkladov Jazykovedného<br />
ústavu Ľudovíta Štúra SAV. 196 strán.<br />
ISBN 80-224-0692-9