Valence a Pražský závislostní korpus (PDT) - SAV
Valence a Pražský závislostní korpus (PDT) - SAV
Valence a Pražský závislostní korpus (PDT) - SAV
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Jarmila Panevová, Markéta Lopatková<br />
panevova@ufal.mff.cuni.cz<br />
lopatkova@ckl.mff.cuni.cz<br />
<strong>Valence</strong> a <strong>Pražský</strong> <strong>závislostní</strong> <strong>korpus</strong> (<strong>PDT</strong>)<br />
SNK, JÚ ĽŠ <strong>SAV</strong>, Bratislava, 6. 10. 2003<br />
1. Teorie valence v teoretickém plánu (ve FGP – funkčním generativním popisu) – pro slovesa:<br />
1. 1 Třídění slovesných doplnění (srov. Přílohu, seznam „funktorů“) podle způsobů jejich<br />
spojování se slovesy:<br />
(i) jednou x víckrát u jednoho slovesa<br />
(ii) omezený seznam sloves x každé sloveso<br />
Levá strana (i) a (ii) – aktanty (partcipanty)<br />
Pravá strana (i) a (ii) – volná doplnění<br />
Aktanty: Konatel (ACTor), Patient (PAT), Adresát (ADDR), Původ (ORIGo), Výsledek<br />
(EFFektum)<br />
Volná doplnění: lokální, směrová, temporální, způsobová, kauzální,… (viz Přílohu)<br />
1.2 Závaznost spojení slovesa s valenčním členem:<br />
Aktanty: obligatorní – fakultativní (ale v obou případech jsou součástí valenčního rámce<br />
slovesa v lexikonu)<br />
Volná doplnění: obligatorní – fakultativní (jen obligatorní jsou součástí valenčního rámce<br />
slovesa v lexikonu)<br />
1.3 (a) Kritérium pro stanovení (sémantické) obligatornosti: „Dialogový test“ – (ne)přijatelnost<br />
odpovědi „Nevím“ při otázce po valenčním členu.<br />
(b) Přístupy k vymezení počtu aktantů:<br />
(ba) Kognitivní role jako Původce, Procesor, Nositel, Kauzátor, …, Stimul, Destruktiv,<br />
Beneficient,…<br />
(bb) 1. aktant, 2. aktant, 3. aktant<br />
Kompromis mezi (ba ) a (bb): jazyková strukturace (posouvání)<br />
Sloveso má 1 aktant = ACT (místo ACT je vždy obsazeno):<br />
(1) Jan běží.<br />
(2) Jan otevřel (dveře).<br />
(3) Jan spí.<br />
(4) Slunce/kniha vychází.<br />
(5) Komín kouří.<br />
(6) Klíč/vítr otevřel (dveře).<br />
(7) Jan upustil/rozbil (vázu).<br />
1
Sloveso má 2 aktanty = ACT, PAT (valenční místo ACT a PAT u slovesa s více než jedním<br />
aktantem je ve (valenčním) rámci vždy přítomno):<br />
(8) Jan otevřel dveře.<br />
(9) Jan potkal listonoše.<br />
(10) Náhle ho oslovil neznámý člověk.<br />
(11) Chlapec vyrostl/vyspěl v muže.<br />
(12) Hrobník vykopal hrob.<br />
Slovesa se 3 a více aktanty – sémantické hodnocení (fakultativní aktanty jsou v závorce):<br />
(13) Švadlena ušila šaty (zákaznici) (z nemačkavé látky).<br />
(14) Švadlena přešila (zákaznici) šaty (na župan).<br />
(15) Matka předělala (dětem) loutku z Kašpárka na čerta.<br />
2. Uplatnění navržené valenční teorie na další slovní druhy:<br />
(i) vystačíme u substantiv a adjektiv se stejným souborem doplnění (funktorů) nebo<br />
potřebujeme další jednotky?<br />
(ii) uplatňuje se tu princip „posouvání“ jako u sloves?<br />
2.1 Adjektiva<br />
A. Deverbativní: odvozená z tvarů činných – „pohlcení“ pozice ACT;<br />
odvozená z tvarů trpných – „pohlcení“ pozice PAT, popř. ADDR, (EFF?)<br />
(16) digestoř pohlcující kuchyňské pachy … = digestoř, která pohlcuje …<br />
(17) Odevzdal náramek nalezený na ulici … = náramek, který nalezl/byl nalezen na ulici<br />
(18) Studenti informovaní o formách studia reagovali na anketu lépe = studenti, které<br />
(ADDR) informovali/kteří byli informováni o formách …<br />
B. Primární: sdílení doplnění (funktorů) se slovesy i substantivy<br />
plný – čeho (obligatorní „partitiv“ – MAT(eriál))<br />
hrdý – na koho/co (PAT – fakultativní nebo obligatorní?, odpověď spojena s řešením<br />
lexikálních vlastností, polysémie adjektiva)<br />
2.2 Substantiva<br />
A. Deverbativní: sdílejí rámec zdrojového slovesa (změny formální, změny v „povrchové<br />
vypustitelnosti“ – vše je vypustitelné)<br />
B. Primární: specifická doplnění substantiv (vedle doplnění slovesných):<br />
MAT(eriál) – partitiv – aktant oblig. nebo fakult. (?) – část národa, skupina dětí, košík hub,<br />
talíř polévky,…<br />
APP(urtenance) – přináležitost – volné doplnění, u některých substantiv (zejm. relačních)<br />
obligatorní – bratr Josefa Čapka, povrch zeměkoule,…<br />
ID(entity) – „nominativ jmenovací“ – (fakultativní) aktant – hrad Trosky, parník<br />
Hradčany,…<br />
Odpovědi na otázky:<br />
2
(i) viz výše<br />
(ii) zatím otevřeno, ale srov. poradce prezidenta.ADDR, asistent primáře.ADDR (ACT u<br />
konatelských jmen „pohlcen/zabudován“, PAT je všeobecný?)<br />
3. Otázky a problémy<br />
3.1 Sémantická obligatornost a povrchová vypustitelnost<br />
A. Přijít – kam, odejít – odkud, vrátit se – kam – sémanticky obligatorní na povrchu<br />
nepřítomné směrové doplnění je buď známo z kontextu, nebo je to místo totožné s místem,<br />
kde je mluvčí nebo posluchač (telefonický dialog)<br />
B. Zevšeobecnění aktantu (volného doplnění?) – Gen(eral) – fungování dialogového testu<br />
(19) Moje vnučka už čte. Gen.PAT<br />
*Co čte?<br />
(20) Otec sedí u stolu a čte. Gen.PAT<br />
Co čte? – To, co má v ruce, přesně nevím.<br />
(21) Věra prodává v supermarketu. Gen.PAT Gen.ADDR<br />
*Co prodává? *Komu prodává?<br />
(22) Student mluví na chodbě s učitelem (ADDR).<br />
O čem? Nevím – PAT je fakultativní<br />
(23) Syn vzrušeně mluvil o maturitní zkoušce. Gen.ADDR<br />
?S kým? S přítomným(i) posluchačem(i)/s kýmkoli – ADDR je obligatorní<br />
(24) Jan (už to) auto prodal. Gen.ADDR<br />
Komu? Někomu určitě, přesně nevím.<br />
(25) Dcera dostala k narozeninám krásné dárky. Gen.ORIG<br />
Od koho? Od dárců, přesně nevím od kterých.<br />
(26) Věra si koupila nové boty.<br />
Od koho? Nevím – fakultativní ORIG<br />
(27) Jan pojede do Šlapanic na konferenci.<br />
Čím? Nevím – volný MEANS (prostředek)<br />
Dialogový test - pro aktanty (oblig/fakult) není vždy naprosto spolehlivý (smysluplnost otázky,<br />
možnost přesné odpovědi, otázka po doplňující informaci). Interpretace: „Gen cokoliv, co je<br />
vhodné pro tu činnost“/ „něco konkrétního, co není přesně specifikováno, ale v situaci je<br />
přítomno“.<br />
3.2 Vydělení další skupiny – kvazivalenční doplnění<br />
3.2.1 Překážka – OBST(acle) (nově zavedený funktor)<br />
(28) Matka se píchla nůžkami vs. o nůžky.<br />
(29) Růženka se píchla o trn.<br />
(30) Jan zakopl (nohou) o stůl.<br />
(31) Jan zavadil o roh stolu (nohou). oblig. OBST<br />
3.2.2 Mediátor – MEDIAT (nově zavedený funktor)<br />
(32) Otec přitáhl kluka (levou rukou) za ucho.<br />
(33) Když jsem odcházel, zatahal mě soused za rukáv.<br />
3
(34) Jan přivedl psa za obojek .<br />
3.2.3 Rozdíl – DIFF(erence) (modifikovaný funktor, dříve volné určení)<br />
(35) Inflace se zvýšila proti roku 2000 o několik procent.<br />
(36) Náš tým zvítězil o dvě branky.<br />
(37) Jan zvítězil v závodě o prsa.<br />
(38) Postupte o dva schody výš.<br />
Shody OBST, MEDIAT a DIFF s aktanty:<br />
(i) vyskytují se s omezenou třídou řídících slov<br />
(ii) jsou vazebné (rekce)<br />
(iii) nemohou se opakovat (u jednoho řídícího slova).<br />
Shoda s volnými doplněními:<br />
(iv) jsou sémanticky vyhraněné (přestože jsou vazebné)<br />
Na „kvazivalenčnost“ aspirují i další doplnění, např. Záměr (INTT – intence) – šel nakupovat,<br />
odešel z domova hledat práci.<br />
4. Vztah lexikálního významu (polysémie slovesa) a valence<br />
Jedna (lexikální) jednotka má více valenčních rámců – je to (minimálně) tolik lexií, kolik je<br />
valenčních rámců (jednostranná implikace, srov. chovat králíky, chovat dítě – shoda ve valenčním<br />
rámci, ale nesporný rozdíl v lexii).<br />
(39) hrát1 karty PAT [4; obl] (= provozovat nějakou hru)<br />
hrát2 na housle MEANS [;obl] (= vyluzovat hudbu pomocí hudebního nástroje)<br />
(40) bát se1 matky/čerta PAT [2;obl] (= mít strach z …)<br />
bát se2 o matku PAT [o+4, vv; obl] (= obávat se o…/že…)<br />
(41) odpovídat1 komu na co PAT [na+4, vv; obl] ADDR [3; obl]<br />
odpovídat2 čemu PAT [3; obl]<br />
odpovídat3 za co PAT [za + 4; obl]<br />
(42) poslat1 dopis příteli (do Brna)<br />
poslat1 žádost městskému úřadu PAT [4; obl] ADDR [3; obl] (= adresovat)<br />
poslat2 žádost na úřad<br />
poslat2 studentku do podatelny PAT [4; obl] DIR3 [ ; obl] (= vypravit)<br />
4
5. Výstavba valenčních slovníků pro účely <strong>PDT</strong><br />
jádro anotace na tektogramatické rovině<br />
problém udržení konzistence valenční slovník<br />
slovesa – dvě větve<br />
seznamy valenčních rámců využívaných anotátory <strong>PDT</strong> (<strong>PDT</strong>-VALLEX)<br />
komplexní valenční slovník (VALLEX)<br />
substantiva<br />
zpracovávání teoretických aspektů a metodologie (Panevová, Kolářová-<br />
Řezníčková)<br />
seznamy substantiv a jejich doplnění (<strong>PDT</strong>-VALLEX)<br />
adjektiva<br />
seznamy adjektiv a jejich doplnění<br />
Valenční slovník sloves – <strong>PDT</strong>-VALLEX<br />
seznamy valenčních rámců vytvářených a využívaných anotátory <strong>PDT</strong><br />
valenční rámce sloves v jejich jednotlivých významech (jak se objevují v průběhu anotace)<br />
lexém jako celek není zpracováván<br />
valenční rámec – soubor slovesných doplnění<br />
charakterizován příkladem/příklady<br />
pro jednotlivá slovesné doplnění specifikován:<br />
„funktor“ – charakterizuje valenční vztah mezi slovesem a doplněním<br />
typ doplnění – obligatorní / fakultativní<br />
možné povrchové vyjádření<br />
Valenční slovník sloves – VALLEX<br />
komplexní informace o celém slovesném lexému (Lopatková et al., 2002)<br />
valenční rámce sloves typicky odpovídají jednotlivým významům charakterizovány glosami<br />
a příklady užití<br />
valenční rámec – soubor valenčních doplnění<br />
pro jednotlivá slovesné doplnění specifikován:<br />
„funktor“ – charakterizuje valenční vztah mezi slovesem a doplněním<br />
typ doplnění – obligatorní / fakultativní / typické<br />
možné povrchové vyjádření<br />
doplňující syntaktické informace:<br />
vid a odkaz na odpovídající vidový protějšek<br />
kontrola<br />
syntakticko-sémantická třída (pracovní rozdělení)<br />
idiomy<br />
rozpracováno: reciprocita<br />
reflexivita<br />
možné diateze, způsoby pasivizace<br />
odkazy na odpovídající synsety české větve WordNetu<br />
obligatorní fakultativní<br />
aktanty<br />
kvazivalenční<br />
volná typická<br />
typická doplnění<br />
„obvykle“ užívaná fakultativní volná doplnění<br />
obvykle rozvíjejí celou skupinu sloves s „podobným“ významem<br />
„slovesa pohybu“ jít do kina / přes les / jít z domova – směrová určení<br />
„slovesa výměny“ dát / dostat / získat / brát něco.PAT za něco.RCMP<br />
5
Proč dvě větve valenčního slovníku?<br />
<strong>PDT</strong>-VALLEX ~ „extenzivní“ přístup<br />
cca 5 200 sloves se 7 800 valenčními rámci (tj. 1,5 rámce na sloveso)<br />
nutné pro anotaci, 100% pokrytí na <strong>PDT</strong><br />
VALLEX ~ „intenzivní“ přístup<br />
1 450 sloves s 3 860 valenčními rámci (tj. 2,7 rámce na sloveso)<br />
slovesa podle frekvence v ČNK, <strong>PDT</strong><br />
pokrytí cca 85% na „běžícím textu“ v <strong>PDT</strong> (se slovesem být a modálními slovesy – zatím<br />
nezpracováno)<br />
<strong>PDT</strong>-VALLEX a VALLEX budou sloučeny<br />
dokončení anotace TR <strong>PDT</strong>, kontroly<br />
Využití valenčního slovníku<br />
dosažení konzistence při anotování valenční struktury na TR <strong>PDT</strong> (<strong>PDT</strong>-VALLEX)<br />
automatická syntaktická analýza („shallow parsing“) (Žabokrtský) (VALLEX)<br />
automatický „tektogramatický“ parser - automatický systém pro budování podkladové<br />
reprezentace českých vět (Honetschlager) (<strong>PDT</strong>-VALLEX, VALLEX)<br />
data pro (poloatomatické) vytváření valenčního slovníku českých substantiv (Kolářová-<br />
Řezníčková) (VALLEX)<br />
Jazykové zdroje<br />
teoretické články o valenci (Panevová)<br />
Manuál pro tektogramatické značkování (Hajičová et al., 2001)<br />
seznamy valenčních rámců využívaných anotátory <strong>PDT</strong><br />
electronický valenční slovník povrchových realizací ve formátu BRIEF (FI MU Brno, Pala, Ševeček, 1997)<br />
tištění slovníky:<br />
Slovesa pro praxi (SPP, 1997), valenční specifikace 767 nejčastějších českých sloves<br />
Slovník spisovného jazyka českého (SSJČ, 1964)<br />
Slovník spisovné češtiny pro školu a veřejnost (SSČ, 1978)<br />
Slovník českých synonym (SČS, 1994)<br />
Slovník české frazeologie a idiomatiky (SČFI, 1983)<br />
Český národní <strong>korpus</strong> (ČNK)<br />
EuroWordNet, česká větev WordNetu<br />
Literatura<br />
Sgall, P. et al. (1986) The Meaning of the Sentence in Its Semantic and Pragmatic Aspects. Dordrecht: Reidel,<br />
Prague: Academia<br />
Hajičová, E. et al. (2001) Manuál pro tektogramatické značkování. UFAL TR<br />
Panevová, J. (1980) Formy a funkce ve stavbě české věta. Praha: Academia<br />
Panevová, J. (1994) Valency Frames and the Meaning of the Sentence. In: Luelsdorff (ed.) The Prague School of<br />
Structural and Functional Linguistics, John Benjamins, pp. 223-243.<br />
Panevová, J. (1998) Ještě k teorii valence. Slovo a slovesnost 59, pp. 1-14.<br />
Panevová, J. (2000) Poznámky k valenci podstatných jmen. Čeština – univerzália a specifika 2, MU, Brno, pp. 173-<br />
180.<br />
Panevová, J., Řezníčková, V. (2001) K možnému pojetí všeobecnosti aktantu. Čeština - univerzália a specifika 3,<br />
MU, Brno, pp. 139-146.<br />
Panevová, J. (2003) Some Issues of Syntax and Semantics of Verbal Modifications. In: Proceedings of MTT 2003,<br />
Paris. (in press)<br />
Lopatková, M. et al. (2002) Tektogramaticky anotovaný valenční slovník českých sloves. UFAL/CKL TR-2002-15.<br />
Lopatková, M. (2003) Valency in the Prague Dependency Treebank:<br />
Building the Valency Lexicon. PBML 79-80. (in press)<br />
Pala, K., Ševeček, P. (1997) <strong>Valence</strong> českých sloves. In: Sborník prací FFUB, Brno.<br />
6
PŘÍLOHA: Seznam „funktorů“<br />
u sloves (někdy i u subst.):<br />
AKTANTY (argumenty, participanty, vnitřní doplnění)<br />
actor/bearer *ACT agens, hloubk. subjekt<br />
addressee *ADDR adresát, komu<br />
effect *EFF výsledek (zvolí kým, zač)<br />
origin *ORIG původ, z čeho (ne odkud)<br />
patient *PAT patiens, hloubk. objekt<br />
prošli celý les (ale prošli lesem.DIR2)<br />
KVAZIVALENČNÍ DOPLNĚNÍ<br />
difference *DIFF rozdíl (oč)<br />
mediator MEDIAT přivést psa za obojek<br />
obstacle *OBST překážka (zavadit o stůl)<br />
VOLNÁ DOPLNĚNÍ (adjuncts, free modifications)<br />
accompaniment *ACMP doprovod (s, bez)<br />
aim *AIM účel (aby, pro něco)<br />
attitude ATT postojové (s radostí, vhodně, právem)<br />
benefactive *BEN benefaktiv (pro koho, proti komu)<br />
cause *CAUS příčina<br />
comparison CPR porovnání (než, jako, stejně jako)<br />
complement *COMPL doplněk<br />
concession CNCS přípustka (ačkoli)<br />
condition COND podmínka reálná ((jest)-li, jestliže,<br />
když, až)<br />
counterfactual CTERF irreálná podmínka (kdyby)<br />
criterion CRIT kritérium, měřítko („podle jeho slov“)<br />
dir(ectional)-from *DIR1 odkud? (ale: udělat co z čeho.ORIG)<br />
dir-which way *DIR2 kudy? prošli lesem (ale: prošli les.PAT)<br />
dir-where to *DIR3 kam? (ale změnit nač.EFF)<br />
dependent part *DPHR část frazému, pro niž se nehodí prav. funktor<br />
of phraseme (křížem krážem.DPHR, nechat se slyšet.DPHR)<br />
ethical dative ETHD volný dativ, dativ sdílnosti (Děti nám<br />
nechodí včas, Já ti mám knih!)<br />
extent *EXT míra (velmi, trochu)<br />
foreign phrase FPHR cizí fráze<br />
heritage *HER dědictví (po otci)<br />
intensification INTF navazovací element, „falešný podmět“<br />
(To Karel ještě nepřišel? To prší.)<br />
intent *INTT záměr (šel se koupat, poslali ho nakoupit)<br />
locative *LOC místo kde (jednání uvnitř koalice)<br />
manner *MANN způsob (ústně; psát česky)<br />
means *MEANS prostředek (psát rukou, na stroji, tužkou)<br />
(adverbial of)<br />
modality MOD asi, možná, To je myslím zlé.<br />
norm *NORM norma („podle pravidla“)<br />
recompense *RCMP odplata (dal mu peníze za nákup.RCMP)<br />
reference to PREC např. tedy, naopak, tudíž, totiž, také,<br />
preceding text protože, když, jenže, taky a aj.<br />
regard *REG se zřetelem, bez ohledu na<br />
rhematizer RHEM i, také, jenom, nejen, vůbec, zároveň(-i)<br />
restriction RESTR omezení (kromě, mimo)<br />
result *RESL účinek (opálen do hněda, prsty ztuhlé,<br />
že je nenarovná)<br />
substitution *SUBS zastoupení (místo koho-čeho)<br />
temp(oral)-when *TWHEN kdy? loni, vstupuje v platnost dnem<br />
podpisu<br />
7
temp-since when *TSIN odkdy? od_té_doby_co, platí ode dne podpisu<br />
temp-till TTILL dokdy? až_do, dokud ne, než<br />
temp-how long *THL jak dlouho? četl půl hodiny, celou zimu<br />
temp-for how long *TFHL na jak dlouho? na dva dny, na věky<br />
temp-how often THO jak často? často, mnohokrát<br />
temp-parallel, TPAR během, zatímco, za celý večer, mezitím_co<br />
contemporaneous<br />
temp-from when *TFRWH ze kdy (Zbylo od Vánoc cukroví. Z dětství si<br />
nepamatuji nic. Vstupenka z pátku...)<br />
temp-to when *TOWH na kdy? Přelož výuku na pátek. Demonstrace<br />
je svolána na šestou hodinu.<br />
jen u substantiv:<br />
appurtenance APP přináležitost (čí, čeho)<br />
descriptive DES nerestriktivní přívlastek<br />
(zlatá Praha; kočky, patřící k savcům,...)<br />
identity ID totožnost (pojem čas(u), parník Hradčany)<br />
material MAT 'partitiv' (hrnek čaje)<br />
restrictive adjunct RSTR restriktivní přívlastek<br />
vokativ aponovaný VOCAT Pojď sem, Jirko!<br />
Tento seznam je převzat z Manuálu pro tektogramatické značkování (Hajičová et al., 2001) a<br />
doplněn o nově zaváděné funktory MEDIAT, OBST a RCMP.<br />
Funktory, které se vyskytují ve VALLEXu jsou označeny *.<br />
8