18.07.2013 Views

Valence a Pražský závislostní korpus (PDT) - SAV

Valence a Pražský závislostní korpus (PDT) - SAV

Valence a Pražský závislostní korpus (PDT) - SAV

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Jarmila Panevová, Markéta Lopatková<br />

panevova@ufal.mff.cuni.cz<br />

lopatkova@ckl.mff.cuni.cz<br />

<strong>Valence</strong> a <strong>Pražský</strong> <strong>závislostní</strong> <strong>korpus</strong> (<strong>PDT</strong>)<br />

SNK, JÚ ĽŠ <strong>SAV</strong>, Bratislava, 6. 10. 2003<br />

1. Teorie valence v teoretickém plánu (ve FGP – funkčním generativním popisu) – pro slovesa:<br />

1. 1 Třídění slovesných doplnění (srov. Přílohu, seznam „funktorů“) podle způsobů jejich<br />

spojování se slovesy:<br />

(i) jednou x víckrát u jednoho slovesa<br />

(ii) omezený seznam sloves x každé sloveso<br />

Levá strana (i) a (ii) – aktanty (partcipanty)<br />

Pravá strana (i) a (ii) – volná doplnění<br />

Aktanty: Konatel (ACTor), Patient (PAT), Adresát (ADDR), Původ (ORIGo), Výsledek<br />

(EFFektum)<br />

Volná doplnění: lokální, směrová, temporální, způsobová, kauzální,… (viz Přílohu)<br />

1.2 Závaznost spojení slovesa s valenčním členem:<br />

Aktanty: obligatorní – fakultativní (ale v obou případech jsou součástí valenčního rámce<br />

slovesa v lexikonu)<br />

Volná doplnění: obligatorní – fakultativní (jen obligatorní jsou součástí valenčního rámce<br />

slovesa v lexikonu)<br />

1.3 (a) Kritérium pro stanovení (sémantické) obligatornosti: „Dialogový test“ – (ne)přijatelnost<br />

odpovědi „Nevím“ při otázce po valenčním členu.<br />

(b) Přístupy k vymezení počtu aktantů:<br />

(ba) Kognitivní role jako Původce, Procesor, Nositel, Kauzátor, …, Stimul, Destruktiv,<br />

Beneficient,…<br />

(bb) 1. aktant, 2. aktant, 3. aktant<br />

Kompromis mezi (ba ) a (bb): jazyková strukturace (posouvání)<br />

Sloveso má 1 aktant = ACT (místo ACT je vždy obsazeno):<br />

(1) Jan běží.<br />

(2) Jan otevřel (dveře).<br />

(3) Jan spí.<br />

(4) Slunce/kniha vychází.<br />

(5) Komín kouří.<br />

(6) Klíč/vítr otevřel (dveře).<br />

(7) Jan upustil/rozbil (vázu).<br />

1


Sloveso má 2 aktanty = ACT, PAT (valenční místo ACT a PAT u slovesa s více než jedním<br />

aktantem je ve (valenčním) rámci vždy přítomno):<br />

(8) Jan otevřel dveře.<br />

(9) Jan potkal listonoše.<br />

(10) Náhle ho oslovil neznámý člověk.<br />

(11) Chlapec vyrostl/vyspěl v muže.<br />

(12) Hrobník vykopal hrob.<br />

Slovesa se 3 a více aktanty – sémantické hodnocení (fakultativní aktanty jsou v závorce):<br />

(13) Švadlena ušila šaty (zákaznici) (z nemačkavé látky).<br />

(14) Švadlena přešila (zákaznici) šaty (na župan).<br />

(15) Matka předělala (dětem) loutku z Kašpárka na čerta.<br />

2. Uplatnění navržené valenční teorie na další slovní druhy:<br />

(i) vystačíme u substantiv a adjektiv se stejným souborem doplnění (funktorů) nebo<br />

potřebujeme další jednotky?<br />

(ii) uplatňuje se tu princip „posouvání“ jako u sloves?<br />

2.1 Adjektiva<br />

A. Deverbativní: odvozená z tvarů činných – „pohlcení“ pozice ACT;<br />

odvozená z tvarů trpných – „pohlcení“ pozice PAT, popř. ADDR, (EFF?)<br />

(16) digestoř pohlcující kuchyňské pachy … = digestoř, která pohlcuje …<br />

(17) Odevzdal náramek nalezený na ulici … = náramek, který nalezl/byl nalezen na ulici<br />

(18) Studenti informovaní o formách studia reagovali na anketu lépe = studenti, které<br />

(ADDR) informovali/kteří byli informováni o formách …<br />

B. Primární: sdílení doplnění (funktorů) se slovesy i substantivy<br />

plný – čeho (obligatorní „partitiv“ – MAT(eriál))<br />

hrdý – na koho/co (PAT – fakultativní nebo obligatorní?, odpověď spojena s řešením<br />

lexikálních vlastností, polysémie adjektiva)<br />

2.2 Substantiva<br />

A. Deverbativní: sdílejí rámec zdrojového slovesa (změny formální, změny v „povrchové<br />

vypustitelnosti“ – vše je vypustitelné)<br />

B. Primární: specifická doplnění substantiv (vedle doplnění slovesných):<br />

MAT(eriál) – partitiv – aktant oblig. nebo fakult. (?) – část národa, skupina dětí, košík hub,<br />

talíř polévky,…<br />

APP(urtenance) – přináležitost – volné doplnění, u některých substantiv (zejm. relačních)<br />

obligatorní – bratr Josefa Čapka, povrch zeměkoule,…<br />

ID(entity) – „nominativ jmenovací“ – (fakultativní) aktant – hrad Trosky, parník<br />

Hradčany,…<br />

Odpovědi na otázky:<br />

2


(i) viz výše<br />

(ii) zatím otevřeno, ale srov. poradce prezidenta.ADDR, asistent primáře.ADDR (ACT u<br />

konatelských jmen „pohlcen/zabudován“, PAT je všeobecný?)<br />

3. Otázky a problémy<br />

3.1 Sémantická obligatornost a povrchová vypustitelnost<br />

A. Přijít – kam, odejít – odkud, vrátit se – kam – sémanticky obligatorní na povrchu<br />

nepřítomné směrové doplnění je buď známo z kontextu, nebo je to místo totožné s místem,<br />

kde je mluvčí nebo posluchač (telefonický dialog)<br />

B. Zevšeobecnění aktantu (volného doplnění?) – Gen(eral) – fungování dialogového testu<br />

(19) Moje vnučka už čte. Gen.PAT<br />

*Co čte?<br />

(20) Otec sedí u stolu a čte. Gen.PAT<br />

Co čte? – To, co má v ruce, přesně nevím.<br />

(21) Věra prodává v supermarketu. Gen.PAT Gen.ADDR<br />

*Co prodává? *Komu prodává?<br />

(22) Student mluví na chodbě s učitelem (ADDR).<br />

O čem? Nevím – PAT je fakultativní<br />

(23) Syn vzrušeně mluvil o maturitní zkoušce. Gen.ADDR<br />

?S kým? S přítomným(i) posluchačem(i)/s kýmkoli – ADDR je obligatorní<br />

(24) Jan (už to) auto prodal. Gen.ADDR<br />

Komu? Někomu určitě, přesně nevím.<br />

(25) Dcera dostala k narozeninám krásné dárky. Gen.ORIG<br />

Od koho? Od dárců, přesně nevím od kterých.<br />

(26) Věra si koupila nové boty.<br />

Od koho? Nevím – fakultativní ORIG<br />

(27) Jan pojede do Šlapanic na konferenci.<br />

Čím? Nevím – volný MEANS (prostředek)<br />

Dialogový test - pro aktanty (oblig/fakult) není vždy naprosto spolehlivý (smysluplnost otázky,<br />

možnost přesné odpovědi, otázka po doplňující informaci). Interpretace: „Gen cokoliv, co je<br />

vhodné pro tu činnost“/ „něco konkrétního, co není přesně specifikováno, ale v situaci je<br />

přítomno“.<br />

3.2 Vydělení další skupiny – kvazivalenční doplnění<br />

3.2.1 Překážka – OBST(acle) (nově zavedený funktor)<br />

(28) Matka se píchla nůžkami vs. o nůžky.<br />

(29) Růženka se píchla o trn.<br />

(30) Jan zakopl (nohou) o stůl.<br />

(31) Jan zavadil o roh stolu (nohou). oblig. OBST<br />

3.2.2 Mediátor – MEDIAT (nově zavedený funktor)<br />

(32) Otec přitáhl kluka (levou rukou) za ucho.<br />

(33) Když jsem odcházel, zatahal mě soused za rukáv.<br />

3


(34) Jan přivedl psa za obojek .<br />

3.2.3 Rozdíl – DIFF(erence) (modifikovaný funktor, dříve volné určení)<br />

(35) Inflace se zvýšila proti roku 2000 o několik procent.<br />

(36) Náš tým zvítězil o dvě branky.<br />

(37) Jan zvítězil v závodě o prsa.<br />

(38) Postupte o dva schody výš.<br />

Shody OBST, MEDIAT a DIFF s aktanty:<br />

(i) vyskytují se s omezenou třídou řídících slov<br />

(ii) jsou vazebné (rekce)<br />

(iii) nemohou se opakovat (u jednoho řídícího slova).<br />

Shoda s volnými doplněními:<br />

(iv) jsou sémanticky vyhraněné (přestože jsou vazebné)<br />

Na „kvazivalenčnost“ aspirují i další doplnění, např. Záměr (INTT – intence) – šel nakupovat,<br />

odešel z domova hledat práci.<br />

4. Vztah lexikálního významu (polysémie slovesa) a valence<br />

Jedna (lexikální) jednotka má více valenčních rámců – je to (minimálně) tolik lexií, kolik je<br />

valenčních rámců (jednostranná implikace, srov. chovat králíky, chovat dítě – shoda ve valenčním<br />

rámci, ale nesporný rozdíl v lexii).<br />

(39) hrát1 karty PAT [4; obl] (= provozovat nějakou hru)<br />

hrát2 na housle MEANS [;obl] (= vyluzovat hudbu pomocí hudebního nástroje)<br />

(40) bát se1 matky/čerta PAT [2;obl] (= mít strach z …)<br />

bát se2 o matku PAT [o+4, vv; obl] (= obávat se o…/že…)<br />

(41) odpovídat1 komu na co PAT [na+4, vv; obl] ADDR [3; obl]<br />

odpovídat2 čemu PAT [3; obl]<br />

odpovídat3 za co PAT [za + 4; obl]<br />

(42) poslat1 dopis příteli (do Brna)<br />

poslat1 žádost městskému úřadu PAT [4; obl] ADDR [3; obl] (= adresovat)<br />

poslat2 žádost na úřad<br />

poslat2 studentku do podatelny PAT [4; obl] DIR3 [ ; obl] (= vypravit)<br />

4


5. Výstavba valenčních slovníků pro účely <strong>PDT</strong><br />

jádro anotace na tektogramatické rovině<br />

problém udržení konzistence valenční slovník<br />

slovesa – dvě větve<br />

seznamy valenčních rámců využívaných anotátory <strong>PDT</strong> (<strong>PDT</strong>-VALLEX)<br />

komplexní valenční slovník (VALLEX)<br />

substantiva<br />

zpracovávání teoretických aspektů a metodologie (Panevová, Kolářová-<br />

Řezníčková)<br />

seznamy substantiv a jejich doplnění (<strong>PDT</strong>-VALLEX)<br />

adjektiva<br />

seznamy adjektiv a jejich doplnění<br />

Valenční slovník sloves – <strong>PDT</strong>-VALLEX<br />

seznamy valenčních rámců vytvářených a využívaných anotátory <strong>PDT</strong><br />

valenční rámce sloves v jejich jednotlivých významech (jak se objevují v průběhu anotace)<br />

lexém jako celek není zpracováván<br />

valenční rámec – soubor slovesných doplnění<br />

charakterizován příkladem/příklady<br />

pro jednotlivá slovesné doplnění specifikován:<br />

„funktor“ – charakterizuje valenční vztah mezi slovesem a doplněním<br />

typ doplnění – obligatorní / fakultativní<br />

možné povrchové vyjádření<br />

Valenční slovník sloves – VALLEX<br />

komplexní informace o celém slovesném lexému (Lopatková et al., 2002)<br />

valenční rámce sloves typicky odpovídají jednotlivým významům charakterizovány glosami<br />

a příklady užití<br />

valenční rámec – soubor valenčních doplnění<br />

pro jednotlivá slovesné doplnění specifikován:<br />

„funktor“ – charakterizuje valenční vztah mezi slovesem a doplněním<br />

typ doplnění – obligatorní / fakultativní / typické<br />

možné povrchové vyjádření<br />

doplňující syntaktické informace:<br />

vid a odkaz na odpovídající vidový protějšek<br />

kontrola<br />

syntakticko-sémantická třída (pracovní rozdělení)<br />

idiomy<br />

rozpracováno: reciprocita<br />

reflexivita<br />

možné diateze, způsoby pasivizace<br />

odkazy na odpovídající synsety české větve WordNetu<br />

obligatorní fakultativní<br />

aktanty<br />

kvazivalenční<br />

volná typická<br />

typická doplnění<br />

„obvykle“ užívaná fakultativní volná doplnění<br />

obvykle rozvíjejí celou skupinu sloves s „podobným“ významem<br />

„slovesa pohybu“ jít do kina / přes les / jít z domova – směrová určení<br />

„slovesa výměny“ dát / dostat / získat / brát něco.PAT za něco.RCMP<br />

5


Proč dvě větve valenčního slovníku?<br />

<strong>PDT</strong>-VALLEX ~ „extenzivní“ přístup<br />

cca 5 200 sloves se 7 800 valenčními rámci (tj. 1,5 rámce na sloveso)<br />

nutné pro anotaci, 100% pokrytí na <strong>PDT</strong><br />

VALLEX ~ „intenzivní“ přístup<br />

1 450 sloves s 3 860 valenčními rámci (tj. 2,7 rámce na sloveso)<br />

slovesa podle frekvence v ČNK, <strong>PDT</strong><br />

pokrytí cca 85% na „běžícím textu“ v <strong>PDT</strong> (se slovesem být a modálními slovesy – zatím<br />

nezpracováno)<br />

<strong>PDT</strong>-VALLEX a VALLEX budou sloučeny<br />

dokončení anotace TR <strong>PDT</strong>, kontroly<br />

Využití valenčního slovníku<br />

dosažení konzistence při anotování valenční struktury na TR <strong>PDT</strong> (<strong>PDT</strong>-VALLEX)<br />

automatická syntaktická analýza („shallow parsing“) (Žabokrtský) (VALLEX)<br />

automatický „tektogramatický“ parser - automatický systém pro budování podkladové<br />

reprezentace českých vět (Honetschlager) (<strong>PDT</strong>-VALLEX, VALLEX)<br />

data pro (poloatomatické) vytváření valenčního slovníku českých substantiv (Kolářová-<br />

Řezníčková) (VALLEX)<br />

Jazykové zdroje<br />

teoretické články o valenci (Panevová)<br />

Manuál pro tektogramatické značkování (Hajičová et al., 2001)<br />

seznamy valenčních rámců využívaných anotátory <strong>PDT</strong><br />

electronický valenční slovník povrchových realizací ve formátu BRIEF (FI MU Brno, Pala, Ševeček, 1997)<br />

tištění slovníky:<br />

Slovesa pro praxi (SPP, 1997), valenční specifikace 767 nejčastějších českých sloves<br />

Slovník spisovného jazyka českého (SSJČ, 1964)<br />

Slovník spisovné češtiny pro školu a veřejnost (SSČ, 1978)<br />

Slovník českých synonym (SČS, 1994)<br />

Slovník české frazeologie a idiomatiky (SČFI, 1983)<br />

Český národní <strong>korpus</strong> (ČNK)<br />

EuroWordNet, česká větev WordNetu<br />

Literatura<br />

Sgall, P. et al. (1986) The Meaning of the Sentence in Its Semantic and Pragmatic Aspects. Dordrecht: Reidel,<br />

Prague: Academia<br />

Hajičová, E. et al. (2001) Manuál pro tektogramatické značkování. UFAL TR<br />

Panevová, J. (1980) Formy a funkce ve stavbě české věta. Praha: Academia<br />

Panevová, J. (1994) Valency Frames and the Meaning of the Sentence. In: Luelsdorff (ed.) The Prague School of<br />

Structural and Functional Linguistics, John Benjamins, pp. 223-243.<br />

Panevová, J. (1998) Ještě k teorii valence. Slovo a slovesnost 59, pp. 1-14.<br />

Panevová, J. (2000) Poznámky k valenci podstatných jmen. Čeština – univerzália a specifika 2, MU, Brno, pp. 173-<br />

180.<br />

Panevová, J., Řezníčková, V. (2001) K možnému pojetí všeobecnosti aktantu. Čeština - univerzália a specifika 3,<br />

MU, Brno, pp. 139-146.<br />

Panevová, J. (2003) Some Issues of Syntax and Semantics of Verbal Modifications. In: Proceedings of MTT 2003,<br />

Paris. (in press)<br />

Lopatková, M. et al. (2002) Tektogramaticky anotovaný valenční slovník českých sloves. UFAL/CKL TR-2002-15.<br />

Lopatková, M. (2003) Valency in the Prague Dependency Treebank:<br />

Building the Valency Lexicon. PBML 79-80. (in press)<br />

Pala, K., Ševeček, P. (1997) <strong>Valence</strong> českých sloves. In: Sborník prací FFUB, Brno.<br />

6


PŘÍLOHA: Seznam „funktorů“<br />

u sloves (někdy i u subst.):<br />

AKTANTY (argumenty, participanty, vnitřní doplnění)<br />

actor/bearer *ACT agens, hloubk. subjekt<br />

addressee *ADDR adresát, komu<br />

effect *EFF výsledek (zvolí kým, zač)<br />

origin *ORIG původ, z čeho (ne odkud)<br />

patient *PAT patiens, hloubk. objekt<br />

prošli celý les (ale prošli lesem.DIR2)<br />

KVAZIVALENČNÍ DOPLNĚNÍ<br />

difference *DIFF rozdíl (oč)<br />

mediator MEDIAT přivést psa za obojek<br />

obstacle *OBST překážka (zavadit o stůl)<br />

VOLNÁ DOPLNĚNÍ (adjuncts, free modifications)<br />

accompaniment *ACMP doprovod (s, bez)<br />

aim *AIM účel (aby, pro něco)<br />

attitude ATT postojové (s radostí, vhodně, právem)<br />

benefactive *BEN benefaktiv (pro koho, proti komu)<br />

cause *CAUS příčina<br />

comparison CPR porovnání (než, jako, stejně jako)<br />

complement *COMPL doplněk<br />

concession CNCS přípustka (ačkoli)<br />

condition COND podmínka reálná ((jest)-li, jestliže,<br />

když, až)<br />

counterfactual CTERF irreálná podmínka (kdyby)<br />

criterion CRIT kritérium, měřítko („podle jeho slov“)<br />

dir(ectional)-from *DIR1 odkud? (ale: udělat co z čeho.ORIG)<br />

dir-which way *DIR2 kudy? prošli lesem (ale: prošli les.PAT)<br />

dir-where to *DIR3 kam? (ale změnit nač.EFF)<br />

dependent part *DPHR část frazému, pro niž se nehodí prav. funktor<br />

of phraseme (křížem krážem.DPHR, nechat se slyšet.DPHR)<br />

ethical dative ETHD volný dativ, dativ sdílnosti (Děti nám<br />

nechodí včas, Já ti mám knih!)<br />

extent *EXT míra (velmi, trochu)<br />

foreign phrase FPHR cizí fráze<br />

heritage *HER dědictví (po otci)<br />

intensification INTF navazovací element, „falešný podmět“<br />

(To Karel ještě nepřišel? To prší.)<br />

intent *INTT záměr (šel se koupat, poslali ho nakoupit)<br />

locative *LOC místo kde (jednání uvnitř koalice)<br />

manner *MANN způsob (ústně; psát česky)<br />

means *MEANS prostředek (psát rukou, na stroji, tužkou)<br />

(adverbial of)<br />

modality MOD asi, možná, To je myslím zlé.<br />

norm *NORM norma („podle pravidla“)<br />

recompense *RCMP odplata (dal mu peníze za nákup.RCMP)<br />

reference to PREC např. tedy, naopak, tudíž, totiž, také,<br />

preceding text protože, když, jenže, taky a aj.<br />

regard *REG se zřetelem, bez ohledu na<br />

rhematizer RHEM i, také, jenom, nejen, vůbec, zároveň(-i)<br />

restriction RESTR omezení (kromě, mimo)<br />

result *RESL účinek (opálen do hněda, prsty ztuhlé,<br />

že je nenarovná)<br />

substitution *SUBS zastoupení (místo koho-čeho)<br />

temp(oral)-when *TWHEN kdy? loni, vstupuje v platnost dnem<br />

podpisu<br />

7


temp-since when *TSIN odkdy? od_té_doby_co, platí ode dne podpisu<br />

temp-till TTILL dokdy? až_do, dokud ne, než<br />

temp-how long *THL jak dlouho? četl půl hodiny, celou zimu<br />

temp-for how long *TFHL na jak dlouho? na dva dny, na věky<br />

temp-how often THO jak často? často, mnohokrát<br />

temp-parallel, TPAR během, zatímco, za celý večer, mezitím_co<br />

contemporaneous<br />

temp-from when *TFRWH ze kdy (Zbylo od Vánoc cukroví. Z dětství si<br />

nepamatuji nic. Vstupenka z pátku...)<br />

temp-to when *TOWH na kdy? Přelož výuku na pátek. Demonstrace<br />

je svolána na šestou hodinu.<br />

jen u substantiv:<br />

appurtenance APP přináležitost (čí, čeho)<br />

descriptive DES nerestriktivní přívlastek<br />

(zlatá Praha; kočky, patřící k savcům,...)<br />

identity ID totožnost (pojem čas(u), parník Hradčany)<br />

material MAT 'partitiv' (hrnek čaje)<br />

restrictive adjunct RSTR restriktivní přívlastek<br />

vokativ aponovaný VOCAT Pojď sem, Jirko!<br />

Tento seznam je převzat z Manuálu pro tektogramatické značkování (Hajičová et al., 2001) a<br />

doplněn o nově zaváděné funktory MEDIAT, OBST a RCMP.<br />

Funktory, které se vyskytují ve VALLEXu jsou označeny *.<br />

8

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!